Metablogging. Sobre la posibilidad de manipular los resultados del buscador de Google para imágenes y texto.

Disclaimer. Lo prometido es deuda. Publico ésta entrada tal y como la tengo redactada e iré realizando modificaciones y adiciones a medida que vaya aclarando dudas. Ya me estoy aburriendo de este tema y las actualizaciones o cambios no serán inmediatos. Para poner en contexto la entrada se recomienda leer las entradas sobre los incidentes que he tenido con el buscador de Google.

Desde que se iniciaron los problemas con el buscador de Google me he realizado una serie de interrogantes sobre los resultados que aparecen en Google cuando uno realiza una búsqueda (de texto e imágenes). Ya en otras entradas me he planteado si todos estos incidentes son resultados de la casualidad o hay alguna intencionalidad por una o varias partes y una manera de determinar esto es ver si los resultados de las búsquedas de Google son “manipulables”.

Nota. No nos interesa la posición del resultado. Esto se determina en parte por el algoritmo de Google (Page Rank) y en parte por las estrategias SEO de los usuarios, de sobra conocidas. Fin de nota.

En ésta entrada voy a plantear estos interrogantes en relación a ésta temática y cuando sea posible a intentar responderlos. Me interesa de cara al tema judicial que seguramente voy a plantear contra Google.

Cuando pienso en la parte que actúa con intencionalidad pienso bien en una tercera parte independiente de Google pero que utiliza las herramientas de Google para que terceras partes puedan determinar como aparecen los resultados en las búsquedas, bien en el mismo Google (reconozco, de nuevo, que esto puede sonar pretencioso, pero  no quiero descartar ninguna posibilidad). Si es Google podría actuar bien con las herramientas internas bien simulando ser una tercera parte.

Mi posición ahora al respecto es que, aunque lo más probable es que se trate de una (desafortunada) sucesión de incidentes casual, debida a procesos automáticos, no se debe de descartar intencionalidad de una o varias terceras partes.

En una entrada anterior hemos intentado partir del supuesto del automatismo aleatorio como origen de los incidentes y hemos conseguido una explicación casi satisfactoria.

Nota terminológica.

A los resultados de Google se les llama SERPs. Un enlace dónde nos describen la evolución de los SERPs:

The Evolution of Google’s Search Results Pages & Effects on User Behaviour.

En relación con los enlaces está también la palabra CTR (Click Through Ratio). En este enlace una interesante infografía en la que dan estadísticas sobre SERPs y CTRs.

Fin de nota terminológica.

Antes de leer, quédese el lector con las siguientes palabras: empresas pantalla para registro de webs, meta descripciones o meta tags,  hidden text, búsqueda inversa de imágenes.

1. ¿ Es posible registrar una página web (de cualquier tipo) sin que nuestros datos, que permitan identificarnos, aparezcan por ninguna parte  ? 

Sí es posible. Ya hemos hablado de esto en otras entradas. Existen empresas que pueden hacer de pantalla para cualquiera que quiera crear una página web sin ser identificado. Este tipo de empresas tiene un nombre técnico que ahora mismo no recuerdo.

Muchos de los incidentes que he tenido (concretamente el más serio, que ha sido reciente y otro de los que me hace dudar que haya una cierta intencionalidad, pues se puede interpretar como trampa) están relacionados con sitios que utilizan este tipo de pantallas. Esto no significa nada pues precisamente aquellos que pretenden captar contenidos de terceros de manera indiscriminada mediante Bots también utilizan estas pantallas, y son precisamente estos sitios los que suelen generar este tipo de problemas.

2. ¿ Como se determina y quién determina el contenido que aparece en los resultados asociados a una búsqueda ?

En la imagen siguiente aparece un resultado para la búsqueda de las palabras [Aarcade themes]. Los corchetes simulan la ventana de Google.  La imagen la he extraído de éste informativo post (How do I update or change the google search results for my site ?).

search-results

–El título, en azul, es el enlace que podemos pulsar para ir a la página que  nos ha llamado la atención (The title of your search result is defined by the title tag in the head of your page code).

–La URL, en verde es la dirección de la página.

–La descripción en negro es un extracto del texto. The description of your search result is generated by an automated Google process that takes into account both the content of the page, the page description meta tag in the head of your page code and references to the page that appear on the web. While the description of your search result is often the same as the page description meta tag content, this is not always the case and is by no means guaranteed.

Sobre los meta tags.

Sobre los meta tags en WordPress. Un video sobre como instalar metatags  en las páginas de WordPress.  Parece que sólo las versiones de pago tienen esta opción (la mia es gratuita y no me aparece el apartado de plugins.

–Los enlaces del sitio (que no aparecen para todos los sitios; no aparecen por ejemplo en relación a mi  blog), son los que a veces aparecen con un cierto margen con respecto al resultado principal. Google only shows sitelinks for results when they think they’ll be useful to the user. This is a completely automated Google process and there is no way to define which, if any, sitelinks Google will display.

Me interesa concreta quién y cómo se selecciona la información de la descripción pues el segundo episodio de la serie de problemas con el buscador de Google estaba relacionado con la descripción. En principio se generan de manera automática, pero también se pueden manipular por el propietario del sitio (del blog, de la página web o de los que sea):

As explained in the support article What should I be doing about SEO?, your site automatically creates SEO URL’s, titles and descriptions and we recommend that you do not get bogged down in tinkering with this system. Applying the recommended items in the aforementioned article are a far more affective use of your resources.

If your Google search result is incorrect or insufficient, you wish to read more about URL’s, titles and descriptions, or you feel strongly about editing these items, please refer to Should I be editing my meta tags, URLs or titles?

Paso a describir en detalle mi segundo incidente con el buscador de google. Era un agregador de noticias que captó una entrada de mi blog (el título, mi nombre y una breve descripción o extracto).

Justo encima de la descripción de la entrada de mi blog, dónde aparecía mi nombre, aparecía la captura de otro contenido / enlace que recogía un extracto de la noticia de un periódico. La noticia era de contenido con connotaciones muy negativas.

En una búsqueda Google de mi nombre, aparecía como uno de los resultados el título del agregador de noticias o enlaces, la url del agregador de noticias o enlaces, y una descripción que combinaba contenido de mi entrada (concretamente mi nombre) y de la noticia que estaba encima.  Tal y cómo se mostraba, parecía que yo (o cualquiera que lleve mi nombre) era el protagonista de la noticia. ¿ Casual o intencionado ?.

En la segunda hiptótesis, intencionado, deduzco por lo que leo que un experto podría haber creado el agregador, captado mi entrada con mi nombre y manipulado las meta tags para determinar que mi nombre apareciese justo al lado del contenido denigrante.

Con respecto a ésto planteo una duda: ¿ se pueden manipular las meta tags para que aparezca una determinada descripción asociada a una determinada búsqueda ?. Esto es determinante.  Podría ser que para cualquier búsqueda el creador deje el generador automático de descripciones de Google, excepto para una búsqueda en concreto en la que programe unas determinadas instrucciones mediante Meta Tags (hipotético). En cualquier caso esto sólo lo puede hacer alguien que tenga acceso a las claves del sitio (del agregador de noticias).

En este otro enlace presentan una herramienta para optimizar estos aspectos. Comentan:

The main purpose of the SERP Snippet Optimization Tool is to allow webmasters and content publishers to strategically construct page titles and meta description tags that will result in aesthetically-pleasing or eye-catching listings in Google’s organic search results. Using this tool, you can optimize the content of your titles and snippets to maximize your click-through rate (CTR) from Google. In other words, you can increase your organic search engine traffic for a specific keyword…even if you can’t improve your rankings. This tactic can be especially useful in situations where you know you’ll probably never outrank the sites above yours (e.g. a very strong competitor, a Wikipedia page, a government website, etc.) for certain keywords. In those scenarios, your best option is to make your site’s listing stand out from the rest and look as inviting as possible.

Y pasan a describir los parámetros que deciden cada uno de los elementos de un resultado: el título, las meta descripciones o meta tags (que aquí llaman snippets), los rich snippets (si lo he entendido bien es una manera de enriquecer las descripciones de tal manera que aparezca algo más que texto) y la URL.

En la imagen siguiente, un ejemplo de descripción enriquecida.

recipe2

3.  Algunos de los problemas que tengo actualmente son con las (cinco) imágenes que aparecen entre los resultados de texto. El problema, más que con las propias imágenes, lo es con los contenidos a los que estas remiten.

La pregunta es ¿ Quién y como se determina cuales son las imágenes que aparecen en los resultados de búsqueda de texto ?

Esta información, esta duda, está siendo bastante complicada de conseguir, de aclarar.

Un primer enlace sobre fotografías en la página de resultados de texto. Se recomienda leer los comentarios.

Extracto de uno de ellos.

As far as the image appearing only sometimes (when you’re NOT using Icognito mode): Google decides what to include in each SERP every time that the search results are processed and your website is included. And that decision may involve the exact search query, the search history of the user, the location and device of the user, and many other factors. Google may even decide to use text for the meta description other than what the website owner has specified.

So, what appears is always up to Google. Not all schema markup (or anything else on the page) will appear every time. Since Google seems to understand that you “own” the website and are specifically interested in it, perhaps Google wants to show you more of the elements on the specific page. In contrast, Google may think a random person searching for that keyword (as in you under Incognito search) who is “less associated” with your specific website may want to view more general results overall and see fewer specific details about one particular website.

I hope this makes sense. It all comes down to the fact that Google shows different information to each searcher based on what it knows about that searcher. It will be different for each person every time.

–Un enlace sobre SEO para imágenes.

–Un thread de problemas de ETSY (es una plataforma de e-commerce P2P), dónde una usuaria, que tiene un e-commerce, plantea exactamente la misma pregunta:

¿ por qué cuando busco en Google por el nombre de mi tienda, entre las 5 fotografías que aparecen no todas son de mi tienda ?

En mi caso ninguna se corresponde con mi nombre…Otra usuaria  contesta que la selección de las cinco fotografías la hace el algoritmo de Google de manera aleatoria entre todas las fotografías que ha encontrado en una búsqueda de Google Imágenes.

Not all images belong to your shop, so the preview of 5 images is just showing a random 5 pics that can be seen on the images page. That’s not an error. The 5 images are not meant to represent your shop.

La otra argumenta: If you google any shop, all five images do represent the shop.

Las dos respuestas pueden ser correctas. En un caso, si la mayoría de las fotografías que encuentra Google Imágenes no son de la tienda en concreto y la selección es aleatoria, es posible que entre las cinco sólo aparezcan unas pocas de la tienda. Pero si la  mayoría sí son de la tienda, entonces la probabilidad de que las cinco sí sean de la tienda es elevada. En mi caso la mayoría de las fotografías que aparecen asociadas a mi nombre son del blog de psicología argentino así como casi todas las que aparecen entre las cinco.

La primera usuaria comenta: If you search shop names that are everyday words put together, you don’t see all 5 images from the shop. I just checked 2 or 3 of them and the pictures shown are not all from their shop. Some shop names…none of those 5 photos are from their shop.

Mi gran duda si la selección de estas 5 imágenes depende exclusivamente de Google o el usuario puede hacer algo para que asociadas a un nombre aparezcan cinco imágenes en concreto. Una manera indirecta de manipular ésto es influyendo la selección de las  imágenes de Google Imágenes. Pero ¿ hay una manera más directa por parte del usuario de determinar cuales serán las cinco imágenes ?

Una entrada en un blog que da que pensar. Es sobre un anuncio de Volkswagen:

Cada vez son más las agencias publicitarias que en su afán por innovar y sorprendernos, encuentras nuevas formas de anunciarse gracias a la web 2.0. Prueba de ello es la nueva campaña publicitaria de Volkswagen realizada por la agencia SSEA Team, que ha creado el primer anuncio SEO de la historia.

¿Cómo? Pues logrando posicionar cinco imágenes (URLS) en los cinco primeros resultados de Google Imágenes de forma ordenada para crear un único anuncio.

Parece que se refieren a Google imágenes y no  a las cinco imágenes que aparecen en Google texto. Por otra parte, ¿ como consiguieron ésto ?

En lo que sigue analizamos experimentalmente algunos casos de búsqueda de nombres en Google Imágenes y en Google Texto.

–búsqueda Luis González.

Lusi Gonzalez

luis gonzalez 2

Como se ve en este caso, un nombre bastante común, las 6 que aparecen en Google textos se seleccionan no de manera aleatoria sino entre las primeras, pero cambiando el orden.

–Otro caso de un nombre bastante común, Pedro Gomez. En este caso aparecen en Google Texto las 6 primeras de Google Imágenes exactamente en el  mismo orden (quitan una que es de una persona que aparece en una imagen anterior).

Pedro Gomez

Pedro Gomez 2

–Tercer caso, nombre Arturo Jimenez.

arturo jimenez 2

Arturo jimenez

De nuevo las 5 primeras de Google Imágenes coinciden con las 5 seleccionadas para Google Textos.

El patrón para nombres comunes está claro: la selección no es aleatoria sino que selecciona las 5 primeras de Google imágenes salvo que haya repetición. En el primer caso, Luis González, ha evitado una persona con actividad deportes.

Y lo mismo pasa para nombres no tan comunes.

–Ignacio Asenjo.

Ignacio Asenjo

Ignacio Asenjo 2

–Javier Rodríguez Zapatero.

Zapatero

Zapatero2

En el caso de este nombre, de un directivo de Google, selecciona las tres primeras y la sexta y séptima.

— ¿ Podría ser que el problema esté en mi primer apellido ?. Veamos algunos casos.

Javier r 2

Javier r

De nuevo  la selección se hace entre las primeras.

–Otro caso similar con similares resultados.

Luis r 2

Luis r

Conclusión: sin excepción, todas las fotografías que aparecen en Google texto aparecen en Google imágenes. Y el algoritmo de Google selecciona siempre entre las primeras. Sin excepción el nombre que se busca aparece o en la fotografía o en la página a la que se llega pulsando a esta.

Nota. En una entrada anterior hemos realizado una descripción más completa sobre estas reglas. Fin de nota.

–Mi caso, el 13 de mayo de 2015.

13 de mayo texto imágenes noche

13 de mayo 2015 imagenes noche

También las cinco que aparecen se seleccionan entre las primeras de Google Imágenes con una excepción: la última, en la que aparece un individuo con la mano levantada sobre un fondo amarillo.

También hay otra diferencia importante con respecto a los demás casos: mi nombre no aparece en las páginas que contienen estas fotografías. Con respecto a la primera, que lleva a un blog de autor anónimo que promociona el uso de drogas, mi nombre nunca ha aparecido.  ¿ Como  es posible que aparezca esta fotografía asociada a mi  nombre ? ¿ Como es posible que aparezca en primera posición ?.

Con respecto a las demás son todas de un blog de psicología argentino en el que mi nombre si apareció en una captura RSS Feed pero ante mi solicitud el editor del blog lo borró, hace ya meses. Por mi parte solicité a la aplicación automatizada de Google que eliminasen esas páginas asociadas (conjuntamente con muchas otras) a mi nombre.

Nota. Hemos analizado en profundidad este tema en una entrada anterior. Fin de nota. 

3. En relación a la pregunta anterior, pero ya referida a Google Imágenes,

¿ Quién y cómo se determinan cuales son las imágenes que aparecen en los resultados de una búsqueda de texto en Google Imágenes  ?.

Ya hemos realizado una ingeniería inversa del algoritmo de google en otra entrada.

Al igual que con las descripciones, ¿ depende ésto, por defecto, sólo de automatismos de Google o hay también opción para manipularlo por terceras partes con acceso a los sites ?

Mi conclusión es que si la ingeniería en reverso que hemos descrito es correcta si hay un cierto margen para la manipulación. Lo mismo si esta no es correcta pero alguien ha conseguido otra ingeniería en reverso del algoritmo.

4. ¿ Como es posible que aparezcan páginas asociadas a mi nombre cuando éste no aparece en ellas ?. 

Para esto hay dos posibles explicaciones.

–Una primera es que el algoritmo de Google aplique en uno de sus pasos una búsqueda de imágenes inversa, utilizando como input las imágenes que haya encontrado en una búsqueda directa. Para más detalles se puede leer esta entrada.

–otra posible explicación es una cosa llamada hidden text, sobre la cual nos hablan en éste enlaceEveryone knows that search engines (not just Google, but probably every one of them) frown on hidden text. Some people use hidden text to stuff keywords on their pages so that when people type those words on the search engine, your site will show, even though your page does not have any visible sign of those words.

5. Un tercer tema que quería tratar es el de por que sigue apareciendo como primer resultado asociado a  mi  nombre una entrada de mi blog muy antigua (he publicado, literalmente, miles de entradas en mi blog desde entonces) y con pocas visitas (hay muchas entradas que tienen muchas más visitas).

Un primer enlace: consejos para mejorar el SEO en WordPress.

Consejos-para-mejorar-tu-SEO-en-WordPress

Y otro enlace (ya ha aparecido en este post).

Extracto.

If your Google search results display old content or a robots.txt error message – such as “A description for this result is not available because of this site’s robots.txt” – this is because Google is still using older cached information from your shop or custom domain (if you have recently applied your custom domain for example).

robots.txt error messages have no relation to your current set up or robots.txt file. Google is referring to old content at your domain that is no longer relevant. As soon as Google re-indexes your site, the error will be cleared. Furthermore, your new robots.txt file is automatically generated by the Big Cartel platform and can not be edited or deleted (and does not need to be).

There is no guaranteed way to force Google to re-index your shop, however you can prompt them to do so via Google’s Webmaster Tools.

More importantly, you should ensure that you have applied the recommendations of the support article What should I be doing about SEO? and be patient. Google will eventually re-index your shop and update the information displayed in search results.

Una particularidad de la entrada de mi blog que aparece la primera es que tiene tres comentarios. La mayoría de las entradas de mi blog no tienen comentarios, pero hay varias entradas que tienen muchos más de tres comentarios.

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: