Metablogging. El impacto de los bots en el tráfico de internet.

El tráfico  de internet se divide entre aquel generado por humanos sentados ante su ordenador (o cualquier otro dispositivo computacional, como una tablet o un smart phone), al que podemos llamar tráfico natural y aquel generado por programas informáticos diseñados para navegar por la web automáticamente, que podemos llamar tráfico artificial. A estos programas generadores de tráfico artificial se les llama Bots y su impacto es mayor de lo que pensaba.

Hace tiempo estudiamos  su impacto en las estadísticas de visitas de blogs (ya comentamos que en la aplicación de WordPress para medir la estadísticas de visitas descuentan las visitas de los bots, no me queda claro de cuales (ver nota), pero no en otras aplicaciones, por ejemplo  en la más utilizada, Google  Analytics no los descontaban en ese momento) y más recientemente su impacto (fraudulento) en las audiencias de publicidad de internet.

Nota.

En la página de wordpress sobre la aplicación que mide las estadísticas que está instalada en el Dashboard por defecto comentan:

The following are not reflected in your stats:

  • Visits to uploaded documents and files
  • Visits from browsers that do not execute javascript or load images
  • GoogleBot and other search engine spiders
  • Visits you make to your own publicly available blog (when logged in to your account)
  • Visits by users that are logged in, and listed as members of the blog

¿ Excluye esto todos los bots ? No parece ser el caso. Posiblemente no excluye los malos, pero no estoy seguro.

Además de la que se instala por defecto hay otros pluggins alternativos.

Sobre Google Analytics: It’s tempting to say “Whatever Google Analytics says is the ‘number of visitors’ in a month, that’s the number of visits in a month.” But it’s clear that this metric does not satisfy the definition above. GA doesn’t measure bot traffic or “quick bounces.” And GA would double-count the case of a human using two browsers or (sometimes) who has cookies disabled.

El enlace nos muestra también que la cifra final puede incluir eventos muy diferentes y por lo tanto hay que tener mucho cuidado al interpretarla.

Sobre los bots quizás alguien considere que no es tan incorrecto incluirlos como visitas: los bots no existen por si mismos sino que alguien, un humano, los diseña. Y quien los diseña es para que duplicarse, para tengan un comportamiento que el diseñador hubiese tenido de cualquier manera, es decir el humano hubiese visitado el sitio de cualquier manera, tarde o temprano. Si el lector supiese programación web avanzada quizás podría diseñar un bot para que le hiciese búsquedas automáticas(en este sentido, los % que  vamos a presentar más adelante parecen quedarse muy cortos y seguramente aumentarán masivamente en el futuro). Si y no: el problema es que en ocasiones, en muchas ocasiones, los bots se utilizan para inflar de manera fraudulenta las estadísticas de visitas.

Otros dirán que el ruido en las estadísticas de seguimiento de publicidad, en la medida de audiencias también existe en el mundo físico, que es inevitable y sólo queda acostumbrarse a vivir con el. El que le de más importancia al ruido que a la señal, que no haga publicidad (algunos como Apple adoptan esta actitud con respecto a la publicidad online: prácticamente no son usuarios). Un anuncio outdoor se paga por la cantidad de gente que pase por la zona, miren los paseantes los anuncios o no. Y se podrían poner muchos otros ejemplos de ruidos en los otros tipos de publicidad: broadcast o impresa. En este caso, tienen razón, nada que objetar. Lo único, que el coste de generar señal artificial (de manera fraudulenta como algunos bots) en el mundo físico, es mucho mayor que en el mundo online.

main-qimg-835928235b732bb26858f2c3dbe9701e

Pese a todo lo señalado la cuota de la publicidad online sigue creciendo, a costa sobre todo de medios impresos.

Buscando unas series temporales lo más largas posibles que nos indiquen la evolución en el tiempo de la distribución del gasto publicitario por soportes, sobre todo para ver a costa de que otro medio está creciendo internet, he encontrado las siguientes imágenes. Mi intención es encontrar alguna que nos muestre la distribución pre-internet, desde 1993, 1994 o 1995, de todos los medios. Pero no he encontrado la imagen correspondiente.

chart-of-the-day-us-advertising-revenue-by-platform-oct-2012

business-insider-screens-are-proliferating-27-638

Y las expectativas en relación a la publicidad on-line para el futuro son bastante elevadasMobile, not surprisingly, is identified as the main driver of the internet’s growing market share. Mobile’s global share of ad spend is expected to more than double from 5.1 percent to 12.9 percent, making up 70 percent of global ad spend growth overall. De hecho ya es el principal medio en algunos países. Seguramente aquellos en los que este medio tiene mayor penetración. Una historia de la publicidad en internet (incluidas algunas plataformas de pre-internet que no conocía). Sobre la publicidad en móviles una interesante página web dónde recopilan datos de múltiples fuentes.

Por otra parte el ecosistema de espacios publicitarios en internet es bastante diverso.

online_2_x600

Ecosistema de espacios publicitarios online 2011.

Volviendo a Google Analytics, son conscientes del problema e incluso hace poco, más concretamente ¡¡ en julio de 2015, es decir casi 15 años después de su inicio de actividades !! hicieron declaraciones en el sentido de que iban a tomar medidas.  El lector me permitirá augurar que, conociendo perfectamente a esta empresa (ya les  he puesto varias denuncias policiales), dude mucho que vayan a hacer nada para corregir este problema (en el fondo todo este tráfico ficticio les beneficia en términos publicitarios, debido a la dificultad de discernir entre ruido y señal)  y sobre todo que si finalmente hacen algo, sean eficaces en su corrección (en los problemas que a mi me afectan no se han notado nada de  momento los cambios de dirección y dudo que toda la machine learning que quieran utilizar les sea de ayuda): son unos incompetentes, y punto. Lo están demostrando con un muy ruidoso buscador (tal y como  hemos demostrado nosotros en entradas anteriores) y con una completamente inoperante página automática de incidencias (llamada antes Google Webmaster). Por no hablar de su estrategia de relación con los usuarios en caso de incidencias graves: ¡¡ solo se relacionan con ellos a través de carta física enviada a EEUU !!.

Una empresa solo soluciona los problemas que quiere y puede solucionar. Google, en general,  ni quiere ni puede solucionar los problemas que afectan a los usuarios de sus servicios.

Fin de nota.

Una interesante entrada  en el blog profesional de Incapsula, una empresa cuya actividad es precisamente medir el impacto (cuantificado) de estos bots en el tráfico de internet (y por ello hay que leer con precaución la entrada: son parte interesada). Hay que señalar que hay dos tipos de bots: los necesarios para un buen funcionamiento  de la red y los que solo generan spam. En la entrada nos hablan de los dos.

Algunos comentarios nos confirman lo que ya sospechábamos: que Google es uno de los grandes generadores de tráfico artificial de la web (y no siempre tráfico artificial del bueno).   Y no solo Google, sino también determinados servicios como los RSS feed.

Extracto.

In our last report, covering the period from August 2, 2013 to October 30, 2013, bots accounted for over 60 percent of all traffic flowing through Incapsula-protected websites. In the period covered by this report, bot traffic volumes decreased to 56 percent of all web visits—a reversal of the upward trend we’ve observed the past two years.

In trying to understand the decline in bots, we noticed that the bulk of the decline reflects a drop in so-called good bot activity. Specifically, these bots are associated with RSS services. Our analysts’ initial assumption was that the shift was related to the Google Reader service shutdown.

Upon further inspection we saw that the Feedfetcher bot—associated with the Google Reader service—was still as active as ever, while the decline in RSS bot activity was across the board. This broad downward trend is RSS bot activity the main reason for the approximately 10 percent drop in good bot activity and is another indication of the slow demise of RSS services. 

También Amazon (extracto del artículo de Time alque enlazamos más adelante): While websites large and small should do more to battle bad bots, Distil’s report tosses blame at some surprising sources — like Amazon, China, and T-Mobile. Bad bots make up 78% of the traffic put out by Amazon, whose simple-to-setup cloud services power much of the web. “They’ve also made it real easy for bad guys to spin up servers, create bots, and do all sorts of bad things — and they don’t police it,” says Essaid..

La página web de Distil Networks, dónde nos informan directamente. No todo van a ser malas noticias:

According to a new survey from cloud security provider Distil Networks humans accounted for only 40.9 percent of web traffic in 2014 with the remainder accounted for by bots.

This compares with 50.8 percent human traffic in 2013, however the good news is that ‘bad bot’ traffic is down from 24.22 percent to 22.78. The rise in good bot traffic that makes up the difference is thought to be from more aggressive indexing by Bing and new search engines in 2014. 

Y entre las víctimas no se salva nadie: grandes y pequeños.

distribution-human-bot-traffic

Trafico generado por bots.

Otros informes van en el mismo sentido, según nos informan en un artículo de Time:  Last year was the first time in history that bots outnumbered people on the web. According to research from Distil Networks, almost 60% of 2014’s web traffic consisted of automated bits of code, 23% of which exist to do dirty work for fraudsters and hackers. “It’s getting worse,” says Rami Essaid, Distil’s CEO. “Over the past ten years, they went from just kind of being out there and easy to detect to being really, really sophisticated.”

Por otra parte ¿ existe un cálculo teórico que aproxime al tráfico humamo real y pueda compararse con el tráfico que miden los servicios como Google Analytics ?. Por ejemplo, si hay 2000 millones de usuarios humanos de internet y dedican de media 3 horas al día  a navegar (me he inventado las cifras, es solo un ejemplo), esto tiene que generar una cantidad de tráfico natural dada, una cantidad de páginas vistas natural, que se puede estimar (digamos la demanda de contenidos) y comparar con los agregados estadísticos señalados, por ejemplo el de Google Analytics. Sería otra manera independiente de estimar el tráfico artificial. Es decir, por ejemplo, total de páginas vistas por tráfico artificial = (total agregado de páginas vistas según Google Analytics)(total páginas vistas según el tráfico estimado por el cálculo teórico).

¿ Que conclusiones podemos  extraer de todo esto ?. Cada vez hay más críticos del mercado. Sin embargo el consumo que se paga, que implica un desembolso de dinero es el que mejor mide la aceptación de un producto, de un contenido por los consumidores, por los lectores.  Comparado con esto, páginas vistas, visitantes únicos, likes, algunos comentarios etc…no son más que guirigaña, un tipo de consumo cuya validez e importancia es imposible de determinar.

Es posible que tras 20 años de actividad (la web empezó a despegar comercialmente, a salir de su nicho minoritario inicial, en 1994-1995; yo, debido a mi actividad profesional en ese momento,  soy usuario de Internet desde 1994; un libro reciente que explora estos temas: How the Internet Became Commercial: Innovation, Privatization, and the Birth of a New Network (The Kauffman Foundation Series on Innovation and Entrepreneurship) Hardcover – October 20, 2015), de recorrido, haya que empezar a hacer balance sobre su rendimiento en sus diferentes aspectos: e-commerce, social  media, redes sociales etc….Sobre si el modelo actual está cumpliendo con las expectativas, sobre si podría organizarse de otra manera.

2. A continuación una infografía con los resultados del estudio cuya metodología explican en la entrada.

bot-report-2014

Terms and conditions: 1. Any commenter of this blog agrees to transfer the copy right of his comments to the blogger. 2. RSS readers and / or aggregators that captures the content of this blog (posts or comments) are forbidden. These actions will be subject to the DMCA notice-and-takedown rules and will be legally pursued by the proprietor of the blog.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s


A %d blogueros les gusta esto: