Ignacio Arriaga · 15/06/2024

Qué puedes aprender sobre el leak de Google

Qué puedes aprender sobre el leak de Google

Índice

Se ha filtrado el modelo de datos de Google Search. Me he leído todas las publicaciones sobre el tema, para contarte qué implicaciones tiene para los negocios y que así no tengas que leértelas tú. Veamos.

Google siempre ha sido muy opaco en el funcionamiento de su buscador. El buscador de Google es una de las cajas negras más secretas del mundo. El mundo del SEO –que también tiene bastante humo– siempre ha intentado aclarar este funcionamiento con mayor o menor acierto. Google por su parte siempre ha lanzado afirmaciones y directivas que se consideraban ciertas y que, en este leak, podemos ver que no lo eran tanto.

¿Qué se ha filtrado exactamente?

La filtración es un modelo de datos, los metadatos del sistema que utiliza Google para almacenar los datos que luego utilizan los algoritmos.

  • Consiste en más de 2500 páginas de documentación de la API que contienen más de 14000 atributos. Además, al haberse filtrado la documentación, hay información –en muchas ocasiones bastante sucinta– de lo que contienen los campos.
  • La filtración original se le proporcionó a Rand Fishkin, fundador de Moz y Sparktoro y uno de las personas que más ha azotado a Google. Aquí está el post en el que cuenta su análisis.
  • No se ha filtrado código de fuente. Esto es importante porque no se han filtrado los algoritmos de evaluación de estos atributos , como sí sucedió en el leak de Yandex del año pasado. Es decir , tenemos los atributos que utiliza Google Search para almacenar la información pero no sabemos cómo se utilizan . Esto hace que podamos conocer qué cosas se analizan pero no podamos saber qué importancia tiene cada una.
  • La filtración es claramente legítima y relativamente actual. Es legítima porque su procedencia es que se subió esta documentación a GitHub de forma accidental por parte del equipo de Google. Es actual porque se subió en marzo de este año y es relativamente actual porque la última fecha a la que se refiere la documentación es Agosto de 2023.
  • Además te este leak, también hay cierta información que viene de la declaración de del VP de búsqueda de Google ante el Departamento de Justicia.

Algunos hallazgos interesantes

  • Los clics cuentan y mucho. Existe un sistema llamado NavBoost que utiliza el número de clics que se producen en una determinada búsqueda, así como la duración de las visitas que producen estos clics en las páginas web. Se sabe que existe NavBoost por la declaración del VP, pero de la filtración sabemos que Google utiliza la información de los usuarios de Google Chrome para alimentarlo. Además del comportamiento de los clics, también utilizan el contexto de búsquedas que se producen antes y después. Suena todo muy lógico pero el uso de los clics como criterio de búsqueda es algo que Google ha negado en múltiples ocasiones.
  • Las webs nuevas entran en un sandbox. Google siempre ha negado que las webs más nuevas estén en un limbo –conocido como sandbox– durante una temporada antes de empezar a rankear. Aparentemente ese sandbox existe. En la documentación aparece un parámetro llamado hostAge que se utiliza para poner en el sandbox páginas que sean demasiado nuevas.
  • Sin demasiadas noticias sobre el EEAT (Experience, expertise, authoritativeness and trustworthiness). Una de las grandes modas del SEO de los últimos tiempos prácticamente ni aparece en el modelo de datos. Lógicamente esto no significa que no exista, pero es probable que no tenga el peso que nos han querido vender.
  • Existe una "puntuación" a nivel de dominio. Google siempre ha negado la existencia de cosas como el DA (Domain Authority) que utilizan varias herramientas de SEO. Pues bien, existe. Hay una puntuación global a nivel de dominio. Esto tiene muchas implicaciones y no todas buenas. La principal: si eres una marca grande, seguramente podrás rankear mucho más fácilmente que las marcas pequeñas. En este artículo se habla mucho y yo creo que con mucho acierto sobre cómo Google se está crujiendo las webs pequeñas en favor de los grandes monstruos.
  • Los dominios y los subdominios son entidades distintas. Ante la típica pregunta de si alojamos el blog en una carpeta o en un subdominio, deberíamos elegir una carpeta. Si no lo hacemos es probable que las dos cosas se consideren entidades separadas y eso hará que sean menos potentes que si fueran una sola.
  • La localización es un factor relevante. Los Twiddlers son digamos "add-ons" que trabajan sobre el algoritmo de rankeo principal y que modifican los resultados. Y hay uno de ellos que está ligado con la localización y sugiere que Google intenta asociar las búsquedas con localizaciones físicas. Esto puede suponer un problema para los negocios SaaS que intentan ser muy globales.
  • Los links siguen contando, pero no todos. El link building es una de las prácticas de las que más se ha dudado. Pues el modelo de datos de Google no deja muchas dudas, los links son importantes. Eran la base del PageRank –el algoritmo original de Google– y, en la versión actual, siguen apareciendo. Sobre los enlaces se puede ver que los links con más valor son los de las páginas que se consideran con contenido "fresco" . Esto nos hace pensar que las páginas que publican mucho contenido habitualmente tienden a proporcionar enlaces de más calidad. Y hay un ejemplo claro de este tipo de páginas: los medios de comunicación. Google detecta la aparición de muchos enlaces de golpe, tanto para evitar el spam como para anular los enlaces de SEO negativo.
  • Google tiene una puntuación para analizar cómo de similar es una página respecto del sitio web que la contiene. Esto hace pensar que tener un tema general de la web y seguirlo en todo el contenido es mejor que tener contenido sobre temas dispersos.

¿Cómo puedo utilizar esta información en mi estrategia?

  • La primera recomendación suena a gilipollez pero es la realidad: crear buen contenido que traiga tráfico es la mejor estrategia. Sobre todo después de ver que los clics son probablemente el factor más relevante para el posicionamiento, si consigues promover tu contenido y atraer tráfico a él, seguramente vas a conseguir mejorar tu posicionamiento. Una forma sencilla de traer tráfico a tu contenido es mandarlo en una newsletter. Lo lógico para boostear mi web sería dejar este artículo a medias en el email y así pillar muchos más clics a la web.
  • Aparentemente los enlaces de los grandes sitios web pesan mucho más que los de las web pequeñas. Por ello parece que vuelve a tener sentido revivir el canal del PR (publicar en medios de comunicación). También se mide la distancia de la temática entre la web que enlaza y la de destino, por lo que deberíamos buscar medios afines a nuestra temática. Se analiza, para descartarlos, la aparición de muchos enlaces de golpe. Por eso, si vas a hacer link building, intenta que sea en sitios de una temática parecida a la tuya y que los enlaces vengan poco a poco . Y, aparentemente, es mejor tener un enlace gordo que muchos muy poco relevantes.
  • La existencia de una puntuación a nivel de dominio hace que rankear únicamente con un muy buen contenido sin tener marca potente sea complicado. El SEO siempre ha sido un canal lento y va a seguir siéndolo. Por eso centrar todos los esfuerzos únicamente en este canal, no sé si es una estrategia adecuada. Yo combinaría un canal lento como este con otro más inmediato, como puedes ser la venta directa, las redes sociales o el PPC. De esta forma irás construyendo marca y tu web comenzará a tener tráfico no orgánico que apoyará a las búsquedas.
  • Uno de los mitos más extendidos en el mundo del SEO es el de que si pagas por tráfico SEM, tu tráfico orgánico también aumenta. Sería de ser muy caraduras que Google considerase el tráfico que le pagas directamente a él como un factor favorable, pero tampoco es descartable visto lo visto. Lo que sí está claro es que, aunque descarten el tráfico que viene directamente de Google Ads, seguramente este tráfico provoque luego visitas que no tengan pinta de ser de pago y esas sí que se van a tener en cuenta.

En resumen

Hay muchísimas afirmaciones que provienen de Google y este leak demuestra que son falsas. Por eso, mi teoría es que antes de dar por hecho algo que venga de sus canales oficiales, lo pongas en cuarentena e investigues sobre ello. El SEO se está convirtiendo en un juego de grandes marcas pero competir en determinados nichos es posible. Y lo de siempre: crea buen contenido y promociónalo para conseguir que tenga enlaces y visitas.

Si sabes lo que significa el número 83333, esta newsletter es para ti *

* Si no lo sabes pero te interesa el mundo del software: debes suscribirte y lo descubrirás inmediatamente.

Lo que dicen algunos de los suscriptores

A mí me resulta imposible leerme todas las newsletters a las que estoy suscrito (que no son demasiadas) pero Disaaster es una de las pocas cuya lectura semanal es obligatoria para mí. Aunque está centrada en SAAS, los retos que analiza y resuelve suelen ser comunes para cualquier otro negocio en internet. Si te interesa aprender sobre el go to market de un negocio en internet, te interesa todo lo que Arriaga te explica cada semana.

Juan Pablo Tejela, CEO Metricool

Ignacio Arriaga en su newsletter te va a contar las verdades del barquero, sin estruendo, a través de ejemplos concretos, explicando el cómo y el por qué.

Eduardo Manchón, CEO Mailtrack

Disaaster es mi newsletter de referencia en el mundo del SaaS. Contenidos muy directos y aplicables, todos los aspectos relacionados con crear y hacer crecer productos digitales y SaaS, desde la experiencia y sentido crítico del gran Ignacio Arriaga.

Juan Carlos Cortizo, CMO Product Hackers