Saltar al contenido
CULTURA DE ALGORITMO

PAGERANK de Google

Seguimos hablando de algoritmos para meternos en el cerebro del algoritmo más rentable de la historia, el PAGERANK de Google. Vamos a ver qué es, cómo y porqué se creó y su situación actual.

ūüöÄ QU√Č ES (y C√ďMO FUNCIONA) el PAGERANK de GOOGLE que domina el mundo

Probablemente el PAGERANK de Google sea el algoritmo sobre el que más se ha escrito. Y paradógicamente del que cada vez sabemos menos.

IR DIRECTAMENTE AL V√ćDEO


Al principio de los tiempos

Desde que comenzó a popularizarse Internet y antes de que Google hiciera acto de presencia, la información en Internet se organizaba bastante mal.

Lo más cerca que estuvimos de acceder a una suerte de ordenación fue a través de portales como Terra, AOL o Yahoo.

Un portal no era más que una especie de gran enciclopedia donde podías navegar afinando categorías hasta que encontrabas una información que se parecía a algo que te interesaba.

portal de yahoo organizado por categorías
Portal de Yahoo! organizado por categorías con versiones iniciales de su buscador.

De esa necesidad de organizar la información, surgieron los primeros buscadores, como el de Yahoo, Altavista o Lycos. Ahora sí, ahora ya podías buscar lo que quisieras sin necesidad de ir navegando entre categorías.

‚ÜĎ Subir

La irrelevancia

Pero surgi√≥ un segundo problema: los resultados de las b√ļsquedas eran un desastre. No exist√≠a una ordenaci√≥n de la relevancia de los resultados.

El √≠ndice de resultados dejaba mucho que desear. B√°sicamente el algoritmo de b√ļsqueda no funcionaba.

[Por cierto si a√ļn no sabes qu√© es un algoritmo ūüĎČ aqu√≠ te lo explico]

Cuando buscabas por ejemplo ‚Äúc√≥mo curar una picadura del mosquito tigre‚ÄĚ pod√≠an aparecer al mismo nivel de relevancia el remedio de tu vecino y las recomendaciones de la OMS.

No ten√≠a ning√ļn sentido.

‚ÜĎ Subir

El algoritmo que cambiaría el mundo

Pero todo eso cambió en 1998 cuando Sergey Brin y Larry Page publicaron como parte de un proyecto de investigación en la Universidad de Stanford, su trabajo The Anatomy of la Large-Scale Hypertextual Web Search Engine.

Larry Page
Sergey Brin

Todavía no lo sabían, pero acababan de crear el algoritmo que cambiaría el mundo.

Brin y Page, escribían al inicio de su publicación:

…nuestro objetivo principal es mejorar la calidad de los motores de b√ļsqueda de la web.[..] Cualquiera que haya usado recientemente un motor de b√ļsqueda puede dar fe f√°cilmente que la complejidad del √≠ndice no es el √ļnico factor en la calidad de los resultados de b√ļsqueda. Los resultados basura a menudo arruinan cualquier resultado que sea de inter√©s para el usuario

1.3.1 – The Anatomy of la Large-Scale Hypertextual Web Search Engine. Brin & Page.

Buscaban la llave que les abriera la puerta de una ordenación de los resultados de mayor a menor relevancia. Y la verdad es que no tardaron en encontrarla, puesto que les era familiar: se inspiraron en el sistema de citas de las publicaciones científicas.

Los científicos miden la importancia de un ensayo mirando la cantidad de otros ensayos que los referencian. De esta manera, si un científico publica un estudio que es citado por cientos de estudios, se considera más importante que un estudio que haya sido citado sólo por unos pocos.

‚ÜĎ Subir

Las entra√Īas del algoritmo

El Algoritmo PageRank (PR), que así lo llamaron en honor al apellido de Larry, es una fórmula matemática que mide el valor de una página en función de la cantidad y calidad de otras páginas que la enlazan.

Se trata de establecer la importancia relativa de un sitio web determinado, con respecto a todos los dem√°s.

De esta forma, se considera que una p√°gina con un PR m√°s alto es m√°s relevante que otra con un PR m√°s bajo, o dicho de otra forma, tiene m√°s autoridad.

Cuestión de matemáticas

Esta es la bonita fórmula que lo calcula:

Como podemos ver, es una fórmula muy sencilla que tiene dos partes. La segunda parte se encarga de sumar los cocientes que son clave en el proceso.

Veamos que significa cada uno de sus elementos.

PR(A) es el page Rank de nuestra p√°gina A, justo lo que queremos calcular.

n es el n√ļmero de p√°ginas que tienen al menos un enlace a la p√°gina A.

i es cada una de las p√°ginas que forman parte de n.

d es un factor de atenuación que veremos más adelante, pero que varía entre 0 y 1, tomando normalmente el valor 0,85.

PR(i) es el valor del PageRank de la p√°gina i.

Y finalmente C(i) es el n√ļmero total de enlaces salientes de la p√°gina i, sean o no hacia A.

Enlaces y autoridad

Vamos a simplificar un poco para que se entienda mejor. En los resultados de b√ļsqueda salen m√°s arriba aquellas p√°ginas con un PR m√°s alto.

Para calcular el PR se tienen en cuenta tres factores principales:

  1. La cantidad y calidad de p√°ginas que la enlazan.
  2. El n√ļmero de enlaces salientes que tiene cada p√°gina que la enlaza.
  3. El PR de cada p√°gina que la enlaza.

Pero vamos a simplificar a√ļn m√°s vi√©ndolo de forma gr√°fica.

Supongamos que tenemos dos p√°ginas, A y B. La p√°gina A tiene 5 enlaces, llegando a las p√°ginas C, D, E, F y G. Y la p√°gina B enlaza a 4 p√°ginas, concretamente a H, I, J y C.

Si la página A tuviera una autoridad de 5, trasferiría toda su autoridad equitativamente a cada una de sus páginas destino. De este forma C, D, E, F y G recibirían un grado de autoridad cada una. Del mismo modo si la página B tuviera una autoridad de 2, estaría transfiriendo a cada una de sus páginas destino, medio grado de autoridad.

De esta forma, de entre todas las páginas destino, la más beneficiada sería la página C, que al recibir dos enlaces, acumularía más autoridad que las demás páginas enlazadas.

¬ŅPero qu√© pasar√≠a si una p√°gina tuviera un s√≥lo enlace saliente?


¬ŅLe transferir√≠a toda su autoridad a la p√°gina de destino? No, no tendr√≠a sentido, vamos a ver porqu√©.

El factor de atenuación

Volvamos al factor de atenuación d, que habíamos dejado pendiente en la fórmula.

Este factor simula la probabilidad de que un usuario contin√ļe haciendo clic en los enlaces mientras navega por la web.

Cuando haces una b√ļsqueda y clicas en un resultado, las probabilidades de que hagas clic en un enlace de esa p√°gina son razonablemente altas. Pero la probabilidad de que hagas clic en un enlace de la p√°gina siguiente es algo menor, y la siguiente todav√≠a menor; por eso es necesario ir atenuando la autoridad de una p√°gina conforme nos vamos alejando del camino de clics que nos llev√≥ hasta all√≠.

Imagina que buscas la cr√≥nica de un partido de f√ļtbol. La lees y en la secci√≥n final de noticias relacionadas saltas a una noticia pol√©mica de la vida personal de un jugador. Y de all√≠ a otra noticia sobre las vacaciones en familia de ese jugador.

La primera noticia aparecía en una web con una altísima autoridad en el mundo del deporte. Pero la tercera no, la tercera es muy relevante en el sector de la prensa rosa, pero nada relevante en el mundo del deporte.

Que en ese camino de clics se transfiera toda la autoridad de la primera página a la tercera, no tendría sentido.

Y ahí es donde reside la utilidad del factor d de atenuación.

Otras características del algoritmo

Ahora que entiendes los conceptos básicos del PAGE RANK, vamos a ver algunas otras características igualmente importantes.

Cada página tiene un PR propio, por lo que las páginas de un dominio no tienen porqué tener el mismo PR.

El PR no funciona en una escala lineal donde cada salto cuesta lo mismo, sino en una escala logarítmica, por lo que cada escalón cuesta mucho más conforme subimos en la escala.

Google √ļnicamente tiene en cuenta los enlaces que conoce. Los enlaces desde p√°ginas no indexadas o que hayan sido penalizadas no se tendr√°n en cuenta.

Es mejor calidad que cantidad. Siempre ser√° m√°s beneficioso un enlace desde una p√°gina con PR por ejemplo de 6 que docenas de enlaces desde p√°ginas con un PR de 2.

Interpretación de cada nivel de PAGERANK

Veamos una interpretación de cada nivel de PAGERANK.

PR-0 La p√°gina no ha sido indexada o ha sido penalizada.

PR-1 La p√°gina ha sido indexada y aparentemente es correcta.

PR-2 La p√°gina es interesante, es visitada y puede crecer.

PR-3 La p√°gina es importante en su sector.

PR-4 La p√°gina destaca sobre el resto del sector, est√° consolidada y tiene una autoridad notable.

PR-5 Le resulta mucho m√°s f√°cil aparecer en el primer puesto de las b√ļsquedas.

PR-6-7-8 Son referentes en sus sectores.

PR-9 Club reservado para los gigantes como Google, Facebook, Amazon o Youtube.

‚ÜĎ Subir

Conocer el PAGERANK de una p√°gina

Hasta hace relativamente poco, conocer el PAGERANK de una p√°gina era tan sencillo como instalar en el navegador un complemento de Google que te indicaba cual era el PR de cada p√°gina que visitabas.

Hasta exactamente el 7 de Marzo de 2016 momento en el que Google peg√≥ el cerrojazo y desde entonces no muestra en PR p√ļblicamente en ninguna herramienta.

Hmnn ¬ŅPor qu√©? Esto explicaba el propio Google.

A medida que Internet y nuestra comprensi√≥n de Internet han crecido en complejidad, la puntuaci√≥n de PageRank de la barra de herramientas se ha vuelto menos √ļtil para los usuarios como una √ļnica m√©trica aislada. Retirar la visualizaci√≥n del PageRank de la Barra de herramientas ayuda a evitar confundir a los usuarios y a los webmasters sobre el significado de la m√©trica.

Aunque ah√≠ se dice una parte de la causa muy peque√Īa, hay otra que no se cita y que contribuy√≥ enormemente a tomar esa decisi√≥n: el spam de los enlaces.

‚ÜĎ Subir

La batalla contra el algoritmo

Como todo se basaba en la cantidad y calidad de los enlaces, emergió un lucrativo negocio de compra-venta de enlaces de alto PR.

Ten en cuenta que el √©xito comercial depend√≠a de aparecer arriba en los resultados de b√ļsqueda. Aparecer arriba se consegu√≠a con un PR alto, y como hemos visto el PR aumentaba con la cantidad y calidad de los enlaces. Autom√°ticamente los enlaces de p√°ginas con PR m√°s alto que el tuyo se convirtieron en oro digital.

Y así se inició la carrera de actualizaciones de Google contra los reiterados intentos de manipulación del PR por parte de los usuarios.

Ha habido batallas con el nofollow, con el PR sculpting, con el conteo de enlaces y con decenas de estrategias más, cada vez más complejas y cuyo efecto se ha ido atenuado con cada actualización del algoritmo.

Actualmente y desde hace a√Īos Google guarda un enorme hermetismo en torno a c√≥mo funciona el PR.

Incluso hay mucha gente que cree que es absurdo tenerlo en cuenta porque no ha habido una actualización oficial desde 2013. Pero realmente el PR sigue teniendo un papel fundamental en el algoritmo de posicionamiento de Google, como han revelado recientemente conocidos empleados del gigante americano.

Eso sí, el PR ya no es una escala de 1 a 10, se especula con que podría tener millones de niveles y que en el posicionamiento de una página estarían interviniendo centenares de factores además del PR.

‚ÜĎ Subir

Conclusiones

Muchas de las estrategias que se usan en nuestros días no son más que intuiciones o interpretaciones que muchos profesionales del posicionamiento hacen en lo relativo al PR de Google.

Sin embargo esta falta de certezas científicas que puedan medirse están haciendo que cada vez se tenga menos en cuenta al PR y se preste más atención a otras métricas como Domain y Page Authority, Trust Flow o Citation Flow. Todas ellas proporcionadas por otros pesos pesados de la industria del posicionamiento online como podrían ser Moz, Majestic, Ahrefs o Semrush.


Este ha sido un brevísimo recorrido para conocer superficialmente cómo funciona el algoritmo que cambió el mundo, y que lo sigue cambiando cada día.

Si te ha gustado y quieres que en el futuro profundice en este tema, h√°zmelo saber en los comentarios. Y si quieres volver a saber de Cultura de Algoritmo, ya sabes, suscr√≠bete ūüĎá.

‚ÜĎ Subir

Vídeo

‚ÜĎ Subir