Historia
Este motor de
búsqueda surge en 1996 cuando Larry Page en su tesis de doctorado idea un
sistema para ordenar las páginas web, utilizando el modelo de citación utilizado
en el mundo académico; es así que surge PageRank,
el algoritmo original de Google que permite rankear (ordenar) documentos.
A este proyecto de
Page se une su amigo Sergey Brin, quien aporta la cuota matemática. En el
primer test del programa creado, llamado Backrub, (el cual trata de descubrir
todas las páginas enlazadas al backlinks de una página) lograron indexar 15
millones de páginas.
Estos amigos
lograron convertir la web en una ecuación gigantesca, el PageRank; esta
ecuación lo que hace es simular el comportamiento de una persona que busca en
la web; de forma simple es la posibilidad de que se llegue a una página
siguiendo enlaces al azar.
¿Y su nombre?
Serendipia, la idea
inicial era colocar el nombre de Googol (1100) pero por error, Page
escribió Google al inscribir el dominio. Luego Brin creó el logo y la página de
inicio del motor de búsqueda. Es así que el año 1998 comienza su funcionamiento
oficialmente.
Algoritmo.
¿Algoritmo? En palabras
sencillas son secuencias de
instrucciones y pasos para resolver un problema; se caracterizan por ser
precisos y definidos. Hagamos el
siguiente ejercicio: colocar una palabra el buscador de Google ¿Cómo ha
decidido Google el orden de los resultados? mediante un algoritmo; este
algoritmo es una ecuación matemática que hace posible rankear las búsquedas, imagínense
la magnitud de esa ecuación, la cual que
debe integrar millones de variables en cada búsqueda.
Imagen 2: Fórmula de PageRank
Para comprender el
algoritmo de Google, es necesario recurrir a los grafos. Pero no se asusten con
las Matemáticas, grafos hay en todo.
¿Quién no vio en la escuela Genética y tuvo que construir un árbol
genealógico? O en su defecto, dibujar en
Química orgánica un compuesto, ambos son ejemplos de grafos.
¿Y dónde están los grafos en la computadora?
Los grafos son
representados computacionalmente mediante una matriz de adyacencia.
Sea V = {v1 . . .
v|V|} el conjunto de vértices del grafo G, y E el conjunto de sus aristas. La
matriz de adyacencia será una matriz de tamaño |V| × |V|, donde la entrada (i,
j) será ai, j = ( 1 si existe una arista de vi a vj, y 0 en otro caso.
Imagen 3: Ejemplo de matriz.
Imagen 4: Representación de un grafo al aplicar PageRank
ALGORITMOS DE GOOGLE
PageRank está
conformado por una serie de algoritmos matemáticos que permiten ordenar de forma numérica la
relevancia de las diversas páginas web; al evaluar de manera numérica cada uno
de los enlaces que nos direccionan a una página, y la suma de todas estas,
entrega el PageRank. Esta medida comprende un intervalo que va del cero al
diez.
Google interpreta un link de una página web “X” a
una página “Y” como si fuese “un punto” para
la “Y”, pero también tiene en cuenta cuál es la página web que da el “punto”
o “backlink”. Cada link que apunta hacia
una página web suma una cantidad
numérica la que Google calcula obteniendo el PageRank.
Este cálculo, explicado
de manera sencilla y resumida:
A partir del grafo de una web, con por ejemplo 7 páginas, cada una
de estas está representada por un nodo.
Los hipervínculos que las unen son representados
mediante las flechas que a su vez corresponden a vínculos dirigidos.
Imagen 5: Grafo y sus siete nodos
Se asignará un 1 cuando una página esté relacionada con otra.
En el caso contrario se asigna 0. Además, cuando la página está relacionada con
ella misma también se asigna 0 y se
procede a representar los datos mediante
una matriz, luego se calculan los valores de un vector ऺ(v=ranking
inicial) que represente el PageRank de
cada una de las páginas.
¿PageRank es el único
algoritmo de Google?
PageRank es el
principal, sin embargo existen:
Discovery es el
algoritmo que rastrea la web para identificar nuevas páginas y sitios que
Google no ha indexado previamente. Este
algoritmo busca URLs y las compara con las URLs conocidas.
El algoritmo de rastreo
busca y comprende toda la web, solo
rastreará una página, no evaluará la calidad del contenido.
Algoritmo de
Indexación, determina si la URL se incluirá en el índice de Google.
Algoritmo de
clasificación, usa la información de los
algoritmos anteriores a fin de clasificar a cada página (rankear) bajo parámetros
como: intención de la consulta y cómo coincide con la intención del contenido,
relevancia de la página para la consulta, calidad del contenido, usabilidad de
la página, contexto y configuración.
Un quinto algoritmo es el procesamiento de lenguaje natural, denominado BERT.
Además destacan: Google
Panda, Google Penguin, Google Hummingbird, Google Pigeon, Google Mobilegeddon y
Google RankBrain.
Fuentes:
¿Cómo funcionan los
algoritmos? https://ockier.es/blog/funcionamiento-algoritmos-google/
Capítulo 2: Grafos
y algoritmos https://www.dm.uba.ar
Jerez, R. (2018). Análisis
del PageRank como factor de peso en la clasificación automática de textos. Tesis
PUCV.
No hay comentarios.:
Publicar un comentario
Gracias por comentar.
Recibirás pronta respuesta y si lo deseas, información extra sobre el tema.