domingo, 23 de enero de 2022

GOOGOL: su historia y algo más.

 

Historia

Este motor de búsqueda surge en 1996 cuando Larry Page en su tesis de doctorado idea un sistema para ordenar las páginas web, utilizando el modelo de citación utilizado en el mundo académico; es así que surge PageRank, el algoritmo original de Google que permite rankear (ordenar) documentos.

A este proyecto de Page se une su amigo Sergey Brin, quien aporta la cuota matemática. En el primer test del programa creado, llamado Backrub, (el cual trata de descubrir todas las páginas enlazadas al backlinks de una página) lograron indexar 15 millones de páginas. 

Estos amigos lograron convertir la web en una ecuación gigantesca, el PageRank; esta ecuación lo que hace es simular el comportamiento de una persona que busca en la web; de forma simple es la posibilidad de que se llegue a una página siguiendo enlaces al azar.


                                                     Imagen 1: Historia de Google. 

¿Y su nombre?

Serendipia, la idea inicial era colocar el nombre de Googol (1100) pero por error, Page escribió Google al inscribir el dominio. Luego Brin creó el logo y la página de inicio del motor de búsqueda. Es así que el año 1998 comienza su funcionamiento oficialmente.

Algoritmo. 

¿Algoritmo? En palabras sencillas  son secuencias de instrucciones y pasos para resolver un problema; se caracterizan por ser precisos y  definidos. Hagamos el siguiente ejercicio: colocar una palabra el buscador de Google ¿Cómo ha decidido Google el orden de los resultados? mediante un algoritmo; este algoritmo es una ecuación matemática que hace posible rankear las búsquedas, imagínense la magnitud de esa ecuación, la cual  que debe integrar millones de variables en cada búsqueda.

                                                          Imagen 2: Fórmula de PageRank 

Para comprender el algoritmo de Google, es necesario recurrir a los grafos. Pero no se asusten con las Matemáticas, grafos hay en todo.  ¿Quién no vio en la escuela Genética y tuvo que construir un árbol genealógico?  O en su defecto, dibujar en Química orgánica un compuesto, ambos son ejemplos de grafos. 

¿Y dónde están los grafos en la computadora?

Los grafos son representados computacionalmente mediante una matriz de adyacencia.

Sea V = {v1 . . . v|V|} el conjunto de vértices del grafo G, y E el conjunto de sus aristas. La matriz de adyacencia será una matriz de tamaño |V| × |V|, donde la entrada (i, j) será ai, j = ( 1 si existe una arista de vi a vj, y  0 en otro caso. 


                                                                Imagen 3: Ejemplo de matriz. 

Imagen 4: Representación de un grafo al aplicar PageRank

ALGORITMOS DE GOOGLE

PageRank está conformado por una serie de algoritmos matemáticos  que permiten ordenar de forma numérica la relevancia de las diversas páginas web; al evaluar de manera numérica cada uno de los enlaces que nos direccionan a una página, y la suma de todas estas, entrega el PageRank. Esta medida comprende un intervalo que va del cero al diez.

Google  interpreta un link de una página web “X” a una página “Y” como si fuese “un punto” para  la “Y”, pero también tiene en cuenta cuál es la página web que da el “punto” o “backlink”.  Cada link que apunta hacia una página web  suma una cantidad numérica la que Google calcula obteniendo el PageRank.

Este cálculo, explicado de manera sencilla y resumida:

A partir del grafo de  una web, con por ejemplo 7 páginas, cada una de estas  está representada por un nodo. Los hipervínculos que las unen son  representados mediante las flechas que a su vez corresponden a vínculos  dirigidos.


                                                          Imagen 5: Grafo y sus siete nodos  

Se asignará un  1 cuando una página esté relacionada con otra. En el caso contrario se asigna 0. Además, cuando la página está relacionada con ella misma también se asigna 0  y se procede a  representar los datos mediante una matriz, luego se calculan los valores de un vector ऺ(v=ranking inicial) que represente el PageRank  de cada una de las páginas.

¿PageRank es el único algoritmo de Google?

PageRank es el principal, sin embargo existen:

Discovery es el algoritmo que rastrea la web para identificar nuevas páginas y sitios que Google no ha indexado previamente.  Este algoritmo busca URLs y las compara con las  URLs conocidas.

El algoritmo de rastreo  busca y comprende toda la web, solo rastreará una página, no evaluará la calidad del contenido.

Algoritmo de Indexación, determina si la URL se incluirá en el índice de Google.

Algoritmo de clasificación,  usa la información de los algoritmos anteriores a fin de clasificar a cada página (rankear) bajo parámetros como: intención de la consulta y cómo coincide con la intención del contenido, relevancia de la página para la consulta, calidad del contenido, usabilidad de la página, contexto y configuración.

 Un quinto algoritmo es el  procesamiento de lenguaje natural, denominado BERT.

Además destacan: Google Panda, Google Penguin, Google Hummingbird, Google Pigeon, Google Mobilegeddon y Google RankBrain.

 

Fuentes:

¿Cómo funcionan los algoritmos? https://ockier.es/blog/funcionamiento-algoritmos-google/

Capítulo 2: Grafos y algoritmos https://www.dm.uba.ar

Jerez, R. (2018). Análisis del PageRank como factor de peso en la clasificación automática de textos. Tesis PUCV. 

No hay comentarios.:

Publicar un comentario

Gracias por comentar.
Recibirás pronta respuesta y si lo deseas, información extra sobre el tema.