Mostrando las entradas con la etiqueta MATEMATICAS. Mostrar todas las entradas
Mostrando las entradas con la etiqueta MATEMATICAS. Mostrar todas las entradas

domingo, 23 de enero de 2022

GOOGOL: su historia y algo más.

 

Historia

Este motor de búsqueda surge en 1996 cuando Larry Page en su tesis de doctorado idea un sistema para ordenar las páginas web, utilizando el modelo de citación utilizado en el mundo académico; es así que surge PageRank, el algoritmo original de Google que permite rankear (ordenar) documentos.

A este proyecto de Page se une su amigo Sergey Brin, quien aporta la cuota matemática. En el primer test del programa creado, llamado Backrub, (el cual trata de descubrir todas las páginas enlazadas al backlinks de una página) lograron indexar 15 millones de páginas. 

Estos amigos lograron convertir la web en una ecuación gigantesca, el PageRank; esta ecuación lo que hace es simular el comportamiento de una persona que busca en la web; de forma simple es la posibilidad de que se llegue a una página siguiendo enlaces al azar.


                                                     Imagen 1: Historia de Google. 

¿Y su nombre?

Serendipia, la idea inicial era colocar el nombre de Googol (1100) pero por error, Page escribió Google al inscribir el dominio. Luego Brin creó el logo y la página de inicio del motor de búsqueda. Es así que el año 1998 comienza su funcionamiento oficialmente.

Algoritmo. 

¿Algoritmo? En palabras sencillas  son secuencias de instrucciones y pasos para resolver un problema; se caracterizan por ser precisos y  definidos. Hagamos el siguiente ejercicio: colocar una palabra el buscador de Google ¿Cómo ha decidido Google el orden de los resultados? mediante un algoritmo; este algoritmo es una ecuación matemática que hace posible rankear las búsquedas, imagínense la magnitud de esa ecuación, la cual  que debe integrar millones de variables en cada búsqueda.

                                                          Imagen 2: Fórmula de PageRank 

Para comprender el algoritmo de Google, es necesario recurrir a los grafos. Pero no se asusten con las Matemáticas, grafos hay en todo.  ¿Quién no vio en la escuela Genética y tuvo que construir un árbol genealógico?  O en su defecto, dibujar en Química orgánica un compuesto, ambos son ejemplos de grafos. 

¿Y dónde están los grafos en la computadora?

Los grafos son representados computacionalmente mediante una matriz de adyacencia.

Sea V = {v1 . . . v|V|} el conjunto de vértices del grafo G, y E el conjunto de sus aristas. La matriz de adyacencia será una matriz de tamaño |V| × |V|, donde la entrada (i, j) será ai, j = ( 1 si existe una arista de vi a vj, y  0 en otro caso. 


                                                                Imagen 3: Ejemplo de matriz. 

Imagen 4: Representación de un grafo al aplicar PageRank

ALGORITMOS DE GOOGLE

PageRank está conformado por una serie de algoritmos matemáticos  que permiten ordenar de forma numérica la relevancia de las diversas páginas web; al evaluar de manera numérica cada uno de los enlaces que nos direccionan a una página, y la suma de todas estas, entrega el PageRank. Esta medida comprende un intervalo que va del cero al diez.

Google  interpreta un link de una página web “X” a una página “Y” como si fuese “un punto” para  la “Y”, pero también tiene en cuenta cuál es la página web que da el “punto” o “backlink”.  Cada link que apunta hacia una página web  suma una cantidad numérica la que Google calcula obteniendo el PageRank.

Este cálculo, explicado de manera sencilla y resumida:

A partir del grafo de  una web, con por ejemplo 7 páginas, cada una de estas  está representada por un nodo. Los hipervínculos que las unen son  representados mediante las flechas que a su vez corresponden a vínculos  dirigidos.


                                                          Imagen 5: Grafo y sus siete nodos  

Se asignará un  1 cuando una página esté relacionada con otra. En el caso contrario se asigna 0. Además, cuando la página está relacionada con ella misma también se asigna 0  y se procede a  representar los datos mediante una matriz, luego se calculan los valores de un vector ऺ(v=ranking inicial) que represente el PageRank  de cada una de las páginas.

¿PageRank es el único algoritmo de Google?

PageRank es el principal, sin embargo existen:

Discovery es el algoritmo que rastrea la web para identificar nuevas páginas y sitios que Google no ha indexado previamente.  Este algoritmo busca URLs y las compara con las  URLs conocidas.

El algoritmo de rastreo  busca y comprende toda la web, solo rastreará una página, no evaluará la calidad del contenido.

Algoritmo de Indexación, determina si la URL se incluirá en el índice de Google.

Algoritmo de clasificación,  usa la información de los algoritmos anteriores a fin de clasificar a cada página (rankear) bajo parámetros como: intención de la consulta y cómo coincide con la intención del contenido, relevancia de la página para la consulta, calidad del contenido, usabilidad de la página, contexto y configuración.

 Un quinto algoritmo es el  procesamiento de lenguaje natural, denominado BERT.

Además destacan: Google Panda, Google Penguin, Google Hummingbird, Google Pigeon, Google Mobilegeddon y Google RankBrain.

 

Fuentes:

¿Cómo funcionan los algoritmos? https://ockier.es/blog/funcionamiento-algoritmos-google/

Capítulo 2: Grafos y algoritmos https://www.dm.uba.ar

Jerez, R. (2018). Análisis del PageRank como factor de peso en la clasificación automática de textos. Tesis PUCV. 

jueves, 13 de enero de 2022

ATENCIÒN FUTURANÀTICOS: FUTURAMA Y SU MÀQUINA DE INTERCAMBIO DE MENTES.

 

El capítulo 10 de Futurama, “El prisionero de Benda” (The Prisoner of Benda, emitido el 19 de agosto de 2010) hace referencia a un antiguo libro  titulado “El prisionero de Zenda” - el cual habla de cómo un rey cambia de vida con un campesino-  incluye una demostración relacionada con las permutaciones del matemático y guionista  Ken Keeler, graduado con honores de Harvard (1990), quien  dejó la investigación para dedicarse a la televisión, destacando principalmente como escritor y productor en  Los Simpson y Futurama.

El Teorema de Keeler explica el cambio de mentes y cuerpos, este teorema recibió un reconocimiento de la Academia Americana de Física y publicaciones como  The Futurama of Physics. APS Physics ,Vol 19, No 5, 2010.

El argumento

Una flamante maquina creada por el  Profesor Farnsworth, permite intercambiar mentes entre dos cuerpos; pero esta máquina  tenía un defecto, una pareja de cuerpos sólo puede intercambiar mentes una vez. Este hecho da a lugar a toda clase de cómicas situaciones con los cambios de mentes entre los personajes. No obstante, las matemáticas al rescate: mediante una demostración constructiva se logra que todos los personajes vuelvan a sus propios cuerpos con la ayuda de únicamente dos cuerpos auxiliares.



Explicación

Teorema de Futurama: No importa cómo un grupo de gente haya intercambiado sus mentes y sus cuerpos, siempre es posible que cada persona recupere su cuerpo usando dos personas extra.

Sea A un conjunto finito y, sean X e Y dos elementos que no pertenecen a A.

Toda permutación de A se puede reducir a la identidad mediante una sucesión de transposiciones de

                                                                     A∪{X,Y}

Cada una, de las cuales contienen a X o Y

X e Y son dos personajes nuevos con los cuales se demuestra esta teoría:



Como toda permutación, se descompone en productos de ciclo distinto, y bastaría  demostrar el teorema para un ciclo de  π sin pérdida de generalidad.


Lo anterior, se explica  de manera sencilla, mediante las siguientes relaciones: el número que no está entre paréntesis será el cuerpo, y el número que está entre paréntesis, es la mente del portador.

El personaje 1(1) cambia mentes con el personaje 2(2), pero al no poder intercambiar su mente entre ellos, entonces entran los personajes 3(3) y  4(4), quienes cambian mentes entre ellos. 4(3) junto al personaje 3(4)  cambian con 1(2) y 4(3) respectivamente, pasando a ser 1(3) y 4(2) y  además 3(1) y 2(4). Estos para recuperar sus mentes tienen que intercambiar 4(2) con 2(4) y 1(3) y 3(1), los cuales volverían a quedar al final como 1(1) 2(2) 3(3) 4(4).


En conclusión, el teorema queda demostrado, dejándonos una grata lección, en los contextos más simples -como una serie animada- podemos aplicar  un teorema que por sí mismo no es de fácil comprensión. 


sábado, 8 de enero de 2022

DE PANDEMIA EN PANDEMIA.

 

Remontémonos hacia el 10 de agosto del año 2010, día en que  la Directora General de la Organización Mundial de la Salud (OMS), declara al mundo que se levanta la alerta pandémica, tras superar la pandemia  causada por  virus de la influenza A (H1N1) iniciada el año 2009,  dando inicio al período post-pandémico. Desde este momento,  el virus de la influenza A (H1N1) se comportaría como un virus estacional, con el cual en adelante debemos aprender a convivir ya que continuará circulando en los próximos años y con diversas mutaciones.

Según lo anterior,  desde 2011 se han reportado diversos brotes en América  y Europa, aunque limitados a regiones geográficas específicas, motivo por el cual las diversas autoridades deben estar alertadas y preparadas para actuar activando los protocolos formulados durante el periodo pandémico.

Por su parte, en Chile, el  MINSAL  en su informe de Influenza Semana Epidemiológica 1 a 52 de 2011, reportó que pruebas moleculares confirmaron un virus de influenza triple recombinante (influenza A (H3N2) (SOtrH3N2) con el segmento M del gen proveniente del virus pH1N1.

UN  SÚPER NÙMERO.         

Durante el contexto de pandemia, destacó un número usado  en salud pública, hablamos del número reproductivo básico (R0), el cual sirve para estimar la velocidad con que una enfermedad puede propagarse en una población. Además, este número permite predecir el porcentaje de individuos que enfermarán durante un brote en una población dada; siendo este último el parámetro que se pronostica de forma más aceptable mediante las estimaciones del R0.

               Esquema 1: Intervenciones para controlar una pandemia con reducción del RO.

El R0 también se puede aplicar provechosamente para pronosticar (en un modelo simple), la duración de una epidemia (figura 1), dado que  tanto el RO como el tiempo que transcurre entre la incidencia acumulada de 5% y la de 95% no dependen de N.

Figura 1: La dependencia de la duración de la epidemia con respecto la tasa de transmisión en un modelo SIR


En conclusión, la estimación del R0 en una población puntual  es útil para entender la transmisión de una enfermedad en ella. Si se considera el R0 en conjunto con otros parámetros epidemiológicos importantes, permite conocer mejor un brote epidémico y preparar la respuesta sanitaria. No obstante, el R0  por sí solo es una medida insuficiente de la dinámica de las enfermedades infecciosas en las poblaciones.

Solo queda esperar que la actual pandemia por COVID-19 siga el mismo curso que la pandemia por A (H1N1).

 

Fuentes:

Ridenhour, Kowalik, Shay.   (2018).   Am J Public Health December; 108(Suppl 6): S455–S465. Spanish. doi: 10.2105/AJPH.2013.301704s

Ministerio de Salud Chile.  (2011). Informe de Influenza. Semana Epidemiológica 1 a 52 

 


miércoles, 22 de diciembre de 2021

Imágenes desgarradas: el uso de scrapers en investigación social en Instagram sobre cáncer.

 

Pese a los avances en el estudio de redes sociales, el obtener y analizar imágenes en Instagram es todo un reto para la investigación social; además de los aspectos técnicos  este estudio se dificulta por los aspectos éticos, sobre todo tras el caso de Cambridge Analytica en 2018.

En esta entrada se comparte un estudio cuyo propósito es explorar las imágenes acompañadas por la etiqueta #SacaPecho en Instagram durante el día internacional de la lucha contra el cáncer de mama.

A fin de dar respuesta al objetivo, Varela y Vicente (2021) utilizan una técnica alternativa y sencilla; sin embargo muy útil ya que tras el cierre  de las API1 públicas en 2018, el acceso a las imágenes es un proceso bastante complejo y lleno de trabas,  es así que los autores proponen dos herramientas de  scraping.

La primera, es el web scraping donde la herramienta conecta directamente con la base de datos del proveedor (Instagram, en este estudio) mediante una conexión HTML y permite  descargar imágenes, texto que las acompañan y  metadatos. Una segunda herramienta, es el screen scraping, el cual en vez  de conectar con la base de datos, la herramienta captura todo el contenido cargado en la pantalla del usuario.

Los autores recomiendan para hacer un scraping realizar una primera búsqueda limitada a metadatos básicos como la ID de la imagen (número identificador) y la fecha de subida, para luego  editar los parámetros de forma sencilla cambiando las siguientes líneas de código: #Definimos el hastag (desired_tag) desired_tag="sacapecho [u otra etiqueta]" #Definimos el tamaño de muestra (sample_size).

Para la Educación en salud sobre el cáncer  es relevante la difusión de la imagen en línea,  permitiendo  reconocer la importancia de las redes sociales como el segundo medio de información para pacientes. Se reporta la participación principalmente propiciada por parte de influencers (figura2)



Mediante un análisis de contenido se encontró que las publicaciones anteponen los contenidos tradicionalmente asociados con la enfermedad en la cultura popular, destacando las imágenes en contextos cotidianos: pañuelos, mascarillas y lazos color rosa; además de diagramas  sobre  posibles manifestaciones del cáncer al tacto para realizar la  autoexploración (detectar posibles señales de alerta).  

Posteriormente, usando la segunda parte del código desarrollado, se obtuvo una muestra de publicaciones que permite dibujar una imagen general de su contenido.


A pesar de que la técnica es sencilla y la información que permite recolectar es valiosa, presenta dos limitaciones: la primera es que Instagram prioriza el contenido destacado. La segunda es que las imágenes se muestran en una página infinita, sin categorización alguna, sin acompañamiento de metadatos y  en miniatura, por lo que el investigador tendrá que ir imagen por imagen haciendo recortes.

A partir de los resultados  del estudio  se revela que el uso de scrapers puede ayudar a los investigadores sociales a mantener el pulso de las redes, en un tiempo acotado.


 Fuente: Cuadernos. INFO Nº 49, https://doi.org/10.7764/cdi.49.27809

Miguel Varela-Rodríguez, Miguel Vicente-Mariño.


1. API (Application Programming Interface o Aplicación de Interfaz de Programación), aplicaciones de programación suministradas por las plataformas - mediante las cuales los investigadores solicitan formalmente obtener los datos.