Wikipedia crea primer mapeo y exploración de texto en inglés en tiempo y espacio

Wikipedia crea primer mapeo y exploración de texto en inglés en tiempo y espacio

HAMBURGO. SGI (NASDAQ:SGI) líder en computación técnica se ha asociado con Kalev H. Leetaru de la Universidad de Illinois para crear el primer mapeo y exploración de contenidos de texto completo de la edición en idioma Inglés de Wikipedia, en el tiempo y el espacio.

Los resultados incluyen visualizaciones de la historia moderna capturadas en menos de un día utilizando las técnicas de extracción de datos de memoria interna.

Al cargar la edición completa en idioma Inglés de Wikipedia en la SGI® UVT 2000, el Sr. Leetaru pudo mostrar cómo se ha desarrollado la visión del mundo de Wikipedia en los últimos dos siglos.

El lugar, el año y el sentimiento positivo o negativo están muy relacionados con esas referencias.   Mientras que varios proyectos anteriores han trazado un mapeo de las entradas en Wikipedia con los metadatos de la ubicación asignada manualmente por un editor, estos intentos anteriores sólo representan una pequeña fracción de la información de Wikipedia.

Este proyecto abrió el contenido de los artículos, al identificar cada lugar y fecha en los cuatro millones de páginas y las conexiones entre ellos para crear una red masiva.  

Este análisis le permite al mundo dar un paso atrás en los artículos y textos individuales para obtener una vista general del enorme conocimiento capturado en Wikipedia, no sólo una vista página por página, en diagrama.

Podemos ver cómo ha evolucionado una de las más grandes colecciones del saber humano y ver lo que nunca se pudo ver antes, como el sentimiento mundial en un determinado tiempo y lugar, o dónde puede haber puntos ciegos en la cobertura de los conocimientos», manifestó Franz Aman, Director de Comercialización y Jefe de Estrategias de SGI.

«Nos gusta utilizar Google Earth porque podemos alejar la imagen y obtener un panorama general. Con la SGI UV 2, podemos aplicar el mismo concepto a los grandes datos para obtener un panorama general de nuestros grandes datos».  

A partir de este análisis, se considera que Wikipedia tiene cuatro períodos de crecimiento en su cobertura histórica: 1001-1500 (Edad Media), 1501-1729 (principios de la Edad Moderna), 1730-2003 (Siglo de las Luces), 2004-2011 (Era de Wikipedia) y su crecimiento continuo parece estar centrado en mejorar la cobertura de los acontecimientos históricos, en lugar de aumentar la documentación del presente.

El tono promedio de la cobertura de Wikipedia de cada año coincide con los más importantes eventos mundiales, y el período más negativo de los últimos mil años ha sido la Guerra Civil Estadounidense, seguido por la Segunda Guerra Mundial.

El análisis también muestra que la «brecha de derechos de autor» que tiene espacios en blanco en la mayor parte del siglo XX en las colecciones digitalizadas impresas no es un problema para Wikipedia, donde hay un crecimiento exponencial constante en su cobertura desde 1924 hasta la fecha.  

«Con la SGI UV 2, la gran memoria compartida disponible me ha permitido formular preguntas a todo el conjunto de datos en tiempo casi real. Con una gran cantidad de memoria compartida de caché coherente en mis manos, yo podría simplemente escribir unas pocas líneas de código y ejecutarlo en todo el conjunto de datos, formulando todas las preguntas que vengan a mi mente.

Esto no es posible con un enfoque de computación escalable. Es muy similar a utilizar un procesador de textos en lugar de utilizar una máquina de escribir – puedo realizar mi investigación de una manera completamente diferente, centrándome en los resultados, no en los algoritmos».  

El enfoque analítico   Cargada en laSGI® UVT 2000, la computadora de gran cerebro, esta base de datos masiva sufrió una geocodificación de texto completa y una codificación de fecha completa, utilizando los algoritmos que identificaron cada mención de cada lugar y fecha en todo el texto de cada entrada en Wikipedia.

Se extrajeron más de 80 millones de lugares y 42 millones de fechas entre el año 1000 después de Cristo y el 2012, un promedio de 19 lugares y 11 fechas por artículo (cada 44 palabras y cada 75 palabras, respectivamente).

Las conexiones entre cada fecha y lugar se capturaron en una red masiva que representa la visión de la historia de Wikipedia.

Con esta instrumentación, el Sr. Leetaru fue capaz de realizar un análisis en tiempo casi real del conjunto de datos sobre la SGI UV 2 para crear mapas visuales a través del espacio y el tiempo para ver no sólo cómo se desarrolló la historia, sino también el tono general de todo el mundo a través de los últimos mil años, y probando de forma interactiva una amplia gama de teorías y preguntas de investigación, todo en menos de un día de trabajo.

Publicaciones Relacionadas

Más leídas