Mostrando entradas con la etiqueta redes de texto. Mostrar todas las entradas
Mostrando entradas con la etiqueta redes de texto. Mostrar todas las entradas

domingo, 27 de marzo de 2022

Redes etimológicas medievales

¿Qué tan innovadores son los primeros manuscritos medievales de las Etymologiae?


Homo Modernus


Cuando comencé mi proyecto de
Conocimiento Innovador hace más de cuatro años, una de mis intenciones era mapear cómo los manuscritos de las Etymologiae atraían interpolaciones y otras 'ediciones' a principios de la Edad Media. Siendo las Etimologías una enciclopedia, y además una que su autor nunca completó, no sorprende que actuara como un andamiaje para la acumulación de nueva información 'útil'. Al principio del proyecto, por lo tanto, me decidí por un sistema de registro de lo que denominé características innovadoras (o innovaciones para abreviar) que luego me permitirían proyectarlas como una red. Para el propósito de mi proyecto, definí una característica innovadora como:

  1. una interpolación textual (por ejemplo de otros textos como el propio De natura rerum de Isidoro );
  2. interpolación gráfica (por ejemplo, adición de diagramas y mapas);
  3. un elemento estructural (como la división de las Etymologiae en 17 en lugar de 20 libros);
  4. un cambio sustancial en el diseño (por ejemplo, presentación de información incluida originalmente por Isidore como un texto continuo en forma de tabla o lista);
  5. transmisión del material de las Etymologiae como una entidad novedosa (por ejemplo, los primeros manuscritos medievales conservan varias colecciones catequísticas producidas por parches a partir de extractos de las Etymologiae ); o
  6. la presencia de versiones peculiares del texto o la omisión de pasajes particulares de las Etymologiae .

En esta red, los manuscritos que transmiten las Etymologiaerepresentan nodos y las innovaciones que contienen representan bordes que conectan manuscritos que comparten una característica particular. Al trazar la red, esperaba no solo ver qué características innovadoras estaban extendidas (y cuáles no) y qué manuscritos combinaban muchas características diferentes, sino también si los patrones de compartir pueden brindarnos una imagen significativa sobre la difusión de ciertas innovaciones. Desde temprano me quedó claro que mientras algunos de los rasgos que me interesaban se difundían genealógicamente, es decir copiando de un ejemplar como los textos, otros, quizás la mayoría, circulaban por otros procesos. Como resultado, razoné, es poco probable que la presencia o ausencia de ciertas características innovadoras pueda usarse para reconstruir un stemma de la tradición textual temprana de las Etymologiae.(pero algunos surgirían como altamente significativos y confiables en este sentido). Por lo tanto, una red podría construirse como una alternativa más ligera a un stemma y podría servir como el primer paso para discernir aquellas características innovadoras que son indicativas de una relación genealógica de aquellas que no lo son.

A medida que avanzaba el proyecto y se completaba mi hoja de datos, me quedó claro que mi idea inicial de una red de innovaciones era algo ingenua y que mis datos presentan problemas típicos que hacen que el trazado de una red sea problemático y sesgado. En particular, tenía miedo de terminar con el grafo de bola de pelo habitual que tiene un valor agregado limitado. También entendí que probablemente me estoy perdiendo muchas innovaciones y muchos testigos de innovaciones identificadas. Sin embargo, pensé que aunque no podía usar la visualización de la red que imaginé como había previsto originalmente, al menos podría intentar construir la red que tenía en mente como una especie de experimento exploratorio.

El siguiente grafo de red se trazó en Gephi utilizando el algoritmo de Fruchterman-Reingold. Realicé algunos ajustes manuales adicionales para minimizar la superposición de grupos no relacionados y darle una apariencia más limpia.


Fig. 1: Una red no dirigida de manuscritos que transmiten las Etymologiae (nodos) que contienen características innovadoras compartidas con al menos otro manuscrito (bordes). La coloración de los grupos corresponde a innovaciones específicas.

El grafo de red que ve aquí incluye 279 manuscritos (nodos) que transmiten las Etymologiae que comparten una innovación con al menos otro manuscrito conocido. Este no es un número pequeño dado que he podido identificar 485 manuscritos medievales tempranos que transmiten las Etymologiae . Aunque los manuscritos mostrados en la red anterior también incluyen 81 manuscritos posteriores al 1000 incluidos debido a su relevancia para la imagen, esto aún significa que 198 manuscritos que son parte de mi corpus medieval temprano, o más del 40% de los manuscritos anteriores al 1000 identificados los códices que transmiten las Etymologiae incluyen al menos una característica innovadora que también aparece en otro manuscrito conocido. ¡Esa es una proporción útil para empezar! Es importante destacar que estos no son todos (o todos los primeros medievales) manuscritos de las Etymologiae que presentan innovaciones, ya que este recuento no incluye manuscritos que transmiten innovaciones confinadas a un solo códice, o que hasta ahora se han identificado en un solo manuscrito, aunque función en más. Por lo tanto, deberíamos suponer razonablemente que la mayoría de las primeras copias medievales de las Etymologiae , parciales y completas, contienen algunas innovaciones.

El grafo de red anterior muestra un total de 1042 innovaciones compartidas (bordes). Como se puede deducir del grafo, está constituido por muchos componentes aislados que no están conectados con otras partes del grafo. Estos son ejemplos de una característica innovadora particular que aparece en varios manuscritos, mientras que estos manuscritos no contienen otras características innovadoras identificadas durante mi proyecto. En total, el grafo que tracé usando mis datos imperfectos consta de 40 de esos componentes. De estos, 19 componentes, o casi la mitad de todos los componentes en el grafo, consisten en solo dos manuscritos, es decir, pude identificar solo dos manuscritos que tienen una característica innovadora notable específica. Siete componentes más consisten en tres o cuatro manuscritos. Estos componentes se dejan sin colorear en el grafo.

Más del 40% de los códices anteriores al año 1000 identificados que transmiten las Etymologiae incluyen al menos una característica innovadora que también aparece en otro manuscrito conocido.

Muchos de los 14 componentes más grandes también están aislados. Por lo tanto, podemos decir que los datos recopilados sugieren que los primeros manuscritos medievales que transmiten las Etymologiae tienden a contener una sola innovación (en lugar de, digamos, dos, cuatro o seis). Hay una buena explicación para este patrón. Después de todo, la mayoría de los manuscritos del grafo anterior no transmiten la enciclopedia completa en 20 libros, sino que son testigos parciales en forma de manuales, misceláneas y colecciones que transmiten una selección específica de las Etymologiae en una configuración no enciclopédica. Por ejemplo, el componente azul relativamente grande en la parte inferior izquierda del grafo corresponde a los 15 manuscritos conocidos que transmiten por separado partes del tercer libro de Etymologiae .que trata de la música ( Etym . III 15-23), conocido también como el Ars musica Isidori . El componente naranja en la parte inferior derecha del grafo incluye los nueve testigos identificados de la versión más corta de la llamada Collectio Unde , una colección de fragmentos de los libros VI, VII, VIII y IX.


Fig. 2: El mismo graf de red con dos componentes aislados correspondientes a grupos (15 manuscritos que contienen el Ars musica Isidori y 9 manuscritos que contienen la versión corta de la Collectio Unde ).

Dado que las dos entidades textuales no se superponen en absoluto en su selección de Etymologiae , se puede esperar que aparezcan aisladas entre sí en el grafo. En teoría, si un solo manuscrito transmitiera tanto el Ars musica Isidori como la Collectio Unde , formaría un puente entre los dos grupos. De hecho, este es el caso de dos manuscritos que conectan tres grupos en el segundo componente más grande del grafo que consta de 27 manuscritos.


Fig. 3: El segundo componente más grande de la red (27 manuscritos) que consta de tres grupos (8, 8 y 13 manuscritos respectivamente).

Los tres grupos en cuestión corresponden a manuscritos que transmiten un mosaico de extractos de las Etymologiae que tratan de la Iglesia, sus oficios y el bautismo conocido como De catholica ecclesia et eius ministris et de bautatis officio (marrón), los que transmiten otra colección similar conocida como el Collectio Sangermanensis (rosa), y los que transmiten una colección de extractos sobre el parentesco llamado en algunos manuscritos Dicta Isidori (verde). Estos también son ejemplos de manuscritos en los que solo circuló una selección de todas las Etymologiae .

Con mucho, el componente más intrigante de la red es el gran componente de las partes central y superior del grafo, que suma 102 manuscritos (es decir, alrededor del 36,5 % de todos los manuscritos incluidos en el grafo). Este componente no destaca solo por su gran tamaño, sino también porque es el único componente en el que se puede observar una superposición significativa de conglomerados. De hecho, este componente se ensambla a partir de 14 grupos de diferentes colores (es decir, grupos que consisten en al menos 5 manuscritos). El manuscrito más conectado que pertenece a este gran componente es miembro de cuatro grupos, es decir, contiene cuatro innovaciones ampliamente compartidas. El componente más grande también incorpora el grupo más grande del grafo (púrpura) que consta de treinta manuscritos en los que dos segmentos de De natura rerumse interpolan en las secciones astronómicas de las Etymologiae ( Etym . III 51 y 53).


Fig. 4: El componente más grande de la red que consta de 102 manuscritos y 14 grupos principales.

Lo especial de este componente, aparte de su tamaño, es que, a diferencia de muchos de los componentes más pequeños, no consta de testigos parciales de las Etymologiae , sino de copias enciclopédicas que presentan los veinte libros de la obra (o originalmente diseñadas para incluir todos los libros). ). La importante fusión y desenfoque de grupos es una señal de que estos códices tendieron a adquirir múltiples innovaciones. Por ejemplo, tres de los ocho manuscritos, en cuyo libro I faltan los capítulos 30-31 (azul en el centro del grafo), también dividen las Etymologiae en 17 en lugar de 20 libros (púrpura oscuro en el centro del grafo). Todos menos dos manuscritos que dividieron originalmente la primera mitad de las Etymologiaeen tres libros (rojo en el centro del componente) tienen al menos otra innovación importante. Cinco de los ocho manuscritos, en los que el tratado heresiológico anónimo Indiculus de haeresibus fue interpolado en el libro VIII de las Etymologiae (verde más brillante en la parte inferior izquierda del componente más grande) también tienen los dos segmentos de De natura rerum interpolados en el libro III (púrpura ). Los manuscritos que contienen una serie de epigramas conocidos como Anthologia Isidoriana (verde brillante en la parte inferior derecha del componente más grande) también tienden a transmitir un tratado informático anónimo sobre el cálculo de la Pascua (amarillo más oscuro en la parte inferior derecha del componente más grande).

Todas estas superposiciones plantean preguntas. Por ejemplo, podemos preguntarnos cómo se proyectaría una relación en gran medida o puramente genealógica en un grafo de red como este y si vemos tal proyección. Podemos comenzar imaginando un stemma hipotético en el que una rama particular de testigos caracterizada por una innovación específica (p. ej., una interpolación textual) engendra otra rama, que se caracteriza por otra innovación (p. ej., una omisión específica). En este escenario, todos los manuscritos que tuvieran la última innovación también tendrían la primera. En una proyección de red siguiendo las reglas descritas anteriormente, este escenario hipotético se manifestaría como dos grupos. Todos los manuscritos que son miembros de un grupo más pequeño (omisión específica) también deben ser miembros de un grupo más grande (interpolación textual).

De hecho, podemos notar un grupo en el grafo de red construido a partir de mis datos sobre las Etymologiae que muestra un alto grado de superposición que sugiere una relación genealógica entre dos innovaciones. Este es el grupo de color amarillo pálido en el lado superior izquierdo del componente más grande que está fusionado casi por completo con el gran grupo de color púrpura correspondiente a los manuscritos con pasajes interpolados del De natura rerum en el libro III. Algunos, pero no la mayoría, de estos manuscritos también recibieron un conjunto de diagramas astronómicos con paralelos en el De natura rerum . Los números impares pueden sugerir que los diagramas representan una expansión de la versión interpolada más antigua que no presenta diagramas.

Fig. 5: Una superposición significativa entre el grupo de manuscritos que contienen diagramas de los capítulos astronómicos del libro III (amarillo) y aquellos que contienen interpolaciones de De natura rerum en el mismo libro (púrpura).

Planeo expandir el grafo de red esbozado anteriormente en el futuro a medida que se examinen más manuscritos en detalle y se describan y tomen en cuenta las innovaciones que contienen. Dos de las novedades más difundidas, las interpolaciones del tratado anónimo sobre figuras retóricas De virtutibus et vitiis del libro I y la inclusión de un diagrama TO en el libro XIV , además, no se incluyen actualmente. Una vez que el diagrama se vuelve más completo, el siguiente paso lógico es investigar sus propiedades de red, por ejemplo, la propensión a las innovaciones entre las copias enciclopédicas de las Etymologiae .(a diferencia de los testigos no enciclopédicos) o el grado de superposición entre ciertos grupos (es decir, el grado de co-ocurrencia de ciertas características innovadoras). Estos podrían proporcionar pistas adicionales sobre una de las cuestiones más intrigantes de la difusión de innovaciones en las copias de las Etymologiae : ¿era probable que se transmitieran verticalmente (copiando de un padre a su descendencia), o era más común que viajado horizontalmente (por ejemplo, como resultado de contactos entre centros intelectuales vecinos y movimiento de personas)?

Me detengo aquí por ahora, pero prometo que habrá más sobre la difusión de innovaciones y el uso de visualizaciones y análisis de redes en el futuro.

PD: Es posible que haya notado que los enlaces de esta publicación de blog conducen a EtymoWiki en el sitio web Innovating Knowledge , que aún está vacío. Espero comenzar pronto a agregar entradas que describan algunas de las notables características innovadoras de principios de la Edad Media en los manuscritos de las Etymologiae .

miércoles, 10 de octubre de 2018

Sesgo de discurso mediate análisis de redes de texto

Medición del sesgo del discurso mediante el análisis de red de texto



Dmitry Paranyushkin
http://noduslabs.com
Towards Data Science

En este artículo, propongo un método y una herramienta para medir el nivel de sesgo en el discurso basado en el análisis de red de texto. La medida se basa en la estructura del texto y utiliza parámetros cuantitativos y cualitativos de un gráfico de texto para identificar qué tan sesgado es. Por lo tanto, puede ser utilizado por humanos, así como implementarse en varias API y AI para realizar un análisis de sesgo automático.

Sesgo: lo bueno y lo malo

El sesgo se entiende comúnmente como inclinación o prejuicio hacia un cierto punto de vista. Un discurso o texto que tiene un sesgo puede tener una determinada agenda o promover cierta ideología.

En la era de las "noticias falsas", el surgimiento de ideologías extremas y varias técnicas de desinformación es importante poder identificar el nivel de sesgo en el discurso: ya sean publicaciones en redes sociales, artículos periodísticos o discursos políticos.

El sesgo no es necesariamente algo malo. A veces puede hacer que una intención sea más fuerte, impulsar una agenda, hacer un punto, persuadir, disuadir y transformar. El sesgo es un agente de cambio, sin embargo, cuando hay demasiado de él, el sesgo también puede ser destructivo. Cuando medimos el sesgo medimos qué tan cargado ideológicamente es un texto, cuánto quiere expresar un cierto punto de vista. En algunos contextos, como ficción o discursos políticos muy cargados, un sesgo fuerte puede ser preferencial. En algunos otros contextos, como noticias o no ficción, un fuerte sesgo puede revelar una agenda.

Actualmente no hay herramientas que puedan medir el sesgo de un texto. Varias API de minería de textos clasifican los textos según su contenido y sentimiento, pero no hay instrumentos que puedan medir el nivel de inclinación hacia un cierto punto de vista en el texto. El instrumento y el método propuesto en este artículo pueden servir como el primer paso en esta dirección. La herramienta en línea de código abierto para el análisis de redes de texto que desarrollé ya puede medir el sesgo en función de esta metodología, por lo que le invitamos a probarlo en sus propios textos y ver cómo funciona. A continuación describo cómo funciona el índice de sesgo y algunos detalles técnicos.

La estructura del discurso como red dinámica.


Cualquier discurso puede representarse como una red: las palabras son los nodos y sus coincidencias son las conexiones entre ellos. El gráfico resultante traza las vías de circulación de significado. Podemos hacerlo más legible alineando los grupos de nodos que están más densamente conectados (algoritmo de atlas de fuerza) en los distintos grupos marcados con un color específico. También podemos hacer que los nodos más influyentes sean más grandes en el gráfico (los nodos con la centralidad de alta intermediación). Puede leer más sobre los detalles técnicos en este documento técnico sobre análisis de red de texto.

Por ejemplo, aquí hay una visualización de la charla de TED de Julian Treasure llamada “How to Speak So People Will Want to Listen”, realizada con este método. Si está interesado en ver el gráfico interactivo real, puede abrirlo aquí.





De este grafo podemos ver claramente que los conceptos principales son las nociones de
“people”, “time”, “world”, “listen”, “voice” etc.

Estos conceptos son las uniones para la circulación del significado en ese discurso en particular. Conectan las diferentes comunidades de nodos (designadas por distintos colores).

El algoritmo funciona de una manera que emula la percepción humana (siguiendo el modelo de lectura del paisaje, la idea de cebado semántico y también el sentido común): si las palabras se mencionan con frecuencia en el mismo contexto, formarán una comunidad en el gráfico. Si aparecen en diferentes contextos, se alejarán unos de otros. Si las palabras se usan con frecuencia para conectar diferentes contextos, aparecerán más grandes en el gráfico.

Como resultado, la estructura de un grafo de red de texto puede decirnos mucho sobre la estructura del discurso.

Por ejemplo, si el gráfico tiene una estructura de comunidad pronunciada (varias comunidades de palabras diferentes), el discurso también tiene varios temas distintos, que se expresan en el texto. En nuestro ejemplo tenemos al menos 4 temas principales:

people — listen — speak (dark green)
time —talk —register (light green)
world—sound—powerful (orange)
amazing—voice (pink)

Si analizamos otros textos de la misma manera, veremos que las estructuras gráficas resultantes son diferentes. Por ejemplo, aquí hay una visualización del primer capítulo de Quaran:


Visualización de la red de texto de Quaran realizada con InfraNodus. La estructura del gráfico es menos diversificada y más centralizada. Hay solo unos pocos conceptos principales, el discurso circula alrededor de ellos, el resto del texto apoya los conceptos principales.

Se puede ver que tiene una estructura de red diferente. Es mucho más centralizado y menos diversificado. Hay algunos conceptos principales:

“god”, “people”, “believe”, “lord”, “give”

y todo el discurso circula en torno a estos conceptos. Todas las otras nociones están ahí para apoyar las principales.

Realizamos un análisis similar con los discursos de inauguración de los presidentes de EE. UU. De 1969 a 2013 y visualizamos la forma en que su narrativa cambió con el tiempo:

US Presidential Inauguration Speeches 1969-2013 from Nodus Labs on Vimeo.

Visualización de los discursos de inauguración de los presidentes de los Estados Unidos realizados con InfraNodus (TNA) y Gephi (visualización). Se puede ver que con el tiempo la estructura se mantiene más o menos igual, sin embargo, los discursos de Obama parecen tener términos influyentes más distintos, lo que indica un discurso más diversificado.

Se puede ver que mientras la estructura del discurso se mantuvo más o menos igual a lo largo de los años, mientras que los conceptos enfatizados han cambiado con cada dirección. Esto puede indicar que la estrategia retórica se mantuvo igual, mientras que el contenido se ha transformado con los años. Los discursos de Obama parecen tener un mayor número de nodos influyentes distintos, lo que puede indicar un discurso más diversificado.

El sesgo como un conducto para la ideología en las redes


Ahora que hemos mostrado cómo el discurso se puede representar como una estructura de red, podemos discutir la noción de sesgo en el contexto de la ciencia de redes. Usaremos algunas ideas para la epidemiología para demostrar cómo la topología de la red afecta la velocidad y la propagación de la información a través de los nodos.

Una red se puede ver como una representación de las interacciones que ocurren a lo largo del tiempo, un diagrama de los rastros dejados por un proceso dinámico. Si estudiamos la topología de una red, podemos obtener una gran cantidad de información sobre la naturaleza de los procesos dinámicos que representa.

En el contexto de las ciencias sociales y de la atención médica, la información sobre la estructura de la red puede proporcionar información valiosa para la epidemiología: qué tan rápido se puede propagar una enfermedad (un virus, una opinión o cualquier otra (mala) información), qué tan lejos puede propagarse, qué es lo mejor. Las estrategias inmunológicas pueden ser.

Se ha demostrado (Abramson & Kuperman 2001; PastorSatorras & Vespignani 2001) que a medida que la estructura de una red se vuelve más aleatoria, su umbral epidemiológico disminuye. Las enfermedades, los virus, la desinformación pueden propagarse más rápido y a un mayor número de nodos. En otras palabras, como la estructura de la comunidad de una red es cada vez menos pronunciada y el número de conexiones aumenta, la red propaga información a más nodos y esta propagación se produce en oscilaciones altamente pronunciadas (infectadas / no infectadas).



Una figura del estudio de Abramson y Kuperman (2001) donde se muestra la fracción de elementos infectados (n) en relación con el tiempo (t) para redes con un grado diferente de trastorno (p). Cuanto mayor es el grado de desorden, más elementos se infectan, las oscilaciones se intensifican más y más, pero también el lapso de tiempo de la infección es relativamente corto.

Al mismo tiempo, cuando la estructura de la comunidad se pronuncia mientras la red está relativamente interconectada (red de mundo pequeño), los “bolsillos” de los nodos ayudan a mantener la enfermedad epidémica durante más tiempo en la red. En otras palabras, menos nodos pueden infectarse, pero la infección puede permanecer más tiempo (estado endémico).


Representación de estructuras de red: [a] aleatoria, [b] libre de escala (comunidades mejor pronunciadas) y, [c] jerárquica (menos conectividad global) (de Stocker et al. 2001)

En otro estudio realizado en varias redes sociales (Stocker, Cornforth y Bossomaier 2002) se ha demostrado que las redes jerárquicamente planas (es decir, desordenadas) no son tan estables como las que no tienen escala (es decir, las que tienen una estructura comunitaria más pronunciada ). En otras palabras, las jerarquías pueden ser buenas para pasar las órdenes, pero las estructuras sin escala son mejores para mantener una cosmovisión determinada.

Como podemos ver, no hay una topología de red que pueda considerarse preferencial. De hecho, depende de la intención, el contexto, la situación. En algunos casos, puede ser bueno si una red puede propagar información fácilmente a todos sus elementos relativamente rápido. En algunos otros casos la estabilidad puede ser más preferencial.

En general, la topología de una red refleja qué tan bien puede propagar la información, qué tan susceptible es a las nuevas ideas, si las ideas se apoderarán de toda la red solo durante un breve período de tiempo o permanecerán durante un período más largo.

El mismo enfoque se puede aplicar cuando estudiamos el sesgo. El supuesto aquí es que una red de discurso es una estructura que propaga ideas.

Si la estructura del discurso se centra en unos pocos nodos influyentes y no hay una estructura de comunidad pronunciada, significa que el discurso es bastante homogéneo y las ideas en torno a esos nodos se propagarán mejor que las ideas de la periferia. Designamos dicho discurso como parcializado.

Si, en el otro lado, una red de discurso consta de varias comunidades distintas de palabras / nodos (red de pequeño mundo sin escala) significa que hay varios temas distintos dentro del texto y cada uno de ellos recibe la misma importancia dentro del discurso. . A este discurso lo llamamos diversificado.

Una estructura de comunidad de red se puede identificar no solo de manera cualitativa mediante una visualización gráfica, sino también a través de la medida de modularidad (consulte Blondel et al 2008). Cuanto mayor sea la modularidad (generalmente por encima de 0,4), más pronunciada es la estructura de la comunidad.

Otro criterio importante es la distribución de la influencia (a través de las palabras / nodos más influyentes) en diferentes comunidades. Para que un discurso se diversifique, los nodos más influyentes deben distribuirse entre las diferentes comunidades. Utilizamos la entropía para medir la dispersión de influencia en el gráfico y tener esto en cuenta al identificar el nivel de sesgo. También verificamos si las comunidades principales incluyen un número de nodos desproporcionadamente alto, en cuyo caso el puntaje de diversificación disminuye y el número de componentes en el gráfico.

Por lo tanto, podemos identificar los tres criterios principales que podemos usar para identificar el nivel de sesgo en el discurso:
  • Estructura de la comunidad: cuán distintos son y el% de nodos que pertenecen a las comunidades principales;
  • Distribución de la influencia: cómo los nodos / palabras más influyentes se reparten entre los diferentes temas / comunidades gráficas;
  • Número de componentes del gráfico: cómo está conectado el discurso;

El índice de sesgo basado en la estructura del discurso

Sobre la base de las proposiciones y los criterios anteriores, proponemos el Índice de sesgo que tiene en cuenta la estructura del discurso y tiene cuatro parámetros principales:
  • Dispersado (sin sesgo)
  • Diversificado (sesgado localmente)
  • Enfocado (ligeramente parcial)
  • Sesgado (muy sesgado)

El primer valor, Dispersed, es un discurso que tiene una estructura de comunidad muy pronunciada (varios temas distintos) que no están muy bien conectados o tiene varios componentes (y, por lo tanto, ningún sesgo). Nuestras pruebas muestran que dichos gráficos se producen generalmente para poesía, notas personales, tweets esquizofrénicos y varios otros esfuerzos creativos. Por ejemplo, aquí hay una visualización del poema de Lord Byron "Darkness" (también puede consultar el gráfico interactivo en InfraNodus):


Visualización de la "Darkness" de Lord Byron realizada utilizando InfraNodus. La estructura del discurso se identifica como Dispersada (vea el panel de Análisis a la derecha) debido a la alta modularidad (0.68) y la alta influencia de la dispersión (las palabras más influyentes se difunden entre las diferentes comunidades y solo el 14% de las palabras están en la parte superior comunidad).

Como podemos ver en el gráfico, es bastante escaso visualmente y nuestra herramienta ha identificado la estructura del discurso como Dispersada porque la medida de modularidad es bastante alta (comunidades / temas pronunciados) y los nodos / palabras influyentes se distribuyen bastante equitativamente entre los temas principales (80 % de dispersión y solo el 14% de las palabras en la comunidad / tema superior). Si lees el poema mismo, verás que tiene un vocabulario bastante rico y que evoca muchas imágenes diversas, sin tratar de impulsar una agenda específica (quizás solo a través de medios poéticos, no retóricos).

El siguiente valor, Diversificated, es un discurso que tiene una estructura de comunidad pronunciada pero donde las comunidades están bien conectadas. Por lo general, indica un discurso que refleja varias perspectivas diferentes y les otorga una posición más o menos igual en el nivel global (sesgo local). Muchos artículos y charlas que tienen como objetivo presentar varios puntos de vista, notas de investigación, titulares de periódicos (tomados de una variedad de fuentes) y piezas de no ficción tendrán esta estructura. Por ejemplo, aquí hay una visualización de los titulares de las noticias (con teasers) del 4 de octubre de 2018 (vea la visualización interactiva aquí):


Visualización de los titulares de noticias y teasers (a través de RSS) realizada con InfraNodus para el 4 de octubre de 2018, tomada de NYT, WSJ, FT, The Guardian y Washington Post. Como podemos ver, la selección de noticias se clasifica como Diversificada, ya que la medida de modularidad es relativamente alta y, sin embargo, los temas también están relacionados entre sí. Las palabras más influyentes se reparten entre los principales grupos / comunidades tópicas, lo que indica que la selección de noticias fue bastante diversa.

Podemos ver que la estructura del discurso está clasificada como diversificada, lo que significa que hay varios temas distintos que se desarrollan dentro de este discurso y, sin embargo, están conectados a nivel global.
El tercer valor, Focused, indica un discurso que tiene un sesgo suave hacia un tema determinado. Por lo general, esto significa que el discurso presenta varias perspectivas, pero se enfoca en una sola, y lo desarrolla aún más. Las estructuras del discurso con el puntaje Enfocado son características de los artículos periodísticos, ensayos, informes, que están diseñados para proporcionar una representación clara y concisa de una idea determinada. Por ejemplo, aquí hay una visualización de las tres partes anteriores de este artículo:


Las tres secciones anteriores de este artículo se visualizan como un gráfico de texto utilizando InfraNodus. Podemos ver que la estructura del discurso está clasificada como Enfocada, lo que indica un ligero sesgo. La estructura de la comunidad está presente, pero no son muy distintas. Casi todas las palabras más influyentes se concentran en una comunidad / tema: "red / estructura / discurso" y luego hay un tema más pequeño con "texto / sesgo / medida".

Finalmente, el cuarto tipo de estructura del discurso es parcial, que es característico de los textos que tienen una estructura de comunidad baja o nula. Las ideas principales se concentran juntas y todas las otras nociones utilizadas en el texto están ahí para apoyar la agenda principal. Dicha estructura de discurso generalmente se puede observar en textos altamente ideológicos, discursos políticos y cualquier otro texto, que recurre a la retórica para persuadir a las personas a actuar. Por ejemplo, aquí hay una visualización de El Manifiesto Comunista:


Visualización de red de texto del Manifiesto comunista utilizando InfraNodus. La estructura de la comunidad no se pronuncia y las palabras más influyentes pertenecen a los dos temas principales y están altamente interconectadas. El resto del discurso está subyugado hacia la agenda principal (lucha de clases).

Epílogo

En este artículo, propuse una medida del sesgo del discurso en función de la estructura de la visualización de la red de texto y de varios parámetros que se pueden obtener a partir del análisis gráfico.

Es importante tener en cuenta que no afirmo (todavía) que las proposiciones que hice son científicamente sólidas. Un estudio completo sobre un corpus de datos mucho más grande está en camino (es bienvenido a unirse).

Mi experiencia muestra que este índice puede ser útil al estudiar textos y ya está implementado como una característica de trabajo en la herramienta de visualización y análisis de red de texto InfraNodus.

Por lo tanto, los invito a que lo prueben usted mismo y me envíen cualquier comentario, sugerencia y propuesta que puedan tener. Por favor, siéntase libre de dejar cualquier comentario aquí, estaría muy curioso de ver lo que piensa y cómo podemos desarrollarlo más. InfraNodus es una herramienta de código abierto, por lo que le invitamos a unirse e implementar cualquier propuesta que pueda tener como código.

viernes, 13 de abril de 2018

Machine learning y redes de textos detectan cambios en los estereotipos

Los investigadores de Stanford usan el algoritmo de aprendizaje automático para medir los cambios en el sesgo étnico y de género en los EE. UU.

La nueva investigación de Stanford muestra que, durante el siglo pasado, los cambios lingüísticos en los estereotipos de género y étnicos se correlacionaron con los principales movimientos sociales y los cambios demográficos en los datos del censo de los EE. UU.


Alex Shashkevich | Stanford News




Un equipo de Stanford usó algoritmos especiales para detectar la evolución de los sesgos étnicos y de género entre los estadounidenses desde 1900 hasta el presente. (Crédito de la imagen: mousitj / Getty Images)

Los sistemas de inteligencia artificial y los algoritmos de aprendizaje automático han sido criticados recientemente porque pueden recoger y reforzar los prejuicios existentes en nuestra sociedad, según los datos con los que están programados.

Pero un grupo interdisciplinario de académicos de Stanford resolvió este problema en un nuevo documento de Procedimientos de la Academia Nacional de Ciencias publicado el 3 de abril.

Los investigadores usaron incrustaciones de palabras, una técnica algorítmica que puede mapear relaciones y asociaciones entre palabras, para medir los cambios en los estereotipos de género y étnicos durante el siglo pasado en los Estados Unidos. Analizaron grandes bases de datos de libros, periódicos y otros textos estadounidenses y observaron cómo esos cambios lingüísticos se correlacionaban con los datos demográficos del Censo de EE. UU. y los grandes cambios sociales como el movimiento de mujeres en la década de 1960 y el aumento de la inmigración asiática, según la investigación.

"Las incrustaciones de palabras se pueden usar como un microscopio para estudiar los cambios históricos en los estereotipos en nuestra sociedad", dijo James Zou, profesor asistente de ciencia de datos biomédicos. "Nuestra investigación previa ha demostrado que las incrustaciones capturan de manera efectiva los estereotipos existentes y que esos sesgos se pueden eliminar sistemáticamente. Pero creemos que, en lugar de eliminar esos estereotipos, también podemos utilizar las incrustaciones como un objetivo histórico para los análisis cuantitativos, lingüísticos y sociológicos de los sesgos ".

Zou es coautor del artículo con historia del profesor Londa Schiebinger, del profesor de lingüística e informática Dan Jurafsky y del estudiante graduado en ingeniería eléctrica Nikhil Garg, quien fue el autor principal.

"Este tipo de investigación nos abre todo tipo de puertas", dijo Schiebinger. "Proporciona un nuevo nivel de evidencia que permite a los especialistas en humanidades responder preguntas sobre la evolución de los estereotipos y los sesgos a una escala que nunca antes se había hecho".

La geometría de las palabras

Una palabra incrustada es un algoritmo que se usa o se entrena en una colección de texto. El algoritmo luego asigna un vector geométrico a cada palabra, representando cada palabra como un punto en el espacio. La técnica utiliza la ubicación en este espacio para capturar asociaciones entre palabras en el texto fuente.

"Las incrustaciones son una poderosa herramienta lingüística para medir aspectos sutiles del significado de las palabras, como el prejuicio", dijo Jurafsky.

Tome la palabra "honorable". Usando la herramienta de incrustación, investigaciones previas encontraron que el adjetivo tiene una relación más cercana a la palabra "hombre" que a la palabra "mujer".

En su nueva investigación, el equipo de Stanford utilizó incrustaciones para identificar ocupaciones y adjetivos específicos que fueron sesgados hacia las mujeres y grupos étnicos particulares por década desde 1900 hasta el presente. Los investigadores formaron esas incrustaciones en bases de datos de periódicos y también usaron incrustaciones previamente entrenadas por el estudiante de posgrado en informática Stanford Will Hamilton en otros conjuntos de datos de gran tamaño, como el corpus de libros estadounidenses de libros de Google, que contiene más de 130 mil millones de palabras publicadas durante los días 20 y 21 siglos.

Los investigadores compararon los sesgos encontrados por esas incrustaciones con los cambios demográficos en los datos del censo de EE. UU. Entre 1900 y el presente.

Cambios en los estereotipos

Los resultados de la investigación mostraron cambios cuantificables en las representaciones de género y los prejuicios hacia los asiáticos y otros grupos étnicos durante el siglo XX.

Uno de los hallazgos clave que surgieron fue cómo los sesgos hacia las mujeres cambiaron para mejor, de alguna manera, con el tiempo.

Por ejemplo, adjetivos como "inteligente", "lógico" y "reflexivo" se asociaron más con los hombres en la primera mitad del siglo XX. Pero desde la década de 1960, las mismas palabras se han asociado cada vez más con las mujeres en cada década siguiente, lo que se correlaciona con el movimiento de mujeres en la década de 1960, aunque todavía existe una brecha.

La investigación también mostró un cambio dramático en los estereotipos hacia los asiáticos y asiáticos americanos.

Por ejemplo, en la década de 1910, palabras como "bárbaro", "monstruoso" y "cruel" fueron los adjetivos más asociados con los apellidos asiáticos. En la década de 1990, esos adjetivos fueron reemplazados por palabras como "inhibido", "pasivo" y "sensible". Este cambio lingüístico se correlaciona con un fuerte aumento de la inmigración asiática a los Estados Unidos en las décadas de 1960 y 1980 y un cambio en los estereotipos culturales. dijeron los investigadores

"Me llamó la atención la crudeza del cambio en los estereotipos", dijo Garg. "Cuando estudias la historia, aprendes acerca de las campañas de propaganda y estos puntos de vista obsoletos de los grupos extranjeros. Pero lo que la literatura producida en ese momento reflejaba esos estereotipos era difícil de apreciar ".

En general, los investigadores demostraron que los cambios en las incrustaciones de palabras seguían de cerca los cambios demográficos medidos por el censo de Estados Unidos.

Fructífera colaboración

La nueva investigación ilumina el valor del trabajo en equipo interdisciplinario entre las humanidades y las ciencias, dijeron los investigadores.

Schiebinger dijo que se acercó a Zou, quien se unió a Stanford en 2016, después de leer su trabajo anterior sobre la despersonalización de los algoritmos de aprendizaje automático.

"Esto llevó a una colaboración muy interesante y fructífera", dijo Schiebinger, y agregó que los miembros del grupo están trabajando en una mayor investigación conjunta.

"Subraya la importancia de que los humanistas y los científicos informáticos trabajen juntos. Hay un poder para estos nuevos métodos de aprendizaje automático en la investigación de humanidades que recién se está entendiendo ", dijo.

domingo, 11 de febrero de 2018

Usando ARS para búsquedas de estructura en textos

Usando métodos de búsqueda eficientes para la estructuración del contenido





Esta charla fue preparada para la presentación de un libro en Motto Art Bookstore en Berlín. El libro, Way to Russia Guidance, es una guía de viajes a Rusia realizada por Nodus Labs en colaboración con el recurso en línea más popular sobre Rusia waytorussia.net, que utiliza polysingularity como metodología para estructurar el contenido del libro.

Nodus Lab


El problema de la búsqueda y la recuperación de contenido

Considere que estás buscando algo en un libro. ¿Cuáles son las diferentes estrategias que podrías usar?

Una opción sería leerlo desde el principio hasta el final, pero eso llevaría mucho tiempo y no es el método más eficiente. Usar una computadora ayudaría, pero básicamente hace lo mismo y solo funciona porque puede realizar millones de operaciones por segundo. Preguntar a alguien que sabe es otra opción, pero es posible que no estén disponibles o que quizás no lo recuerden.

Otra tarea más complicada es obtener una visión general rápida del contenido del libro.
Es comparable a la primera tarea, excepto que no sabes lo que estás buscando.

De hecho, este es un problema muy serio, especialmente en los momentos de sobrecarga de información.

Entonces, ¿cómo podría resolverse de la manera más eficiente?


Inspiración # 1: Estrategias de búsqueda de ADN

Cada célula de nuestro cuerpo se enfrenta al mismo problema. Cualquier proceso que implique leer información genética tiene que leer primero esa información de la molécula de ADN larga. Las proteínas de unión podrían simplemente deslizarse a lo largo de la longitud completa del ADN, pero tomaría mucho tiempo y no sería eficiente (también podrían encontrar obstáculos).

La forma en que la evolución resolvió este problema es una búsqueda 1D / 3D (Marcovitz & Levy 2013).



Para encontrar el lugar correcto para unirse a lo largo de la molécula de ADN, una proteína se desliza a través de su longitud por un período de tiempo (esto se denomina búsqueda 1D). Luego, ya sea a intervalos o porque encuentra un obstáculo, realiza un "salto" de un lugar de la molécula a otro (esto se denomina búsqueda 3D).

La combinación de deslizamiento y saltos produce una estrategia de búsqueda muy eficiente donde la proteína se une rápidamente a las partes de la molécula que está buscando.

Inspiración # 2: narrativas adivinatorias

Otro ejemplo proviene de un área, que es diferente, pero todavía está relacionada con el estudio de la vida.

Las narrativas de la Divinidad, como el Tarot y el I Ching, se han usado durante mucho tiempo para proporcionar orientación y ayudar a encontrar la información correcta para actuar.

Tanto el Tarot como el I Ching están estructurados de forma modular. Hay 22 cartas (arcanos mayores) en el Tarot, cada una de las cuales representa un concepto y cuenta una historia (lea nuestro estudio sobre la estructura de la red del Tarot para obtener más información). I Ching tiene 64 hexagramas, cada hexagrama también representa un cierto concepto o una historia.

La lectura divinacional avanza a través de una serie de iteraciones aleatorias donde el lector elige uno o varios puntos de partida para leer. Las cartas (o hexagramas) luego conducen a las otras cartas (o hexagramas), por lo que al final el lector obtiene una muy buena visión general de todo el contenido sin tener que leer todo el libro.

De esta forma, tanto el Tarot como el I Ching son estructuras narrativas muy eficientes en el sentido de que le permiten al lector obtener la esencia del contenido en solo una fracción del tiempo que llevaría revisarlo todo.

Las conexiones entre los elementos no son aleatorias. De hecho, hay una estructura muy precisa en juego, que permite al lector obtener la representación más completa de las diferentes partes de la narración.

Por ejemplo, cada carta en Tarot está conectada a la carta antes y después (simplemente por orden cronológico). Es como abrir una página al azar en un libro y leer un poco antes y después para obtener el contexto correcto.
Luego, hay dos ciclos en arcanos mayores del Tarot, un ciclo procede de la tarjeta n. ° 1 a la n. ° 10, el otro ciclo procede de la n. ° 11 a la n. ° 20. Cada tarjeta en el primer ciclo se conecta a la tarjeta en el ciclo paralelo "paralelo". Este ciclo paralelo es simplemente una línea argumental paralela que comienza en el medio del "libro" del Tarot y pasa por un desarrollo similar a la primera línea argumental, pero con algunas alternancias. Una historia que es más madura, en cierto sentido. Por ejemplo, una tarjeta n. ° 2 está conectada a la tarjeta n. ° 12, n. ° 5 a n. ° 15, y así sucesivamente.
Finalmente, el último enlace es desde el comienzo del primer ciclo hasta el final del ciclo alternativo. Es como abrir un libro de 22 páginas en la página 3 y también leer la página 19, para que pueda hacerse una idea sobre el comienzo y el final de la historia.

Si todas las conexiones que existen entre las diferentes tarjetas se representan como una red, obtendremos una estructura que se ve así:

Conexiones entre cartas del Tarot


Curiosamente, tiene forma de hélice, una estructura que a menudo se encuentra en la biología.

Como podemos ver, este tipo de estructura de red es un mecanismo eficiente para estructurar la narrativa en el sentido de que si comienzas a "leer" esa estructura desde cualquier punto del gráfico, cubrirás toda la forma con solo unos pocos movimientos a lo largo de los vértices .

De esta manera, la estructura de la narrativa del Tarot logra el mismo objetivo que la búsqueda de ADN 1D / 3D: combina los movimientos a lo largo de la línea (cronología) con saltos en 3D a través de la estructura para obtener una visión más completa de una manera más eficiente.

Aún más interesante, este tipo de estructura de hélice se relaciona con la forma en que los cromosomas humanos están conectados entre sí. Si representamos 22 cromosomas como un gráfico (omitimos el 23 porque es un interruptor X / Y masculino / femenino) sus interacciones son muy similares a la hélice del Tarot, que es otra evidencia visual de que este tipo de estructura puede ser muy eficiente para la recuperación de información. (Ver el trabajo de Lieberman-Aiden para los antecedentes científicos detrás de este enfoque)

Análisis de la red de conexiones cromosómicas basado en el método hi-c


De la teoría a la práctica: construcción de la narrativa de un libro

Decidimos aplicar las dos metodologías anteriores para una tarea práctica de estructurar el contenido de un libro.

El tema seleccionado fue la guía de viaje porque ya implica algún tipo de eficiencia en la estructuración y también porque la gente suele leer la guía de viaje de forma rizomática.

En aras de la simplicidad, nos referimos a los métodos anteriores (búsqueda 1D / 3D y estructura narrativa similar a hélice) como Polysingularity. La razón es que ambos métodos combinan movimientos locales dentro de un determinado grupo (página) con saltos de largo recorrido a través de los grupos (de una página a otra). Entonces, si tuviéramos que representar el contenido de un libro como una red, donde los distintos temas son los nodos y sus conexiones son las relaciones entre ellos, obtendríamos una estructura que parece una combinación de singularidades que son lo suficientemente distintas pero que están conectados el uno con el otro.



Siguiendo esta metodología para la estructuración del libro, identificamos varios temas y las relaciones entre ellos.

Por ejemplo, como la guía de viaje es para Rusia, una página trata del Sputnik (el famoso satélite ruso) y la siguiente página sobre el arma Kalashnikov (otro tipo de tecnología militar rusa conocida). Sin embargo, la página del Sputnik también enlaza con el museo de Cosmonáutica en Moscú pero también con un hermoso lago en las montañas Altay donde las partes de los cohetes de la estación de lanzamiento espacial Baikonur caen para producir efectos de iluminación sorprendentes y contaminar la naturaleza circundante.



Una página con consejos de seguridad para los viajeros les aconseja disipar cualquier tensión que pueda surgir durante su viaje a Rusia a través de la disipación, lo que se puede lograr utilizando prácticas físicas (como Systema), pero también, si salen a bailar a música techno o para disparar en el campo de tiro en Moscú. Por lo tanto, la narrativa original se ramifica en muchas direcciones diferentes y permite al lector obtener una gama completa de experiencias contrastantes.



Este tipo de estructura es similar a la estructura de enlace de los documentos de Internet, excepto que conscientemente intenta enfocarse no solo en el contenido que es similar y relacionado, sino también en el contenido que puede estar en el lado opuesto del espectro, enriqueciendo así la experiencia de los viajeros y también proporcionar una especie de narrativa meta-guía a través de la guía en sí.

Referencias

Marcovitz & Levy (2013). Obstacles May Facilitate and Direct DNA Search by Proteins. Biophysics Journal
Lieberman-Aiden et al (2010). Comprehensive mapping of long range interactions reveals folding principles of the human genome. Science Magazine.

domingo, 24 de septiembre de 2017

Clusters bibliométricos sobre el Antropoceno

Mapeando una controversia de nuestro tiempo: El Antropoceno

Simone Belli | Lo Sguardo




Ofrecemos un análisis bibliométrico de la literatura y autores de la polémica disciplina antropocénica. Gracias a las herramientas digitales, comprendemos esta complejidad aprovechando la literatura existente y las redes digitales. Con el fin de apreciar el carácter interdisciplinario de la controversia, se muestran agrupamientos de co-citado publicaciones, co-autores, y co-occurrencia detérminos en los campos de las ciencias sociales, la agricultura y la biología, la ciencia ambiental y la Tierra y la ciencia planetaria. El carácter multidisciplinario de la investigación antropocénica se refleja en el análisis de la co-citación y en el análisis del término co-ocurrencia. Encontramos dos grupos de términos coexistentes, que representan acuerdo y desacuerdo con Antropoceno, y ofrecen una comparación de las obras emblemáticas presentadas en la red.



miércoles, 23 de agosto de 2017

Dinámica y construcción de grupos de colaboración en Wikipedia

Minería del grafo de Wikipedia: La estructura dinámica de la memoria colectiva

De Volodymyr Miz


Este es el blog que acompaña a nuestro próximo trabajo de investigación (pronto en arXiv); Trabajo conjunto con Kirell Benzi, Benjamin Ricaud y Pierre Vandergheynst (EPFL, LTS2). Aquí, nos centramos en los resultados, omitiendo los detalles del algoritmo y la implementación.

Introducción

Wikipedia es una gran fuente de análisis de datos debido a su destacada escala y la estructura del grafo. Decenas de millones de visitantes lo navegan a diario, dejando su huella en la Web. La combinación de la estructura del grafo de Wikipedia y la actividad del visitante en las páginas nos da el grafo dinámico - el grafo con señales de la serie de tiempo en los nodos. La naturaleza dinámica del grafo hace que el problema de análisis a gran escala sea bastante complicado.

En el artículo original analizamos el grafo de Wikipedia. El objetivo es detectar eventos y recuerdos colectivos utilizando la actividad de los visitantes de Wikipedia. Utilizamos un enfoque basado en grafos para construir nuestro modelo. El modelo computacional se inspira en la plasticidad sináptica y en la teoría de Hebbian.

No es sorprendente que no pudiéramos incluir todos los resultados en el trabajo. Aparte de eso, PDF es un formato bastante pobre para comunicar los hallazgos de la investigación. El objetivo de este post es mostrar los resultados de manera interactiva. Al leer el artículo y esta publicación, le recomendamos que abra los grafos, que aparezcan en todas partes en esta publicación y que juegue con ellos: haga clic con el botón de zoom, haga clic, mueva, busque y seleccione. Esta es de lejos la forma más divertida de sumergirnos en los principales resultados de nuestro trabajo.

Los grafos son interactivos


  1. Haga clic en cualquier grafo de este post para abrirlo en una nueva ventana.
  2. Haga zoom, haga clic en los nodos, busque las páginas por nombre, resalte los grupos por color.
    • Al hacer clic en un nodo, se seleccionan todos los vecinos.
    • Cuando selecciona un clúster, selecciona todos los nodos de este clúster.
    • La lista de nodos seleccionados aparece a la derecha.

Funciona mejor en la última versión de Chrome. NO intente abrir los grafos en un smartphone. Los grafos son demasiado grandes y puede tardar una eternidad en renderizarlos.


Conjunto de datos

Los conjuntos de datos originales están disponibles públicamente en el sitio web de Wikimedia. Tomamos los volcados SQL de los artículos de Wikipedia en inglés para crear el grafo. La actividad visitante es el número de visitas por página por hora. Consideramos el período de 02:00, 23 de septiembre de 2014 hasta las 23:00, 30 de abril de 2015. Los detalles de pre-procesamiento se describen en nuestro artículo en la sección Dataset.

Dinámica de la red Wikipedia




7 meses de dinámica Wikipedia graph

En el trabajo se supone que la dinámica del grafo puede afectar su estructura. Aplicamos la regla de actualización, basada en la señal en los nodos, para observar este efecto. Aquí mostramos que el grafo de Wikipedia puede auto-organizarse en los conjuntos de comunidades significativas de los nodos, si tenemos en cuenta la dinámica de actividad de los visitantes de la gráfica. Haga clic en el grafo de la derecha y explore el resultado por sí mismo.

Este grafo es el resultado de la dinámica de 7 meses de actividad de los visitantes en Wikipedia. Aquí puede encontrar los principales eventos que se han llevado a cabo durante el período considerado. Los eventos estables o programados, como torneos, ceremonias de premios, concursos y festividades más populares forman grandes grupos. Los eventos inestables o inesperados, como incidentes y accidentes, se agrupan en pequeños grupos. A pesar de que, este grafo proporciona un buen resumen de los patrones dinámicos, sólo podemos ver el resultado final. Lo que es más importante, es obtener información sobre la dinámica del grafo en el tiempo. ¿Cómo emergen los agrupamientos, evolucionan y desaparecen? Para responder a esta pregunta, elegimos un evento en particular y observamos su dinámica en detalles.


Dinámica de un evento: campeonato de la NFL

Con el fin de comprender la dinámica de la evolución del grafo, elegimos uno de los eventos más populares, destacado en la Wikipedia en inglés - el campeonato de la NFL. Consideramos la temporada 2014-2015. La parcela está a la derecha (haga clic para ampliar). Para la interpretabilidad de la trama extraímos 30 equipos de la NFL de 485 páginas en el grupo original. La línea de tiempo muestra la actividad general del grupo durante el período de 7 meses. La línea de tiempo de la dinámica del grafo y la evolución del cluster NFL se ilustra en la fila superior. Refleja el interés de los fanáticos de la NFL en el campeonato. El grupo es pequeño y escaso al principio del campeonato y se vuelve más denso y más grande, acercándose a la fecha final del juego. El comportamiento de los visitantes de Wikipedia durante el día del juego final Super Bowl es excepcional. La actividad de los aficionados de la NFL es mucho mayor, en comparación con la actividad de otros usuarios de Wikipedia. Hace una analogía con la vida real, cuando durante las finales los fans se convierten en la gente más activa en las calles.



El campeonato de la NFL es sólo un ejemplo de un evento detectado y su evolución. Puede explorar los grafos de la actividad mensual y consultar otros clústeres de eventos detectados. El número total de eventos detectados es 172. Haga clic en los grafos siguientes para abrir una versión interactiva y explorar por sí mismo.

      Octubre       Noviembre      Diciembre         Enero               Febrero           Marzo           Abril

El clúster NFL es un buen ejemplo de un evento estable, representado como uno de los clusters más grandes en el grafo resultante. ¿Qué pasa con los eventos no programados, como ataques y otros accidentes?


Memoria colectiva

Los eventos traumáticos, como ataques terroristas, accidentes aéreos, guerras y conflictos, a menudo nos recuerdan el pasado. Estos recuerdos son a menudo comunes para un grupo de personas en una comunidad social. Esa es la razón por la que se llaman recuerdos colectivos. Nuestro enfoque permite detectar estos recuerdos y sirve como un modelo general para la emergencia de la memoria colectiva. Proporcionamos los ejemplos de 3 eventos, detectados entre los demás.

Ejemplos de memorias colectivas se presentan en la siguiente tabla. Para mostrar los detalles de las memorias colectivas detectadas, seleccionamos 3 eventos particulares entre los otros detectados: Ferguson disturbio (segunda ola - 24 de noviembre de 2014), Charlie Hebdo ataque (07 de enero 2015), vuelo de Germanwings 9525 accidente de avión (24 de marzo , 2015). La fila superior contiene los grupos extraídos de memorias colectivas para cada uno de los eventos discutidos. La fila inferior muestra la actividad detallada de cada página en los clústeres.

Disturbios en FergusonAtaque a Charlie Hebdo Caída del Germanwings 9525

Vemos que los eventos centrales desencadenan recuerdos relevantes. Los disturbios de Ferguson nos recuerdan otros disturbios, disparos de gente inocente, e incluso nos lleva de regreso a la esclavitud en los Estados Unidos. Charlie Hebdo tiroteo tiene vínculos con otros ataques terroristas, derramamiento de sangre, y las agencias de aplicación de la ley. El accidente de Germanwings está rodeado por el denso grupo de los otros accidentes aéreos, lo que indica que los accidentes de vuelo están completamente estructurados en Wikipedia.

Aunque, podemos ver un poco de ruido en los racimos. El ruido es relevante para los temas principales de los conglomerados y no afecta la formación del conglomerado. Normalmente, la fuente principal del ruido es un nodo, que es relevante para varios grupos de eventos. Por ejemplo, el grupo de disturbios de Ferguson contiene el grupo nodo anónimo. Este nodo enlaza otro gran grupo de empresas líderes en tecnología y comercio electrónico. En este caso, el primer aumento constante de la actividad es causado por la página de compras en línea, ya que el día más rentable para las tiendas en línea se detectó el 11/11/2014. Otro ejemplo del ruido está en el racimo de Germanwings. La causa principal del ruido es la página del día - 24 de marzo - que contiene la mayoría de los acontecimientos históricos notables.

A pesar de que el ruido es causado por páginas bastante populares, el algoritmo sigue siendo capaz de localizar los eventos más pequeños y crear clusters relevantes. Para detectar eventos más pequeños, como los presentados en los ejemplos, se utilizó una ventana de tiempo menor de una semana. Los pequeños eventos aún se pueden encontrar en los grafos dinámicos mensuales, presentados en la sección anterior de la tabla de línea de tiempo. Revise los grafos y busque los eventos de su interés.

Conclusiones

Wikipedia puede decirnos más de lo que está escrito en sus páginas. Es una gran fuente de datos para la investigación colectiva del comportamiento humano. Sin embargo, la naturaleza dinámica de los datos estructurados por grafos genera nuevos retos para la ciencia de los datos y el aprendizaje automático. En el artículo propusimos un nuevo método para la detección de patrones en grafos dinámicos a gran escala. Aplicamos el método a los conjuntos de datos de Wikipedia. Hemos logrado detectar patrones dinámicos en términos de eventos y recuerdos colectivos en Wikipedia usando la combinación del grafo de hipervínculos y la actividad de los visitantes en el sitio web. El siguiente paso es mejorar la parte de filtrado del algoritmo para disminuir la cantidad de ruido, descrita en la sección de memoria colectiva de este post.

Herramientas y código

Hacemos todos los experimentos utilizando Apache Spark GraphX. El código está escrito en Scala y disponible en GitHub. El pre-procesamiento de datos se puede hacer usando el código Python, disponible en otro repositorio de GitHub.

Expresiones de gratitud

Me gustaría dar las gracias a Michaël Defferrard por fructíferas discusiones y sugerencias útiles.