Mostrando entradas con la etiqueta Wikipedia. Mostrar todas las entradas
Mostrando entradas con la etiqueta Wikipedia. Mostrar todas las entradas

miércoles, 23 de agosto de 2017

Dinámica y construcción de grupos de colaboración en Wikipedia

Minería del grafo de Wikipedia: La estructura dinámica de la memoria colectiva

De Volodymyr Miz


Este es el blog que acompaña a nuestro próximo trabajo de investigación (pronto en arXiv); Trabajo conjunto con Kirell Benzi, Benjamin Ricaud y Pierre Vandergheynst (EPFL, LTS2). Aquí, nos centramos en los resultados, omitiendo los detalles del algoritmo y la implementación.

Introducción

Wikipedia es una gran fuente de análisis de datos debido a su destacada escala y la estructura del grafo. Decenas de millones de visitantes lo navegan a diario, dejando su huella en la Web. La combinación de la estructura del grafo de Wikipedia y la actividad del visitante en las páginas nos da el grafo dinámico - el grafo con señales de la serie de tiempo en los nodos. La naturaleza dinámica del grafo hace que el problema de análisis a gran escala sea bastante complicado.

En el artículo original analizamos el grafo de Wikipedia. El objetivo es detectar eventos y recuerdos colectivos utilizando la actividad de los visitantes de Wikipedia. Utilizamos un enfoque basado en grafos para construir nuestro modelo. El modelo computacional se inspira en la plasticidad sináptica y en la teoría de Hebbian.

No es sorprendente que no pudiéramos incluir todos los resultados en el trabajo. Aparte de eso, PDF es un formato bastante pobre para comunicar los hallazgos de la investigación. El objetivo de este post es mostrar los resultados de manera interactiva. Al leer el artículo y esta publicación, le recomendamos que abra los grafos, que aparezcan en todas partes en esta publicación y que juegue con ellos: haga clic con el botón de zoom, haga clic, mueva, busque y seleccione. Esta es de lejos la forma más divertida de sumergirnos en los principales resultados de nuestro trabajo.

Los grafos son interactivos


  1. Haga clic en cualquier grafo de este post para abrirlo en una nueva ventana.
  2. Haga zoom, haga clic en los nodos, busque las páginas por nombre, resalte los grupos por color.
    • Al hacer clic en un nodo, se seleccionan todos los vecinos.
    • Cuando selecciona un clúster, selecciona todos los nodos de este clúster.
    • La lista de nodos seleccionados aparece a la derecha.

Funciona mejor en la última versión de Chrome. NO intente abrir los grafos en un smartphone. Los grafos son demasiado grandes y puede tardar una eternidad en renderizarlos.


Conjunto de datos

Los conjuntos de datos originales están disponibles públicamente en el sitio web de Wikimedia. Tomamos los volcados SQL de los artículos de Wikipedia en inglés para crear el grafo. La actividad visitante es el número de visitas por página por hora. Consideramos el período de 02:00, 23 de septiembre de 2014 hasta las 23:00, 30 de abril de 2015. Los detalles de pre-procesamiento se describen en nuestro artículo en la sección Dataset.

Dinámica de la red Wikipedia




7 meses de dinámica Wikipedia graph

En el trabajo se supone que la dinámica del grafo puede afectar su estructura. Aplicamos la regla de actualización, basada en la señal en los nodos, para observar este efecto. Aquí mostramos que el grafo de Wikipedia puede auto-organizarse en los conjuntos de comunidades significativas de los nodos, si tenemos en cuenta la dinámica de actividad de los visitantes de la gráfica. Haga clic en el grafo de la derecha y explore el resultado por sí mismo.

Este grafo es el resultado de la dinámica de 7 meses de actividad de los visitantes en Wikipedia. Aquí puede encontrar los principales eventos que se han llevado a cabo durante el período considerado. Los eventos estables o programados, como torneos, ceremonias de premios, concursos y festividades más populares forman grandes grupos. Los eventos inestables o inesperados, como incidentes y accidentes, se agrupan en pequeños grupos. A pesar de que, este grafo proporciona un buen resumen de los patrones dinámicos, sólo podemos ver el resultado final. Lo que es más importante, es obtener información sobre la dinámica del grafo en el tiempo. ¿Cómo emergen los agrupamientos, evolucionan y desaparecen? Para responder a esta pregunta, elegimos un evento en particular y observamos su dinámica en detalles.


Dinámica de un evento: campeonato de la NFL

Con el fin de comprender la dinámica de la evolución del grafo, elegimos uno de los eventos más populares, destacado en la Wikipedia en inglés - el campeonato de la NFL. Consideramos la temporada 2014-2015. La parcela está a la derecha (haga clic para ampliar). Para la interpretabilidad de la trama extraímos 30 equipos de la NFL de 485 páginas en el grupo original. La línea de tiempo muestra la actividad general del grupo durante el período de 7 meses. La línea de tiempo de la dinámica del grafo y la evolución del cluster NFL se ilustra en la fila superior. Refleja el interés de los fanáticos de la NFL en el campeonato. El grupo es pequeño y escaso al principio del campeonato y se vuelve más denso y más grande, acercándose a la fecha final del juego. El comportamiento de los visitantes de Wikipedia durante el día del juego final Super Bowl es excepcional. La actividad de los aficionados de la NFL es mucho mayor, en comparación con la actividad de otros usuarios de Wikipedia. Hace una analogía con la vida real, cuando durante las finales los fans se convierten en la gente más activa en las calles.



El campeonato de la NFL es sólo un ejemplo de un evento detectado y su evolución. Puede explorar los grafos de la actividad mensual y consultar otros clústeres de eventos detectados. El número total de eventos detectados es 172. Haga clic en los grafos siguientes para abrir una versión interactiva y explorar por sí mismo.

      Octubre       Noviembre      Diciembre         Enero               Febrero           Marzo           Abril

El clúster NFL es un buen ejemplo de un evento estable, representado como uno de los clusters más grandes en el grafo resultante. ¿Qué pasa con los eventos no programados, como ataques y otros accidentes?


Memoria colectiva

Los eventos traumáticos, como ataques terroristas, accidentes aéreos, guerras y conflictos, a menudo nos recuerdan el pasado. Estos recuerdos son a menudo comunes para un grupo de personas en una comunidad social. Esa es la razón por la que se llaman recuerdos colectivos. Nuestro enfoque permite detectar estos recuerdos y sirve como un modelo general para la emergencia de la memoria colectiva. Proporcionamos los ejemplos de 3 eventos, detectados entre los demás.

Ejemplos de memorias colectivas se presentan en la siguiente tabla. Para mostrar los detalles de las memorias colectivas detectadas, seleccionamos 3 eventos particulares entre los otros detectados: Ferguson disturbio (segunda ola - 24 de noviembre de 2014), Charlie Hebdo ataque (07 de enero 2015), vuelo de Germanwings 9525 accidente de avión (24 de marzo , 2015). La fila superior contiene los grupos extraídos de memorias colectivas para cada uno de los eventos discutidos. La fila inferior muestra la actividad detallada de cada página en los clústeres.

Disturbios en FergusonAtaque a Charlie Hebdo Caída del Germanwings 9525

Vemos que los eventos centrales desencadenan recuerdos relevantes. Los disturbios de Ferguson nos recuerdan otros disturbios, disparos de gente inocente, e incluso nos lleva de regreso a la esclavitud en los Estados Unidos. Charlie Hebdo tiroteo tiene vínculos con otros ataques terroristas, derramamiento de sangre, y las agencias de aplicación de la ley. El accidente de Germanwings está rodeado por el denso grupo de los otros accidentes aéreos, lo que indica que los accidentes de vuelo están completamente estructurados en Wikipedia.

Aunque, podemos ver un poco de ruido en los racimos. El ruido es relevante para los temas principales de los conglomerados y no afecta la formación del conglomerado. Normalmente, la fuente principal del ruido es un nodo, que es relevante para varios grupos de eventos. Por ejemplo, el grupo de disturbios de Ferguson contiene el grupo nodo anónimo. Este nodo enlaza otro gran grupo de empresas líderes en tecnología y comercio electrónico. En este caso, el primer aumento constante de la actividad es causado por la página de compras en línea, ya que el día más rentable para las tiendas en línea se detectó el 11/11/2014. Otro ejemplo del ruido está en el racimo de Germanwings. La causa principal del ruido es la página del día - 24 de marzo - que contiene la mayoría de los acontecimientos históricos notables.

A pesar de que el ruido es causado por páginas bastante populares, el algoritmo sigue siendo capaz de localizar los eventos más pequeños y crear clusters relevantes. Para detectar eventos más pequeños, como los presentados en los ejemplos, se utilizó una ventana de tiempo menor de una semana. Los pequeños eventos aún se pueden encontrar en los grafos dinámicos mensuales, presentados en la sección anterior de la tabla de línea de tiempo. Revise los grafos y busque los eventos de su interés.

Conclusiones

Wikipedia puede decirnos más de lo que está escrito en sus páginas. Es una gran fuente de datos para la investigación colectiva del comportamiento humano. Sin embargo, la naturaleza dinámica de los datos estructurados por grafos genera nuevos retos para la ciencia de los datos y el aprendizaje automático. En el artículo propusimos un nuevo método para la detección de patrones en grafos dinámicos a gran escala. Aplicamos el método a los conjuntos de datos de Wikipedia. Hemos logrado detectar patrones dinámicos en términos de eventos y recuerdos colectivos en Wikipedia usando la combinación del grafo de hipervínculos y la actividad de los visitantes en el sitio web. El siguiente paso es mejorar la parte de filtrado del algoritmo para disminuir la cantidad de ruido, descrita en la sección de memoria colectiva de este post.

Herramientas y código

Hacemos todos los experimentos utilizando Apache Spark GraphX. El código está escrito en Scala y disponible en GitHub. El pre-procesamiento de datos se puede hacer usando el código Python, disponible en otro repositorio de GitHub.

Expresiones de gratitud

Me gustaría dar las gracias a Michaël Defferrard por fructíferas discusiones y sugerencias útiles.

domingo, 19 de junio de 2016

Redes de normas y temas en Wikipedia

La evolución de la red de normas de Wikipedia
Bradi Heaberlin y Simon DeDeo
Future Internet


Resumen: Las normas sociales han sido tradicionalmente difíciles de cuantificar. En cualquier sociedad en particular, su cantidad y las interdependencias complejas a menudo limitan un análisis a nivel de sistema. Una excepción es la de la red de normas que sustentan la comunidad de Wikipedia en línea. Estudiamos la evolución de quince años de esta red con el conjunto interconectado de páginas que se establecen, describiendo e interpretando las normas de la comunidad. A pesar de la reputación de Wikipedia de gobernabilidad ad hoc, nos encontramos con que su evolución normativa es muy conservadora. Los primeros usuarios crean normas que tanto dominan la red y persisten en el tiempo. Estas normas básicas rigen tanto el contenido como las interacciones interpersonales utilizando principios abstractos como la neutralidad, verificabilidad, y asumen de buena fe. A medida que la red crece, vecindarios de normas se desacoplan topológicamente el uno del otro, mientras que el aumento en la coherencia semántica. Tomados en conjunto, estos resultados sugieren que la evolución de la red de Wikipedia norma es similar a los sistemas burocráticos que son anteriores a la era de la información.
Palabras clave: normas sociales; redes de normas; Wikipedia; oligarquía; burocracia; gobernancia; conocimiento común


1. Introducción

Las ideas comunes de la sociedad sobre cómo se "debe" gobernar comportan características esenciales de la vida económica y política [1,2,3,4,5,6]. Fuera de ambientes idealizados de teoría de juegos, por ejemplo, los incentivos económicos se complementan con las normas sobre la honestidad y un salario más alto es posible cuando los trabajadores creen que no deberían engañar a su empleador [7]. Y, si bien la estructura racional de las normas y leyes es una parte importante de las acciones de coordinación y deseos [8], las personas a determinar la legitimidad de estas soluciones basadas en las creencias acerca de la imparcialidad y la autoridad. Una fuerza policial sin legitimidad no puede hacer cumplir la ley [9,10].
Las normas también están en desarrollo continuo. La norma moderna contra la violencia física, por ejemplo, tiene raíces inesperados y sigue evolucionando [11,12,13]. Sin embargo, entendemos mucho menos acerca de la historia y el desarrollo de las normas que sobre la economía o la ley [14]. A menudo carecen de los datos que nos permita hacer el seguimiento de la coevolución de las ideas complejas, interrelacionadas e interpretativos, tales como la honestidad, la justicia, y la autoridad, la forma en que podemos realizar un seguimiento de los precios y los flujos monetarios o la creación y el cumplimiento de los estatutos.
Los sistemas en línea, tales como Wikipedia, proporcionan nuevas oportunidades para estudiar el desarrollo de normas en el tiempo. Junto con los repositorios de información y de códigos en el centro de la economía mundial moderna, tales como GNU / Linux, Wikipedia es un ejemplo canónico de un conocimiento común [15,16,17,18]. conocimientos comunes se basan en las normas, en lugar de los mercados o leyes, para la mayor parte de su gobierno [19,20]. En Wikipedia, editores colaboran para escribir artículos enciclopédicos en un entorno de código abierto gestionado por la comunidad [21,22], y que se basan en las normas sociales para estandarizar y gobiernan sus decisiones de edición [23]. los registros del servidor minuto a minuto de Wikipedia cubren más de quince años de creación de normas y la evolución de una población de editores que se contaban por decenas de miles. Las normas son importantes en la Wikipedia en formas que hacen que sea imposible para que los participantes pasan por alto: es el sistema de normas, en lugar de leyes justas, que dicta lo que el contenido está o no está incluido, que participa, y lo que hacen.
Paralelamente a los hallazgos en el estudio de la evolución regla en grandes instituciones académicas [24], esperamos que las normas de Wikipedia que juegan un papel en la preservación de la memoria institucional, para ser una fuente de estabilidad institucional y el cambio, y que tienen una relación compleja con el circunstancias que llevaron a su creación. páginas norma desempeñan un papel clave en la coordinación de comportamiento entre los editores de la Enciclopedia [25]. Editores citan habitualmente las normas sobre las páginas de discusión de artículos en un intento de coordinar [26], crear consenso y resolver conflictos [23,27].
Este estudio se centra en un subespacio de la enciclopedia dedicada a la información y discusión acerca de las normas de la propia enciclopedia. Las comunidades asociadas a cada uno de 291 idiomas y ediciones tienen una gran independencia para definir y modificar las normas que utilizan de Wikipedia; o sea, se puede seguir una trayectoria evolutiva diferente. Aquí, nos centramos únicamente en las normas de la Wikipedia en idioma Inglés. Se estudia la evolución de estas normas utilizando un subconjunto de las páginas enlazadas estrechamente que establecen, describir e interpretar ellos. Estas páginas, junto con las relaciones entre ellos, nos permiten cuantificar cómo los editores describen las expectativas de comportamiento y, en consecuencia, la forma de crear y volver a interpretar las normas de su comunidad.
Nos centramos en los enlaces entre páginas norma. la formación en línea de enlace se produce por una variedad de razones [28], incluyendo la asociación estratégica por la persona que hace la cita [29]. En el caso de Wikipedia, enlaces entre páginas en la enciclopedia "mainspace" codifican información acerca de las relaciones semánticas [30,31] y la importancia relativa de las páginas [32,33]. La extensión de estos análisis a las páginas de la enciclopedia norma nos permite ver cómo se describen las normas, justificados y explicados por referencia a otras normas. Nuestro uso de esta red es paralela a los estudios de citaciones en los sistemas jurídicos; los investigadores utilizan citas legales para realizar un seguimiento a través de la influencia de precedencia [34] y la legitimación [35], así como el prestigio de la citada [35,36]. El paralelo a las citaciones legales no es exacta: las páginas de la red norma de Wikipedia no (por lo general), creado en respuesta a un evento en particular, como en un caso judicial, sino más bien en respuesta a una necesidad percibida son; páginas pueden ser creados por cualquier usuario, en lugar de un juez o tribunal en particular; y las páginas pueden ser editadas de forma retrospectiva (que conduce, por ejemplo, a la posibilidad de ciclos de gráfico cuando se introducen nuevos enlaces).
Esta perspectiva de la red nos permite ir más allá del seguimiento de un solo comportamiento a través del tiempo (un enfoque común en los estudios de la evolución cultural [37]) para examinar la evolución de las relaciones entre cientos, e incluso miles, de ideas distintas. Utilizamos estos datos para formular tres preguntas críticas. En un sistema en el que constantemente se están discutiendo y crean normas, cómo y cuándo algunas normas llegan a dominar sobre los demás? ¿Qué tipo de comportamiento es lo que gobiernan? Además, ¿cómo esas normas básicas evolucionan con el tiempo?
Las respuestas son sorprendentes. Mientras que algunas cuentas de Wikipedia subrayan su flexibilidad y la naturaleza ad hoc de su gobierno [38,39,40], nos encontramos con que la evolución normativa de la Wikipedia es muy conservadora. Normas que dominan el sistema en los últimos años de la Wikipedia se crearon temprano, cuando la población era mucho menor. Estas normas básicas dicen los editores de la forma de escribir y artículos de formato; también describen cómo colaborar con los demás cuando se enfrentan a los desacuerdos e incluso acaloradas discusiones. Para ello, las normas básicas de referencia, principios racionalizadas universales, como la neutralidad, verificabilidad, la cortesía, y el consenso. Con el tiempo, los barrios de la red de estas normas se desacoplan topológicamente. Mientras lo hacen, su coherencia semántica interna aumenta, tal como se mide utilizando un modelo tema del texto de la página. normas básicas abstractas de Wikipedia y proceso de desacoplamiento muestran que adopta una estructura "organización institucionalizada" similar a los sistemas burocráticos que son anteriores a la era de la información [41].

2. Métodos

Para recopilar datos sobre la red de normas en la Wikipedia, que SPIDER enlaces dentro del "espacio de nombres" reservado para (entre otras cosas) las políticas, lineamientos, procesos y discusión. Estas páginas pueden ser identificados debido a que llevan el prefijo "Wikipedia:" o "WP:". Los nodos de red son páginas. aristas dirigidas entre páginas se producen cuando una página enlaza a otra a través de al menos un hipervínculo que cumple con nuestros criterios de filtrado; estos enlaces se encuentran analizando el código HTML en bruto de cada página y con exclusión de las plantillas de navegación estándar y listas. Nuestra red es, pues, ambos dirigidos y no ponderado. Comenzamos nuestro rastreo en la (seleccionado arbitrariamente) página norma "Asumir la buena fe". Los detalles del proceso de rastreo, los filtros de hipervínculo y el post-tratamiento de los enlaces entre páginas aparecen en el Apéndice A; tanto los datos sin procesar y procesada nuestra red están libremente disponibles en línea [42].
Editores clasifican las páginas del espacio de nombres mediante la adición de etiquetas; estas etiquetas incluyen, sobre todo, "la política", "guía", y "ensayo", entre otros. Cuando descargamos texto de la página, también registrar estas categorizaciones. Estas categorizaciones describen los niveles de gradated expectativas para la adhesión [43]. En el texto "plantilla" que se incluye de forma automática-, las políticas se describen como "normas ampliamente aceptadas" que "todos los editores debe seguir normalmente" [44], las directrices como "normas de aceptación general" que "los editores deben intentar seguir" y para el que "de vez en cuando excepciones pueden ocurrir "[45], mientras que los ensayos proporcionan" apoyo y opinión ":" [s] ome ensayos representan normas generalizadas ", mientras que" otros sólo representan puntos de vista minoritarios "[46]. Una cuarta categoría es la "propuesta", que describe las posibles políticas y directrices "Sin embargo ... en el desarrollo, en discusión, o en el proceso de reunir consenso para la adopción" [47].
Los análisis previos de entorno de políticas de Wikipedia ha hecho hincapié en los muchos, a menudo se superponen, las funciones que las normas de juego en la enciclopedia, como las políticas que tanto intento de controlar el uso no-autorizado de material con derechos de autor y para establecer la legitimidad a través del uso de la dicción legal y la gramática [ 25]. En el estudio actual, consideramos un sistema de clasificación complementaria que se centra en los tipos de interacciones de las normas regulan, en lugar de sus funciones. Proponemos tres categorías distintas normativas en base a, y la clasificación se extiende, preexistente de las normas que rigen [19] y conocimientos comunes naturales [20].
Las normas pueden intentar regular la creación de contenido (normas "-Contenido de Usuario") e interacciones entre los usuarios (normas "usuario-usuario"). Además, las normas pueden intentar definir una estructura administrativa más formal con distintas funciones, deberes y las expectativas de los administradores (normas "usuario-admin"). Los dos autores de este trabajo clasifican de forma independiente una muestra aleatoria de cuarenta páginas que utilizan este esquema, y ​​se calculó la confiabilidad entre codificadores utilizando kappa de Cohen [48].
Para nuestro análisis semántico, incluimos todos los textos, excepto que se encuentra en cajas especiales cuyo texto es reproducido por la plantilla a través de múltiples páginas. Para construir nuestra distribución a través de uno-gramas, se normaliza todo el texto a minúsculas, combinar palabras con guiones ( "corrección de errores" a "errorcorrection"), y soltar puntuación ( "no" a "don't"). Hacemos ninguna corrección derivada ni de ortografía.
Una variable externa crítico es el número de usuarios activos en la enciclopedia en cualquier punto en el tiempo. Tras [49], definimos un usuario activo como uno que ha hecho cinco o más ediciones dentro de un mes; estas estadísticas se mantienen públicamente en [50].

2.1. Medidas de centralidad y atención 

Las páginas de nuestro corpus se crean para explicar las normas de Wikipedia para editores e influir en sus interacciones con la comunidad de edición de la enciclopedia y el contenido. Los usuarios navegar por el sistema de normas como una estructura de red y por lo tanto se encuentran con algunas de las páginas más que otros.
Lo medimos utilizando centralidad del vector propio (CE), que cuantifica la importancia de una página en función de su accesibilidad global dentro de la red. La CE de una página es la probabilidad de que ocurra a través de una página durante una caminata al azar; equivalente al algoritmo PageRank, que se utiliza en las ciencias del comportamiento para identificar a un consenso sobre el dominio y el poder [51]. Hemos establecido ε, la probabilidad de un salto al azar, a 0,15.
Esperamos que algunas de las páginas que se convierten en ideal para acceder a la red, mientras que otros permanecen en gran parte periférica. Estamos cuantificar la desigualdad del sistema utilizando el coeficiente de Gini (GC). GC varía entre cero (igualdad perfecta, todas las páginas tienen la misma CE) y uno (una página tiene un alto CE; todas las demás páginas tienen el mismo valor bajo). GC es ampliamente utilizado en economía para medir la desigualdad en los ingresos. A continuación, se proporciona una medida global de la medida en que un sistema está dominado por unas pocas normas. Como una cantidad sin dimensiones, que permite a los investigadores comparar este sistema con otras que pueden ser objeto de una investigación posterior.
Debido a que estamos interesados ​​en la forma en que evoluciona la red norma citación y el papel que juegan las normas en el contexto de esta estructura, la CE es una medida ideal de la importancia de una norma. Además de cuantificar importancia estructural, sin embargo, se espera que la CE para correlacionar con, y para predecir, medidas de comportamiento de la atención que recibe una página. Para medir la relación entre centralidad y de comportamiento medidas de atención, hacemos un seguimiento de visitas de página de datos (a partir de los registros del servidor de Wikipedia puestos a disposición por StatsGrok [52], véase el Apéndice B), el número total de ediciones de una página ha recibido, el número de ediciones en diversas su página de discusión asociada, y el número de editores que han editado la página. Llevamos a cabo una regresión lineal multivariable sobre estas medidas de atención, junto con la edad y el tamaño de página de la página (en bytes) como predictores de la página de un CE (véase el Apéndice C).

2.2. Influencia y superposición

Una característica importante de la red de norma es la esfera de influencia: las páginas que se basan en cualquier página en particular para el contexto.
Consideremos, por ejemplo, la página norma "Punto de vista neutral" (PVN), una página instando a los editores para describir los sujetos de artículos sin tomar partido. Una página que enlaza con PVN se refiere a su propio sujeto NPOV de alguna manera. Por ejemplo, entre muchas páginas que enlazan con PVN es "Propaganda", un ensayo instando a los editores que tener cuidado con el uso de medios de propaganda de los gobiernos autoritarios. La página de enlaces a la página de la propaganda de PVN el fin de definir la noción de "peso indebido"; El contenido de PVN por lo tanto se puede decir de influir en la interpretación de lo que se encuentra en la propaganda.
La influencia es distinta de centralidad; medidas de centralidad en la medida en que páginas enlazan a la página en cuestión. Por el contrario, la influencia mide el grado en que el contenido de esa página influencias otras páginas. En nuestro formalismo, un nodo p puede ser entendida para influir en un nodo q cuando Q enlaces a p. Influencia no necesita ser directa, sin embargo: p puede influir q si q enlaces a R y R enlaces a p. Para medir la influencia no local, consideramos paseos aleatorios en la red la dirección invertida.
Más formalmente, la colocación de un caminante aleatorio en el nodo p, permitimos que ella tome n pasos de este punto de partida a lo largo de la red de orientación invertida; escribimos la distribución de probabilidad resultante sobre la posición final como pi, la probabilidad de que el caminante terminando en el nodo i. El pi de distribución define la influencia que tiene en p i.
Para cuantificar la distancia entre dos nodos, se considera además la superposición influencia entre dos nodos arbitrarias p y q. Solapamiento cuantifica el grado en que dos caminantes al azar, a partir de estos nodos, tenderán a visitar las mismas páginas. Si pi y qi son las distribuciones de probabilidad asociados con la influencia de nodo p y q, a continuación, se superponen, se define como:


     (1)

Por varias páginas, podemos calcular la media de superposición de par en par simplemente promediando la superposición entre todos los pares posibles dentro del conjunto.
Alta superposición entre p y q indica que dos páginas influyen en un gran número de nodos comunes. Cuando n tiende a infinito, los caminantes al azar convergen a la distribución estacionaria, y la superposición es uno; A la inversa, cuando n es pequeño, caminantes aleatorios tienen menos tiempo para encontrar uno al otro. Tomamos n igual a cinco, más grande que el camino más corto promedio (aproximadamente tres, en nuestra red), de manera que los nodos son potencialmente alcanzable, pero mucho menos que el tiempo de convergencia a la distribución estacionaria.
La superposición puede ser pensado como una medida de la separación de las esferas de influencia. Se invoca únicos mecanismos locales: los usuarios que viajan de una página a otra mediante los enlaces que los conectan. Esto es en contraste a una medida, tal como los caminos más cortos, lo que es computacionalmente caro y requiere un conocimiento detallado, global del enlace-estructura de la red. En general, por ejemplo, el número de nodos de un algoritmo necesita visitar el fin de determinar el camino más corto entre dos nodos por lo general será mucho mayor que la longitud de la trayectoria final.
Tanto la influencia y la superposición requieren que especifique los nodos particulares de interés; nos centramos en este trabajo sobre pares de páginas de alta CE, o normas básicas.

2.3. La coherencia semántica

Consideramos que las relaciones semánticas entre las páginas. Esto proporciona una noción de relación que es distinta de cómo las normas se conectan a través de hipervínculos. Para ello, hacemos (asignación de Dirichlet latente [53]) El modelado de tema en los uno-gramos del, texto legible aparece en cada página. Tema modelos nos permiten representar textos cortos, incluso cuando se obtienen de un rico vocabulario: temas de grano grueso de las distribuciones subyacentes más palabras.
Con el modelo resultante tema, entonces podemos calcular la distancia semántica entre todos los pares de páginas utilizando la distancia Jensen-Shannon (JSD), una medida que cuantifica la posibilidad de distinguir de las dos distribuciones [54]. Esto nos da una red semántica con peso que se puede comparar a la red de enlaces entre páginas. En particular, podemos calcular la coherencia semántica: la correlación de Pearson entre pi (la influencia del nodo p en el nodo i) y el JSD negativo desde el nodo P al nodo i, Ji. Cuando los nodos que están estrechamente relacionadas topológicamente también están estrechamente relacionadas semánticamente (JSD baja), la coherencia es alta.

2.4. La detección de la comunidad

Esperamos que los enlaces que los editores hacen a nivel local para dar lugar a grupos distintos, o haces norma, a nivel mundial. Usamos el algoritmo de detección de Lovaina comunidad [55] para detectar la agrupación entre los nodos de la red. El algoritmo de Lovaina maximiza la modularidad en cada partición local de la red. El primer algoritmo asigna a cada nodo i al otro clúster, a continuación, calcula la ganancia potencial de la modularidad i para unirse al grupo de su nodo vecino j. Cada voy a unirse al grupo de j cuando la combinación de la ganancia ofrece modularidad positiva más alta. Si no hay un posible aumento de la modularidad, que permanece en su grupo inicial.

martes, 24 de febrero de 2015

Cómo cambian las personas más importantes según la cultura (de Wikipedia)

La Antropología Computacional revela cómo las personas más importantes de la historia varían según la cultura
Personas que hacen Data Mining en Wikipedia revela algunas diferencias sorprendentes en la forma en culturas orientales y occidentales identifican figuras importantes en la historia, dicen los antropólogos computacionales.
MIT Technology Review



El estudio de las diferencias entre las culturas se ha visto revolucionado por la Internet y el comportamiento de las personas en línea. De hecho, este fenómeno está detrás del nacimiento de la nueva ciencia de la antropología computacional.

Una ventana especialmente fructífera en las almas de diferentes culturas es Wikipedia, la enciclopedia en línea multitud de fuentes con más de 31 millones de artículos en 285 idiomas diferentes. Una categoría importante consiste en artículos sobre personas importantes. Y no cualquiera puede aparecer. Wikipedia tiene criterios específicos que las personas notables deben cumplir para la inclusión mérito.

Así que una pregunta interesante es cómo las personas más importantes varían de una versión de idioma de Wikipedia a otra. Es evidente que estas diferencias deben surgir de las fuerzas culturales que determinan la notabilidad (o notoriedad) en diferentes partes del mundo.

Hoy en día, Peter Gloor en el Instituto de Tecnología de Massachusetts en Cambridge y algunos compañeros dicen que han calculado las personas más importantes en cuatro versiones lingüísticas diferentes de Wikipedia-Inglés, alemán, chino y japonés. Y dicen diferencias importantes surgen, no sólo en los nombres que aparecen, pero en el más amplio de maquillaje de las listas.

El objetivo del equipo es crear una red social de todas las personas que aparecen en alguna versión lingüística de Wikipedia. Empiezan por la descarga de los artículos para todas las personas de un prominente total de 800.000 en la versión en Inglés, por ejemplo.

Ellos junto extraen las fechas de nacimiento y muerte y trabajan fuera que la gente estaba vivo al mismo tiempo. Posteriormente, se examinan los enlaces en cada página para determinar quien señala a quién. Esto permite Gloor y co que elabore una red de vínculos entre las personas que vivían en el mismo tiempo para cada año entre 3000 y 1950 antes de Cristo.

Por ejemplo, las personas más importantes en el año 0 incluyen el historiador griego y biógrafo Plutarco que está vinculado a los contemporáneos como Adriano, César y Nerón. Sin embargo, los vínculos de la página de Plutarco a personas que vivieron antes o después de él se ignoran.

Por último, Gloor y co clasifican las personas en estas redes de importancia utilizando el famoso algoritmo PageRank. Este es el mismo algoritmo que Google utiliza para clasificar las páginas en sus páginas de búsqueda. Su acción consiste en la clasificación de las entradas más altamente si son señaladas por otras entradas que también los primeros puestos.

Las listas resultantes son una lectura interesante. Las versiones más largas contienen 50 entradas pero incluso las primeras entradas revelan algunas diferencias interesantes entre las diferentes versiones lingüísticas.

Los cinco primeros en la versión en Inglés son George W Bush, William Shakespeare, el biógrafo victoriano Sidney Lee, Jesús y Carlos II de Inglaterra.

Los cinco primeros en alemán son: Adolf Hitler, Johan Goethe, Aristóteles, el Papa Benedicto XVI y Platón.

En la versión china son: Mao Zedong, a principios del siglo 20 emperador y general Yuan Shikai, el cantante taiwanés Jay Chou, el guerrero samurái del siglo 16 Oda Nobunaga y el gobernante japonés del siglo 16 Tokugawa Ieyasu.

Y en japonés: el biógrafo del siglo 20 Ikuhiko Hata, el gobernante japonés del siglo 16 Tokugawa Ieyasu, el guerrero japonés del siglo 16 Toyotomi Hideyoshi, Adolf Hitler y el guerrero samurai del siglo 16 Oda Nobunaga.

Estas listas muestran las personas más importantes de todos los tiempos en estas culturas, decir Gloor y co. Hay varias características notables que distinguen este del oeste. Por ejemplo, la parte superior 50 de la versión japonesa contiene sólo los guerreros y los políticos al igual que los 10 de la versión china. Por el contrario, cerca de la mitad de los diez primeros y top 50 son científicos, artistas o líderes religiosos en las versiones occidentales.

Del mismo modo que llama la atención es la prevalencia de cifras de otras partes del mundo. Los líderes no son en inglés constituyen el 80 por ciento de las entradas de la lista de idiomas Inglés. Por el contrario, sólo un puñado de líderes que no son chinos aparecen en la versión en idioma chino.

Un artefacto de la forma en que estas listas se compilan es el papel de los historiadores. Los biógrafos Sidney Lee y Ikuhiko Hata son tanto prominente debido a los enlaces desde sus páginas a los contemporáneos que han escrito sobre. Eso les da claramente una importancia exagerada en este ranking.

Sin embargo, la clasificación proporcionan una interesante visión de las fuerzas que dan forma al sentido cultural de importancia en todo el mundo. "Sondeo de la perspectiva histórica de muchos diferentes Wikipedias en lengua específica ofrece una vista de rayos X profundamente en los fundamentos históricos de la comprensión cultural de los diferentes países", dicen Gloor y co.

Fascinante trabajo y claramente hay más oro que se extrae de la cada vez más rico mineral culturales en la Wikipedia.

Ref: arxiv.org/abs/1502.05256 Cultural Anthropology Through the Lens of Wikipedia - A Comparison of Historical Leadership Networks in the English, Chinese, Japanese and German Wikipedia




miércoles, 11 de febrero de 2015

Visualización: Millares de páginas de Wikipedia

100.000 páginas más populares de la Wikipedia, renderizadas como una galaxia
Click para volar
Por Francie Diep - Popular Science


Ilustración que muestra una bola de, puntos de colores brillantes
La Wikipedia Galaxia

Tal vez usted se imagina la Internet como un conjunto de tubos, o una web, o una serie de senderos del jardín. Un estudiante en París imaginado como una galaxia. Él ha hecho una visualización de 100.000 artículos más populares de Wikipedia en el 2014 que se puede "volar" a través de haciendo clic. Nos encanta. Usted puede visitar aquí.

En la Wikipedia Galaxia, cada página se representa como una estrella, con páginas relacionadas agrupados cerca uno del otro. "Estrellas" de la misma categoría de acciones del mismo color. Las estrellas fugaces que se deslizan por la pantalla son los robots. He tratado de perseguirlos, pero parece que no puede hacer clic en ellos o hacer nada con ellos.
captura de pantalla de la visualización Wikipedia Galaxia muestra la & quot; & quot universo; página


Visitando la página "Universo" en la Wikipedia Galaxy
Captura de pantalla de WikiGalaxy por Owen Cornec

¿Te has divertido visitar la Wikigalaxy? Echa un vistazo a estas visualizaciones, también: Un gráfico de 800.000 trabajos científicos; Una mirada a los exoplanetas cercanos y los primeros juegos de Nintendo, prestados en forma de espiral.

sábado, 11 de octubre de 2014

Buscando a los influyentes en el diseño de encuestas en línea

Inspirados en Wikipedia, científicos sociales crean una revolución en las encuestas en línea 
La mayor parte de la información en Wikipedia proviene de una pequeña proporción de los usuarios. Ahora los científicos sociales están recogiendo datos de manera similar, lo que permite a los participantes a diseñar encuestas, ya que contribuyen. 
MIT Technology Review



La recopilación de datos sobre las preferencias y las actividades humanas es el pan y la mantequilla de mucha investigación en las ciencias sociales. Pero lo mejor para recopilar estos datos ha sido durante mucho tiempo objeto de un intenso debate.

Los científicos sociales tienen esencialmente dos opciones. Por un lado, están las encuestas de opinión pública sobre la base de un conjunto de preguntas de opción múltiple, un enfoque denominado cerrado. Por otro, hay enfoques abiertos en forma de entrevistas que van libres en las que los encuestados tienen la libertad de decir lo que piensan. Es evidente que hay ventajas y desventajas de cada método importantes.

Hoy, Mateo Salganik en la Universidad de Princeton en Nueva Jersey y Karen Levy de la Universidad de Nueva York delinear una forma completamente nueva de recopilación de datos inspirados por una nueva generación de sistemas de agregación de la información tales como Wikipedia. "Así como Wikipedia evoluciona con el tiempo sobre la base de las contribuciones de los participantes, prevemos una encuesta evolución impulsada por las contribuciones de los encuestados", dicen.

Dicen que el nuevo enfoque puede aportar datos que serían difíciles de obtener con otros métodos. Pero también presenta desafíos para los científicos sociales, sobre todo cuando se trata de analizar los datos recogidos de esta manera.

Proyectos como Wikipedia son el resultado de contenido generado por usuarios en una escala masiva. La pregunta que Salganik y Levy pregunta es si las encuestas también pueden ser construidos por los encuestados sí mismos, al menos en parte.

Para averiguarlo, estos chicos han desarrollado un nuevo tipo de mecanismo de recolección de datos que ellos llaman una encuesta wiki. Esto comienza con una serie de preguntas de semillas, pero permite a los encuestados que añaden sus propias preguntas como la encuesta implica.

Esta encuesta wiki toma una forma particular en la que se pide a los encuestados que elegir entre dos opciones: hacer que prefieren Punto A o Punto B, por ejemplo. Pero lo más importante, sino que también puede agregar un nuevo elemento que se va a presentar a los futuros participantes. Así que conforme pasa el tiempo, el número de elementos para elegir aumenta a medida que los encuestados sugieren sus propias ideas.

Este tipo de encuesta pairwise tiene un número de ventajas. Salganik y Levy señalan que este formato permite a los participantes para responder a tantas opciones como desee. Ellos llaman a esto la codicia propiedad.

Este tipo de encuesta también permite a los encuestados aportan nuevos elementos siempre que lo deseen y también lo es únicamente de colaboración. Por último, las parejas que se presentan a los nuevos participantes pueden ser seleccionados de una manera que maximiza el aprendizaje basado en las respuestas anteriores por lo que una encuesta wiki puede adaptarse a medida que evoluciona.

Para probar la idea, Salganik y Levy crearon un sitio web gratuito llamado www.allourideas.org en el que cualquiera puede crear una encuesta wiki por parejas y reunir los encuestados de un público objetivo animado a participar. Desde 2010, este sitio web ha sido sede de unos 5.000 encuestas wiki por parejas que han incluido 200.000 artículos y cosechado 5 millones de respuestas.

Salganik y Levy discutir en detalle el ejemplo de una encuesta realizada por la Oficina de Planificación a Largo Plazo y Sustentabilidad dirigido por alcalde de Nueva York. Esta organización quería entender las ideas de los residentes sobre el plan de sostenibilidad de la ciudad e integrar los nuevos pensamientos.

La Alcaldía comenzó con una lista de 25 elementos de semillas que se pidió a la gente a comparar en la moda por parejas, y al mismo tiempo estimular a los participantes para añadir sus propias ideas. Por ejemplo, se pidió a la gente a elegir entre los "patios escolares abiertos en toda la ciudad como parques infantiles públicos" y "Aumentar objetivo la plantación de árboles en barrios con altos índices de asma."

Más de cuatro meses, 1.436 encuestados aportaron más de 30.000 respuestas y 464 nuevas ideas a la encuesta. Al final de la encuesta, ocho de las 10 ideas más altas de puntuación se habían aportado por los propios encuestados.

Estas ideas incluidas que habría sido poco probable que surja a través de otros métodos de recolección de datos, como "Mantener el agua potable de NYC limpia mediante la prohibición de la fractura hidráulica en la cuenca de Nueva York" y "Enchufe los buques a la red eléctrica para que no estén inactivos en el puerto-reduciendo las emisiones en un equivalente a 12.000 coches por barco " [Plug ships into electricity grid so they don’t idle in port—reducing emissions equivalent to 12,000 cars per ship.].

Salganik y Levy se apresuran a señalar que su método requiere una investigación más sustancial.

En particular, es necesario entender mejor la consistencia y validez de las respuestas que generan. Esto podría hacerse mediante la comparación de los resultados con los recogidos por otras formas de recolección de datos.

Es más, el análisis de los datos de las encuestas wiki pares sigue siendo algo de un experimento estadístico. Y ofrecen una especie de desafío a la comunidad estadística para encontrar las maneras más eficientes de extracción de información de este tipo de proceso.

Ese es un nuevo enfoque interesante que permite la recogida de datos que serían difíciles de obtener por otros métodos. En particular, se permite que los datos se recogerán de una manera que refleja la conocida distribución de cola larga de colaboradores.

Por ejemplo, en la Wikipedia la mayor parte de la información se intuye por una pequeña proporción de los editores. "Si Wikipedia fuera a permitir que 10 ya sólo 10 ediciones por-editor similar a una encuesta que requiere encuestados para completar una y sólo una forma-sería excluir el 95% de las ediciones contribuyeron", dicen Salganik y Levy.

Por supuesto, este tipo de sesgo debe tenerse en cuenta cuando se trata de análisis de datos. Y ahí radica un reto importante. La hora de los estadísticos para ponerse a trabajar.