martes, 14 de junio de 2016

Visualizando comunidades en Twitter usando Gephi

Visualización de las agrupaciones de Twitter con Gephi (actualización)
por Gabe Sawhney

[Esta actualización de mi proyecto de visualización de clúster Twitter es también el informe final para el estudio independiente que he estado haciendo en infoviz. Definitivamente, voy a recoger este trabajo de nuevo pronto, pero no en el próximo par de semanas. Un post anterior con algunas de mis primeras pruebas y fundamentos está aquí. Un tutorial sobre cómo empezar a hacer estos está aquí.]

Durante los últimos meses he estado absorbiendo mucho acerca de la visualización de información, y en las últimas cuatro semanas que he estado haciendo un montón de trabajo específicamente en la visualización de clusters basados ​​en la red Twitter. El objetivo de esto se describe en un post anterior. En el camino, he aprendido un montón raro de otras cosas: el ajuste del rendimiento de MySQL, las ventajas de la API de Google Social Graph sobre la API de Twitter, cómo moverse por el hecho de que muchos de los equipos del laboratorio de OCAD todavía se están ejecutando OS 10.5, cómo hacer un screencast, etc. Quiero aprovechar este trabajo en un montón de otras direcciones (y, una vez que me he ocupado de mis otras fechas límite). He aquí algunos de los mapas más interesantes que he producido a lo largo del camino:

En pocas las personas que siguen. (193 nodos, 192 enlaces):



Las personas que siguen, incluyendo los enlaces entre ellos (193 nodos, 2813 enlaces):



Los mismos datos, pero ahora con las agrupaciones identificadas:



Hay 7 "comunidades", que corresponden (¡torpemente!) a estas comunidades en el mundo real: arte / previsión / grandes datos; Toronto; tecnología Toronto; CFC / OCAD; Vancouver / Montreal / académicos; innovación social; otro.

Ahora vamos más grande - 6528 nodos y 30599 enlaces. Que es todo el mundo que sigo, y todo el mundo que siguen, pero filtrando aquellos que son seguidos por menos de dos personas en el resto de la red. Aquí es donde el algoritmo de agrupamiento incorporada en Gephi comienza a sturggle: se identificaron 103 agrupaciones:



Se trata de los mismos datos, pero los que tienen menos de 3 seguidores en la red se filtran, al igual que cualquier usuario con más de 4000 seguidores (desde cualquier lugar, no sólo por esta red). El número de grupos se redujo a 30. 2674 nodos, 14376 enlaces:



La misma idea, pero esta vez con mayores restricciones: el "Grado A" tenían que ser de al menos 2, y excluye cualquier persona con más de 2000 seguidores. 4061 nodos, 11667 enlaces, 402 comunidades (!):





Lo probé en las redes de los demás. Aquí hay uno; Sólo los seguidores directos. Las etiquetas también! (150 nodos, 2440 enlaces, 5 grupos):



Sobre el papel, se ve mucho mejor con un fondo negro. ¿Tal vez ocupa la pantalla demasiado ?:



Y un screencast de venir juntos:





Aquí hay otro, de nuevo sólo los seguidores directos. Dos versiones (208 nodos, 3013 enlaces, 7 clusters):




Mismos datos, pero esta vez sólo los nodos donde "In-Degree"> = 5 (4252 nodos, 34897 enlaces, 10 clusters):



He jugado un poco un manojo con la elaboración de mapas de dos o tres redes de personas a la vez, para ver hasta qué punto se superponen. Me pareció mucho más difícil para que sean legibles. Aquí hay una que resultó bien. Es toda la gente que sigo, y toda la gente que sigue a Greg. 568 nodos, 11732 enlaces, 8 comunidades. tamaño de los ganglios se corresponde con el número de seguidores que tiene la persona. Dos versiones, mismos datos, sólo una prestación diferente (hay un elemento de aleatoriedad al proceso):



También hice de screencast de éste:




En su presentación en estratos sobre la creación de prototipos con los datos, Tom Coates de Nokia dijo que a través de la experimentación (jugar?) Y la creación de prototipos, que "empiezan a desarrollar una comprensión más coloquial de los datos ...", que es muy valiosa para cuando llega el momento de desarrollar real ideas de productos. Me había olvidado de ese comentario hasta un punto intermedio de este trabajo. Yo estaba súper orgulloso de mis primeros mapas, pero se ven muy incómoda ahora. Durante estas semanas de trabajo con estos datos, he hecho progresos en encontrar la manera de manejar la situación, en primer lugar, cómo hacer que sea más legible, la forma de hacer que se vea mejor, y, de una manera que puedo " t aún describir, cómo funciona. No estoy todavía en la etapa de desarrollo de productos, pero por suerte que no era el objetivo.

Los lugares que voy a ir con ella al lado son:

  • Profundizar en la investigación sobre algoritmos de agrupamiento, y averiguar lo que sería necesario para ajustar el método de agrupación existente en Gephi, o crear otros nuevos que son más adecuados para grandes redes.
  • Hacer un montón de experimentos en la eliminación de nodos con un gran número de seguidores - estos tienden a ser no-humanos (como @TheOnion y @shitmydadsays) o celebridades (como @BarackObama y @ConanOBrien), y creo que ya que muchas personas de tantas comunidades diferentes que siguen, podrían ser 'cortocircuitos' el análisis de conglomerados. Experimentando con esto significaría ya sea manualmente la identificación de los usuarios de Twitter no humanos, o el uso de ensayo y error para ver si la eliminación de los usuarios con un gran número de seguidores da buenos resultados. (La solución fresca a este problema sería eliminar sólo aquellos usuarios que tienen un gran número de seguidores de un conjunto muy diverso de comunidades. Ni idea todavía cómo podría determinar eso.)
  • Mira en ajustar y escribir nuevas posibilidades de diseño y estilo con Gephi, mediante la creación de plugins.
  • La automatización de la creación de mapas, utilizando el kit de herramientas de Gephi, y / o una biblioteca de procesamiento que está en desarrollo. Las dos posibilidades inmediatas que esto introduciría son:
    • La creación de una página web en la que un usuario puede introducir un ID de Twitter y generar un mapa para ellos sobre la marcha (o en unos pocos minutos).
    • Prueba de diseño o de visualización algoritmos en un gran número de redes de los usuarios. Esto podría ser especialmente útil para el trabajo de ensayo y error requerido para hacer frente a las celebridades y los usuarios no humanos.

No hay comentarios:

Publicar un comentario en la entrada