sábado, 10 de septiembre de 2016

Análisis de cuentas verificadas de Twitter con Gephi

El análisis de 205.718 usuarios verificados Twitter
Desde el año 2008 se crea visualizaciones de red para comprender mejor cómo funcionan las comunidades. En este artículo voy a echar un vistazo a cómo verificada usuarios de Twitter están conectados y quienes son.

Startup Grind



Lo siento por la mala calidad de la imagen. Medio les parece comprimir mucho. Puede descargar el PNG original (5 MB). Para obtener más información sobre el algoritmo, mira la sección de recogida de datos en la parte inferior.

¿Cómo están conectados las cuentas verificadas en Twitter?

Aquí están todas las cuentas de Twitter verificados en una sola imagen. Cada nodo es una cuenta y el tamaño se debe a la cantidad de personas los siguen. Tamaño ajustado con interpolación spline para hacer las cuentas con menos seguidores más visible y reducir los tamaños de los que tienen el mayor número de seguidores. De lo contrario las cuentas con millones de seguidores serían mayores que los de las propias comunidades.

Nombrando las sub-comunidades

La imagen se ve bien, pero se vuelve interesante cuando se va más profundo. En cuanto a cada uno de estos nudos de cuentas para entender de qué se trata. Si tienen algo en común. O si no son más que la gente al azar siguientes entre sí.


En primer lugar tratamos de ver de que se tratan estos grupos


Como se puede ver en la imagen grande más adelante, los grupos no son tan desconectados como se ven sin las conexiones (bordes). Sin embargo, el algoritmo todavía era capaz de encontrar comunidades muy unidas. Y si bien hay muchas comunidades transversales siguientes, la mayoría de los siguientes ocurren entre las propias comunidades.
Todo el gráfico es de US céntrica. Ese gran nodo de color marrón en el medio de todo. Eso es @twitter. Y el azul claro se superpone con, que es @youtube. La otra gran luz azul en la parte inferior derecha media son celebridades. @katyperry, @justinbieber, @theellenshow, @rihanna, @ladygaga y así sucesivamente. Hay mucho más en juego en este sector centro, pero en esta visualización es difícil de ver. Voy a echar un vistazo más de cerca más adelante en este artículo.
Mientras que es posible diferenciar entre grupos de actualidad en el centro, para el resto de las sub-communites se agrupan principalmente regional. Esto tiene que ver con el menor número de cuentas verificadas para los demás países. Si pongo cada uno de estos grupos en su propio gráfico, estoy seguro de que será posible obtener una imagen más clara de cómo están conectados en sí mismo y no sólo una gota.
Alemania, Austria y Suiza están conectados de forma natural por el lenguaje. Canadá es la extensión de Estados Unidos hacia la izquierda, Reino Unido hacia la derecha y Australia en la parte inferior derecha. Una vez más, el lenguaje como un factor para ello. No es la cercanía cultural. Pero esto existe para más grupos.
Otro grupo de lengua española es de color verde en la parte superior. Incluso después de varios intentos, no fue capaz de encontrar otra conexión entre todas las cuentas agrupadas allí. Son de diferentes países de América del Sur, así como los medios de comunicación de Estados Unidos en español y más. Cerca de México, Argentina y España. Brasil, con cierta distancia.
Turquía está lejos de todos los demás. Especialmente la UE, que está justo al lado de la ONU y un poco de política del Reino Unido. Más cerca de la UE no es Israel. Me sorprendió que aparece cerca de Portugal, Finlandia, Suecia y Dinamarca. En el otro lado Rusia. Y justo detrás de Rusia Qatar y Arabia Saudita.
Francia tiene una posición de fuera en la parte superior derecha, alguna conexión con Italia y España. Lejos de la UE y Alemania. Pero no todos Alemania. Hay otro sub-comunidad alemana. Fútbol. O mejor: Bundesliga. Or está cerca de los Países Bajos también. Y, por supuesto, con el fútbol en el Reino Unido. Hay otro grupo de sub-comunidades cercanas: eSport. Y eSport pasa por contracción de los desarrolladores de juegos que se sientan en el borde de la burbuja de los Estados Unidos.
En el borde derecho no es Asia con muchas varias comunidades más pequeñas. Todavía no sé por qué Japón tiene dos sub-comunidades que no están tan bien conectadas entre sí.


205 mil cuentas de twitter verificadas y 19 millones de conexiones entre ellas

Viaje a través de la gráfica [video, alemán]




En el video Voy a través de los grandes sub-comunidades y hablar de lo que creo que son y por qué son exhibidas como un grupo distinto.

Lugares más populares


Top 25 lugares (como las personas que escriban en su biografía)

Twitter no tiene la función de autocompletar para los datos de localización como Facebook lo hace. La gente puede poner en el campo de ubicación de lo que quieran. Como resultado no es tan grande como para trabajar con los datos. Como se puede ver en el gráfico anterior en el Top 25 lugares tienen varias ortografías diferentes. Londres no es más popular que Los Ángeles, pero más personas utilizan el mismo formulario. Y éstas son sólo las formas más populares, para cada ciudad hay muchas formas diferentes de escribir ellos. Algunos añaden el estado, algunos del país, algunos utilizan el barrio y mucho más.
Tal vez voy a tener tiempo para mirar en todas estas formas de un día o encontrar una herramienta que los normaliza. Por ahora creo que la nube de la palabra es suficiente, ya que no se preocupa por la ubicación exacta de la palabra de la cadena.



La recogida de datos

Cuando llegó a mi cuenta de Twitter verificada, he notado que @verified comenzó a seguirme. En cuanto a sus seguidores que es fácil de adivinar que sigue cada cuenta verificada en Twitter. Por lo tanto, puedo decir que hay 206 000 cuentas verificadas en Twitter en el momento. Y comprueben alrededor de 1.000 cuentas cada día. Puede haber algunas cuentas que bloquean @verified y por lo tanto no aparecen en sus seguidores pero supongo que la cantidad es tan pequeña que puedo ignorarlo. El uso de la cuenta como punto de partida que es posible recoger la red de cuentas verificadas en Twitter.
He utilizado una versión modificada del comando Python twecoll herramienta de línea por JP de Vooght para recoger una lista de todas las cuentas seguido por @verified. Luego, la herramienta fue a través de todas estas cuentas 205k y miró a los que siguen. Para un conjunto de datos que he limitado a las cuentas que siguen a menos de 10 000 cuentas y un segundo conjunto de datos de cuentas que siguen a menos de 1 000 cuentas. Hay dos razones para esto. Las personas más administraciones siguen, el menos importante se vuelve cada conexión. La segunda razón es la limitación técnica de mi equipo (4670k i5 a 4,2GHz, 16GB de RAM, 250 GB de Samsung EVO 840, GTX 760). A pesar de que funciona con el conjunto de datos más grande, no es divertido para trabajar, porque todo lleva más tiempo.
La recolección de datos funcionó en una Frambuesa Pi 2 de 7 días a partir de 22. 28/08/2016 con sólo algunas horas de pausa debido a los errores que tenía que corregir manualmente. Debido al tiempo de largo plazo hay algunas inconsistencias en los datos cuando la gente sigue o unfollowed alguien en ese período de tiempo. En esta escala no hace una diferencia. Hay algunas cuentas en el conjunto de datos que no se verifica más. Tomé un vistazo más de cerca a las 36 cuentas. Estas fueron todas las cuentas que han perdido su estado verificado en un día de cada cuentas verificadas. La mitad de ellos elimina su cuenta / suspendieron, la otra mitad fue privado y perdió su estado verificado por eso.
El conjunto de datos grande, <10 000 seguidores, dispone de 205 718 cuentas de Twitter y 45 302 877 conexiones entre ellos. El conjunto de datos más pequeña, <1 000 seguidores, tiene 205.718 cuentas, así y 19 176 260 conexiones.
Yo uso Gephi para visualizar los datos. Pié el proceso de obtención de los datos en un estado útil. OpenOrd (25, 25, 25, 10, 15; cortar 0,8; 500 iteraciones) me dio la disposición más útil. Los colores son calculados por el algoritmo de modularidad. Puedo cambiar el tamaño de los nodos de vez en cuando. Si no se ha señalado que son seguidores.

Algunas Estadísticas generales

Cargué las estadísticas de las cuentas verificadas 205K en Excel e ignore las conexiones. Estos números no ignoran todas las cuentas, no importa cuántas cuentas que siguen.
Cuando presenté mi cuenta para la verificación, me dijeron que por algunos contactos que no tienen suficientes seguidores. De hecho cuentas verificadas tienen un promedio de 117 845 seguidores. Pero hay una gran cola larga. La mediana es a los 9 370 seguidores. Hay más de 100 mil cuentas con menos de 10 000 seguidores. Y el resto no tiene que mucho más. El promedio se sesgada por las cuentas de mega como @katyperry con 92.2m seguidores. Hay 188 cuentas verificadas con más de 10 millones de seguidores y 4 330 cuentas verificadas con más de 1 millón de seguidores. Hay una cuenta verificada con sólo dos seguidores.



Pero, ¿cuántas cuentas se atienen a las cuentas verificadas? Por término medio se siguen las cuentas de 2031. Pero de nuevo nos dieron algunos seguidores de mega. Una cuenta sigue cuentas 3.6m. La mediana se encuentra en una muy manejables 475 seguidores. Personalmente siento que todo por encima de 5 000 seguidores no se sigue de forma manual. Después de todo el mundo es una táctica frecuentemente usada para generar siguientes. Así que muchas personas hicieron que Twitter introdujo un límite que sólo se puede seguir un cierto porcentaje representa más de lo que sigue (Base Límite 5 000, límite diario 1 000). Esto dio lugar a una nueva táctica seguimiento y no seguir. Las cuentas siguen a tantas personas como sea posible y unfollow todo aquel que no siga de nuevo en x días. Estoy divagando. Hay 3 551 cuentas que siguen a nadie y 33 328 cuentas que siguen a otros a menos de 100. Una cuenta volvió a los siguientes negativos de -28. Supongo que eso es un error con la base de datos de Twitter.


Lo siento por la elección del eje.

Las cuentas verificadas han publicado una cantidad acumulada de 2 488 119 264 actualizaciones de estado. 12 095 en promedio. La mediana de 4 a 191. Sin cuenta la edad, estos números no significan nada. La mayoría de las cuentas son cuentas hablador de apoyo por parte de empresas. AmexOffers ha publicado tweets de 5,2 millones. Por supuesto que hay muchas cuentas verificadas, las cuales no han twitteado en absoluto. O eliminado todo. 131 para darle el número. 25 y 764 cuentas verificadas registraron menos de 500 tweets.



La mayoría de las cuentas de Twitter verificadas fueron creados en 2009. El gráfico anterior es bastante sorprendente si nos fijamos en la popularidad general de Twitter.



De lunes a domingo casi dos veces el número de cuentas se crearon que en el fin de semana. Necesito un conjunto de datos para compararla con antes de que yo puedo decir si esto es más probable que provenga de la pauta general de uso de Twitter o si estas cuentas son cuentas de trabajo es más probable que a menudo son creadas por las agencias.

Siete aprendizajes


  • Las cuentas verificadas están conectados regionalmente primera, segunda y temáticamente
  • El lenguaje es una característica importante mutua
  • Las cuentas más seguidas son las celebridades más populares
  • La política y la tecnología tienen más seguidores entre cuentas verificadas
  • Las cuentas de redes son influyentes de todo el mundo
  • La mayoría de las cuentas verificadas son muy activos, pero siguen pocas personas
  • Compartir grandes gráficos es complicada

Explora usted mismo y dime lo que has encontrado

Usted puede explorar la gráfica, ya sea como una versión GigaPan, que carga de forma dinámica o ir a por todas y tratar la versión de 30 MB sigma.js, que puede bloquear el navegador y toma algunos minutos en cargar, pero tiene una función de búsqueda. O sin búsqueda, pero es mejor utilizar el zoom. Ambos tienen su versión sigma.js eje Y invertida, lo que está en la parte superior de las capturas de pantalla aquí, está en el fondo allí.

Visualización zoomable en Gigapan
Compartir sus ideas en los comentarios oa través de Twitter.

Colabore conmigo

Quiero escribir artículos acerca de cada sub-comunidades y necesitan la ayuda de personas que ya están conociendo el grupo respectivo. Si quieres colaborar conmigo en uno de estos artículos por favor envíeme un correo electrónico con el grupo está interesado en: lucahammer@gmail.com. Entonces le envía un archivo con los datos establecidos para ese grupo, una breve guía de cómo se puede trabajar con él y un enlace de Google Docs en el que podemos trabajar el artículo juntos. Puede publicar el artículo final en su propio blog / medio / publicación o que publicarla aquí.


Aquí está la guía de cómo alguien puede analizar las redes de Twitter con Gephi

No hay comentarios:

Publicar un comentario en la entrada