viernes, 14 de octubre de 2016

Mapeando Twitter desde NodeXL y Gephi



Mapeo de Twitter con NodeXL y Gephi

@Matt - Medium

La comprensión de las relaciones en las redes sociales es una llave, pero en gran parte inexplorado, el área de estrategia digital. Entender quién le importa a las conversaciones que estés involucrarse con en línea es difícil en la medida en que es mucho tiempo; cientos de internar horas pasaron de sumergirse en retweets y la investigación para averiguar quién es importante. Resulta que hay una manera mejor.

Herramientas

Tendrá que NodeXL Pro para la adquisición de datos, y Gephi para la visualización de los datos. Coge 'em. Sí, NodeXL Pro es un poco caro, a menos que seas un estudiante.

Limitaciones

Twitter no da acceso directo manguera llena, pero en su lugar una muestra de todos los tweets de una búsqueda. Los detalles sobre el funcionamiento del mecanismo de muestreo son escasos, pero que trabajan con lo que tienes. Gnip, la plataforma API empresarial de Twitter, va a vender el acceso a la "decahose," el 10% de todos los tweets, por lo que escalar sus supuestos torno a lo que la API de búsqueda normal obtiene acceso a la sede fuera de eso.

Proceso

Este es un proceso de dos pasos; la adquisición de datos a continuación, visualizar. Para la primera parte vamos a utilizar NodeXL, y la segunda parte se entregará los datos en Gephi.
Adquisición de datos
Una vez que haya descargado e instalado la plantilla NodeXL, abrirlo y se le presentará con una pantalla similar a esta:



Haga clic en Importar en la parte superior izquierda y seleccione alguna de Twitter Red de búsqueda. Hay un montón de otras opciones aquí que probablemente son tentador, pero nos está pegando con Twitter por ahora. Selección de Twitter Red de búsqueda te llevará a otra pantalla, así:


Antes de empezar la primera vez, tendrá que permitir el acceso NodeXL su cuenta de Twitter en la parte inferior izquierda - ya que está tirando directamente de la API de Twitter, se necesita una llave para adjuntar a. Para otros usos, acaba de establecer como tener autorización.

Esto es donde deberá introducir el término de búsqueda que está interesado en el análisis, y lo que debe importar. Puede utilizar cualquiera de los operadores mencionados aquí en NodeXL también, porque es probable que desee para comenzar a encontrar la manera de filtrar los datos, en lugar de capturar todo.
A menos que sepa lo que buscas en un pequeño término de búsqueda, usted casi siempre desea importar la "red básica" en lugar de "red básica más amigos." La segunda opción añade al menos un orden de magnitud de la cantidad de datos vas a tirar, y puesto que los límites de frecuencia de Twitter (15 por cuenta por 15 minutos de tolerancia de la primera solicitud), se le adición de una cantidad significativa de tiempo para tirar por encima de todos los datos.
A falta de tener un amigo en la ingeniería de Twitter lista blanca de su cuenta de los límites de frecuencia, o conectar con Gnip (¿por qué estás leyendo esto, entonces?), La "red básica" es abrumadoramente va a ser la opción de elegir, sobre todo en las principales tendencias temas.
Mientras NodeXL chugs, tomar una taza de café. Tienes un poco de tiempo. Una vez que esté terminado, tendrá una pantalla que se ve algo como esto:


Spoilers: @BarackObama es fundamental para el hashtag #doyourjob.

Hay algunas opciones para graficar y resumir los datos en que está, pero vamos a mover los datos de NodeXL para tomar una mejor mirada en ella. Si está utilizando la versión básica, esto es, donde está por su cuenta; usted puede hacer visualizaciones en la propia plantilla, pero la exportación es una característica favorable. NodeXL básico es bastante potente, así que no creo que es totalmente más de juego, pero el resto de esto requerirá NodeXL Pro.
Haga clic en "Exportar" en la parte superior izquierda, y seleccione "Para GraphML" archivo. Nombrarlo algo memorable y ponerlo en algún lugar lo encontrará, y que haya terminado con NodeXL en este punto. Decir adiós.

Visualización de datos

Arranca Gephi, y abrir el nuevo archivo .graphml, donde quiera que lo pone. Se importará y llamar a cualquier problema que encuentra, el número de nodos (usuarios) y los bordes (relaciones) en los datos. Además, desea un grafo dirigido, ya que las interacciones de Twitter son generalmente de un solo sentido; si se correlaciona con una red de seguidores de Facebook, lo que probablemente utiliza un grafo no dirigido. Una vez hecho esto, se le presentará con algo que se parece a esto:


"Prometiste gráficos de lujo."

No es muy útil, pero que es todos nuestros datos allí, escondido en una pequeña caja. Vamos a cambiar eso. esquina inferior izquierda, la caja de presentación, seleccione ForceAtlas 2 en el menú desplegable. Las opciones presentadas en el menú desplegable son diferentes formas de ponderación de la red en "barrios", y son en gran medida una cuestión de gusto. Las personas matemáticas van a enojar conmigo por eso. Hit Run, y la magia:



Mientras se está ejecutando, en el lado derecho, pulse Ejecutar junto a la modularidad y la Centralidad del Vector Propio. Se trata de todas las matemáticas de fantasía que tendremos que hacer aquí, y el equipo hizo todo de ella. La versión corta es que estamos utilizando estas herramientas para determinar quién es importante en estas redes de un modo algorítmico - similar a Pagerank de Google, pero para las personas.
La última cosa que queremos hacer antes de empezar a manipular el gráfico más está a la izquierda, bajo las opciones ForceAtlas2, compruebe Evitar solapamiento y permitir que se ejecute por un tiempo más. Este cambio nos permitirá ver todos los usuarios que de otra manera serían tan estrechamente agrupados juntos como que se esconde debajo de los otros.
Vas a tener algo que se parece a esto, lo que es mejor, pero todavía se puede ajustar que sea legible y útil. En la esquina superior izquierda, donde dice "apariencia", resaltar la paleta, como he hecho aquí. En el menú desplegable disponible después de hacer clic atributo, seleccione La "clase de modularidad", y aplicar. Esto influye en nuestra tabla de "vecindarios", de este modo:



En resumen, los usuarios del mismo color son en su mayoría relacionados entre sí. Nuestro grupo grande de color rosa a la izquierda para #doyourjob es, como era de esperar, centrada alrededor de @BarackObama.
La otra cosa que queremos hacer para ayudar a entender el estado de nuestra red es reescalar el tamaño de importancia para la red. Como tenemos visualmente, @BarackObama es tan importante como estoy a la red, y eso es ... probablemente no es el caso.
Para ello, seleccione el icono a la derecha de la paleta bajo la apariencia - tres círculos que crecen en tamaño. Asegúrate de que tienes "nodos" seleccionados en virtud de que, y en el menú desplegable debajo de atributo, seleccione En-Grado. Aplicar esto, y verá algunos cambios importantes en el tamaño de los nodos particulares. Puede escalar esto mediante la elección de tamaño mínimo y máximo, si se desea resaltar en realidad un conjunto particular de los principales contribuyentes a la red.
Aquí es donde se debería resaltar que hay un montón de ajustes que puede realizar en este momento. Puede color relaciones por tipo (por ejemplo, mencionar, pío, @reply) mediante la selección de la paleta en Apariencia, destacando los bordes y atributo, y la selección de la relación de la lista desplegable. No está interesado en "barrios", sino más bien en donde las cuentas verificadas están en su red? Volver a la paleta, y debajo de nodos y atributos, seleccione verificado en el menú desplegable y aplicar. Hay un montón de opciones aquí, y muchas de las herramientas estadísticas en el lado derecho, donde se seleccionaron La modularidad y la Centralidad del Vector Propio, se sumarán otras maneras de visualizar la red. PageRank, de camino promedio de cuerpo entero, y así sucesivamente darán otras maneras de visualizar y trabajar con la red.
Por último, vamos a tirar algunos nombres de esta manera podemos ver quién es quién: bajo la visualización, hay varias opciones. Una bombilla, una cámara, un audaz T, y otros. Haga clic en la T para activar las etiquetas de nodo, y en el menú desplegable Modo Tamaño - la A negro - seleccione El tamaño de nodo, y eso es todo.



Ahora que tenemos esto, ¿cómo lo leemos? Recordamos cómo decidimos escalar distintos nodos en el tamaño relativo, por Centralidad del Vector Propio: "del tamaño de un nodo es relativamente escalado por lo importante que es para toda la red."
Naturalmente, @BarackObama es importante, como lo son @senatedems, @chuckgrassley, @moveon, @POTUS, y @scotusnom. Además, @kellyayotte, @weneednine, @thedemocrats, @ofa y @speakerryan son todos los componentes principales a la discusión.
Lo que es más interesante son las entradas de nivel inferior, donde hay nichos de usuarios al azar que sólo el amor a la mierda de un tema específico. Estas son las personas que se centraría en y llegar a seguir teniendo su mensaje, o, si estuviera haciendo esto como un ejercicio proactivo, alcanzar de forma preventiva a cabo para trabajar con mensajes a su audiencia altamente motivado.
Al igual que @ natureguy101. Love @ natureguy101, y en este caso, es más importante que la red que el New York Times o Ted Cruz:



Preguntas, quejas, ofertas de trabajo, etc., que le tira un mensaje en Twitter, @mattemeterio.
En primer lugar, y es de esperar única edición: mi primera experiencia con Gephi y NodeXL vinieron de gran valoración crítica de Clara Guibourg. He tratado de actualizarlo con las versiones más recientes de las herramientas, y explicar los casos de uso.

No hay comentarios:

Publicar un comentario