martes, 24 de mayo de 2016

Una (genial) introducción y tutorial al Gephi



Gephi - Introducción al análisis y la visualización de redes

Martin Grandjean

El análisis y visualización de la red parece ser una herramienta interesante para dar al investigador la posibilidad de ver sus datos desde un nuevo ángulo. Debido a que Gephi es una herramienta de análisis de redes de fácil acceso y poderosa, proponemos un tutorial diseñado para permitir que cada uno haga sus primeros experimentos en dos conjuntos de datos complementarios.
Después de una breve introducción sobre la base de ARS y algunos ejemplos que demuestra el potencial de esta herramienta y da un poco de inspiración, este tutorial se divide en 2 principales "ejercicios": una red geográfica de 1000 individuos que enviaron cartas por toda Europa y una red de 2- modos de 100 miembros de 10 instituciones diferentes.




Descargar la versión PDF

1. INTRODUCCIÓN

1.1 Una breve introducción al análisis de redes sociales

Ejemplo de red está hecha de dos componentes: una lista de los actores que componen la red, y una lista de las relaciones (las interacciones entre los actores). Como parte de un objeto matemático, a continuación, los actores serán llamados vértices (nodos, en Gephi), y las relaciones se denotarán como tildes (enlaces, en Gephi).


Aquí a la izquierda, una muy simple grafo social dirigido, con las dos listas explicitadas. Dos atributos están unidos a los nodos: una etiqueta (su "nombre") y un atributo numérico (en este caso, una distinción entre niños y niñas). En la lista de aristas, las entradas de "Fuente" y "destino" se refieren a los identificadores de los nodos (Id).

En nuestro ejemplo, el atributo determina el color de los nodos. El tamaño de un nodo depende del valor de su "grado centralidad" (el número de conexiones). Las medidas de centralidad son indicadores esenciales para analizar la posición de un actor en una red. Vienen en muchas variaciones, como se muestra a la derecha (A = centralidad de grado, el número de conexiones; B = centralidad de proximidad, la cercanía a toda la red; C = centralidad de intermediación, nodos puentes; D = Centralidad del vector propio, respecto a los nodos bien conectados ).


1.2 Visualizaciones Gephi: algunos ejemplos hechos a mano

Esto es por las pruebas que se aprende. Ejemplos de lo que es posible hacerlo pueden ayudar a conceptualizar nuestras propias redes.























































2. SET UP

2.1 Descarga e instalación del software
Gephi1The software puede ser libremente descargado desde aquí:


▲ Gephi está trabajando en una versión anterior de Java. En un equipo Apple que ejecuta una versión reciente de OS X (10.7 Lion y más), para ser capaz de ejecutar Gephi, usted tiene que descargar e instalar una versión anterior de Java (Java 6 en lugar de su Java 7 u 8), encontrarlo aquí. Algunos problemas de compatibilidad también pueden presentarse con algunas configuraciones de Microsoft. Encontrará más Recursos sobre este tema en los foros de Gephi / Gephi Facebook grupo / otros sitios web (véase, en particular para Mac aquí, y aquí para Windows). Después de varios intentos, no dude en dejar un comentario aquí!

2.2 Algunas extensiones


plugins

plugins
Con el fin de ir más allá de las funciones básicas del software, vamos a trabajar con tres plugins adicionales: GeoLayout, NoverlapLayout y Multimode Networks Transformation. Encontrará los plug-ins en el menú Herramientas. Actualizar la lista y seleccionar los plugins solicitados. Vas a tener que reiniciar Gephi poco después de la descarga (plugins aparecen sólo después de un reinicio).

2.3 Acerca de los conjuntos de datos


Dataset1 (captura de pantalla)
Vamos a utilizar dos conjuntos de datos (datos diferentes para explorar diferentes características):
Dataset 1
1.000 nodes / 14.116 edges (1-mode, directed)
 Set 1 EDGES Set 1 NODES
Dataset 2
110 nodes / 142 edges (2-mode, undirected)
 Set 2 EDGES Set 2 NODES
Dependiendo de su navegador, puede que tenga que "guardar como" los archivos del escritorio.

3. PARTE 1: MAPEANDO CARTAS EN EUROPA

3.1 Importación de los datos en Gephi


Importar la configuración de nodos

Ejecutar el software en su ordenador y crear un "nuevo proyecto" en la ventana de inicio. En el Laboratorio de Datos, haga clic en "Importar hoja de cálculo" para abrir la ventana de importación e importar el primer archivo.
Gephi4

Importación de nodos

Especifica que la separación entre las columnas se expresa por un punto y coma y no se olvide de informar a Gephi que el archivo se importa es que contienen los nodos. A continuación, pulse "siguiente" y rellenar el formulario de configuración de importación como se propone. La "configuración de importación" paso es muy importante: Gephi reconocerá algunas de las columnas debido a su cabecera, pero siempre se tendrá que comprobar que el software será capaz de comprender la naturaleza de los datos. En nuestro ejemplo, asegúrese de informar a Gephi que nuestras latitudes y longitudes son una variable "doble" (no un "entero").


Importación de enlaces

Ajustes de importación de enlaces

Siga el mismo procedimiento, pero con el archivo "enlaces" descargado antes y llenar los formularios de la siguiente manera: especificar el punto y coma e informar Gephi que está importando los enlaces. Rellena los últimos campos y desactive "nodos crear perdidos", debido a que ya les ha importado.

3.2 Visualización de grafos de un modo

La acción tiene lugar ahora en el panel general. El software produce una visión general de la gráfica, espacializado al azar y totalmente ilegible.


Ajustes de tamaño

Tamaño de Nodos '

Vamos a dar a los nodos de un tamaño proporcional a su grado (número de conexiones). En el panel de clasificación de la columna de la izquierda (arriba), seleccione "nodos" y el "diamante rojo", a continuación, seleccione "Grado" en el menú de rodadura y entre el valor mínimo y máximo (proponemos 10-100). Verá que la distribución de grado dentro de su corpus es de entre 3 y 209: al menos un nodo está conectado a más de 200 otros (y el nodo menos conectado está conectado a 3 de ellos). Tenga en cuenta que si quieres un resultado visualmente correcta, usted tiene que utilizar el enlace "spline" para editar la forma de la curva de selección: lineal doble del radio de un nodo es más del doble de la zona debido a la función de potencia.

Espacialización


Fruchterman Reingold

Fruchterman Reingold

Esa es la parte principal! Vamos a empezar con una espacialización que da más espacio a la gráfica, pero la mantienen en un área decidido: Fruchterman Reingold, con los mismos valores que en este modelo (20.000 - 10 - 10). Esta visualización dispone nodos de una manera gravitacional (atracción-repulsión, de hecho, como imanes). Ya sea posible distinguir las comunidades (partes más densamente conectada de la red). Deje funcionar la función hasta que se estabilice el gráfico. Utilice la pequeña lupa azul (parte inferior izquierda del panel gráfico) para volver a centrar el zoom.


ForceAtlas 2

ForceAtlas 2

A continuación, proponemos el uso de la Fuerza Atlas 2 (otro algoritmo de diseño) para dispersar a grupos y dar espacio en torno a nodos más grandes. Tenga cuidado, los parámetros que introducir alterar significativamente el aspecto final (proposición: Check "evitar el solapamiento" y el cambio "Escala" a 50). Deje funcionar la función hasta que el gráfico se estabiliza en su mayoría. Podemos aplicar la fuerza Atlas 2 directamente sin aplicar Fruchterman Reingold antes, pero como el "diseño aleatorio" desde el principio ... es un diseño al azar, es mejor para desenredar la red antes de sumitting a una fuerte fuerza-algoritmo.

3.3 Representación final y medidas de centralidad 

Grado ponderada


Distribución de grado ponderada

Vamos a añadir un poco más de información a nuestro gráfico dando a los nodos nuevos atributos, que influyen en su color. En el laboratorio de datos, seleccione la tabla de enlaces, y ordenarlos según su wheight. Algunos enlaces tienen un wheight de 3, un 2 y un poco de 1. Esto significa que tenemos que tener en cuenta estas diferencias mediante el cálculo del grado ponderada de los nodos. También observar que este gráfico se dirige: los enlaces tienen un origen y un destino, una dirección mostrada por una pequeña flecha en la pantalla de vista general. Por lo tanto, el grado tendremos que calcular tiene que distinguir las conexiones de entrada y de salidas. En el panel de Estadística, haga clic en "Grado Promedio Ponderado" para calcular estos valores para cada nodos. Se obtiene un informe que muestra la distribución de las medidas de tesis.


Color de nodos 

En grado ponderado

Ahora que las tesis se calculan los valores, nuevos atributos están disponibles en el panel de clasificación. Seleccione el icono de "color", y eligió "ponderado en grados" a los nodos de color de acuerdo con el número de aristas entrantes. Un pequeño consejo visual: utilizar un color oscuro para valores pequeños y un color claro para los nodos altamente conectados, a fin de que los pequeños nodos visible en el gráfico final (los nodos conectados bien en general son más visibles).
Resultado: los nodos más grandes (= con un alto grado) no siempre los que tienen el mayor peso en grados son: si se considera una ventaja como una carta escrita entre 2 personas, quienes están escribiendo mucho, no son necesarios los que están recibiendo mucho. Es interesante dar diferentes atributos a los nodos de tamaño y color, para compararlas. Por supuesto, puede exportar estos datos para llevar a cabo un análisis completo estadística, gráficos de dispersión, etc. (las medidas se realizan se añade automáticamente a la tabla de nodos). Tenga en cuenta que si ha utilizado el "spline" para ajustar nodes'size antes, este ajuste está siendo usado por defecto aquí y debe ser modificado (sin interferir con ustedes opción anterior para el tamaño).

Etiqueta de nodos 


Configuración de las etiquetas

Vamos a volver a estas medidas y características adicionales después, pero vamos a tratar de finalizar nuestra obra, por ahora, dando una etiqueta para los nodos. En la parte inferior derecha de la pantalla gráfica, se puede encontrar una pequeña señal que le permite developp un nuevo panel. En la etiqueta, elija "nodos" para añadir sus etiquetas a sus nodos y establecer su tipo de letra, color y tamaño. Si es necesario, por ejemplo, si sus datos no tienen ninguna columna "Etiqueta", haga clic en "Configurar" para establecer el contenido de la columna que desea ser visualizado (el "ID" se puede utilizar como una etiqueta, es decir).

Finalización del grafo

Ir a "Vista previa" para recortar los detalles finales. A diferencia de en las etapas anteriores, el cambio de configuración en este menú es reversible, y no afectan a la estructura del grafo.


Menú de vista previa

En la captura de pantalla, se encuentra una sugerencia de configuración para una buena reproducción (como el establecimiento de la opacidad enlaces a 70% para un mejor contraste con los nodos). Tenga en cuenta que, debido a su gran tamaño, el gráfico puede tardar unos segundos para actualizar después de cada cambio (haga clic en "Actualizar" para aplicar los cambios). Sobre los enlaces curvados: Como convención gráfica, utilizamos enlaces curvos para mostrar la dirección del enlace, siempre gira hacia la derecha. enlaces curvos no son generalmente gráficos no dirigidos.
En la parte inferior de esta columna de vista previa, que encuentre un enlace de exportación. Tenga en cuenta que la exportación en .png produce figura con una resolución pobre. Es posible que desee optar por .svg o .pdf, que tienen la ventaja de ser modificable por su propia imagen / software de dibujo (recomiendo el inkscape programa de código abierto para la manipulación de archivos .svg).

Modularidad

La visualización es sólo un paso, el análisis de redes a menudo necesita otros medios matemáticos para proporcionar al investigador con un resultado satisfactorio. Siéntase libre de explorar el menú "Estadística", por ejemplo, al jugar con medidas en grados, densidad, longitud del camino, modularidad.


Configuración de la modularidad

Una red contiene subdivisiones internas denominadas comunidades. Existen métodos que permiten poner de relieve estas comunidades, que dependen de la comparación de las densidades de los enlaces dentro de un grupo, y desde el grupo hacia el resto de la red (Más información aquí) En la columna de la derecha de la "visión general", haga clic sobre la estadística / modularidad / Ejecutar para mostrar la ventana de la modularidad. Elija una resolución (entre 0,1 y 2), haga clic en OK y cerrarla.


Menú de partición

El siguiente paso se lleva a cabo en el menú Partición situado en la columna izquierda. Seleccione "nodos" y "La modularidad de clase" (menú de rodadura). Usted será entonces capaz de modificar los colores atribuidos a las comunidades detectadas haciendo clic sobre ellos. No dude en repetir esta operación con muchos "Resoluciones"! Si decide hacerlo, debe anular la selección y vuelva a seleccionar "Clase Modularidad" en la columna izquierda, y refrescar el cálculo de color.

Centralidad de intermediación



Diámetro de la red

La centralidad de intermediación mide todos los caminos más cortos entre todos los pares de nodos de la red y luego contar cuántas veces un nodo está en el buen camino más corto entre dos otros. Es una medida muy interesante en el caso de una red de cartas enviadas y recibidas, ya que permite al investigador para detectar a las personas que ocupan una posición intermedia entre las otras dos personas o grupos. En el panel de estadísticas, haga clic en "Diámetro de red".


color de nodos

centralidad de intermediación

Al igual que el ponderarán de grados antes, encontrar una manera de colorido para destacar los nodos que tienen una alta centralidad de intermediación. Rápidamente se parecería que los nodos con un / grado alto grado ponderada no siempre tienen una alta intermediación.

3.4 Geo Layout


Geo Layout

Noverlap
 
Vista previa y exportación

Durante la importación, usted ha notado que cada nodo se le dio una latitud y una longitud. El plug-in Geo Layout le ayudará a mostrar los nodos de una manera geográfica. En el panel Layout, seleccione Geo Layout y darle una escala de 20.000. Asegúrese de que el plugin entender correctamente que "Latitud" como "Latitud" y "Longitud" como "Longitud" y establecer la proyección de "Mercator" (esta proyección deben adaptarse al mapa que vamos a usar después). A medida que los nodos se agrupan ahora en una coordenada geográfica, usted tiene que darles un poco de espacio: utiliza el plugin diseño Noverlap para evitar la superposición de ellos (un margen de 5.0 es suficiente con la escala del mapa elegido).


mapa final

En el panel de vista previa, comprobar el aspecto final de su obra y exportarlo en .svg. A continuación, ser capaz de importar en un mapa de fondo. Si está familiarizado con Inkscape, descargar el mapa que aparece aquí (creado para adaptarse a la escala elegida y la proyección de Mercator). Abrirla, y después de haber importado la red en ella, seleccione la capa de nombres de ciudades y llevarlo a la parte delantera para que sea legible. fondo de la correspondencia
No dudes en probar el mismo mapa con modularidad, el resultado muestra que las comunidades están fuertemente relacionadas con las particularidades geográficas.

4. Parte 2: Grupos y sus miembros

4.1 Importación de los datos en Gephi

Crear un "nuevo proyecto" en la ventana de inicio. Vamos a trabajar en un tipo diferente de conjunto de datos: una red de 2 modos (2 tipos de nodos, comités y personas). En el Laboratorio de Datos, haga clic en "Importar hoja de cálculo" para abrir la ventana de importación e importar el primer archivo.


Importación de nodos

Los nodos 2


Configuración de importación de nodos

Especifica que la separación entre las columnas se expresa por un punto y coma y no se olvide de informar a Gephi que el archivo se importa es que contienen los nodos. A continuación, pulse "siguiente" y rellenar el formulario de configuración de importación como se propone. Informar a Gephi que nuestra variable "gato" es una "cadena" (esta variable será útil para separar los "miembros" y "comités" en un paso más adelante).

Importación de enlaces

Configuración de importación de enlaces

Enlaces 2 
Siga el mismo procedimiento, pero con el archivo "enlaces" descargado antes y llenar los formularios de la siguiente manera: especificar el punto y coma e informar Gephi que está importando los enlaces. Rellena los últimos campos y desactive "nodos crear perdidos", debido a que ya les ha importado.

4.2 Visualización gráfica de dos modos


Tamaño de Nodos 

Tamaño de Nodos

En el panel de clasificación, dará un tamaño de sus nodos (en este caso, de acuerdo con su grado entre 10-50). En una red de 2 modos, la centralidad de grado no puede ser un valor muy interesante, debido al sesgo estructural provocado por las dos categorías diferentes de nodos: en nuestro caso, los "comités" serán, naturalmente, mucho más conectados que los "miembros ". Pero en este primer paso, sólo estamos tratando de distinguir visualmente las 2 categorías.


color de nodos (partición)

El color de los nodos

En el panel de partición, volver a cargar el menú para que aparezcan los atributos de los nodos (subimos un solo atributo: "gato"). Dar un color muy diferente a ambas categorías y aplicarlo en su red.


Force Atlas 2

la red de 2 modos

Fije una distribución

Desplegar la red utilizando el algoritmo Force Atlas 2 (nodo impedir la acumulación y la escala a 50). Su gráfico es ahora visualmente legibles y se ve muy similar a muchas redes de organizaciones.
Para muchos investigadores, esta visualización será ya suficiente para llevar a cabo su análisis. No se olvide de mostrar etiquetas de los nodos si es necesario.

4.3 Proyección a grafo de un modo


Plugin de proyección

Grafo proyectado

Utilice el panel MultiMode Networks Projection (disponible a través del plugin que descargó en el paso 2.2) y "atributos" de carga. Ahora vamos a "proyecto" las instituciones sobre los Miembros: si dos miembros tienen una ventaja vinculándolos con el mismo comité, que ahora tendrá un enlace directo entre ellos (y el comité será evacuado).
Seleccione el tipo de atributo derecho ( "gato"), y establecer la matriz tal como se propone aquí (miembro de la institución / Institución-miembros): Deben ser simétrica con el tipo de nodo que desea mantener al principio y al final.


Red 1-modo de instituciones

Compruebe los botones de "Remove Edges" y "Remove Nodes", con el fin de limpiar el gráfico de los viejos "Committees" nodos y enlaces. Y, por último, haga clic en "Run".
Tenga en cuenta que también se puede proyectar los miembros de las instituciones, con el resultado de que aquí se presenta a la derecha (enlaces son cada vez más grande si muchos miembros estaban conectados en los mismos comités).

4.4 Medidas de centralidad y diseño


Grado ponderada

Tamaño de Nodos 

Calcular la nueva centralidad de grado de los nodos haciendo clic en "Promedio. Grado ponderada "(panel de Estadística). En el panel de clasificación, aplicar esta nueva medida a los nodos, tal como se propone aquí. El nuevo grado puede ser muy diferente de la carrera de la red original de 2 modos: una proyección añadir un montón de enlaces (en particular, cuando una gran cantidad de nodos en los que conectan a unos pocos nodos muy centrales del otro tipo).


Diámetro de la red

Color de nodos

En el panel de estadísticas, haga clic en "Diámetro de red" para calcular la centralidad de intermediación de sus nodos. A continuación, utilice esta medida para dar color a los nodos. En una red de este tipo de personas que trabajan en diferentes comités / instituciones / empresas, saber quién está en la intersección de dos grupos puede ser muy importante para los oficiales de recursos humanos, es decir ..


Color de los nodos


Color de enlaces 

Color de los enlaces

Con el fin de resaltar los enlaces ponderados, darles un color que hará que los enlaces más fuertes más visible en la pantalla final (sugerida aquí: negro para todos los enlaces más grandes que 1).


ForceAtlas 2

Diseño

Espacializar el gráfico una vez más (se mantienen las posiciones de los nodos antes de la proyección de 2-modo para 1-modo), con ForceAtlas 2.


Resultado: una red 1-modo

4.5 Destacando vecinos 


"Herramienta “Paint bucket” 

Este tipo de red se adapta bien a un "Linkedin" del análisis: ¿Quién está en mi red? Quiénes son las personas que voy a ser capaz de llegar a través de ellos (lo que son sus propias conexiones)?




Los vecinos y vecinos de los vecinos
Haga clic en el pequeño bote de pintura, a la izquierda de la zona de gráficos, y jugar con las herramientas en la parte superior de este menú. Primero pintar los "vecinos de los vecinos" (después de haber dado un color neutro para todos los nodos), y luego los "vecinos" de un nodo seleccionado. En nuestro ejemplo, el nodo rojo, miembro de un único comité, se conecta directamente a 10 colegas, que son a su vez se conecta a otros 49 individuos.


5. CONCLUSIÓN

La visualización de datos es un juego, vamos a jugar! Por favor me ayude a mejorar este tutorial al dejar caer un comentario a continuación con los comentarios, sugerencias, enlaces a sus propios resultados, etc.!