martes, 22 de mayo de 2018

Introducción: Visualización en Gephi


Usando Gephi para visualización de datos


Autor: Maristella Feustle | Digital Humanities


Muchos de nosotros hemos estado haciendo visualizaciones básicas de datos cuantitativos desde la escuela primaria, convirtiendo la información numérica en cuadros y gráficos. En algún lugar a lo largo de la línea, la mayoría de nosotros también hemos encontrado diagramas de Venn para visualizar relaciones conceptuales y atributos que se tienen en común entre las entidades. Pero cuando pensamos en la visualización, las visualizaciones cuantitativas como las producidas por Excel son más accesibles.

Por supuesto, no todos los datos son cuantitativos. No todos los puntos de datos son números, y no todas las relaciones entre ellos son numéricas, y sin embargo, intuimos que el contexto puede ser tan complejo como importante. Ahí es donde entra Gephi. Si puedes articular una relación, puedes mapearla.

Gephi depende de la relación "triple" que también subyace a RDF, el modelo de metadatos del Marco de Descripción de Recursos, de claro interés para la biblioteca y la ciencia de la información. En el triple, Algo tiene una conexión con otra cosa. O bien, la Persona 1 está de alguna manera conectada a la Persona 2. El atributo 1 está conectado de alguna manera con el Atributo 2.

Los atributos son nodos, y la conexión, sea lo que sea, es un borde. Dos nodos más un borde son tres cosas, o un triple. Las conexiones pueden ser recíprocas, o solo una dirección.

Los ejemplos potenciales son virtualmente ilimitados: digamos, por ejemplo, que Jeremiah era una rana toro. Es decir, Jeremiah tiene el atributo de ser una rana toro. Jeremías y la rana toro (para acuñar un término) son nodos. Tener el atributo es una ventaja. Jeremiah también fue un buen amigo mío. Es decir, Jeremiah era miembro del grupo de buenos amigos míos.

Esas son solo algunas conexiones. ¿Qué pasa cuando tus conexiones tienen conexiones? Necesitamos una forma más sofisticada de hacer un seguimiento de ellos.

Esta demostración utiliza datos de listas de óperas y artistas intérpretes o ejecutantes en el apéndice de La Scala West de Ronald Davis: La Scala West: The Dallas Opera under Kelly and Rescigno, siguiendo aproximadamente los primeros diez años de producciones de la Ópera de Dallas.

Utilizando un valor separado por coma (archivo CSV), hemos articulado las personas y los roles que desempeñaron respectivamente como las dos columnas requeridas para que Gephi importe como una tabla de borde: Origen y Destino.

Aquí, vale la pena señalar que Gephi puede ser muy exigente con la forma en que se forman sus datos. Para evitar la creación de conexiones y nodos espurios, es importante asegurarse de que sus datos estén libres de espacios y caracteres adicionales que podrían, por ejemplo, hacer que Gephi decida que María [espacio] Callas y María [espacio espacial] Callas son dos personas diferentes Cuando tienes cientos o miles de nodos y conexiones, las distinciones innecesarias como esas realmente pueden arrojar tu visualización. Para la preparación de datos, OpenRefine es un compañero muy útil para Gephi.

Incluso con un conjunto de datos bien construido, la salida de visualización inicial de Gephi parece lanzar espaguetis y albóndigas en la pared, solo que más angulares:



La diferencia importante que debemos mencionar aquí es que Gephi hace los cálculos por usted, pero no toma decisiones por usted. Por lo tanto, depende de usted la elección de cómo aplicar los colores para diferenciar los tipos de nodos y aristas, o los grados de conectividad, y qué algoritmos representan mejor el significado que desea que su visualización muestre, qué etiquetar, etc. Estas características están fuertemente empaquetadas en la interfaz de usuario de Gephi, y experimentar con ellas es parte de la diversión del programa. Otras opciones residen en los complementos que vienen incluidos con el programa.

En este caso, el resultado final nos permitió mostrar en una sola imagen las complejidades de las conexiones entre los artistas intérpretes o ejecutantes en la Ópera de Dallas, así como los artistas principales, artistas frecuentes y producciones frecuentes en los primeros años de la Ópera de Dallas - en en resumen, un mapa de las relaciones entre los artistas intérpretes o ejecutantes, las obras y entre sí.




Para comenzar con Gephi, visite los enlaces a continuación:

https://gephi.org/tutorials/gephi-tutorial-quick_start.pdf (Refiere a una vieja versión, pero todavía útil)
http://www.martingrandjean.ch/gephi-introduction/
https://seinecle.github.io/gephi-tutorials/

No hay comentarios:

Publicar un comentario