Mostrando entradas con la etiqueta Pajek. Mostrar todas las entradas
Mostrando entradas con la etiqueta Pajek. Mostrar todas las entradas

jueves, 4 de junio de 2020

Cómo pasar de redes de un modo a dos modos en Gephi desde un archivo de Pajek

Conversión de redes de 2 modos a redes de 1 modo

Electric Archaeology

Ahora hay un complemento para Gephi que se convertirá de redes multimodales a redes de 1 modo: https://gephi.org/plugins/multimode-networks-transformations/




Supongamos que le interesan los patrones de comunicación entre individuos que son miembros de múltiples organizaciones (como, por ejemplo, sociedades históricas) o tipos de artefactos en múltiples sitios. Es posible que desee mapear la red entre estos individuos y esas organizaciones para comprender cómo fluye la información en ese mundo, cómo penetran las normas sociales, o las ideologías de consumo o el mapa de visualización en el espacio (como lo hace Tom Brughmans aquí y lo he hecho en otros lugares).

Necesitarás Gephi y Sci2. Descargue e instale estos. Se requiere registro para Sci2. Cualquier trabajo que haga con estas herramientas, si se publica, requiere la cita de la herramienta. No lo olvides!

1. Haz una lista. Cada vez que te encuentres con un individuo mencionado como miembro de un grupo, escríbelo. Dos columnas: fuente, objetivo. Shawn Graham, Universidad de Carleton. Puede incluir una tercera columna llamada 'peso' que da alguna medida de la importancia de esa conexión. ¿Por qué 'fuente', por qué 'objetivo'? Porque vamos a importar esa lista a Gephi, y así es como Gephi requiere la información. Sin embargo, cuando hacemos cualquier tipo de métrica, siempre trataremos esta red como no dirigida; es decir, no pretendemos saber nada sobre la dirección de la relación (en una red dirigida, la conexión de Alicia con Bob es diferente de la conexión de Bob con Alicia). Guarde esa lista como un archivo .csv. Si graficaste esto ahora, tendrías una red donde hay dos tipos de nodos; de ahí una red de dos modos. Las estadísticas de red visualizan una red donde los modos son todos del mismo tipo, por lo que estamos haciendo este tutorial.

2. Importa la lista a Gephi. Abre Gephi, comienza un nuevo proyecto. Haga clic en el laboratorio 'laboratorio de datos'. Debajo de 'tabla de datos', haga clic en 'bordes' (esto es importante, si hace clic en 'nodos', esto no funciona correctamente). Haga clic en 'importar hoja de cálculo'. Seleccione su archivo csv y asegúrese de que 'como tabla' esté configurado en 'tabla de bordes'. Haga clic en Siguiente. Haga clic en Finalizar.

3. Vaya a Archivo - >> exportar - >> archivo de gráficos. Guardar como tipo de archivo .net (Pajek).

4. Abre Sci2; haga clic en Archivo >> Cargar y seleccione su archivo .net.

5. Haga clic en 'preparación de datos' >> extracción de la red de co-ocurrencia de referencia (acoplamiento bibliográfico). (ver también 5.b, abajo bajo 'variaciones')

6. Haga clic en 'preprocesamiento' >> redes >> eliminar aislamientos. Ahora ha colapsado su red de dos modos en una red de modo único donde sus nodos bajo 'objetivo' ahora están conectados entre sí. Si su fuente, el objetivo era 'sitio', 'ware', tiene una red de un modo donde las mercancías están conectadas entre sí en virtud de estar enumeradas en el mismo sitio, es decir, el enlace implica el sitio. (Si ha realizado el paso 5.b, su única red de modo sería sitios conectados entre sí en virtud de compartir los mismos productos, el enlace implica la mercancía).

7. En este punto, vaya a archivo >> vista y su aplicación de bloc de notas se abrirá, mostrando una tabla donde cada nodo en su red tiene su propia identificación única, y 'etiqueta * cadena', que es su etiqueta original. Guardará esto del bloc de notas como un archivo txt. Puede llamarlo 'ware to ware index' (siguiendo nuestro ejemplo en 6).

8. Aquí es donde las cosas se ponen un poco complicadas. Haga clic en 'Archivo' >> 'guardar'. Seleccione 'pajek .net' como su tipo de archivo. (Consulte también 8.b a continuación, en 'variaciones')

9. Luego puede volver a Gephi, iniciar un nuevo proyecto, hacer clic en 'abrir' y seleccionar el archivo .net que acaba de crear. Su red de modo único se cargará. SIN EMBARGO, Gephi ya no reconocerá las etiquetas del nodo original. Es por esto que necesita el índice que guardó en el paso 7, de modo que cuando ejecute las métricas en esta red de un modo, sabrá que 'el nodo 342 en realidad está sellado en Brick CIL XV.1 841.d (por ejemplo). (ver también 9.b a continuación, en 'variaciones')

Variaciones


5.b En el paso 5, creó una red de modo único basada en su columna 'objetivo'. Para crear una red de modo único basada en su columna 'fuente', haga clic en 'preparación de datos' >> extraiga la red de co-citas de documentos. Reanudar en el paso 6.

8.b Si desea conservar las etiquetas de nodo en Gephi, en lugar del paso 8.a, haga clic en Visualization >> Networks >> GUESS. Esta es una pequeña herramienta de visualización (que le permite hacer algunas métricas de red, pero si su red es v. Grande,> 1000 nodos, esta podría no ser una buena idea). En GUESS, haga clic en Archivo >> exportar gráfico. Dale un nombre de archivo que tenga sentido, y no te olvides de escribir la extensión .gdf; de lo contrario, no se exportará. Vaya al paso 9b.

9.b Vaya a Gephi, comience un nuevo proyecto, haga clic en 'abrir' y seleccione el archivo .gdf que acaba de crear. Las etiquetas de su nodo ahora estarán presentes en el gráfico, por lo que no necesita ese archivo de índice que ha creado. Tal vez un error: en mis experimentos, las etiquetas de nodo no parecen aparecer en el panel 'Descripción general del gráfico' cuando se trabaja con el archivo gdf. Tu experiencia puede ser diferente. Sin embargo, aparecen cuando exporto una imagen de la n

jueves, 14 de mayo de 2020

22 paquetes de software gratuitos para ARS

22 herramientas gratuitas de análisis de redes sociales

Por Varun Kumar || RankRed



Las herramientas de análisis de redes sociales facilitan el análisis cualitativo o cuantitativo de las redes sociales al describir las características de la red mediante representación visual o numérica. Generalmente usa la teoría de redes o gráficas para examinar las estructuras sociales. Los componentes principales son los nodos (personas) y los bordes que los conectan. Algunos de ellos también realizan análisis predictivos. A continuación, hemos enumerado algunos de los software de análisis de redes sociales más efectivos que están disponibles de forma gratuita.


22. AllegroGraph




AllegroGraph es una base de datos de gráficos desarrollada para almacenar triples RDF. Es una base de datos OLTP totalmente transaccional, que almacena datos estructurados en gráficos en lugar de en tablas. Incluye una biblioteca de análisis de redes sociales y un componente de almacenamiento para el proyecto TwitLogic que tiene como objetivo llevar la web semántica a los datos de Twitter.

21. Commetrix



Commetrix es un software dinámico de visualización y análisis de redes que proporciona un acceso exploratorio fácil y completo a los datos de la red. Crea un rico mapa de red experto, sistemas de recomendación a partir de registros de comunicación, y se enfoca en analizar patrones evolutivos de comunicación electrónica como correo electrónico, voz sobre IP y mensajería instantánea.

20. Socilab



Socilab es una herramienta en línea que le permite visualizar y analizar la red de LinkedIn utilizando métodos derivados de la investigación científico-social. Muestra una serie de medidas de red extraídas de la investigación sociológica en redes profesionales, y barras de percentiles que comparan sus medidas de red agregadas con usuarios anteriores. Además, hay una función de mensajería que le permite escribir y enviar un mensaje a los contactos seleccionados de LinkedIn.

19. Cuttlefish



Cuttlefish es una aplicación de banco de trabajo de red que permite la visualización de datos de red, edición de gráficos, manipulación interactiva del diseño y visualización de procesos.

Para representar los datos de la red, la herramienta utiliza el formato extendido Cuttlefish que define los datos de la red en términos de bordes, vértices, pesos e información visual como formas, colores y etiquetas. El otro formato de archivo es el formato Cuttlefish Evolution que define los cambios que ocurren en una red. También es compatible con formatos de archivo más antiguos, incluidos GraphML y ​​Pajek.

18. Social Network Visualizer



Esta es una herramienta fácil de usar multiplataforma que le permite dibujar redes sociales con unos pocos clics en un lienzo virtual. Cargue datos de campo de un archivo (en formato compatible) o rastree Internet para crear una red social de páginas web conectadas.

Social Network Visualizer calcula grafos estándar y métricas de cohesión de la red (como densidad, excentricidad, coeficiente de agrupamiento, etc.), rutinas matriciales e índices de centralidad y prestigio. Además, admite algoritmos rápidos para la detección comunitaria, el análisis de equivalencia estructural, la carga y edición de redes multirrelacionales y la creación aleatoria de redes utilizando varios modelos de generación de redes aleatorias.

17. JUNG



JUNG significa Java Universal Network / Graph Framework. Esta aplicación Java proporciona un lenguaje extensible para el análisis, modelado y visualización de datos que podrían representarse como un gráfico o una red. JUNG admite numerosos tipos de gráficos (incluidas las hipergrafías) con cualquier propiedad.

Permite visualizaciones personalizables e incluye algoritmos de teoría de gráficos, análisis de redes sociales y minería de datos. Sin embargo, está limitado por la cantidad de memoria asignada a Java.

16. Tulip




Tulip se dedica al análisis y visualización de datos relacionales. Permite el desarrollo de algoritmos, técnicas de interacción, visualización específica de dominio, codificaciones visuales y modelos de datos. También permite la reutilización de componentes, lo que hace que el marco sea eficiente para la creación de prototipos de investigación y el desarrollo de aplicaciones para el usuario final.

15. Statnet


Statnet es un conjunto de paquetes R que realizan una amplia gama de tareas de gestión de datos, visualización y análisis estadístico de redes. Este marco analítico se basa en el modelo de gráfico aleatorio de familia exponencial y proporciona herramientas para la estimación, evaluación, simulación y visualización de redes del modelo.

Además, el modelado estadístico incluye modelos dinámicos y de sección transversal, espacio latente y modelos de clúster latente.

14. Netlytic




Netlytic es un analizador de texto basado en la nube y visualizador de redes sociales que puede resumir automáticamente grandes conjuntos de datos de texto y visualizar redes sociales a partir de conversaciones en sitios de redes sociales como Twitter, YouTube, foros en línea y comentarios de blogs. La herramienta está desarrollada principalmente para que los investigadores identifiquen componentes clave e influyentes y descubran cómo fluye la información en una red.

13. NetworkX




NetworkX es un paquete de Python para crear, manipular y estudiar la estructura de la dinámica y las funciones de redes complejas. Incluye muchos algoritmos, métricas y generadores de gráficos. La herramienta es capaz de construir gráficos aleatorios de forma incremental y es capaz de encontrar camarillas, subgráficos y núcleos k. Además, puede explorar adyacencia, grado, diámetro, centro, radio y dibujar redes en 3 dimensiones.

12. Cytoscape




Cytoscape se utiliza para visualizar redes complejas e integrarlas con cualquier tipo de datos de atributos. La herramienta es muy amplia en funciones: le permite personalizar la visualización de datos de la red, filtrar la red para seleccionar subconjuntos de nodos, buscar nodos y bordes de destino, y diseñar la red en dos dimensiones a partir de diferentes algoritmos de diseño de red que incluyen cíclico, árbol, borde- peso, fuerza dirigida y más.

11. Subdue



Subdue descubre patrones estructurales y relacionales en datos que representan entidades y relaciones. Utiliza la metodología de longitud de descripción mínima para identificar patrones que disminuyen el número de bits necesarios para describir el gráfico de entrada después de ser comprimido por el patrón.

Subdue también puede realizar numerosas tareas de aprendizaje, como aprendizaje supervisado y no supervisado, agrupamiento y aprendizaje de gramática gráfica. Además del análisis de redes sociales, se ha aplicado con éxito en Bioinformática, lucha contra el terrorismo, aviación y minería de estructuras web.


10. Graphviz




Este software de visualización de gráficos representa información estructural como un diagrama de gráficos abstractos y redes. Graphviz tiene muchos programas de diseño gráfico adecuados para la visualización de redes sociales. Toma la descripción de gráficos en un lenguaje de texto simple y crea diagramas en formatos útiles, como PDF para incluir en otros documentos, mostrar en un navegador de gráficos interactivo o SVG para páginas web.

Además, tiene diferentes características útiles para diagramas concretos, por ejemplo, opciones para fuentes, color, estilos de línea, diseño de nodo tabular, formas personalizadas e hipervínculos.

9. NetMiner



NetMiner viene con un período de prueba de 14 días. Se utiliza para el análisis y la visualización de vastos datos de red basados ​​en el análisis de redes sociales. Las características como transformación de datos, visualización de datos de red, gráficos y lenguaje de script Python lo ayudan a detectar patrones y estructuras subyacentes de la red.

8. SocioViz




SocioViz es una plataforma de análisis de redes sociales para periodistas digitales, investigadores sociales y especialistas en marketing de medios. Le permite analizar cualquier tema, término o hashtag, identificar personas influyentes clave, opiniones y contenidos y exportar los datos en formato Gephi para su posterior análisis.

7. UNISoN



UNISoN es una aplicación Java que puede analizar mensajes para guardarlos en un archivo en formato Pajek para el análisis de redes sociales. Genera redes utilizando el autor de cada publicación. Si alguien interactúa con una publicación, se crea un enlace unidireccional del autor de la publicación al autor del mensaje al que está respondiendo. Además, hay un panel de vista previa que muestra la red visualmente.

6. NetworKit




NetworKit es una plataforma en crecimiento para el análisis de redes a gran escala, desde miles hasta miles de millones de bordes. Implementa un algoritmo gráfico eficiente, la mayoría de ellos son paralelos para utilizar la arquitectura multinúcleo. Se supone que deben calcular medidas estándar de análisis de red, como coeficientes de agrupación, secuencias de grados y medidas de centralidad. Además, su objetivo es admitir una variedad de formatos de entrada y salida.

5. GraphStream




GraphStream está diseñado para el modelado y análisis de gráficos dinámicos. Le permite crearlos, importarlos, exportarlos, darles forma y visualizarlos. En lugar de solo un conjunto de aristas y nodos, los gráficos se definen como un "flujo de eventos gráficos". Los eventos indican cuándo cambia un borde, nodo o componente asociado. Por lo tanto, un gráfico no se describe como una representación fija, sino por toda la historia en evolución de los elementos del gráfico.

4. NodeXL




NodeXL es una plantilla de código abierto para Microsoft Excel para análisis y visualización de redes. Le permite ingresar una lista de borde de red en una hoja de trabajo, hacer clic en un botón y visualizar su gráfico, todo en el entorno familiar de la ventana de Excel.

La herramienta admite la extracción de correo electrónico, YouTube, Facebook. Red social Twitter, WWW y Flickr. Puede manipular y filtrar fácilmente los datos subyacentes en formato de hoja de cálculo.

3. R




El lenguaje de programación R está repleto de numerosos paquetes relevantes para el análisis de redes sociales: igraph para análisis de red genérico, red para manipular y mostrar objetos de red, sna para realizar análisis sociométrico, tnet para realizar análisis de red ponderada o longitudinal, Bergm para análisis bayesiano para exponencial modelos de gráficos aleatorios, redes para simular redes bipartitas con marginales fijos y muchos más.

2. Gephi



Gephi suele ser un software de exploración y manipulación de gráficos escrito en Java. Proporciona una manera fácil de crear conectores de datos sociales para mapear organizaciones comunitarias y redes de mundo pequeño. Junto con el análisis de redes sociales, realiza análisis exploratorios de datos y enlaces, y análisis de redes biológicas. Quizás la herramienta de análisis gratuita más avanzada.


El software te ayuda a explorar y comprender gráficos. Puede interactuar con las figuras, manipular las estructuras, el color y la forma para revelar propiedades ocultas. La arquitectura flexible y de tareas múltiples le permite trabajar con datos complejos y producir resultados visuales valiosos. Además, hay un motor de renderizado 3D capaz de mostrar grandes redes en tiempo real, solo para acelerar la exploración.

1. Pajek



Pajek se utiliza para el análisis y visualización de grandes redes que contienen hasta mil millones de vértices. El programa realiza esto utilizando seis tipos de datos: gráficos, vértices, vectores (propiedades de vértices), clúster (subconjunto de vértices), permutación (reordenamiento de vértices) y jerarquía (estructura de árbol general en vértices).

sábado, 22 de diciembre de 2018

Uniendo redes en Pajek

ARS | Fusión y orden emergente

The New World Lusophone Sousaphone



Arriba: flujo máximo = 40 dentro de una sola red que conecta Jornal GGN y el Instituto Millenium,

Wouter de Nooy, coautor del libro de texto autorizado sobre el paquete de software de análisis de redes sociales Pajek, responde a una pregunta que he tenido en mente.

Elisa, ya que las dos redes que deseas combinar tienen diferentes conjuntos de vértices, no puedes usar los comandos Unión de líneas e Intersección. Utilice la Unión de Vértices para crear una red con todos los vértices y líneas de ambas redes. Ahora dos vértices pueden referirse a la misma persona u organización. Luego use el comando Net>Partition>Vertex [Labels] para obtener una partición con una clase para cada conjunto de vértices que tienen exactamente la misma etiqueta. Finalmente, reduzca los vértices dentro de estas clases a un nuevo vértice con el comando Operations>Shrink Network>Partition. Creo que esto hará el trabajo pero la red resultante puede no ser reconocida como una red de dos modos por Pajek por más tiempo.

Supongamos que la suma de la suma de vértices en las dos redes es 69, o 36 + 33, pero un cierto número de estas etiquetas se refieren a nodos idénticos. Pajek calcula la intersección de estas particiones y crea otra para mantener los nombres de los vértices.



Los vértices redundantes están marcados con hash-tag, #, de lo contrario, se utilizan para indicar que un nodo es representativo de un cluster o reducción.



Tenga en cuenta que esto se puede aplicar a los casos de múltiples bordes superpuestos y se puede iterar para descubrir información sobre una relación de varias fuentes en distintos momentos.

Aquí, estoy usando una red rastreada por WIRE y sembrada con enlaces de Arts & Letters Daily. Tengo otro basado en los rollos de membresía de la Asociación Mundial de Periódicos y, finalmente, una red más grande (400,000 URL) derivada de un rastreo mucho más exhaustivo basado en los resultados de las dos investigaciones anteriores.

Una forma efectiva de desarrollar semillas para su rastreo es buscar "puestos de periódicos" y "listas" (listas sistemáticas que representan vínculos explícitos) o posibilidades de crearlos de manera eficiente.

También estoy empezando a ser capaz de reconocer ejemplos de estructura de red, como los roles de intermediación.




Desde una lectura del sitio web del programa CENPEC y un análisis de la lista de Abong, la Asociación de ONG brasileñas, pude ver que este diagrama, creado en yEd, era importante: un vértice sin el cual el analista pierde Seguimiento del contexto institucional.

En la red de federaciones laborales brasileñas, más arriba, encontré a IREX en una posición interesante: una estructura de puente clásica, en este caso entre el establecimiento diplomático de los Estados Unidos y el brazo de investigación de políticas de la federación laboral dominante, CUT.

George Soros y Bill Gates ciertamente parecen estar involucrados en muchas ofensivas de "diplomacia pública".



Esto es interesante porque, entre otros proyectos de "lista", he estado trabajando en las federaciones laborales e industriales de Brasil. (La Confederación Industrial Nacional - CNI - ha arruinado las cosas al migrar a una nueva URL que aún no se ha filtrado).







La diplomacia de enlaces del pecado




También he estado acompañando el surgimiento de alianzas estratégicas entre los diarios sudamericanos, la Jornada de México, por ejemplo.





Los llamados "blogs sucios" brasileños exhiben una coordinación más estrecha con la prensa alternativa y se convierten en una alternativa genuina. La integración de Brasil 247 es un ejemplo, al igual que el compromiso del grupo iG con el capital de riesgo y la innovación.



Lamento no haber preparado una presentación más completa.

miércoles, 18 de julio de 2018

Blogósfera singapuresa

Imágenes SVG con Pajek

Dr. Steven McDermott

Los nodos / vértices de la Blogosfera de Singapur 1239 representados usando svg export on pajek.


La blogósfera de Singapur


Blogósfera de Singapur: el tamaño del nodo denota la centralidad de la interrelación

Blogósfera de Singapur: el tamaño del nodo denota la centralidad de la interrelación

jueves, 18 de enero de 2018

Qué buscar en un software de ARS

S de software(s), o cómo elegir el software para el análisis de redes

por Laurent Beauguitte || groupe fmr




En la actualidad hay más de 90 software dedicados al análisis de redes de acuerdo con la página Wikipedia sobre Social network analysis software (consultado el 31 de marzo de 2013). Tres hechos desalentadores para comenzar:
  • es imposible conocer todo el software;
  • es imposible seguir sus noticias;
  • dominar un software es un proceso (más o menos) lento.
A estos tres hechos se agregan dos restricciones: una lingüística, el inglés es obligatorio, ya sea para leer la documentación o usar los menús; la otra disciplina, se recomienda ser bilingüe Análisis de redes sociales (Escuela de Wasserman - Faust) / Física e Informática (Escuela de Watts, Newman et al.). Pero hay buenas noticias: el suministro es abundante, diverso y el software es cada vez más potente y fácil de manejar.

Los pocos elementos presentados en esta publicación están destinados a facilitar la elección del software. Se pueden usar cuatro conjuntos de criterios (esta clasificación es arbitraria y probablemente incompleta):

  • los criterios relacionados con el usuario;
  • los criterios de datos;
  • los criterios relacionados con los tratamientos deseados;
  • los criterios relacionados con el software en sí.

En lo que respecta al usuario, todo depende de sus objetivos y su frecuencia de uso. Si planea un uso regular y plural de análisis de red (mediciones, modelos, visualización), quizás sea útil atacar a R. Si lo necesita de vez en cuando para producir una imagen hermosa (para ilustrar un boleto, una conferencia, un curso, etc.), se recomiendan botones de software con una interfaz simple. La elección de un software pagado, gratuito o gratuito es una cuestión de convicción personal. Tenga cuidado, una gran cantidad de software no gratuito está disponible exclusivamente en Windows.

Un criterio útil es también tu red personal: si tienes en tu entorno a las personas que dominan este o aquel software, ¡moviliza tanto sus habilidades! Finalmente, y para contrarrestar los tres hechos desalentadores que abren este post, el aprendizaje es acumulativo: una vez que dominas un software, aprender a utilizar un segundo es más fácil y rápido. Y es bueno porque, si su práctica es regular, rápidamente se sentirá limitado con un solo software. No es raro usar software para visualización, uno para análisis y un tercero para una función específica.

En cuanto a los datos, no todos los programas pueden analizar todos los tipos de gráficos. Si su gráfica es simple, tiene muchas opciones. Si se valora, bipartita, multiplexada, que consiste en redes personales u otras, la elección es más restringida. Sin pretender ser exhaustivo, aquí hay una pequeña lista de software especializado:


El tamaño de la red importa. Si su red es pequeña (menos de doscientos vértices), se puede usar casi todo el software. Si su red incluye muchos miles o cientos de miles de vértices y enlaces, solo un puñado de software es adecuado (R, Cytoscape, GephiTulip son candidatos serios, obviamente hay otros). Pero cuidado, cuanto más grande sea el gráfico, más largo será el proceso y más se colapsará el software ... incluso en máquinas potentes.

Con respecto a los tratamientos deseados, no todo el software hace posible llevar a cabo todos los tratamientos existentes. El software es rápido, ergonómico, multiplataforma, permitiendo al mismo tiempo el clic-botón y las líneas de comando, los análisis múltiples y las visualizaciones de excelente calidad, este software no existe (incluso si algunos no están muy lejos). Y si su objetivo principal es producir una imagen hermosa, lo cual no es malo aquí, compruebe también que las visualizaciones se pueden exportar en formato vectorial (.eps, .svg, .ai, etc.) para volver a trabajar, luego . Pasar unas pocas decenas de minutos para obtener un gran resultado, pero donde no se puede agregar al autor, las fuentes o volver a trabajar la policía es una experiencia frustrante ...

Último conjunto de criterios para revisar, el software en sí. ¿Es pago, gratis o libre? ¿Multiplataformas? ¿Es fácil de manejar (se sabe que algún software está especialmente dañado)? ¿Es usado por un equipo, respaldado por instituciones o es una herramienta desarrollada por una persona en su esquina? ¿Hay actualizaciones frecuentes? ¿Hay una lista de correo? ¿Cuál es la calidad de la documentación propuesta? ¿Hay tutoriales en castellano?

La documentación aspecto es especialmente importante si para dominar un país libre, es necesario comprar un manual de 30 o 40 euros (véase Pajek o NodeXL), quizás el juego debe Vale la pena el esfuerzo ... el formato de los datos y su compatibilidad con otros programas es otro aspecto importante: si tengo que pasar horas para dar formato a los datos y el formato es tan específico que ningún otro software no conoce el juego, es bueno perder tanto tiempo? Porque, por supuesto, no hay (¿todavía no?) Formato estándar ... Una regla pequeña simple: un software propuesto sin conjuntos de datos no es muy interesante porque a menudo es necesario examinar cómo están estructurados para que luego pueda importar sus propios datos.

Por último consejo: para aprender cómo utilizar el software, por favor, escribir hojas de metodología (puedo importar mis datos, puedo exportar mis resultados, puedo personalizar mis visualizaciones etc.) o tutoriales y compartirlas. Porque, de vez en cuando, incluso siendo bilingüe español - inglés y ARS - física, es bueno encontrar tutoriales correctos en castellano...

sábado, 6 de enero de 2018

Comparación de software para redes de gran escala

Volumen 2017 (2017), ID del artículo 1278932, 8 páginas
Artículo de revisión

Comparación empírica de herramientas de visualización para análisis de red a mayor escala

Georgios A. Pavlopoulos, 1 David Paez-Espino, 1 Nikos C. Kyrpides, 1 e Ioannis Iliopoulos2
1 Departamento de Energía, Joint Genome Institute, Lawrence Berkeley Labs, 2800 Mitchell Drive, Walnut Creek, CA 94598, EE. UU.
2 División de Ciencias Básicas, Escuela de Medicina de la Universidad de Creta, Calle Andrea Kalokerinou, Heraklion, Grecia

La correspondencia debe dirigirse a Georgios A. Pavlopoulos y Ioannis Iliopoulos

Recibido el 22 de febrero de 2017; Revisado el 14 de mayo de 2017; Aceptado el 4 de junio de 2017; Publicado el 18 de julio de 2017

Editor académico: Klaus Jung

Copyright © 2017 Georgios A. Pavlopoulos y otros Este es un artículo de acceso abierto distribuido bajo la Creative Commons Attribution License, que permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que el trabajo original esté debidamente citado.

Resumen
La expresión génica, la transducción de señales, las interacciones proteína / química, las coocurrencias de literatura biomédica y otros conceptos a menudo se capturan en representaciones de redes biológicas donde los nodos representan una cierta bioentidad y limitan las conexiones entre ellos. Si bien ya existen muchas herramientas para manipular, visualizar e interactivamente explorar tales redes, solo algunas de ellas pueden escalar y seguir el crecimiento de información indiscutible de hoy. En esta revisión, enumeramos en breve un catálogo de herramientas de visualización de red disponibles y, desde el punto de vista de la experiencia del usuario, identificamos cuatro herramientas candidatas adecuadas para el análisis, la visualización y la exploración de redes a gran escala. Comentamos sus puntos fuertes y sus puntos débiles y discutimos empíricamente su escalabilidad, facilidad de uso y capacidades de visualización posterior.


1. Antecedentes

La salud y las ciencias naturales se han convertido en protagonistas en el mundo de los grandes datos, ya que los avances de alto rendimiento contribuyen continuamente al crecimiento exponencial de los volúmenes de datos. Hoy en día, los repositorios biológicos se expanden todos los días al alojar diversas entidades como proteínas, genes, fármacos, productos químicos, ontologías, funciones, artículos y las interacciones entre ellos, lo que a menudo conduce a redes a gran escala de miles o incluso millones de nodos y conexiones. Como tales redes se caracterizan por diferentes propiedades y topologías, la teoría de grafos juega un papel muy importante al proporcionar formas de almacenarlas, analizarlas y visualizarlas de manera eficiente [1-5].

La visualización y exploración de redes biológicas a tal escala es una tarea desafiante desde el punto de vista computacional y muchos esfuerzos en esta dirección han fallado a lo largo de los años. Los artículos de revisión recientes [3, 4, 6] discuten los desafíos en el campo de visualización de datos biológicos y enumeran un catálogo de herramientas de visualización independientes y basadas en la web, así como los conceptos visuales para los que se implementan. Si bien estos recursos son valiosos para capturar el panorama general en el campo, tener una idea de las herramientas disponibles y detectar las fortalezas y debilidades de una herramienta de interés de un vistazo, no fue obvia la retroalimentación empírica sobre la escalabilidad de las herramientas.

Para mencionar en breve las herramientas representativas en el campo, aplicaciones 2D independientes como graphVizdb [7], Ondex [8], Proviz [9], VizANT [10], GUESS [11], UCINET [12], MAPMAN [13], PATIKA [ 14], Medusa [15], o Osprey [16], así como las herramientas de visualización 3D como Arena3D [17, 18] y BioLayout Express [19] ya existen. Cada uno de ellos está diseñado para servir a un propósito diferente. Por ejemplo, Ondex se implementa para recopilar y administrar datos de conjuntos de datos heterogéneos y diversos, Proviz se dedica a manejar conjuntos de datos de interacción proteína-proteína, VizANT se enfoca en redes metabólicas y ecosistemas, Medusa puede mostrar redes semánticas y conexiones multielaboradas, GUESS soporta dinámica y datos sensibles al tiempo, Osprey se implementa para anotar redes biológicas, Arena3D apunta a gráficos de varias capas, y BioLayout Express está diseñado para visualizaciones genéricas de redes 3D avanzadas.

A pesar del hecho de que tales herramientas son ampliamente utilizadas y tienen un gran potencial para un mayor desarrollo, según nuestra experiencia, no se recomiendan para el análisis de redes a gran escala en sus versiones actuales. La aplicación de Windows UCINET podría ser utilizada solo con fines de visualización. Su tamaño de red máximo absoluto es de aproximadamente 2 millones de nodos pero, en la práctica, la mayoría de sus procedimientos son demasiado lentos para ejecutar redes de más de 5.000 nodos.

Entre varias herramientas existentes que probamos, encontramos Cytoscape (v3.5.1) [20], Tulip (v4.10.0) [21], Gephi (v0.9.1) [22] y Pajek (v5.01) [23, 24] aplicaciones independientes para ser los cuatro principales candidatos para la visualización, manipulación, exploración y análisis de redes muy grandes. Para estas cuatro herramientas, evaluamos empíricamente sus pros y sus contras, comentamos su escalabilidad, facilidad de uso, velocidad de diseño, análisis ofrecidos, perfil, eficiencia de la memoria y estilos visuales, y proporcionamos sugerencias y consejos sobre cuáles de sus características pueden escalar y cuál de ellos es mejor evitar.

Para mostrar una visualización representativa generada por estas cuatro herramientas, construimos un gráfico que consta de 202,424 nodos y 354,468 bordes que muestran la distribución del hábitat de 202,417 familias de proteínas en 7 hábitats. Los datos se recogieron del sistema de análisis de datos comparativos de genoma integrado y metagenoma IMG [25], mientras que las familias de proteínas se originaron solo en metagenomas públicos.

Un protocolo paso a paso que describe cómo se generaron estas imágenes se presenta como material complementario, disponible en línea en https://doi.org/10.1155/2017/1278932. Los comentarios sobre los problemas que ocurrieron durante nuestro análisis, así como los inconvenientes y fortalezas de las herramientas de visualización utilizadas a los fines de esta revisión, se discuten ampliamente.

2. Los cuatro candidatos principales para la visualización en red a gran escala

2.1. Gephi (Versión 0.9.1)

Gephi es un software gratuito de código abierto de visualización y exploración para todo tipo de redes y se ejecuta en Windows, Mac OS X y Linux. Es nuestra principal preferencia, ya que es altamente interactivo y los usuarios pueden editar fácilmente las formas y colores de nodo / borde para revelar patrones ocultos. El objetivo de las herramientas es ayudar a los usuarios en el descubrimiento de patrones y la creación de hipótesis a través de un filtrado dinámico eficiente y rutinas de visualización iterativa. Como herramienta genérica, es aplicable al análisis de datos exploratorios, análisis de enlaces, análisis de redes sociales, análisis de redes biológicas y creación de carteles.

2.1.1. Escalabilidad

Gephi viene con un motor de renderizado muy rápido y estructuras de datos sofisticadas para el manejo de objetos, lo que lo convierte en una de las herramientas más adecuadas para la visualización de redes a gran escala. Ofrece visualizaciones muy atractivas y, en una computadora típica, puede renderizar fácilmente redes de hasta 300,000 nodos y 1,000,000 de bordes. En comparación con otras herramientas, viene con un esquema de subprocesos múltiples muy eficiente, y por lo tanto los usuarios pueden realizar múltiples análisis simultáneamente sin sufrir problemas de "congelación" del panel.

2.1.2. Diseños

En el análisis de redes a gran escala, el diseño rápido es un cuello de botella ya que la mayoría de los algoritmos de diseño sofisticados se vuelven codiciosos en CPU y memoria al requerir que se complete el tiempo de ejecución prolongado. Mientras que Gephi viene con una gran variedad de algoritmos de diseño, los algoritmos dirigidos por la fuerza OpenOrd [26] y Yifan-Hu [27] se recomiendan principalmente para visualización de red a gran escala. OpenOrd, por ejemplo, puede escalar hasta más de un millón de nodos en menos de media hora, mientras que Yifan-Hu es una opción ideal para aplicar después del diseño de OpenOrd. Notablemente, la disposición de Yifan-Hu puede dar visiones estéticamente comparables a las producidas por Fruchterman y Reingold, ampliamente utilizados pero conservadores y que consumen mucho tiempo [28]. Otros algoritmos ofrecidos por Gephi son circular, contracción, círculo dual, aleatorio, MDS, Geo, isométrico, GraphViz y Force atlas. Si bien la mayoría de ellos se puede ejecutar en un tiempo de ejecución asequible, la combinación de OpenOrd y Yifan-Hu parece dar las visualizaciones más atractivas. La visualización de descenso también se ofrece mediante el algoritmo de diseño OpenOrd si un usuario detiene el proceso cuando ~ 50-60% del progreso se ha completado. Por supuesto, la parametrización eficiente de cualquier algoritmo de diseño elegido afectará tanto el tiempo de ejecución como el resultado visual.

2.1.3. Análisis posterior a la visualización

Edge-bundling y famosos algoritmos de clustering como el MCL [29] no vienen por defecto con Gephi, pero pueden descargarse de la biblioteca de plugins de Gephi (~ 100 complementos). Además, el plugin GeoLayout Gephi es muy adecuado para trazar una red con información geográfica. Al llegar a la visualización de red dinámica, Gephi es la vanguardia de la innovación con análisis de gráficos dinámicos. Los usuarios pueden visualizar cómo una red evoluciona con el tiempo al manipular su línea de tiempo incorporada. Si bien la visualización de una red a lo largo del tiempo es algo muy útil, sus algoritmos actuales no son adecuados para redes de gran escala. De manera similar, para redes de gran escala, es muy recomendable que los usuarios apliquen algoritmos de agrupamiento utilizando aplicaciones de línea de comando externas y luego importen los resultados de agrupamiento a una herramienta de visualización.

Para estudiar la topología de una red, Gephi viene con un perfilador de red muy básico pero de alta calidad que muestra estadísticas básicas sobre la red, como el número de nodos, el número de aristas, su densidad, su coeficiente de agrupación y otras métricas. Los atributos de nodo calculados automáticamente, como la conectividad de nodo, el coeficiente de agrupación, la centralidad de intersección o el peso del borde, son tareas triviales y no requieren demasiado tiempo para calcularse.

2.1.4. Edición

Gephi es altamente interactivo y proporciona accesos directos inteligentes para resaltar comunidades, y se ofrecen recorridos más cortos o distancias relativas de cualquier nodo a un nodo de interés. Además, los usuarios pueden ajustar fácilmente o filtrar interactivamente las formas y colores de los bordes y nodos de la red de acuerdo con sus atributos para revelar patrones ocultos. El objetivo de esta revisión no es el de tutorizar cómo utilizar dichas aplicaciones, ya que se puede encontrar en las páginas de ayuda relevantes de la herramienta. Aunque Gephi es una gran opción para la visualización de redes a gran escala, la importación manual de redes, el manejo de múltiples redes y la edición manual de nodos / bordes / etiquetas puede ser complicado ya que muchas opciones están ocultas en la interfaz de usuario de Gephi o soportadas por complementos específicos.

2.1.5. Formatos de archivo

Gephi puede cargar redes en GEXF, GDF, GML, GraphML, Pajek (NET), GraphViz (DOT), CSV, UCINET (DL), Tulip (TPL), Netdraw (VNA) y hojas de cálculo de Excel. Del mismo modo, Gephi puede exportar redes en archivos JSON, CSV, Pajek (NET), GUESS (GDF), Gephi (GEFX), GML y GraphML [30]. La forma más fácil de hablar con Cytoscape es a través de los formatos GraphML, con Tulip a través de archivos GEFX y con Pajek a través de archivos NET. Desafortunadamente, en su versión actual, falla la comunicación con otras herramientas a través de otros formatos de archivo comunes como JSON.

2.1.6. Disponibilidad

Independientemente de su documentación muy limitada, Gephi es una gran herramienta de visualización de redes en 2D, genérica y no dedicada a la biología. Principalmente hace hincapié en el procesamiento rápido y sin problemas, el diseño rápido, el filtrado eficiente y la exploración interactiva de datos, y creemos que sigue siendo una de las mejores opciones para la visualización genérica de redes a gran escala. Un ejemplo de red visualizado por Gephi se muestra en la Figura 1. Gephi está disponible en: https://gephi.org/.


Figura 1: Gephi visualización de una red que consta de 202,424 nodos y 354,468 bordes que muestra la distribución de 202,417 familias de proteínas en 7 hábitats. Se usó una combinación de OpenOrd y el algoritmo de disposición de Yifan-Hu force-directed para calcular las coordenadas del nodo. Cada hábitat y sus bordes adyacentes tienen un color único. Una guía paso a paso con respecto a los métodos y la parametrización que se utilizaron se describe ampliamente en el archivo suplementario.


2.2. Tulip (Versión 4.10.0)

Tulip es una de las herramientas de visualización de red más fáciles de usar y una opción decente para la visualización de redes de mayor escala. Debido a su simplicidad, es muy recomendable para personas inexpertas, ya que viene con una interfaz fácil de usar. Está escrito en C ++ y permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones específicas de dominio. Comparado con otras herramientas, ofrece visualizaciones muy atractivas, especialmente después de habilitar su gran algoritmo de agrupamiento de bordes.

2.2.1. Escalabilidad

En su versión actual, es capaz de visualizar miles de nodos con cientos de miles de bordes en una computadora promedio y pretende convertirse en un gran mediador entre el análisis de gráficos y la visualización. Si bien Tulip es una de las principales preferencias para redes de mediana escala, según nuestra experiencia, no es tan escalable como Gephi.

2.2.2. Diseños

Su gran variedad de algoritmos de diseño lo convierte en una de las mejores opciones para el diseño gráfico. Por el momento, admite algoritmos simples (circulares, aleatorios), dirigidos a la fuerza (es decir, Fruchterman y Reingold [28], Kamada y Kawai [31]), jerárquicos, multinivel, planos y arborescentes, la mayoría de ellos optimizados y implementado dentro del Marco de Dibujo Gráfico Abierto (OGDF) [32]. A diferencia de los algoritmos de diseño dirigidos por fuerza, más conservadores, el Diseño multipolar rápido multinivel es muy recomendable para redes de gran escala. Si bien sus diseños son de gran calidad, para ahorrar tiempo, es muy recomendable la estrategia de calcular primero el diseño de los nodos con Gephi o Pajek y luego importarlo a Tulip.

2.2.3. Análisis posterior a la visualización

Al tratar de cerrar la brecha entre el análisis y la visualización, Tulip viene con un amplio conjunto de algoritmos de análisis de topología de red y clústeres. Entre otros, Tulip actualmente implementa la codiciosa pero ampliamente codiciada Markov Clustering (MCL) [29] codiciosa, así como la veloz y eficiente memoria de Louvain Clustering [33] para gráficos no ponderados. Además, Tulip incorpora varios algoritmos tradicionales para la exploración de redes, como algoritmos, para encontrar componentes o algoritmos biconnectados o fuertemente conectados dedicados a buscar árboles o bucles de expansión. Al igual que antes, para el análisis de redes a gran escala, se recomienda ejecutar algoritmos de agrupación externamente.

Además, Tulip viene con una interfaz muy simple para hacer preguntas topológicas. La descomposición de K-core de un gráfico, centralidad de excentricidad, grado, rango de página y centralidad de intersección son algunas de las opciones ofrecidas y el tamaño o color de los nodos se puede ajustar de acuerdo con una característica topológica seleccionada.

2.2.4. Edición

Si bien Tulip no incluye una gran variedad de combinaciones de colores predefinidas, los usuarios pueden cambiar manualmente el color, el tamaño y la forma de cualquier nodo, etiqueta o borde y guardar y volver a cargar el estado de una red. Desafortunadamente, puede procesar una red por sesión y los usuarios deben tener cuidado ya que a veces la visualización y los paneles de edición no se coordinan. Desafortunadamente, las tareas simples como la selección interactiva de los bordes de entrada / salida de un nodo directamente desde la visualización pueden llevar una cantidad significativa de tiempo.

2.2.5. Agrupamiento de enlaces

Si bien el renderizador de Tulip no alcanza la resolución de Gephi o Cytoscape, viene con uno de los algoritmos de agrupamiento de enlaces más atractivos. Desafortunadamente, para el análisis de redes a gran escala, su algoritmo de agrupamiento de bordes a menudo puede convertirse en memoria y CPU codicioso, por lo que los usuarios deben ser pacientes. Finalmente, guardar el estado de una vista agrupada en comparación con una vista desagregada puede llevar a requisitos de almacenamiento significativamente mayores (ver el archivo suplementario para ver ejemplos).

2.2.6. Formatos de archivo

Acepta como entrada archivos delimitados por tabulaciones simples, Pajek, GEFX, GML, GraphViz, JSON, TLPB y UCINET y exporta a formatos TLP, SVG, JSON y GML. La forma más fácil de hablar con Pajek es a través de archivos NET, con Cytoscape a través de archivos GML o GraphML, y con Gephi a través de archivos GEFX. Finalmente, Tulip viene con un generador de gráficos muy poderoso de un tamaño y topología definidos por el usuario.

2.2.7. Disponibilidad

En general, Tulip es una herramienta genérica de visualización en red 2D con una interfaz de usuario que se explica por sí misma y es adecuada para el diseño y análisis de nodos y bordes a gran escala. Un ejemplo de red visualizado por Tulip se muestra en la Figura 2. Tulipán está disponible en: http://tulip.labri.fr/TulipDrupal/.

Figura 2: Visualización de Tulip de la misma red, como en la Figura 1. Los 7 hábitats se resaltan y cambian de tamaño según corresponda. Un ejemplo de la misma red después de aplicar bundling de bordes se presenta en el archivo suplementario. Las coordenadas de los nodos se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

2.3. Cytoscape (Versión 3.5.1)

La aplicación Java de código abierto Cytoscape es la herramienta de visualización en red 2D más utilizada en biología y ciencias de la salud. Es compatible con todo tipo de redes (p. Ej., Ponderado no ponderado, bipartito, dirigido, no dirigido y multienlace) y viene con una enorme biblioteca de complementos adicionales (> 250). Inicialmente se implementó para analizar redes de interacción molecular y vías biológicas y apuntaba a integrar estas redes con anotaciones, perfiles de expresión génica y otros datos de estado. Aunque Cytoscape se diseñó originalmente para la investigación biorelacionada, ahora sirve como una plataforma genérica para el análisis y la visualización de redes complejas al proporcionar un conjunto básico de características para la integración, el análisis y la visualización de datos.

2.3.1. Escalabilidad

Las implementaciones de Cytoscape posteriores a la versión 3.0.0 vienen con enormes mejoras en la representación, lo que permite a Cytoscape visualizar grandes redes de cientos de miles de nodos y bordes. A pesar de estas mejoras, Cytoscape no ocupa el primer lugar para el análisis de redes a gran escala, ya que no puede escalar significativamente cuando se trata de análisis. A menudo, las rutinas de agrupamiento y distribución de Cytoscape requieren una gran cantidad de memoria y tiempo. Por lo tanto, para el análisis de redes a gran escala, se sugiere ejecutar dichos procesos en línea de comando fuera de la plataforma Cytoscape y cargar los resultados como atributos de nodo / borde (grupos en el caso de clustering o coordenadas en el caso de un diseño). Además, Cytoscape está sujeto a las limitaciones de memoria y tiempo de ejecución de Java ya que la mayoría de sus rutinas se implementan en Java.

2.3.2. Diseños

Al igual que otras herramientas, viene con una gran variedad de algoritmos de diseño simples (cuadriculados, aleatorios y circulares) o más sofisticados (dirigidos por fuerza, jerárquicos). En particular, para el análisis de redes a gran escala, los usuarios deben tener cuidado y cambiar el algoritmo de diseño predeterminado antes de crear una vista. Se recomienda una cuadrícula simple o un diseño circular simple ya que los diseños dirigidos por fuerza de Cytoscape son codiciosos y la CPU puede "colgar". Otra alternativa podría ser OpenCL, uno de los algoritmos de diseños más rápidos en Cytoscape. Después de la versión 3.2.0, la versión basada en OpenCL se incorpora como una aplicación básica. Este diseño es hasta 100 veces más rápido que el diseño estándar de Prefuse y depende de la aplicación central de CyCL para el soporte de OpenCL. Sin embargo, calcular un primer diseño con Gephi o Pajek y luego importar sus resultados en Cytoscape puede ahorrar tiempo.

2.3.3. Análisis posterior a la visualización

Cytoscape es la herramienta más exitosa para cerrar la brecha entre el análisis y la visualización, y viene con una gran cantidad de algoritmos de diseño, clustering y análisis de redes topológicas. ClusterMaker plugin [34], por ejemplo, incluye algoritmos de clúster de atributos como AutoSOME Clustering [35] y Eisen's hierarchical y -Means clustering [36] así como algoritmos de agrupamiento basados ​​en topología como propagación de afinidad [37], agrupamiento de comunidades (GLay ) [38], MCODE [39], MCL, SCPS (Agrupación espectral de secuencias de proteínas) [40], y clústeres de transitividad [41]. La mayoría de los resultados de la agrupación se pueden visualizar como una red recién construida que conserva los bordes originales o como un mapa de calor. Al igual que antes, para el análisis de redes a gran escala, se anima a los usuarios a ejecutar dichos algoritmos externamente.

Además, Cytoscape incorpora uno de los perfiladores de red más avanzados para explorar las características topológicas de la red. Los usuarios pueden ver estadísticas simples como la conectividad promedio, la centralidad de intermediación, el coeficiente de agrupamiento y otros. Si bien estos cálculos son triviales para redes de gran escala, trazar una característica topológica contra cualquier otro podría ser lento.

Finalmente, las últimas versiones de Cytoscape incorporan un algoritmo de agrupamiento de bordes bastante útil pero lento y con memoria ineficiente, no recomendado para análisis a gran escala.

2.3.4. Edición

Cytoscape es un protagonista en la oferta de estilos visuales y combinaciones de colores predefinidos para crear visualizaciones de alta calidad y belleza estética. Sus capacidades de acercamiento y barrido son muy avanzadas y el visor satelital de Cytoscape hace que sea muy fácil para los usuarios navegar y orientarse cuando la red se dibuja fuera del lienzo principal, algo que no es trivial con Gephi. Finalmente, la elección de nodos y bordes adyacentes desde la interfaz de usuario es muy receptiva.

2.3.5. Formatos de archivo

Cytoscape acepta muchos formatos de archivos de entrada diferentes, como su propio formato CYS, delimitado por tabuladores, formato de archivo de interacción simple (SIF), formato de red anidado (NNF), lenguaje de marcado de gráficos (GML), lenguaje de marcado y lenguaje de modelado extensible (XGMML), SBML [42], BioPAX [43], PSI-MI [44], GraphML, excel libros de trabajo (.xls, .xlsx) y JSON. La forma más fácil de hablar con Tulip y Gephi es a través de un formato GML.

2.3.6. Disponibilidad

En general, Cytoscape es la mejor herramienta de visualización hoy en día para el análisis de redes biológicas. A pesar de su facilidad de uso, su rica documentación y la tremenda mejora de su interfaz de usuario después de la versión 3.0, la familiaridad con la herramienta y sus complementos disponibles aún requiere una curva de aprendizaje para tareas más avanzadas. Cytoscape store actualmente alberga más de 250 complementos, diseñados específicamente para abordar y automatizar complicados análisis biológicos. Complementos para el enriquecimiento funcional, anotaciones de Gene Ontology [45], mapeo de nombres de genes, integración con repositorios públicos biológicos, recuperación eficiente de datos en línea, análisis de rutas, comparaciones de redes directas, expresión diferencial y análisis estadístico hacen que Cytoscape sea único en su género y por eso hoy actualmente es y se espera que siga siendo el jugador número uno para el análisis de redes biológicas. Una red visualizada por Cytoscape se muestra en la Figura 3. Cytoscape está disponible en http://www.cytoscape.org/.


Figura 3: visualización de Cytoscape de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Los 7 hábitats están coloreados en consecuencia. Como en la Figura 2, las coordenadas se calcularon usando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

Finalmente, CytoscapeWeb [46] y Cytoscape.js son proyectos separados. Son dos esfuerzos muy fuertes que apuntan a incorporar las principales funcionalidades visuales de Cytoscape en aplicaciones basadas en navegador, algo que, por supuesto, no es adecuado para el análisis de redes a gran escala. Los usuarios pueden usar Cytoscape y exportar las redes en formato JSON para Cytoscape.js.

2.4. Pajek (Versión 5.01)

Pajek es una herramienta de visualización de redes genérica, con más de 20 años de antigüedad, basada en Microsoft Windows, inicialmente implementada para el análisis de redes sociales, pero una aplicación muy poderosa para el análisis y la visualización de redes masivas.

2.4.1. Escalabilidad

Pajek puede visualizar fácilmente millones de nodos con mil millones de conexiones en una computadora promedio superando a cualquier otra herramienta disponible en el campo. Pajek-XXL es una implementación especial de Pajek con énfasis en el análisis de redes a gran escala. Necesita al menos 2-3 veces menos memoria física que Pajek y la mayoría de las operaciones intensivas de memoria de Pajek están optimizadas para ser mucho más rápidas. La filosofía principal de Pajek-XXL es extraer partes más pequeñas pero más interesantes e informativas de una red más grande que se puede analizar y visualizar con más herramientas avanzadas. El mayor número posible de vértices que Pajek64-XXL puede manejar se ha aumentado a 2 mil millones, en cuanto al Pajek común, el límite es de 100 millones. Pajek-XXL usa enteros de 32 bits (4 bytes) para números de vértices. Por lo tanto, la mayor cantidad de vértices que Pajek-XXL puede manejar se establece en dos mil millones. Si la red contiene más vértices, se debe usar Pajek-3XL. Pajek-3XL utiliza enteros de 64 bits (8 bytes) para números de vértices. La mayor cantidad de vértices que puede manejar Pajek-3XL actualmente se establece en 10 mil millones, pero puede incrementarse fácilmente. En particular, el espacio necesario para almacenar una red en Pajek-3XL y Pajek-XXL es exactamente el mismo.

2.4.2. Diseños

Diseño de gráficos, fusión de nodos, detección de vecindarios, identificación de componentes fuertemente conectados, búsqueda de clics, manipulación de gráficos bipartitos, búsqueda de rutas más cortas o flujos máximos, agrupamiento (es decir, Louvain) y centralidades informáticas de vértices y centralizaciones de redes como grado , la cercanía, la proximidad, los centros y las autoridades, los coeficientes de agrupamiento y la centralidad laplaciana son algunas de las capacidades de Pajek. En particular, Pajek es eficiente en cuanto a la memoria y muy adecuado para una rápida multiplicación de red dispersa.

2.4.3. Formato de archivo

Pajek acepta formatos de entrada de archivos muy estrictos. La forma más fácil de hablar con Tulip y Gephi es a través de un archivo .net

La interfaz de usuario de Pajek es simple, fácil de familiarizar y muy receptiva cuando se trata de análisis de redes masivas. Nunca se pensó en ser el visualizador más avanzado, pero ofrece tremendas metodologías de análisis de gráficos, lo que lo convierte en un gran candidato para el análisis de redes masivas y un gran complemento de las herramientas existentes. Un ejemplo de red visualizado por Pajek se muestra en la Figura 4. Pajek se puede encontrar en http://mrvar.fdv.uni-lj.si/pajek/.

Figura 4: Visualización básica de Pajek de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Al igual que en las Figuras 2 y 3, las coordenadas se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi. Notablemente para una red masiva, se recomienda encarecidamente usar primero el diseño de Pajek.


3. Discusión

A pesar de la gran cantidad de herramientas de visualización de red disponibles, debido al continuo aumento del volumen de datos en las ciencias de la salud, la visualización y la manipulación de redes a gran escala con millones de nodos y bordes siguen siendo un cuello de botella. Mientras que las bibliotecas no interactivas como el Stanford Network Analysis Project (SNAP) [47], se prefieren el Large Graph Layout (LGL) [48], NetworkX [49] o el GraphViz [50] para cálculos de back-end y static a gran escala. visualizaciones y visualizaciones de red alternativas como las ofrecidas por los Circos [51], HivePlots [52], o BioFabric [53] pueden resolver parcialmente el efecto bola de pelo, la implementación de herramientas interactivas fáciles de usar para manejar y visualizar gráficos tan grandes aún sigue siendo una tarea muy complicada. Por lo tanto, para los fines de este artículo de revisión, probamos varias aplicaciones independientes disponibles y concluimos que Pajek, Tulip Gephi y Cytoscape son los principales candidatos para la visualización y el análisis de redes a gran escala.

En conclusión, si bien Cytoscape es la mejor y la herramienta más preferida para los análisis biológicos, tiene problemas de escalabilidad y memoria y, por lo tanto, no es nuestra mejor opción para la visualización en red a gran escala. Por el contrario, lo clasificamos primero para análisis biológicos ya que está acompañado por una gran plétora de más de 200 complementos. Comparado con Tulip, Gephi y Pajek, tiene la paleta más rica de estilos de color predefinidos, la colección más eficiente de algoritmos de agrupamiento y el mejor perfil de red para la comparación intranet de las características topológicas.

Gephi claramente supera a Cytoscape en términos de escalabilidad y eficiencia de la memoria y, en nuestra opinión, es la mejor herramienta de visualización genérica para diseñar redes de gran escala. Si bien es bastante sencillo de usar, algunas veces las opciones de edición de nodos / bordes están bien escondidas en su interfaz de usuario, por lo que es un poco confuso para el usuario. Por otro lado, Gephi ofrece visualizaciones muy avanzadas al permitir a los usuarios realizar múltiples tareas simultáneamente, algo que no siempre es fácil con Cytoscape o Tulip. En general, clasificamos a Gephi como el primero en lo que respecta al equilibrio entre la visualización en red a gran escala y el análisis básico.

Tulip es nuestra tercera mejor opción para visualización de red a gran escala. Sus mejores características son (i) el diseño de agrupamiento de bordes y (ii) su simplicidad en la edición de colores, etiquetas y atributos del nodo / borde. Tulip es altamente recomendado para principiantes debido a su interfaz de usuario que se explica por sí misma.

Finalmente, Pajek y Pajek-XXL son las herramientas más escalables y altamente recomendadas para visualizaciones básicas de redes masivas con> 10 mil millones de nodos, tamaños de red que Cytoscape, Tulip y Gephi no pueden manejar en sus versiones actuales. Desafortunadamente, la falta de interoperabilidad de los sistemas operativos, así como la falta de flexibilidad de formatos de archivos de entrada y la falta de visualizaciones atractivas, impiden que Pajek sea la mejor herramienta para visualizaciones avanzadas.

Todas las observaciones mencionadas se resumen en la Tabla 1. Aunque pueden variar de un usuario a otro según la experiencia y el estudio de caso, en nuestra opinión, Cytoscape, Tulip, Pajek y Gephi siguen siendo la mejor visualización de red a gran escala y herramientas de análisis en sistemas y biología de redes.
Tabla 1: Evaluación empírica de nuestras cuatro herramientas interactivas de visualización de redes (Cytoscape, Gephi, Tulip y Pajek) para el análisis de redes biológicas a gran escala.

CytoscapeTulipGephiPajek

Escalibilidad
Facilidad de uso
Estilo visual
Manejo de enlaces
Relevancia para la Biología
Eficiencia de memoria
Agrupamiento
Edición manual nodo/enlace
Diseños
Perfiles de red
Formato de archivos
Complementos
Estabilidad
Velocidad
Documentación

 = más débil;  = medio;  = bueno;  = más fuerte.

4. Conclusión

Es injusto y no directo comparar directamente las herramientas de visualización entre sí a medida que se implementan para diferentes propósitos. Sin embargo, a medida que el tamaño de la red biológica aumenta con el tiempo, la combinación de las ventajas complementarias de diferentes herramientas es una buena estrategia. Si bien se han estandarizado varios formatos de archivo para describir la estructura de la red, nuestra experiencia demostró que muchos de ellos no se pueden exportar o importar correctamente en varias herramientas. Además, incluso en los mejores casos donde tal problema de importación / exportación está ausente, a menudo los atributos de nodo y borde no se pueden transferir. Por lo tanto, creemos que una red católica convertida para convertir con precisión un formato de archivo en cualquier otra manteniendo simultáneamente la máxima información sobre los componentes de la red es obligatoria. De esta manera, cambiar entre herramientas y varias visualizaciones será más fácil y más directo.


Referencias

  1. G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos et al., “Using graph theory to analyze biological networks,” BioData Mining, vol. 4, no. 1, article 10, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  2. G. A. Pavlopoulos, D. Malliarakis, N. Papanikolaou, T. Theodosiou, A. J. Enright, and I. Iliopoulos, “Visualizing genome and systems biology: Technologies, tools, implementation techniques and trends, past, present and future,” GigaScience, vol. 4, no. 1, article no. 38, 2015. View at Publisher · View at Google Scholar · View at Scopus
  3. N. Gehlenborg, S. I. O’Donoghue, N. S. Baliga et al., “Visualization of omics data for systems biology,” Nature Methods, vol. 7, no. 3, pp. S56–S68, 2010. View at Publisher · View at Google Scholar · View at Scopus
  4. S. I. O’Donoghue, A.-C. Gavin, N. Gehlenborg et al., “Visualizing biological data—now and in the future,” Nature Methods, vol. 7, no. 3, pp. S2–S4, 2010. View at Publisher · View at Google Scholar · View at Scopus
  5. G. A. Pavlopoulos, E. Iacucci, I. Iliopoulos, and P. Bagos, “Interpreting the Omics 'era' Data,” Smart Innovation, Systems and Technologies, vol. 25, pp. 79–100, 2013. View at Publisher · View at Google Scholar · View at Scopus
  6. G. A. Pavlopoulos, A. L. Wegener, and R. Schneider, “A survey of visualization tools for biological network analysis,” BioData Mining, vol. 1, 12 pages, 2008. View at Google Scholar
  7. N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis, “GraphVizdb: A scalable platform for interactive large graph visualization,” in Proceedings of the 32nd IEEE International Conference on Data Engineering, ICDE 2016, pp. 1342–1345, Helsinki, Finland, May 2016. View at Publisher · View at Google Scholar · View at Scopus
  8. J. Köhler, J. Baumbach, J. Taubert et al., “Graph-based analysis and visualization of experimental results with ONDEX,” Bioinformatics, vol. 22, no. 11, pp. 1383–1390, 2006. View at Publisher · View at Google Scholar · View at Scopus
  9. F. Iragne, M. Nikolski, B. Mathieu, D. Auber, and D. Sherman, “ProViz: Protein interaction visualization and exploration,” Bioinformatics, vol. 21, no. 2, pp. 272–274, 2005. View at Publisher · View at Google Scholar · View at Scopus
  10. Z. Hu, J.-H. Hung, Y. Wang et al., “VisANT 3.5: Multi-scale network visualization, analysis and inference based on the gene ontology,” Nucleic Acids Research, vol. 37, no. 2, pp. W115–W121, 2009. View at Publisher · View at Google Scholar · View at Scopus
  11. E. Adar, “GUESS: a language and interface for graph exploration,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 791–800, Montreal, CA, USA, 2006.
  12. S. P. Borgatti, M. G. Everett, and L. C. Freeman, Ucinet for Windows: Software for Social Network Analysis, Analytic Technologies, Harvard, Mass, USA, 2002.
  13. O. Thimm, O. Bläsing, Y. Gibon et al., “MAPMAN: a user-driven tool to display genomics data sets onto diagrams of metabolic pathways and other biological processes,” Plant Journal, vol. 37, no. 6, pp. 914–939, 2004. View at Publisher · View at Google Scholar · View at Scopus
  14. E. Demir, O. Babur, U. Dogrusoz et al., “PATIKA: An integrated visual environment for collaborative construction and analysis of cellular pathways,” Bioinformatics, vol. 18, no. 7, pp. 996–1003, 2002. View at Publisher · View at Google Scholar · View at Scopus
  15. G. A. Pavlopoulos, S. D. Hooper, A. Sifrim, R. Schneider, and J. Aerts, “Medusa: A tool for exploring and clustering biological networks,” BMC Research Notes, vol. 4, article no. 384, 2011. View at Publisher ·View at Google Scholar · View at Scopus
  16. B. J. Breitkreutz, C. Stark, and M. Tyers, “Osprey: a network visualization system,” Genome Biology, vol. 4, article R22, no. 3, 2003. View at Google Scholar
  17. M. Secrier, G. A. Pavlopoulos, J. Aerts, and R. Schneider, “Arena3D: visualizing time-driven phenotypic differences in biological systems,” BMC Bioinformatics, vol. 13, no. 1, article 45, 2012. View at Publisher ·View at Google Scholar · View at Scopus
  18. G. A. Pavlopoulos, S. I. O'Donoghue, V. P. Satagopam, T. G. Soldatos, E. Pafilis, and R. Schneider, “Arena3D: visualization of biological networks in 3D,” BMC Systems Biology, vol. 2, article 104, 2008.View at Publisher · View at Google Scholar · View at Scopus
  19. A. Theocharidis, S. van Dongen, A. J. Enright, and T. C. Freeman, “Network visualization and analysis of gene expression data using BioLayout Express (3D),” Nature Protocols, vol. 4, no. 10, pp. 1535–1550, 2009. View at Google Scholar
  20. P. Shannon, A. Markiel, O. Ozier et al., “Cytoscape: a software Environment for integrated models of biomolecular interaction networks,” Genome Research, vol. 13, no. 11, pp. 2498–2504, 2003. View at Publisher · View at Google Scholar · View at Scopus
  21. D. Auber, “Tulip —a huge graph visualization framework,” in Graph Drawing Software, M. Jünger and P. Mutzel, Eds., Mathematics and Visualization, pp. 105–126, Springer, Berlin, Germany, 2004. View at Publisher · View at Google Scholar
  22. M. Jacomy, T. Venturini, S. Heymann, and M. Bastian, “ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software,” PLoS ONE, vol. 9, no. 6, Article ID e98679, 2014. View at Publisher · View at Google Scholar · View at Scopus
  23. A. Mrvar and V. Batagelj, “Analysis and visualization of large networks with program package Pajek,” Complex Adaptive Systems Modeling, vol. 4, no. 6, 2016. View at Google Scholar
  24. V. Batagelj and A. Mrvar, “Pajeka— program for large network analysis,” Connections, vol. 21, no. 2, pp. 47–57, 1998. View at Google Scholar
  25. I. A. Chen, V. M. Markowitz, K. Chu et al. et al., “IMG/M: integrated genome and metagenome comparative data analysis system,” Nucleic Acids Research, 2016. View at Google Scholar
  26. S. Martin, W. M. Brown, R. Klavans, and K. W. Boyack, “OpenOrd: An open-source toolbox for large graph layout,” in Proceedings of the Visualization and Data Analysis 2011, San Francisco Airport, Calif, USA, January 2011. View at Publisher · View at Google Scholar · View at Scopus
  27. H. Yifan, “Efficient, high-quality force-directed graph drawing,” The Mathematica Journal, vol. 10, no. 1, 2006. View at Google Scholar
  28. T. M. J. Fruchterman and E. M. Reingold, “Graph drawing by force-directed placement,” Software—Practice and Experience, vol. 21, no. 11, pp. 1129–1164, 1991. View at Publisher · View at Google Scholar· View at Scopus
  29. A. J. Enright, S. Van Dongen, and C. A. Ouzounis, “An efficient algorithm for large-scale detection of protein families,” Nucleic Acids Research, vol. 30, no. 7, pp. 1575–1584, 2002. View at Publisher · View at Google Scholar · View at Scopus
  30. U. Brandes, M. Eiglsperger, J. Lerner, and C. Pich, “Graph markup language (GraphML),” in Handbook of Graph Drawing and Visualization, pp. 517–541, 1999. View at Google Scholar
  31. T. Kamada and S. Kawai, “An algorithm for drawing general undirected graphs,” Information Processing Letters, vol. 31, no. 1, pp. 7–15, 1989. View at Publisher · View at Google Scholar · View at MathSciNet ·View at Scopus
  32. M. Chimani, C. Gutwenger, M. Jünger, G. W. Klau, and K. Klein, The Open Graph Drawing Framework (OGDF), Chapman & Hall, London, UK, 2014.
  33. V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre, “Fast unfolding of communities in large networks,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2008, no. 10, Article ID P10008, 2008. View at Publisher · View at Google Scholar · View at Scopus
  34. J. H. Morris, L. Apeltsin, A. M. Newman et al., “ClusterMaker: a multi-algorithm clustering plugin for Cytoscape,” BMC Bioinformatics, vol. 12, article 436, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  35. A. M. Newman and J. B. Cooper, “AutoSOME: A clustering method for identifying gene expression modules without prior knowledge of cluster number,” BMC Bioinformatics, vol. 11, article no. 117, 2010.View at Publisher · View at Google Scholar · View at Scopus
  36. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, “Cluster analysis and display of genome-wide expression patterns,” Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863–14868, 1998. View at Publisher · View at Google Scholar · View at Scopus
  37. B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” American Association for the Advancement of Science. Science, vol. 315, no. 5814, pp. 972–976, 2007. View at Publisher · View at Google Scholar · View at MathSciNet · View at Scopus
  38. M. E. J. Newman and M. Girvan, “Finding and evaluating community structure in networks,” Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, vol. 69, no. 2, Article ID 026113, pp. 1–26113, 2004. View at Publisher · View at Google Scholar · View at Scopus
  39. G. D. Bader and C. W. Hogue, “An automated method for finding molecular complexes in large protein interaction networks,” BMC Bioinformatics, vol. 4, no. 2, 2003. View at Google Scholar
  40. T. Nepusz, R. Sasidharan, and A. Paccanaro, “SCPS: A fast implementation of a spectral method for detecting protein families on a genome-wide scale,” BMC Bioinformatics, vol. 11, article no. 120, 2010.View at Publisher · View at Google Scholar · View at Scopus
  41. T. Wittkop, D. Emig, S. Lange et al., “Partitioning biological data with transitivity clustering,” Nature Methods, vol. 7, no. 6, pp. 419-420, 2010. View at Publisher · View at Google Scholar · View at Scopus
  42. M. Hucka, A. Finney, H. M. Sauro et al., “The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models,” Bioinformatics, vol. 19, no. 4, pp. 524–531, 2003. View at Publisher · View at Google Scholar · View at Scopus
  43. J. S. Luciano and R. D. Stevens, “E-Science and biological pathway semantics,” BMC Bioinformatics, vol. 8, no. 3, article no. S3, 2007. View at Publisher · View at Google Scholar · View at Scopus
  44. H. Hermjakob, L. Montecchi-Palazzi, G. Bader et al., “The HUPO PSI's Molecular Interaction format—a community standard for the representation of protein interaction data,” Nature Biotechnology, vol. 22, no. 2, pp. 177–183, 2004. View at Publisher · View at Google Scholar · View at Scopus
  45. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology,” Nature Genetics, vol. 25, no. 1, pp. 25–29, 2000. View at Publisher · View at Google Scholar · View at Scopus
  46. C. T. Lopes, M. Franz, F. Kazi, S. L. Donaldson, Q. Morris, and G. D. Bader, “Cytoscape web: An interactive web-based network browser,” Bioinformatics, vol. 26, no. 18, Article ID btq430, pp. 2347-2348, 2010. View at Publisher · View at Google Scholar · View at Scopus
  47. J. Leskovec and R. Sosi, “SNAP: a general-purpose network analysis and graph-mining library,” ACM Transactions on Intelligent Systems and Technology, vol. 8, no. 1, pp. 1–20, 2016. View at Google Scholar
  48. A. T. Adai, S. V. Date, S. Wieland, and E. M. Marcotte, “LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks,” Journal of Molecular Biology, vol. 340, no. 1, pp. 179–190, 2004. View at Publisher · View at Google Scholar · View at Scopus
  49. A. Hagberg, D. Schult, and P. Swart, “Exploring Network Structure, Dynamics, and Function using Network,” in Proceedings of the 7th Python in Science Conference (SciPy 2008), pp. 11–15, 2008.
  50. E. R. Gansner and S. C. North, “An open graph visualization system and its applications to software engineering,” Software—Practice & Experience, vol. 30, no. 11, pp. 1203–1233, 2000. View at Google Scholar
  51. M. Krzywinski, J. Schein, I. Birol et al., “Circos: An information aesthetic for comparative genomics,” Genome Research, vol. 19, no. 9, pp. 1639–1645, 2009. View at Publisher · View at Google Scholar · View at Scopus
  52. M. Krzywinski, I. Birol, S. J. Jones, and M. A. Marra, “Hive plots-rational approach to visualizing networks,” Briefings in Bioinformatics, vol. 13, no. 5, pp. 627–644, 2012. View at Publisher · View at Google Scholar · View at Scopus
  53. W. J. R. Longabaugh, “Combing the hairball with BioFabric: A new approach for visualization of large networks,” BMC Bioinformatics, vol. 13, no. 1, article no. 275, 2012. View at Publisher · View at Google Scholar · View at Scopus