sábado, 6 de enero de 2018

Comparación de software para redes de gran escala

Volumen 2017 (2017), ID del artículo 1278932, 8 páginas
Artículo de revisión

Comparación empírica de herramientas de visualización para análisis de red a mayor escala

Georgios A. Pavlopoulos, 1 David Paez-Espino, 1 Nikos C. Kyrpides, 1 e Ioannis Iliopoulos2
1 Departamento de Energía, Joint Genome Institute, Lawrence Berkeley Labs, 2800 Mitchell Drive, Walnut Creek, CA 94598, EE. UU.
2 División de Ciencias Básicas, Escuela de Medicina de la Universidad de Creta, Calle Andrea Kalokerinou, Heraklion, Grecia

La correspondencia debe dirigirse a Georgios A. Pavlopoulos y Ioannis Iliopoulos

Recibido el 22 de febrero de 2017; Revisado el 14 de mayo de 2017; Aceptado el 4 de junio de 2017; Publicado el 18 de julio de 2017

Editor académico: Klaus Jung

Copyright © 2017 Georgios A. Pavlopoulos y otros Este es un artículo de acceso abierto distribuido bajo la Creative Commons Attribution License, que permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que el trabajo original esté debidamente citado.

Resumen
La expresión génica, la transducción de señales, las interacciones proteína / química, las coocurrencias de literatura biomédica y otros conceptos a menudo se capturan en representaciones de redes biológicas donde los nodos representan una cierta bioentidad y limitan las conexiones entre ellos. Si bien ya existen muchas herramientas para manipular, visualizar e interactivamente explorar tales redes, solo algunas de ellas pueden escalar y seguir el crecimiento de información indiscutible de hoy. En esta revisión, enumeramos en breve un catálogo de herramientas de visualización de red disponibles y, desde el punto de vista de la experiencia del usuario, identificamos cuatro herramientas candidatas adecuadas para el análisis, la visualización y la exploración de redes a gran escala. Comentamos sus puntos fuertes y sus puntos débiles y discutimos empíricamente su escalabilidad, facilidad de uso y capacidades de visualización posterior.


1. Antecedentes

La salud y las ciencias naturales se han convertido en protagonistas en el mundo de los grandes datos, ya que los avances de alto rendimiento contribuyen continuamente al crecimiento exponencial de los volúmenes de datos. Hoy en día, los repositorios biológicos se expanden todos los días al alojar diversas entidades como proteínas, genes, fármacos, productos químicos, ontologías, funciones, artículos y las interacciones entre ellos, lo que a menudo conduce a redes a gran escala de miles o incluso millones de nodos y conexiones. Como tales redes se caracterizan por diferentes propiedades y topologías, la teoría de grafos juega un papel muy importante al proporcionar formas de almacenarlas, analizarlas y visualizarlas de manera eficiente [1-5].

La visualización y exploración de redes biológicas a tal escala es una tarea desafiante desde el punto de vista computacional y muchos esfuerzos en esta dirección han fallado a lo largo de los años. Los artículos de revisión recientes [3, 4, 6] discuten los desafíos en el campo de visualización de datos biológicos y enumeran un catálogo de herramientas de visualización independientes y basadas en la web, así como los conceptos visuales para los que se implementan. Si bien estos recursos son valiosos para capturar el panorama general en el campo, tener una idea de las herramientas disponibles y detectar las fortalezas y debilidades de una herramienta de interés de un vistazo, no fue obvia la retroalimentación empírica sobre la escalabilidad de las herramientas.

Para mencionar en breve las herramientas representativas en el campo, aplicaciones 2D independientes como graphVizdb [7], Ondex [8], Proviz [9], VizANT [10], GUESS [11], UCINET [12], MAPMAN [13], PATIKA [ 14], Medusa [15], o Osprey [16], así como las herramientas de visualización 3D como Arena3D [17, 18] y BioLayout Express [19] ya existen. Cada uno de ellos está diseñado para servir a un propósito diferente. Por ejemplo, Ondex se implementa para recopilar y administrar datos de conjuntos de datos heterogéneos y diversos, Proviz se dedica a manejar conjuntos de datos de interacción proteína-proteína, VizANT se enfoca en redes metabólicas y ecosistemas, Medusa puede mostrar redes semánticas y conexiones multielaboradas, GUESS soporta dinámica y datos sensibles al tiempo, Osprey se implementa para anotar redes biológicas, Arena3D apunta a gráficos de varias capas, y BioLayout Express está diseñado para visualizaciones genéricas de redes 3D avanzadas.

A pesar del hecho de que tales herramientas son ampliamente utilizadas y tienen un gran potencial para un mayor desarrollo, según nuestra experiencia, no se recomiendan para el análisis de redes a gran escala en sus versiones actuales. La aplicación de Windows UCINET podría ser utilizada solo con fines de visualización. Su tamaño de red máximo absoluto es de aproximadamente 2 millones de nodos pero, en la práctica, la mayoría de sus procedimientos son demasiado lentos para ejecutar redes de más de 5.000 nodos.

Entre varias herramientas existentes que probamos, encontramos Cytoscape (v3.5.1) [20], Tulip (v4.10.0) [21], Gephi (v0.9.1) [22] y Pajek (v5.01) [23, 24] aplicaciones independientes para ser los cuatro principales candidatos para la visualización, manipulación, exploración y análisis de redes muy grandes. Para estas cuatro herramientas, evaluamos empíricamente sus pros y sus contras, comentamos su escalabilidad, facilidad de uso, velocidad de diseño, análisis ofrecidos, perfil, eficiencia de la memoria y estilos visuales, y proporcionamos sugerencias y consejos sobre cuáles de sus características pueden escalar y cuál de ellos es mejor evitar.

Para mostrar una visualización representativa generada por estas cuatro herramientas, construimos un gráfico que consta de 202,424 nodos y 354,468 bordes que muestran la distribución del hábitat de 202,417 familias de proteínas en 7 hábitats. Los datos se recogieron del sistema de análisis de datos comparativos de genoma integrado y metagenoma IMG [25], mientras que las familias de proteínas se originaron solo en metagenomas públicos.

Un protocolo paso a paso que describe cómo se generaron estas imágenes se presenta como material complementario, disponible en línea en https://doi.org/10.1155/2017/1278932. Los comentarios sobre los problemas que ocurrieron durante nuestro análisis, así como los inconvenientes y fortalezas de las herramientas de visualización utilizadas a los fines de esta revisión, se discuten ampliamente.

2. Los cuatro candidatos principales para la visualización en red a gran escala

2.1. Gephi (Versión 0.9.1)

Gephi es un software gratuito de código abierto de visualización y exploración para todo tipo de redes y se ejecuta en Windows, Mac OS X y Linux. Es nuestra principal preferencia, ya que es altamente interactivo y los usuarios pueden editar fácilmente las formas y colores de nodo / borde para revelar patrones ocultos. El objetivo de las herramientas es ayudar a los usuarios en el descubrimiento de patrones y la creación de hipótesis a través de un filtrado dinámico eficiente y rutinas de visualización iterativa. Como herramienta genérica, es aplicable al análisis de datos exploratorios, análisis de enlaces, análisis de redes sociales, análisis de redes biológicas y creación de carteles.

2.1.1. Escalabilidad

Gephi viene con un motor de renderizado muy rápido y estructuras de datos sofisticadas para el manejo de objetos, lo que lo convierte en una de las herramientas más adecuadas para la visualización de redes a gran escala. Ofrece visualizaciones muy atractivas y, en una computadora típica, puede renderizar fácilmente redes de hasta 300,000 nodos y 1,000,000 de bordes. En comparación con otras herramientas, viene con un esquema de subprocesos múltiples muy eficiente, y por lo tanto los usuarios pueden realizar múltiples análisis simultáneamente sin sufrir problemas de "congelación" del panel.

2.1.2. Diseños

En el análisis de redes a gran escala, el diseño rápido es un cuello de botella ya que la mayoría de los algoritmos de diseño sofisticados se vuelven codiciosos en CPU y memoria al requerir que se complete el tiempo de ejecución prolongado. Mientras que Gephi viene con una gran variedad de algoritmos de diseño, los algoritmos dirigidos por la fuerza OpenOrd [26] y Yifan-Hu [27] se recomiendan principalmente para visualización de red a gran escala. OpenOrd, por ejemplo, puede escalar hasta más de un millón de nodos en menos de media hora, mientras que Yifan-Hu es una opción ideal para aplicar después del diseño de OpenOrd. Notablemente, la disposición de Yifan-Hu puede dar visiones estéticamente comparables a las producidas por Fruchterman y Reingold, ampliamente utilizados pero conservadores y que consumen mucho tiempo [28]. Otros algoritmos ofrecidos por Gephi son circular, contracción, círculo dual, aleatorio, MDS, Geo, isométrico, GraphViz y Force atlas. Si bien la mayoría de ellos se puede ejecutar en un tiempo de ejecución asequible, la combinación de OpenOrd y Yifan-Hu parece dar las visualizaciones más atractivas. La visualización de descenso también se ofrece mediante el algoritmo de diseño OpenOrd si un usuario detiene el proceso cuando ~ 50-60% del progreso se ha completado. Por supuesto, la parametrización eficiente de cualquier algoritmo de diseño elegido afectará tanto el tiempo de ejecución como el resultado visual.

2.1.3. Análisis posterior a la visualización

Edge-bundling y famosos algoritmos de clustering como el MCL [29] no vienen por defecto con Gephi, pero pueden descargarse de la biblioteca de plugins de Gephi (~ 100 complementos). Además, el plugin GeoLayout Gephi es muy adecuado para trazar una red con información geográfica. Al llegar a la visualización de red dinámica, Gephi es la vanguardia de la innovación con análisis de gráficos dinámicos. Los usuarios pueden visualizar cómo una red evoluciona con el tiempo al manipular su línea de tiempo incorporada. Si bien la visualización de una red a lo largo del tiempo es algo muy útil, sus algoritmos actuales no son adecuados para redes de gran escala. De manera similar, para redes de gran escala, es muy recomendable que los usuarios apliquen algoritmos de agrupamiento utilizando aplicaciones de línea de comando externas y luego importen los resultados de agrupamiento a una herramienta de visualización.

Para estudiar la topología de una red, Gephi viene con un perfilador de red muy básico pero de alta calidad que muestra estadísticas básicas sobre la red, como el número de nodos, el número de aristas, su densidad, su coeficiente de agrupación y otras métricas. Los atributos de nodo calculados automáticamente, como la conectividad de nodo, el coeficiente de agrupación, la centralidad de intersección o el peso del borde, son tareas triviales y no requieren demasiado tiempo para calcularse.

2.1.4. Edición

Gephi es altamente interactivo y proporciona accesos directos inteligentes para resaltar comunidades, y se ofrecen recorridos más cortos o distancias relativas de cualquier nodo a un nodo de interés. Además, los usuarios pueden ajustar fácilmente o filtrar interactivamente las formas y colores de los bordes y nodos de la red de acuerdo con sus atributos para revelar patrones ocultos. El objetivo de esta revisión no es el de tutorizar cómo utilizar dichas aplicaciones, ya que se puede encontrar en las páginas de ayuda relevantes de la herramienta. Aunque Gephi es una gran opción para la visualización de redes a gran escala, la importación manual de redes, el manejo de múltiples redes y la edición manual de nodos / bordes / etiquetas puede ser complicado ya que muchas opciones están ocultas en la interfaz de usuario de Gephi o soportadas por complementos específicos.

2.1.5. Formatos de archivo

Gephi puede cargar redes en GEXF, GDF, GML, GraphML, Pajek (NET), GraphViz (DOT), CSV, UCINET (DL), Tulip (TPL), Netdraw (VNA) y hojas de cálculo de Excel. Del mismo modo, Gephi puede exportar redes en archivos JSON, CSV, Pajek (NET), GUESS (GDF), Gephi (GEFX), GML y GraphML [30]. La forma más fácil de hablar con Cytoscape es a través de los formatos GraphML, con Tulip a través de archivos GEFX y con Pajek a través de archivos NET. Desafortunadamente, en su versión actual, falla la comunicación con otras herramientas a través de otros formatos de archivo comunes como JSON.

2.1.6. Disponibilidad

Independientemente de su documentación muy limitada, Gephi es una gran herramienta de visualización de redes en 2D, genérica y no dedicada a la biología. Principalmente hace hincapié en el procesamiento rápido y sin problemas, el diseño rápido, el filtrado eficiente y la exploración interactiva de datos, y creemos que sigue siendo una de las mejores opciones para la visualización genérica de redes a gran escala. Un ejemplo de red visualizado por Gephi se muestra en la Figura 1. Gephi está disponible en: https://gephi.org/.


Figura 1: Gephi visualización de una red que consta de 202,424 nodos y 354,468 bordes que muestra la distribución de 202,417 familias de proteínas en 7 hábitats. Se usó una combinación de OpenOrd y el algoritmo de disposición de Yifan-Hu force-directed para calcular las coordenadas del nodo. Cada hábitat y sus bordes adyacentes tienen un color único. Una guía paso a paso con respecto a los métodos y la parametrización que se utilizaron se describe ampliamente en el archivo suplementario.


2.2. Tulip (Versión 4.10.0)

Tulip es una de las herramientas de visualización de red más fáciles de usar y una opción decente para la visualización de redes de mayor escala. Debido a su simplicidad, es muy recomendable para personas inexpertas, ya que viene con una interfaz fácil de usar. Está escrito en C ++ y permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones específicas de dominio. Comparado con otras herramientas, ofrece visualizaciones muy atractivas, especialmente después de habilitar su gran algoritmo de agrupamiento de bordes.

2.2.1. Escalabilidad

En su versión actual, es capaz de visualizar miles de nodos con cientos de miles de bordes en una computadora promedio y pretende convertirse en un gran mediador entre el análisis de gráficos y la visualización. Si bien Tulip es una de las principales preferencias para redes de mediana escala, según nuestra experiencia, no es tan escalable como Gephi.

2.2.2. Diseños

Su gran variedad de algoritmos de diseño lo convierte en una de las mejores opciones para el diseño gráfico. Por el momento, admite algoritmos simples (circulares, aleatorios), dirigidos a la fuerza (es decir, Fruchterman y Reingold [28], Kamada y Kawai [31]), jerárquicos, multinivel, planos y arborescentes, la mayoría de ellos optimizados y implementado dentro del Marco de Dibujo Gráfico Abierto (OGDF) [32]. A diferencia de los algoritmos de diseño dirigidos por fuerza, más conservadores, el Diseño multipolar rápido multinivel es muy recomendable para redes de gran escala. Si bien sus diseños son de gran calidad, para ahorrar tiempo, es muy recomendable la estrategia de calcular primero el diseño de los nodos con Gephi o Pajek y luego importarlo a Tulip.

2.2.3. Análisis posterior a la visualización

Al tratar de cerrar la brecha entre el análisis y la visualización, Tulip viene con un amplio conjunto de algoritmos de análisis de topología de red y clústeres. Entre otros, Tulip actualmente implementa la codiciosa pero ampliamente codiciada Markov Clustering (MCL) [29] codiciosa, así como la veloz y eficiente memoria de Louvain Clustering [33] para gráficos no ponderados. Además, Tulip incorpora varios algoritmos tradicionales para la exploración de redes, como algoritmos, para encontrar componentes o algoritmos biconnectados o fuertemente conectados dedicados a buscar árboles o bucles de expansión. Al igual que antes, para el análisis de redes a gran escala, se recomienda ejecutar algoritmos de agrupación externamente.

Además, Tulip viene con una interfaz muy simple para hacer preguntas topológicas. La descomposición de K-core de un gráfico, centralidad de excentricidad, grado, rango de página y centralidad de intersección son algunas de las opciones ofrecidas y el tamaño o color de los nodos se puede ajustar de acuerdo con una característica topológica seleccionada.

2.2.4. Edición

Si bien Tulip no incluye una gran variedad de combinaciones de colores predefinidas, los usuarios pueden cambiar manualmente el color, el tamaño y la forma de cualquier nodo, etiqueta o borde y guardar y volver a cargar el estado de una red. Desafortunadamente, puede procesar una red por sesión y los usuarios deben tener cuidado ya que a veces la visualización y los paneles de edición no se coordinan. Desafortunadamente, las tareas simples como la selección interactiva de los bordes de entrada / salida de un nodo directamente desde la visualización pueden llevar una cantidad significativa de tiempo.

2.2.5. Agrupamiento de enlaces

Si bien el renderizador de Tulip no alcanza la resolución de Gephi o Cytoscape, viene con uno de los algoritmos de agrupamiento de enlaces más atractivos. Desafortunadamente, para el análisis de redes a gran escala, su algoritmo de agrupamiento de bordes a menudo puede convertirse en memoria y CPU codicioso, por lo que los usuarios deben ser pacientes. Finalmente, guardar el estado de una vista agrupada en comparación con una vista desagregada puede llevar a requisitos de almacenamiento significativamente mayores (ver el archivo suplementario para ver ejemplos).

2.2.6. Formatos de archivo

Acepta como entrada archivos delimitados por tabulaciones simples, Pajek, GEFX, GML, GraphViz, JSON, TLPB y UCINET y exporta a formatos TLP, SVG, JSON y GML. La forma más fácil de hablar con Pajek es a través de archivos NET, con Cytoscape a través de archivos GML o GraphML, y con Gephi a través de archivos GEFX. Finalmente, Tulip viene con un generador de gráficos muy poderoso de un tamaño y topología definidos por el usuario.

2.2.7. Disponibilidad

En general, Tulip es una herramienta genérica de visualización en red 2D con una interfaz de usuario que se explica por sí misma y es adecuada para el diseño y análisis de nodos y bordes a gran escala. Un ejemplo de red visualizado por Tulip se muestra en la Figura 2. Tulipán está disponible en: http://tulip.labri.fr/TulipDrupal/.

Figura 2: Visualización de Tulip de la misma red, como en la Figura 1. Los 7 hábitats se resaltan y cambian de tamaño según corresponda. Un ejemplo de la misma red después de aplicar bundling de bordes se presenta en el archivo suplementario. Las coordenadas de los nodos se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

2.3. Cytoscape (Versión 3.5.1)

La aplicación Java de código abierto Cytoscape es la herramienta de visualización en red 2D más utilizada en biología y ciencias de la salud. Es compatible con todo tipo de redes (p. Ej., Ponderado no ponderado, bipartito, dirigido, no dirigido y multienlace) y viene con una enorme biblioteca de complementos adicionales (> 250). Inicialmente se implementó para analizar redes de interacción molecular y vías biológicas y apuntaba a integrar estas redes con anotaciones, perfiles de expresión génica y otros datos de estado. Aunque Cytoscape se diseñó originalmente para la investigación biorelacionada, ahora sirve como una plataforma genérica para el análisis y la visualización de redes complejas al proporcionar un conjunto básico de características para la integración, el análisis y la visualización de datos.

2.3.1. Escalabilidad

Las implementaciones de Cytoscape posteriores a la versión 3.0.0 vienen con enormes mejoras en la representación, lo que permite a Cytoscape visualizar grandes redes de cientos de miles de nodos y bordes. A pesar de estas mejoras, Cytoscape no ocupa el primer lugar para el análisis de redes a gran escala, ya que no puede escalar significativamente cuando se trata de análisis. A menudo, las rutinas de agrupamiento y distribución de Cytoscape requieren una gran cantidad de memoria y tiempo. Por lo tanto, para el análisis de redes a gran escala, se sugiere ejecutar dichos procesos en línea de comando fuera de la plataforma Cytoscape y cargar los resultados como atributos de nodo / borde (grupos en el caso de clustering o coordenadas en el caso de un diseño). Además, Cytoscape está sujeto a las limitaciones de memoria y tiempo de ejecución de Java ya que la mayoría de sus rutinas se implementan en Java.

2.3.2. Diseños

Al igual que otras herramientas, viene con una gran variedad de algoritmos de diseño simples (cuadriculados, aleatorios y circulares) o más sofisticados (dirigidos por fuerza, jerárquicos). En particular, para el análisis de redes a gran escala, los usuarios deben tener cuidado y cambiar el algoritmo de diseño predeterminado antes de crear una vista. Se recomienda una cuadrícula simple o un diseño circular simple ya que los diseños dirigidos por fuerza de Cytoscape son codiciosos y la CPU puede "colgar". Otra alternativa podría ser OpenCL, uno de los algoritmos de diseños más rápidos en Cytoscape. Después de la versión 3.2.0, la versión basada en OpenCL se incorpora como una aplicación básica. Este diseño es hasta 100 veces más rápido que el diseño estándar de Prefuse y depende de la aplicación central de CyCL para el soporte de OpenCL. Sin embargo, calcular un primer diseño con Gephi o Pajek y luego importar sus resultados en Cytoscape puede ahorrar tiempo.

2.3.3. Análisis posterior a la visualización

Cytoscape es la herramienta más exitosa para cerrar la brecha entre el análisis y la visualización, y viene con una gran cantidad de algoritmos de diseño, clustering y análisis de redes topológicas. ClusterMaker plugin [34], por ejemplo, incluye algoritmos de clúster de atributos como AutoSOME Clustering [35] y Eisen's hierarchical y -Means clustering [36] así como algoritmos de agrupamiento basados ​​en topología como propagación de afinidad [37], agrupamiento de comunidades (GLay ) [38], MCODE [39], MCL, SCPS (Agrupación espectral de secuencias de proteínas) [40], y clústeres de transitividad [41]. La mayoría de los resultados de la agrupación se pueden visualizar como una red recién construida que conserva los bordes originales o como un mapa de calor. Al igual que antes, para el análisis de redes a gran escala, se anima a los usuarios a ejecutar dichos algoritmos externamente.

Además, Cytoscape incorpora uno de los perfiladores de red más avanzados para explorar las características topológicas de la red. Los usuarios pueden ver estadísticas simples como la conectividad promedio, la centralidad de intermediación, el coeficiente de agrupamiento y otros. Si bien estos cálculos son triviales para redes de gran escala, trazar una característica topológica contra cualquier otro podría ser lento.

Finalmente, las últimas versiones de Cytoscape incorporan un algoritmo de agrupamiento de bordes bastante útil pero lento y con memoria ineficiente, no recomendado para análisis a gran escala.

2.3.4. Edición

Cytoscape es un protagonista en la oferta de estilos visuales y combinaciones de colores predefinidos para crear visualizaciones de alta calidad y belleza estética. Sus capacidades de acercamiento y barrido son muy avanzadas y el visor satelital de Cytoscape hace que sea muy fácil para los usuarios navegar y orientarse cuando la red se dibuja fuera del lienzo principal, algo que no es trivial con Gephi. Finalmente, la elección de nodos y bordes adyacentes desde la interfaz de usuario es muy receptiva.

2.3.5. Formatos de archivo

Cytoscape acepta muchos formatos de archivos de entrada diferentes, como su propio formato CYS, delimitado por tabuladores, formato de archivo de interacción simple (SIF), formato de red anidado (NNF), lenguaje de marcado de gráficos (GML), lenguaje de marcado y lenguaje de modelado extensible (XGMML), SBML [42], BioPAX [43], PSI-MI [44], GraphML, excel libros de trabajo (.xls, .xlsx) y JSON. La forma más fácil de hablar con Tulip y Gephi es a través de un formato GML.

2.3.6. Disponibilidad

En general, Cytoscape es la mejor herramienta de visualización hoy en día para el análisis de redes biológicas. A pesar de su facilidad de uso, su rica documentación y la tremenda mejora de su interfaz de usuario después de la versión 3.0, la familiaridad con la herramienta y sus complementos disponibles aún requiere una curva de aprendizaje para tareas más avanzadas. Cytoscape store actualmente alberga más de 250 complementos, diseñados específicamente para abordar y automatizar complicados análisis biológicos. Complementos para el enriquecimiento funcional, anotaciones de Gene Ontology [45], mapeo de nombres de genes, integración con repositorios públicos biológicos, recuperación eficiente de datos en línea, análisis de rutas, comparaciones de redes directas, expresión diferencial y análisis estadístico hacen que Cytoscape sea único en su género y por eso hoy actualmente es y se espera que siga siendo el jugador número uno para el análisis de redes biológicas. Una red visualizada por Cytoscape se muestra en la Figura 3. Cytoscape está disponible en http://www.cytoscape.org/.


Figura 3: visualización de Cytoscape de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Los 7 hábitats están coloreados en consecuencia. Como en la Figura 2, las coordenadas se calcularon usando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

Finalmente, CytoscapeWeb [46] y Cytoscape.js son proyectos separados. Son dos esfuerzos muy fuertes que apuntan a incorporar las principales funcionalidades visuales de Cytoscape en aplicaciones basadas en navegador, algo que, por supuesto, no es adecuado para el análisis de redes a gran escala. Los usuarios pueden usar Cytoscape y exportar las redes en formato JSON para Cytoscape.js.

2.4. Pajek (Versión 5.01)

Pajek es una herramienta de visualización de redes genérica, con más de 20 años de antigüedad, basada en Microsoft Windows, inicialmente implementada para el análisis de redes sociales, pero una aplicación muy poderosa para el análisis y la visualización de redes masivas.

2.4.1. Escalabilidad

Pajek puede visualizar fácilmente millones de nodos con mil millones de conexiones en una computadora promedio superando a cualquier otra herramienta disponible en el campo. Pajek-XXL es una implementación especial de Pajek con énfasis en el análisis de redes a gran escala. Necesita al menos 2-3 veces menos memoria física que Pajek y la mayoría de las operaciones intensivas de memoria de Pajek están optimizadas para ser mucho más rápidas. La filosofía principal de Pajek-XXL es extraer partes más pequeñas pero más interesantes e informativas de una red más grande que se puede analizar y visualizar con más herramientas avanzadas. El mayor número posible de vértices que Pajek64-XXL puede manejar se ha aumentado a 2 mil millones, en cuanto al Pajek común, el límite es de 100 millones. Pajek-XXL usa enteros de 32 bits (4 bytes) para números de vértices. Por lo tanto, la mayor cantidad de vértices que Pajek-XXL puede manejar se establece en dos mil millones. Si la red contiene más vértices, se debe usar Pajek-3XL. Pajek-3XL utiliza enteros de 64 bits (8 bytes) para números de vértices. La mayor cantidad de vértices que puede manejar Pajek-3XL actualmente se establece en 10 mil millones, pero puede incrementarse fácilmente. En particular, el espacio necesario para almacenar una red en Pajek-3XL y Pajek-XXL es exactamente el mismo.

2.4.2. Diseños

Diseño de gráficos, fusión de nodos, detección de vecindarios, identificación de componentes fuertemente conectados, búsqueda de clics, manipulación de gráficos bipartitos, búsqueda de rutas más cortas o flujos máximos, agrupamiento (es decir, Louvain) y centralidades informáticas de vértices y centralizaciones de redes como grado , la cercanía, la proximidad, los centros y las autoridades, los coeficientes de agrupamiento y la centralidad laplaciana son algunas de las capacidades de Pajek. En particular, Pajek es eficiente en cuanto a la memoria y muy adecuado para una rápida multiplicación de red dispersa.

2.4.3. Formato de archivo

Pajek acepta formatos de entrada de archivos muy estrictos. La forma más fácil de hablar con Tulip y Gephi es a través de un archivo .net

La interfaz de usuario de Pajek es simple, fácil de familiarizar y muy receptiva cuando se trata de análisis de redes masivas. Nunca se pensó en ser el visualizador más avanzado, pero ofrece tremendas metodologías de análisis de gráficos, lo que lo convierte en un gran candidato para el análisis de redes masivas y un gran complemento de las herramientas existentes. Un ejemplo de red visualizado por Pajek se muestra en la Figura 4. Pajek se puede encontrar en http://mrvar.fdv.uni-lj.si/pajek/.

Figura 4: Visualización básica de Pajek de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Al igual que en las Figuras 2 y 3, las coordenadas se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi. Notablemente para una red masiva, se recomienda encarecidamente usar primero el diseño de Pajek.


3. Discusión

A pesar de la gran cantidad de herramientas de visualización de red disponibles, debido al continuo aumento del volumen de datos en las ciencias de la salud, la visualización y la manipulación de redes a gran escala con millones de nodos y bordes siguen siendo un cuello de botella. Mientras que las bibliotecas no interactivas como el Stanford Network Analysis Project (SNAP) [47], se prefieren el Large Graph Layout (LGL) [48], NetworkX [49] o el GraphViz [50] para cálculos de back-end y static a gran escala. visualizaciones y visualizaciones de red alternativas como las ofrecidas por los Circos [51], HivePlots [52], o BioFabric [53] pueden resolver parcialmente el efecto bola de pelo, la implementación de herramientas interactivas fáciles de usar para manejar y visualizar gráficos tan grandes aún sigue siendo una tarea muy complicada. Por lo tanto, para los fines de este artículo de revisión, probamos varias aplicaciones independientes disponibles y concluimos que Pajek, Tulip Gephi y Cytoscape son los principales candidatos para la visualización y el análisis de redes a gran escala.

En conclusión, si bien Cytoscape es la mejor y la herramienta más preferida para los análisis biológicos, tiene problemas de escalabilidad y memoria y, por lo tanto, no es nuestra mejor opción para la visualización en red a gran escala. Por el contrario, lo clasificamos primero para análisis biológicos ya que está acompañado por una gran plétora de más de 200 complementos. Comparado con Tulip, Gephi y Pajek, tiene la paleta más rica de estilos de color predefinidos, la colección más eficiente de algoritmos de agrupamiento y el mejor perfil de red para la comparación intranet de las características topológicas.

Gephi claramente supera a Cytoscape en términos de escalabilidad y eficiencia de la memoria y, en nuestra opinión, es la mejor herramienta de visualización genérica para diseñar redes de gran escala. Si bien es bastante sencillo de usar, algunas veces las opciones de edición de nodos / bordes están bien escondidas en su interfaz de usuario, por lo que es un poco confuso para el usuario. Por otro lado, Gephi ofrece visualizaciones muy avanzadas al permitir a los usuarios realizar múltiples tareas simultáneamente, algo que no siempre es fácil con Cytoscape o Tulip. En general, clasificamos a Gephi como el primero en lo que respecta al equilibrio entre la visualización en red a gran escala y el análisis básico.

Tulip es nuestra tercera mejor opción para visualización de red a gran escala. Sus mejores características son (i) el diseño de agrupamiento de bordes y (ii) su simplicidad en la edición de colores, etiquetas y atributos del nodo / borde. Tulip es altamente recomendado para principiantes debido a su interfaz de usuario que se explica por sí misma.

Finalmente, Pajek y Pajek-XXL son las herramientas más escalables y altamente recomendadas para visualizaciones básicas de redes masivas con> 10 mil millones de nodos, tamaños de red que Cytoscape, Tulip y Gephi no pueden manejar en sus versiones actuales. Desafortunadamente, la falta de interoperabilidad de los sistemas operativos, así como la falta de flexibilidad de formatos de archivos de entrada y la falta de visualizaciones atractivas, impiden que Pajek sea la mejor herramienta para visualizaciones avanzadas.

Todas las observaciones mencionadas se resumen en la Tabla 1. Aunque pueden variar de un usuario a otro según la experiencia y el estudio de caso, en nuestra opinión, Cytoscape, Tulip, Pajek y Gephi siguen siendo la mejor visualización de red a gran escala y herramientas de análisis en sistemas y biología de redes.
Tabla 1: Evaluación empírica de nuestras cuatro herramientas interactivas de visualización de redes (Cytoscape, Gephi, Tulip y Pajek) para el análisis de redes biológicas a gran escala.

CytoscapeTulipGephiPajek

Escalibilidad
Facilidad de uso
Estilo visual
Manejo de enlaces
Relevancia para la Biología
Eficiencia de memoria
Agrupamiento
Edición manual nodo/enlace
Diseños
Perfiles de red
Formato de archivos
Complementos
Estabilidad
Velocidad
Documentación

 = más débil;  = medio;  = bueno;  = más fuerte.

4. Conclusión

Es injusto y no directo comparar directamente las herramientas de visualización entre sí a medida que se implementan para diferentes propósitos. Sin embargo, a medida que el tamaño de la red biológica aumenta con el tiempo, la combinación de las ventajas complementarias de diferentes herramientas es una buena estrategia. Si bien se han estandarizado varios formatos de archivo para describir la estructura de la red, nuestra experiencia demostró que muchos de ellos no se pueden exportar o importar correctamente en varias herramientas. Además, incluso en los mejores casos donde tal problema de importación / exportación está ausente, a menudo los atributos de nodo y borde no se pueden transferir. Por lo tanto, creemos que una red católica convertida para convertir con precisión un formato de archivo en cualquier otra manteniendo simultáneamente la máxima información sobre los componentes de la red es obligatoria. De esta manera, cambiar entre herramientas y varias visualizaciones será más fácil y más directo.


Referencias

  1. G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos et al., “Using graph theory to analyze biological networks,” BioData Mining, vol. 4, no. 1, article 10, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  2. G. A. Pavlopoulos, D. Malliarakis, N. Papanikolaou, T. Theodosiou, A. J. Enright, and I. Iliopoulos, “Visualizing genome and systems biology: Technologies, tools, implementation techniques and trends, past, present and future,” GigaScience, vol. 4, no. 1, article no. 38, 2015. View at Publisher · View at Google Scholar · View at Scopus
  3. N. Gehlenborg, S. I. O’Donoghue, N. S. Baliga et al., “Visualization of omics data for systems biology,” Nature Methods, vol. 7, no. 3, pp. S56–S68, 2010. View at Publisher · View at Google Scholar · View at Scopus
  4. S. I. O’Donoghue, A.-C. Gavin, N. Gehlenborg et al., “Visualizing biological data—now and in the future,” Nature Methods, vol. 7, no. 3, pp. S2–S4, 2010. View at Publisher · View at Google Scholar · View at Scopus
  5. G. A. Pavlopoulos, E. Iacucci, I. Iliopoulos, and P. Bagos, “Interpreting the Omics 'era' Data,” Smart Innovation, Systems and Technologies, vol. 25, pp. 79–100, 2013. View at Publisher · View at Google Scholar · View at Scopus
  6. G. A. Pavlopoulos, A. L. Wegener, and R. Schneider, “A survey of visualization tools for biological network analysis,” BioData Mining, vol. 1, 12 pages, 2008. View at Google Scholar
  7. N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis, “GraphVizdb: A scalable platform for interactive large graph visualization,” in Proceedings of the 32nd IEEE International Conference on Data Engineering, ICDE 2016, pp. 1342–1345, Helsinki, Finland, May 2016. View at Publisher · View at Google Scholar · View at Scopus
  8. J. Köhler, J. Baumbach, J. Taubert et al., “Graph-based analysis and visualization of experimental results with ONDEX,” Bioinformatics, vol. 22, no. 11, pp. 1383–1390, 2006. View at Publisher · View at Google Scholar · View at Scopus
  9. F. Iragne, M. Nikolski, B. Mathieu, D. Auber, and D. Sherman, “ProViz: Protein interaction visualization and exploration,” Bioinformatics, vol. 21, no. 2, pp. 272–274, 2005. View at Publisher · View at Google Scholar · View at Scopus
  10. Z. Hu, J.-H. Hung, Y. Wang et al., “VisANT 3.5: Multi-scale network visualization, analysis and inference based on the gene ontology,” Nucleic Acids Research, vol. 37, no. 2, pp. W115–W121, 2009. View at Publisher · View at Google Scholar · View at Scopus
  11. E. Adar, “GUESS: a language and interface for graph exploration,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 791–800, Montreal, CA, USA, 2006.
  12. S. P. Borgatti, M. G. Everett, and L. C. Freeman, Ucinet for Windows: Software for Social Network Analysis, Analytic Technologies, Harvard, Mass, USA, 2002.
  13. O. Thimm, O. Bläsing, Y. Gibon et al., “MAPMAN: a user-driven tool to display genomics data sets onto diagrams of metabolic pathways and other biological processes,” Plant Journal, vol. 37, no. 6, pp. 914–939, 2004. View at Publisher · View at Google Scholar · View at Scopus
  14. E. Demir, O. Babur, U. Dogrusoz et al., “PATIKA: An integrated visual environment for collaborative construction and analysis of cellular pathways,” Bioinformatics, vol. 18, no. 7, pp. 996–1003, 2002. View at Publisher · View at Google Scholar · View at Scopus
  15. G. A. Pavlopoulos, S. D. Hooper, A. Sifrim, R. Schneider, and J. Aerts, “Medusa: A tool for exploring and clustering biological networks,” BMC Research Notes, vol. 4, article no. 384, 2011. View at Publisher ·View at Google Scholar · View at Scopus
  16. B. J. Breitkreutz, C. Stark, and M. Tyers, “Osprey: a network visualization system,” Genome Biology, vol. 4, article R22, no. 3, 2003. View at Google Scholar
  17. M. Secrier, G. A. Pavlopoulos, J. Aerts, and R. Schneider, “Arena3D: visualizing time-driven phenotypic differences in biological systems,” BMC Bioinformatics, vol. 13, no. 1, article 45, 2012. View at Publisher ·View at Google Scholar · View at Scopus
  18. G. A. Pavlopoulos, S. I. O'Donoghue, V. P. Satagopam, T. G. Soldatos, E. Pafilis, and R. Schneider, “Arena3D: visualization of biological networks in 3D,” BMC Systems Biology, vol. 2, article 104, 2008.View at Publisher · View at Google Scholar · View at Scopus
  19. A. Theocharidis, S. van Dongen, A. J. Enright, and T. C. Freeman, “Network visualization and analysis of gene expression data using BioLayout Express (3D),” Nature Protocols, vol. 4, no. 10, pp. 1535–1550, 2009. View at Google Scholar
  20. P. Shannon, A. Markiel, O. Ozier et al., “Cytoscape: a software Environment for integrated models of biomolecular interaction networks,” Genome Research, vol. 13, no. 11, pp. 2498–2504, 2003. View at Publisher · View at Google Scholar · View at Scopus
  21. D. Auber, “Tulip —a huge graph visualization framework,” in Graph Drawing Software, M. Jünger and P. Mutzel, Eds., Mathematics and Visualization, pp. 105–126, Springer, Berlin, Germany, 2004. View at Publisher · View at Google Scholar
  22. M. Jacomy, T. Venturini, S. Heymann, and M. Bastian, “ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software,” PLoS ONE, vol. 9, no. 6, Article ID e98679, 2014. View at Publisher · View at Google Scholar · View at Scopus
  23. A. Mrvar and V. Batagelj, “Analysis and visualization of large networks with program package Pajek,” Complex Adaptive Systems Modeling, vol. 4, no. 6, 2016. View at Google Scholar
  24. V. Batagelj and A. Mrvar, “Pajeka— program for large network analysis,” Connections, vol. 21, no. 2, pp. 47–57, 1998. View at Google Scholar
  25. I. A. Chen, V. M. Markowitz, K. Chu et al. et al., “IMG/M: integrated genome and metagenome comparative data analysis system,” Nucleic Acids Research, 2016. View at Google Scholar
  26. S. Martin, W. M. Brown, R. Klavans, and K. W. Boyack, “OpenOrd: An open-source toolbox for large graph layout,” in Proceedings of the Visualization and Data Analysis 2011, San Francisco Airport, Calif, USA, January 2011. View at Publisher · View at Google Scholar · View at Scopus
  27. H. Yifan, “Efficient, high-quality force-directed graph drawing,” The Mathematica Journal, vol. 10, no. 1, 2006. View at Google Scholar
  28. T. M. J. Fruchterman and E. M. Reingold, “Graph drawing by force-directed placement,” Software—Practice and Experience, vol. 21, no. 11, pp. 1129–1164, 1991. View at Publisher · View at Google Scholar· View at Scopus
  29. A. J. Enright, S. Van Dongen, and C. A. Ouzounis, “An efficient algorithm for large-scale detection of protein families,” Nucleic Acids Research, vol. 30, no. 7, pp. 1575–1584, 2002. View at Publisher · View at Google Scholar · View at Scopus
  30. U. Brandes, M. Eiglsperger, J. Lerner, and C. Pich, “Graph markup language (GraphML),” in Handbook of Graph Drawing and Visualization, pp. 517–541, 1999. View at Google Scholar
  31. T. Kamada and S. Kawai, “An algorithm for drawing general undirected graphs,” Information Processing Letters, vol. 31, no. 1, pp. 7–15, 1989. View at Publisher · View at Google Scholar · View at MathSciNet ·View at Scopus
  32. M. Chimani, C. Gutwenger, M. Jünger, G. W. Klau, and K. Klein, The Open Graph Drawing Framework (OGDF), Chapman & Hall, London, UK, 2014.
  33. V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre, “Fast unfolding of communities in large networks,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2008, no. 10, Article ID P10008, 2008. View at Publisher · View at Google Scholar · View at Scopus
  34. J. H. Morris, L. Apeltsin, A. M. Newman et al., “ClusterMaker: a multi-algorithm clustering plugin for Cytoscape,” BMC Bioinformatics, vol. 12, article 436, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  35. A. M. Newman and J. B. Cooper, “AutoSOME: A clustering method for identifying gene expression modules without prior knowledge of cluster number,” BMC Bioinformatics, vol. 11, article no. 117, 2010.View at Publisher · View at Google Scholar · View at Scopus
  36. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, “Cluster analysis and display of genome-wide expression patterns,” Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863–14868, 1998. View at Publisher · View at Google Scholar · View at Scopus
  37. B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” American Association for the Advancement of Science. Science, vol. 315, no. 5814, pp. 972–976, 2007. View at Publisher · View at Google Scholar · View at MathSciNet · View at Scopus
  38. M. E. J. Newman and M. Girvan, “Finding and evaluating community structure in networks,” Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, vol. 69, no. 2, Article ID 026113, pp. 1–26113, 2004. View at Publisher · View at Google Scholar · View at Scopus
  39. G. D. Bader and C. W. Hogue, “An automated method for finding molecular complexes in large protein interaction networks,” BMC Bioinformatics, vol. 4, no. 2, 2003. View at Google Scholar
  40. T. Nepusz, R. Sasidharan, and A. Paccanaro, “SCPS: A fast implementation of a spectral method for detecting protein families on a genome-wide scale,” BMC Bioinformatics, vol. 11, article no. 120, 2010.View at Publisher · View at Google Scholar · View at Scopus
  41. T. Wittkop, D. Emig, S. Lange et al., “Partitioning biological data with transitivity clustering,” Nature Methods, vol. 7, no. 6, pp. 419-420, 2010. View at Publisher · View at Google Scholar · View at Scopus
  42. M. Hucka, A. Finney, H. M. Sauro et al., “The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models,” Bioinformatics, vol. 19, no. 4, pp. 524–531, 2003. View at Publisher · View at Google Scholar · View at Scopus
  43. J. S. Luciano and R. D. Stevens, “E-Science and biological pathway semantics,” BMC Bioinformatics, vol. 8, no. 3, article no. S3, 2007. View at Publisher · View at Google Scholar · View at Scopus
  44. H. Hermjakob, L. Montecchi-Palazzi, G. Bader et al., “The HUPO PSI's Molecular Interaction format—a community standard for the representation of protein interaction data,” Nature Biotechnology, vol. 22, no. 2, pp. 177–183, 2004. View at Publisher · View at Google Scholar · View at Scopus
  45. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology,” Nature Genetics, vol. 25, no. 1, pp. 25–29, 2000. View at Publisher · View at Google Scholar · View at Scopus
  46. C. T. Lopes, M. Franz, F. Kazi, S. L. Donaldson, Q. Morris, and G. D. Bader, “Cytoscape web: An interactive web-based network browser,” Bioinformatics, vol. 26, no. 18, Article ID btq430, pp. 2347-2348, 2010. View at Publisher · View at Google Scholar · View at Scopus
  47. J. Leskovec and R. Sosi, “SNAP: a general-purpose network analysis and graph-mining library,” ACM Transactions on Intelligent Systems and Technology, vol. 8, no. 1, pp. 1–20, 2016. View at Google Scholar
  48. A. T. Adai, S. V. Date, S. Wieland, and E. M. Marcotte, “LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks,” Journal of Molecular Biology, vol. 340, no. 1, pp. 179–190, 2004. View at Publisher · View at Google Scholar · View at Scopus
  49. A. Hagberg, D. Schult, and P. Swart, “Exploring Network Structure, Dynamics, and Function using Network,” in Proceedings of the 7th Python in Science Conference (SciPy 2008), pp. 11–15, 2008.
  50. E. R. Gansner and S. C. North, “An open graph visualization system and its applications to software engineering,” Software—Practice & Experience, vol. 30, no. 11, pp. 1203–1233, 2000. View at Google Scholar
  51. M. Krzywinski, J. Schein, I. Birol et al., “Circos: An information aesthetic for comparative genomics,” Genome Research, vol. 19, no. 9, pp. 1639–1645, 2009. View at Publisher · View at Google Scholar · View at Scopus
  52. M. Krzywinski, I. Birol, S. J. Jones, and M. A. Marra, “Hive plots-rational approach to visualizing networks,” Briefings in Bioinformatics, vol. 13, no. 5, pp. 627–644, 2012. View at Publisher · View at Google Scholar · View at Scopus
  53. W. J. R. Longabaugh, “Combing the hairball with BioFabric: A new approach for visualization of large networks,” BMC Bioinformatics, vol. 13, no. 1, article no. 275, 2012. View at Publisher · View at Google Scholar · View at Scopus

No hay comentarios:

Publicar un comentario