miércoles, 29 de julio de 2015

Hive Plot: Una interesante propuesta para visualizar redes complejas



Publicado en Briefings in Bionformatics
Krzywinski M, Birol I, Jones S, Marra M (2011). Hive Plots — Rational Approach to Visualizing Networks. Briefings in Bioinformatics (early access 9 December 2011, doi: 10.1093/bib/bbr069). (download citation)

Hive Plots - Para los impacientes
La trama de la colmena es un método de visualización racional para la elaboración de redes. Los nodos se asignan a y colocados en los ejes lineales distribuidas radialmente - esta asignación se basa en las propiedades estructurales de la red. Los bordes se dibujan como enlaces curvas. Sencillo e interpretable.

El propósito del Hive Plot es establecer una nueva línea de base para la visualización de grandes redes - un método que es a la vez general y sintonizable y útil como punto de partida para explorar visualmente la estructura de red.


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Hive Plots dan al lector la oportunidad de pasar a entender cuantitativamente los aspectos importantes de la estructura de una red. A diferencia Hairballs (visualizaciones de red: cómo domar la complejidad Paweł Widera describe puede layout opciones), las parcelas de la colmena son excelentes en el manejo de la complejidad visual resultante de gran número de bordes y la exposición de ambas tendencias y patrones atípicos en la estructura de la red.


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Varias Hive Plots se presentan juntos en un Hive Panels.

Software

Varias implementaciones de Hive Plots están disponibles. Una buena manera de empezar es con nuestra aplicación Java jhive.

jhive - aplicación Java Hive Plot



Hive Plots - Una introducción más larga

Visualizaciones de red son notoriamente difíciles de interpretar. Su representación canónica en una forma visual se ha ganado el apodo de bolas de pelo, y probablemente puede adivinar por qué. Si no está familiarizado con la bola de pelo, o dudar de su prevalencia en sicences biológicos, explorar lo que siempre es una buena fuente de las bolas de pelo de la red: estudio de la levadura y la biología de sistemas.


Bolas de pelo de red en el pasado, presente y futuro. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Usted ya puede adivinar que nada con el nombre bola de pelo puede ser realmente útil. En general, no lo son. Estos puntos de vista son, en el mejor accidentalmente informativo, y no se puede confiar en revelar constantemente patrones significativos.

Interpretación de las bolas de pelo se hace difícil por varias deficiencias significativas

  • su forma es determinada por algoritmos de diseño, que normalmente no se pueden ajustar para abordar cuestiones específicas de un usuario.
  • muchos algoritmos de diseño son estocásticos y pueden producir muchos diseños diferentes de la misma red
  • diseños de la misma red creado por diferentes algoritmos no se pueden comparar fácilmente
  • el diseño es frágil - puede ser desproporcionadamente afectada por cambios muy pequeños en una red
  • diseños de diferentes redes creadas por el mismo algoritmo no se pueden comparar fácilmente


Una visualización de la red convencional - una bola de pelo - a alguien que deje. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Para visualizar de forma racional las redes, introducimos la trama colmena. La trama de la colmena se basa en las propiedades de red significativas, que se pueden seleccionar para hacer frente a una pregunta específica.

Los nodos están asignados a uno de tres (o más) ejes, que pueden dividirse en segmentos. Los nodos se ordenan en un segmento basado en propiedades tales como la conectividad, la densidad, centralidad o anotación cuantitativa (por ejemplo, la expresión de genes). El usuario es libre de elegir lo que se ajuste a sus normas de datos y requisitos de visualización. Los bordes se dibujan como curvas Bezier, que pueden ser anotados con el color, grosor o etiqueta para comunicar información adicional.

Hive Plots permiten evaluar la estructura de la red, ya que se basan en las propiedades de red, no en el diseño estético. Las visualizaciones de dos redes son directamente comparables. Es importante destacar que las parcelas de la colmena son uniformes perceptualmente - diferencias en las parcelas de la colmena son proporcionales a las diferencias en las redes subyacentes. Esto hace que sea posible el uso de parcelas de la colmena para evaluar la similitud de red.


Una visualización de la red convencional - una bola de pelo - a alguien que deje. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski] Una visualización red convencional - una bola de pelo - alguien hacer que se detenga. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Cualquier red se puede representar como un complot de la colmena (por ejemplo, la regulación de genes, la interacción proteína-proteína, el tráfico de Internet, el espacio de usuario en una red social, etc). Cuando los segmentos de eje se interpretan como secuencia, la trama se puede mostrar de tres vías alineación y conservación (por ejemplo, la Figura 3 en Fusobacterium infección nucleatum es frecuente en el carcinoma colorrectal humano).

Si las conexiones se dibujan como cintas, la trama de la colmena puede demostrar relaciones entre los elementos de cantidades normalizadas (por ejemplo, la comparación de tamaños de las categorías de anotación en diferentes genomas).

EL PROBLEMA

Visualización de la red convencional no es adecuado para el análisis visual de las grandes redes. Los llamados bolas de pelo ganan su apodo al convertirse impenetrable complejo como su red crece. Son menos eficaces cuando la visualización es más necesario - para redes grandes.


Visualizaciones de red convencionales - Hairballs - no escalan bien. Se convierten
impresentables para redes grandes. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski] PARA COMPRENDER REDES VISUALES, NECESITAMOS PARA VER SU ESTRUCTURA DIRECTAMENTE, NO POR PODER DE UN ALGORITMO DISEÑO BASADO EN ESTÉTICA.

Las bolas de pelo convierten datos complejos en las visualizaciones que son tan complejos, o incluso más. Las bolas de pelo incluso nos pueden seducir a creer que tienen un alto valor de la información. Pero, simplemente porque se ven compleja no significa que se puedan comunicar información compleja. Bolas de pelo son la comida chatarra de visualización de la red - que tienen muy poco valor nutricional, dejando al usuario con hambre.

En una bola de pelo, los datos está subordinado a disposición - posiciones y longitudes de nodo de borde y dependen tanto de la algoritmo de diseño (de los cuales hay muchos), como en los datos. El efecto de las reglas de diseño es difícil de predecir, por lo que las comparaciones directas de estas visualizaciones imposible. Por ejemplo, imagine tratar de comparar dos gráficos de dispersión en el que se altera la ordinalidad de las escalas (por ejemplo, x = 1, 2, 3, ... en una y x = 3, 1, 2, ... en el otro) .

Como resultado, una gran cantidad de detalles sobre la estructura de una red se pierde irremediablemente en una bola de pelo y cualquier patrones emergentes puede ser ya sea real (que se refleja en los datos) o accidental (artefacto de la disposición). Si usted duda de que tales objetos pueden aparecer en la literatura, considere la siguiente figura de Rual JF, Venkatesan K, Hao T, et al. Hacia un mapa proteoma escala de la red de interacción proteína-proteína humana. Naturaleza 2005; 437 (7062): 1173-8. Como se indica en la leyenda de la figura, todas las características notables de la visualización de la red son los artefactos del algoritmo de diseño.


Figura 2b de Rual JF, Venkatesan K, Hao T, et al. Hacia un mapa proteoma escala de la red de interacción proteína-proteína humana. Naturaleza 2005; 437 (7062): 1173-8. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

El inconveniente central de visualización basada en bola de pelo es que no se pueden sintonizar para abordar cuestiones específicas de un usuario. Implícito en el enfoque bola de pelo es la suposición de que todas las preguntas que el usuario desea responder son direccionables por el algoritmo de diseño. Cuando esta suposición es errónea (ya que normalmente es), el usuario se deja de construir otra bola de pelo, basado en otro algoritmo de diseño, para tratar de responder a las preguntas sin respuesta. Por desgracia, es muy difícil determinar el conjunto de preguntas y respuestas relacionadas por una bola de pelo - no existe tal lista debido a la compleja interacción de los datos y el diseño.

¿Qué se puede decir de la bola de pelo de abajo? (Por ejemplo graphminator, 18 de marzo 2010). Les puedo decir esto: las bolas de pelo nos han defraudado.



Una visualización de la red convencional - una bola de pelo. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Vamos a mantener la técnica, pero mejorar la visualización cuantitativa

No estoy tratando de persuadirlo a desprenderse de las bolas de pelo siempre. Algunas visualizaciones de red bola de pelo son increíblemente hermoso y el campo de la infografía no serían lo mismo sin ellos.


El arte de la red Hermosa es ... hermoso. Vamos a mantenerlo. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

y.layout.router Clase OrganicEdgeRouter / Grande Graph Layout (LGL) / Hoy por Cada / Mapping the Disseaseome Humano (Bloch / Corum NYT 2009)

La preparación de la clase de las visualizaciones que se muestran arriba es un esfuerzo de la mano de obra y el amor. Diseños específicos trabajan para una red, pero no son eficaces en general. Hay excepciones, sin embargo. Algunas familias de la red son ideales para un algoritmo de diseño (egylayout.router en primer panel superior).

Antes de describir el método parcela colmena en detalle, para asegurarle que me encanta el arte de la red me he tomado las bolas de pelo de una variedad de comunidades en red y ha generado un "perfil de salpicaduras".

¿Informativo? Algo. ¿Jugoso? Absolutamente.


La visualización de una variedad de redes de diferentes comunidades.

UNA SOLUCIÓN - HIVE PLOT

El intento de complot colmena para hacer frente a las deficiencias del diseño de bola de pelo convencional. Debido a que las parcelas de la colmena se pueden sintonizar, pueden identificar los componentes estructurales significativos de una red.

Hive Plots SON IDEALES PARA LA DETECCIÓN DE PATRONES EMERGENTES EN SU ESTRUCTURA DE LA RED - EL MÉTODO QUE MUESTRA LA RED COMPLETA E INSTALACIONES DE CONCORDANCIA DE PATRÓN DE SU CEREBRO haga el resto.

La trama de la colmena está en sí fundada en un algoritmo de diseño. Sin embargo, su salida no se basa en la estética, pero la estructura de red. En este sentido, el diseño es racional - que depende de las características de la red que le interesan (por ejemplo, la conectividad).

En una parcela de la colmena, los nodos están limitados a los ejes lineales y los bordes se dibujan como curvas. Asignación de nodos a eje y la posición de nodos en el eje están determinados únicamente por la estructura de la red, nodo, anotación de borde, o cualesquiera otras propiedades significativas de la red. En otras palabras, las reglas de diseño se definen por usted, basado en las propiedades que sean significativas para ti. Estas normas forman un mapeo entre la estructura y el diseño puede ser tan simple o complejo como usted desea.


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Es importante destacar que no hay salsa de magia estético añadido a la disposición. Si el diseño muestra un patrón, usted puede estar seguro de que es debido a la estructura de los datos subyacentes y no en la interpretación que el algoritmo de diseño de cómo se deben mostrar los datos.

El mapeo eje y el nodo es arbitraria, y esto puede sonar muy abstracto en este punto. Para hacer las cosas concretas, hay ciertas recetas simples que son de gran utilidad en la mayoría de los casos (ver Krzywinski et al.).

Asignación al eje (A, en la figura de abajo), la posición (B) y color (C) puede ser una función del estado del fregadero / fuente (para redes tripartitas, esta categorización eje es natural), el grado de nodo, el grado vecino, la centralización, la densidad , la heterogeneidad, superposición topológica (hay numerosas propiedades para elegir), o anotación nodo / EDGE (por ejemplo, un nodo podría ser asociado con una clasificación, o un borde pueden tener un peso).


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Interpretación de la visualización lineal es fácil (una vez que el cuelgue de ella). Comparación visual directa de las parcelas de la colmena es posible - una característica valiosa y distintiva de las parcelas de la colmena. Por ejemplo, considere las siguientes ocho bolas de pelo - son diseños de la misma red. No es posible decir que este es de hecho la misma red.


Diferentes algoritmos de diseño de red producen visualizaciones diferentes, e incomparables,. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Si esto le causa ninguna preocupación, considere que una simple rotación y / o voltear la misma bola de pelo puede aparecer indistinguible de cambiar los datos subyacentes.


Simplemente girando y / o lanzar una bola de pelo puede producir un resultado que parece diferente. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Comunicando las reglas de Hive Plots a tu audiencia

Considere la posibilidad de una bola de pelo típico. Ahora piensa en cómo te describes a alguien que el método utilizado para crearlo. Es probable que, aunque usted no sabe los detalles completos del algoritmo de diseño. E incluso si lo hiciera, podría no necesariamente relacionarse how específico estructuras de red se traduciría en la salida.

Incluso si lo hizo describir cómo se creó la bola de pelo (lo que probablemente nombre al algoritmo de diseño), sería muy probable que la descripción no contendría todas las frases que se relacionan con la estructura de la red (que es, después de todo, lo que su público está muy interesado en).

Por otra parte, es fácil de describir cómo se creó una parcela colmena, y del mismo modo fácil para su audiencia a entender, porque se puede utilizar términos relevantes a las preguntas que su visualización está diseñado para hacer frente. En lugar de decir "he usado un método de fuerza dirigida para colocar los nodos.", Lo que no ayuda a su público se relacionan con la estructura de la red, puede decir: "Yo pongo todos los nodos del fregadero en este eje y les pedí por la conectividad absoluta. ", que es inmediatamente significativa.


Hive Plots para redes no dirigidas

Hive Plots funcionan igualmente bien en ambas redes dirigidos y no dirigidos. En las redes no dirigidas, bordes no tienen una dirección y por lo tanto no hay ninguna distinción entre los sumideros (nodos con bordes en) y fuentes (nodos con bordes fuera). En el siguiente ejemplo, el grado de nodo (número de aristas) se utiliza para asignar a los nodos de ejes.


Aplicación de la disposición lineal para visualización de la red a una red no dirigida (gráfico). [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Ejemplo

Un reciente documento PNAS [1], Yan et al. en comparación red de regulación del gen E. coli con el de la función llama en el kernel de Linux. Como se puede ver, las bolas de pelo de estas redes no muestran información estructural. Otros que la red de Linux es más grande, las bolas de pelo no ofrecen ninguna otra información. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]


[1] Yan KK, Fang G, N Bhardwaj, Alejandro RP, Gerstein M. 2010. La comparación de los genomas de los sistemas operativos de los ordenadores en términos de la topología y la evolución de sus redes de control reglamentario. Proc Natl Acad Sci USA S A 107 (20): 9.186-9.191.

Visualización original

Yan et al. mostró las redes con una disposición lineal paralelo, se muestra a continuación.


Yan KK, Fang G, N Bhardwaj, Alejandro RP, Gerstein M. 2010. La comparación de los genomas de los sistemas operativos de los ordenadores en términos de la topología y la evolución de sus redes de control reglamentario. Proc Natl Acad Sci USA S A 107 (20): 9.186-9.191.

Los nodos en los ejes no se les ordenó. Los enlaces de red entre la capa superior e inferior se cruzan el eje capa media y complican la vista. Por ejemplo, no es inmediatamente evidente que casi no hay comunicación en las dos primeras capas de la red E. coli.

Hive Plots

Los diseños lineales demuestran claramente las diferencias entre estas redes. Para obtener más información acerca de los diseños lineales de estas dos redes, consulte las diapositivas en la introducción general.


Red llamada de función kernel Linux visualiza con la disposición lineal. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

APLICACIONES

HIVE PANELS

Las redes son estructuras de datos complejas y es raro que puedan presentarse efectivamente como una sola imagen. El concepto de parcela colmena se puede extender a los Hive Panels -

Hive panel - Una matriz de Hive Plots que se comunican independientemente diferentes propiedades estructurales de una red 
firmas visuales de una red, cada uno basado en una combinación diferente de propiedades estructurales para interrogar diferentes aspectos de estructura de la red.

Hairballs no se pueden utilizar para este propósito porque no son sensibles a los patrones en atributos estructurales, no se pueden comparar directamente, y la escala de mal.


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

En la figura anterior, las interacciones fundamentales de la configuración humana humano a partir de la base de datos de interacción de proteínas (DIP) se representan como un Hive Panel utilizando las siguientes propiedades: nodo coeficiente de agrupamiento (cc), al lado del vecino coeficiente de clustering (CCNN), conectividad nodo (deg), número de próximos-vecinos (nn), y Page Rank (PR). Para demostrar cómo el panel puede centrar la atención, se destacan vínculos con el nodo más conectado.

Una sola parcela colmena (grados vs cc) de los Hive Panels de cuatro organismos y una red aleatoria se muestran debajo del panel humana de demostrar diferencias en la conectividad y el coeficiente de agrupamiento. Se muestran también los diseños orgánicos de la configuración regional del nodo más conectado formado por sus vecinos y próximos-vecinos más cercanos, la región de la red destaca en las parcelas de la colmena. Aunque no es posible concluir con seguridad nada de los diseños orgánicos, las parcelas de la colmena se comunican claramente diferencias de una manera cuantitativa. Por ejemplo, el nodo más conectado en el conjunto humano (A) es más cliquey (grande cc) de E. coli (C) y levadura (D) y está conectado a los nodos que por sí mismos son uniformemente cliquey (B). Estos y otros patrones se pueden identificar rápidamente dentro del panel.

COMPARACIÓN de REDES MULTI-EJES

Hive Plots se pueden utilizar para comparar múltiples redes. En esta aplicación, los nodos de cada red se asignan a diferentes ejes y enlaces conectan los nodos que son compartidos entre las redes (o el uso de algunos otros criterios de similitud nodo).


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Comparando cuatro redes requiere 6 ejes, si el área de trazado se va a utilizar plenamente.

RED DE CAPAS

Considere una red que contiene múltiples e independientes capas de conexiones. ¿Cómo las capas de conectividad se relacionan?


La aplicación de la visualización de la red diseño lineal para redes en capas. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

Mediante la creación de una parcela colmena en la que el eje de mapeo / posición se realiza mediante una capa, con bordes de otra capa dibujada, la correlación se puede evaluar visualmente.

Aplicación de Hive Panels (visualización lineal red layout) a las redes en capas. [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski]

¿SÓLO PARA REDES?

No.

Hive Plots para alineaciones

Hive Plots se pueden aplicar a otras estructuras de datos de redes. El método requiere que sus datos serán mapeables en un conjunto de relaciones de pares. Para las redes, esta relación de pares es el borde entre dos nodos. En otras circunstancias, se puede relacionar dos posiciones espaciales (donde el eje corresponde a un objeto con una escala de longitud física) o dos intervalos (dos segmentos de eje están relacionados, creando de este modo una comparación ratio).

Por ejemplo, el genoma alineaciones de tres vías se muestran lúcidamente con parcelas de la colmena como en la figura siguiente, adaptado de la Figura 3 en Castellarin et al. Infección nucleatum Fusobacterium es frecuente en el carcinoma colorrectal humano Genome Research (2011).



Circos es un metod común para mostrar las diferencias del genoma, sintenia y alineaciones. Por ejemplo, a continuación se muestran tres comparaciones del genoma ancestral de Arabidopsis thaliana con cada uno de tres genomas modernos del plan (SN, SL y BA) (Figura 3 de Mandakova T, Joly S, M Krzywinski, Mummenhoff K, MA (Lysak . 2010) diploidization rápido en parientes cercanos mesopolyploid de Arabidopsis la célula vegetal. 22: 2277-2290).



Hive Plots hacen una excelente herramienta para demostrar de tres vías alineaciones. A continuación se muestra un gráfico de la colmena de las tres alineaciones muestran arriba. En esta representación, cargos en los genomas modernos que se alinean con el mismo segmento de genoma ancestral están conectados.



Hive Plots para visualizar RATIOS - EVALUACIÓN DE LA CALIDAD DE MONTAJE

Una variación de la trama de la colmena es una forma circular compuesta apilados barra de trama, como se muestra a continuación. En este ejemplo (contrataciones, PDF), cada uno de los tres ejes soportan dos parcelas de barras (en ambos lados). Cintas conectan dos intervalos de la misma categoría. Para otro ejemplo, consulte nuestro cartel VIZBI 2011.


 [Hive Plots - Visualización Red Racional - Un simple, informativo y Pretty lineal diseño de red Analytics - Martin Krzywinski] - Evaluación de la calidad del conjunto del genoma con una parcela colmena, que compara lee, de reunión y de referencia.

Esta parcela colmena proporciona una receta visual para evaluar la calidad de un conjunto genómico. Un conjunto se compone de lecturas (eje inferior), que están ensamblados en contigs (eje derecho). Independientemente, puede existir un conjunto de referencia (eje izquierdo) y actuar como un comparador. Entre otros, esta parcela colmena responde a las siguientes preguntas:

  • ¿qué fracción de lecturas son sin montar? 20%
  • ¿qué fracción de lecturas son alineados para hacer referencia? 30%
  • qué fracción de referencia no tiene cobertura de lectura? 2%
  • qué fracción de referencia no tiene cobertura en alquiler? 15%
  • qué fracción de referencia se construye por contigs <200kb? 60%
  • hay contigs> 200kb? no.
  • qué fracción de contigs están alineados a la referencia? 20%
  • qué fracción de la asamblea general se deriva de k = 27 asamblea? 80%

El beneficio de este diseño de la barra trama apilados es que la disposición circular es a la vez periódica y tiene peso visual. Este enfoque es similar a un paralelo coordinar trama, excepto que aquí la trama envuelve.

Hive Plots para visualización de ratios




Hive Plot

No hay comentarios:

Publicar un comentario en la entrada