martes, 24 de diciembre de 2019

9 consejos rápidos para analizar datos de red

Nueve consejos rápidos para analizar datos de red


Vincent Miele, Catherine Matias, Stéphane Robin, Stéphane Dray (2019) Nine quick tips for analyzing network data. PLoS Comput Biol 15(12): e1007434.
https://doi.org/10.1371/journal.pcbi.1007434



Introducción

Desde el nivel molecular hasta el ecosistema, un sistema biológico a menudo se puede representar como un conjunto de entidades que interactúan entre sí. Los avances recientes en la tecnología de adquisición de datos (por ejemplo, la secuenciación de alto rendimiento o los dispositivos de seguimiento) abren la oportunidad de cuantificar estas interacciones y exigen el desarrollo de una metodología ambiciosa para abordar estos datos. En este contexto, las redes se utilizan ampliamente en biología, bioinformática, ecología, neurociencia o epidemiología para representar datos de interacción [1]. Una red contiene un conjunto de entidades (los nodos o vértices) que están conectados por bordes (o enlaces) que representan algunas interacciones o relaciones. Estas relaciones pueden observarse directamente o deducirse de los datos sin procesar. El primer caso abarca las redes de interacción proteína-proteína (PPI), en las cuales las interacciones entre 2 proteínas se evalúan experimentalmente, o las interacciones planta-polinizador que se observan directamente en el campo. Las redes reguladoras de genes reconstruidas a partir de datos de expresión génica, las redes de coincidencia deducidas de la abundancia de especies o las redes de contacto social con animales deducidas de las pistas del Sistema de Posicionamiento Global (GPS) son algunos ejemplos del segundo caso. Todavía están surgiendo nuevos tipos de redes (por ejemplo, redes de similitud célula-célula [2], redes Hi-C y redes de similitud de imagen [3]).

Las redes son objetos muy atractivos y se han desarrollado muchos métodos para analizar su estructura. Sin embargo, las redes biológicas a menudo son analizadas por no especialistas, y puede ser difícil para ellos navegar a través de la gran cantidad de conceptos y métodos disponibles. En este documento, proponemos 9 consejos para evitar dificultades comunes y mejorar el análisis de los datos de la red por parte de los biólogos.

Consejo 1: Formule preguntas primero; usar redes más tarde

La teoría de redes está bien establecida y es realmente poderosa, pero no se puede usar como una "caja negra". De hecho, construir una red no debe considerarse como un fin en sí mismo. Recomendamos (1) establecer una lista de preguntas e hipótesis científicas antes de manipular los datos, y luego (2) evaluar si estas preguntas se traducen naturalmente en una serie de análisis de red, en lugar de hacer análisis de red primero y verificar si plantean preguntas después ( de acuerdo con la Regla 1 en [4]). De hecho, generalmente es inmediato representar y modelar los datos con una red, pero es mucho más complicado traducir una pregunta en un análisis basado en la red.

Para este fin, además de integrar el formalismo de la red, es importante adoptar el punto de vista de la red. Se basa en una idea fundamental que hace la fuerza pero también el desafío del modelado de red: cualquier interacción se considera dentro de su contexto, teniendo en cuenta las otras interacciones que ocurren (o no). Desde este punto de vista, cualquier interacción entre 2 nodos se considera no solo en el contexto de otros pares que involucran estos nodos sino también en relación con el patrón de conectividad global. Por ejemplo, la importancia de un límite particular entre 2 genes se evaluará de manera diferente si el gen objetivo es o no un centro (es decir, regulado por muchos genes). Este punto de vista no considera las interacciones como objetos independientes y, por lo tanto, es exactamente lo contrario de examinar el conjunto de interacciones una por una.

Finalmente, obviamente se recomienda verificar si sus preguntas y datos realmente se ajustan al punto de vista de la red antes de realizar cualquier análisis. Si el número de nodos y / o bordes es muy bajo, se puede aplicar el análisis de red, pero los resultados pueden ser decepcionantes porque no hay suficientes interacciones observadas para identificar una estructura en los datos. Por otro lado, aunque cualquier matriz puede verse como una red (1 borde por celda; ver el siguiente consejo), a menudo es más adecuado considerar el uso de métodos que no sean de red dedicados a completar matrices. Por ejemplo, una matriz de correlación, posiblemente vista como una red de correlación, puede analizarse naturalmente con un agrupamiento jerárquico o un análisis de componentes principales. En otras palabras, el análisis de red no es necesariamente la respuesta al analizar una matriz de datos.

Consejo 2: categorice sus datos de red correctamente

Para captar los conceptos y métodos de vanguardia en el campo de las redes, aprender el vocabulario apropiado de la teoría de grafos es un requisito previo [5]. En particular, es importante clasificar su red adecuadamente para asegurarse de aplicar los métodos adecuados. Las diferentes categorías de red para diferentes datos conducen a diferentes enfoques. Los bordes se pueden dirigir (de una fuente a un objetivo), posiblemente incluyendo bucles automáticos (por ejemplo, una proteína que interactúa consigo misma o el canibalismo en las redes alimentarias). Ignorar esta información por simplicidad traicionaría los datos originales. Cuando se trata de bordes que incorporan un valor (un peso), le recomendamos que evite transformar la red en una binaria, sin tener en cuenta los pesos o manteniendo solo los bordes con peso por encima o por debajo de un cierto umbral. De hecho, borra una parte importante de la información disponible porque algunos aspectos de la estructura de la red podrían no ser detectados en la red binarizada [6]. Por lo tanto, sería ingenuo considerar que analizar una red binarizada o la ponderada original es más o menos equivalente. Además, los métodos que manejan redes ponderadas generalmente están disponibles y, por lo tanto, son más apropiados. Sin embargo, en algunos casos, en realidad es útil estudiar las versiones ponderadas y binarias por separado, para poder desenredar 2 efectos que conducen la estructura de la red: interacción (presencia o ausencia) e intensidad (pesos). Por ejemplo, algunos autores han informado que un patrón anidado se observó con frecuencia en redes ecológicas binarizadas pero no en redes ponderadas [7]. Por último, el analista de datos debe ser muy cauteloso ya que, en la literatura y en los métodos disponibles, los pesos se pueden considerar basados ​​en la intensidad (cuanto mayor es el peso, más fuerte es el borde) así como en la distancia (cuanto menor es el peso, cuanto más cerca están los nodos).

Los nodos pueden pertenecer a diferentes categorías, y los bordes solo se pueden permitir entre nodos de diferentes categorías (redes bipartitas, tripartitas y multipartitas; por ejemplo, nodos como anfitriones y parásitos, o como dispersores de plantas, hongos y semillas [8]). Es obligatorio seleccionar métodos que manejen esta particularidad. Por ejemplo, muchos enfoques estadísticos se basan en el número esperado de aristas (por ejemplo, en el cálculo de la modularidad, consulte el Consejo 5), que aquí es claramente diferente en comparación con el caso unipartito.

Finalmente, la información adicional sobre los nodos a menudo está disponible. Por ejemplo, los nodos pueden tener posiciones espaciales (por ejemplo, nodos como parches de hábitat o granjas en 2D y área del cerebro en 3D) o pueden estar asociados a atributos externos (por ejemplo, rasgos de especies en una red alimentaria). Esta información adicional se puede considerar explícitamente en el análisis, ya sea para comprender si contribuye a organizar la red [9] o para buscar alguna estructura restante una vez que se tenga en cuenta su efecto (p. Ej., Efecto espacial [10] o filogenético [11]) . En el primer caso, una alternativa más simple pero subóptima a menudo consiste en utilizar esta información a posteriori en la interpretación de los resultados (por ejemplo, explicando la estructura de las redes genéticas con información espacial [12] o comparando la estructura de la red con los metadatos [13]).

Consejo 3: use un software de análisis de red específico

Una gama de software versátil está dedicada al análisis de redes. Por lo tanto, es una pérdida de tiempo tratar de usar herramientas inespecíficas. Estas herramientas de software pertenecen a 2 categorías distintas que tienen pros y contras: interfaz gráfica de usuario (navegación basada en mouse) y paquetes de software (interfaz de línea de comandos o programación). La primera categoría está dedicada principalmente a la visualización potente e interactiva (ver Consejo 4). Incluye las 2 principales herramientas de software de código abierto, Gephi y Cytoscape, ambas compatibles con una comunidad activa. También ofrecen el cálculo de algunas métricas de red (la elección de una métrica relevante se trata en el Consejo 5). La segunda categoría está dominada por los 2 principales paquetes de red de propósito general, NetworkX e igraph, pero existen muchos paquetes más específicos (por ejemplo, bipartito en R). La visualización basada en navegador [14] surgió recientemente como una categoría intermedia, principalmente basada en una colección de bibliotecas de JavaScript (por ejemplo, Sigma.js).

Dicho esto, le recomendamos encarecidamente que aprenda a programar y escribir su análisis (de acuerdo con los documentos de la colección "Diez reglas simples" sobre habilidades informáticas y reproducibilidad [15, 16]). El manejo del código reproducible mejora la investigación de la red: puede volver a ejecutar sin esfuerzo el análisis completo de una versión modificada de sus datos sin procesar en diferentes conjuntos de datos y compartir el código con otros colegas interesados ​​en el enfoque de modelado. Finalmente, existe un conjunto limitado de formatos de archivo de red comunes (por ejemplo, una lista de adyacencia en el destino de origen del formato) que debe adoptar desde el principio para cambiar fácilmente entre diferentes herramientas de software.

Mientras tanto, el analista de datos debe evitar el uso apresurado de las diferentes funciones implementadas en estas herramientas. Como se subraya en los Consejos 5 y 6, es crucial comprender las métricas y los métodos antes de ejecutar las funciones y seleccionar los apropiados con respecto a las preguntas y los datos disponibles.

Consejo 4: Tenga en cuenta que la visualización de red puede ser útil pero posiblemente engañosa

Un aspecto poderoso de las redes es su capacidad para representar datos complejos en un solo objeto. Por lo tanto, puede ser natural representar redes gráficamente en 2 dimensiones: los nodos se extienden en el plano y los bordes se dibujan en consecuencia, con el objetivo de lograr el diseño más estético e informativo [17]. Antes de continuar, dado que las posiciones de los nodos (denominadas diseño de grafos) en una pantalla de este tipo no son parte de los datos, sino que resultan de una elección o método en particular, alentamos a los biólogos a describir claramente el diseño utilizado en cualquier representación gráfica de un red en publicaciones científicas, especialmente para que sea reproducible.

Los grafos generalmente se consideran una herramienta importante para el análisis exploratorio de datos [18]. Una comunidad de investigación activa propuso una serie de heurísticas (disponibles en las herramientas mencionadas en el Consejo 3) destinadas a obtener una buena vista de la red en un tiempo razonable, a pesar del tamaño creciente de las redes disponibles. Esta tarea aparentemente simple es, de hecho, un problema combinatorio muy difícil y consiste en buscar el diseño óptimo para un conjunto dado de objetivos que a menudo ignoras (por ejemplo, maximizar las atracciones entre los nodos conectados o minimizar los cruces de bordes). Como consecuencia, lo que ves con tus ojos puede ser parcial. De hecho, se requiere un cuidado especial para no sobreinterpretar la visualización de la red al explorar los datos. Por ejemplo, siempre tenga en cuenta que la distancia entre 2 nodos no debe interpretarse como una medida intrínseca de proximidad porque otro algoritmo de visualización podría resultar en una distancia posiblemente muy diferente (ver 2 nodos rojos en la figura 1A-1C). Además, es mejor evitar conclusiones apresuradas basadas únicamente en una visualización de red (por ejemplo, la figura 1C podría sugerir una estructura modular con 3 grupos, mientras que un análisis riguroso de la red podría concluir 5 grupos como se representa en la figura 1D). Por otro lado, si no surge una estructura de una inspección visual de la red en un paso explicativo, no significa que no sea necesario un análisis de red adicional (ver Fig. 2A), especialmente cuando se trata de redes grandes.




Fig. 1. Cuatro visualizaciones de las mismas interacciones de modelado de red entre 64 tejedores sociables [14, 22].

(a – c) Los mismos 2 nodos están coloreados en rojo para mostrar que su distancia varía según el diseño. (a) Diseño aleatorio. (b) Diseño circular en el que el tamaño y la posición de los nodos se definen por su grado. (c) Diseño de Fruchterman y Reingold, que muestra 3 grupos aparentes en la parte superior e inferior derecha e izquierda. (d) Conjunto de diseño de Kamada y Kawai con pesos en los bordes (en rojo) que conectan los 5 grupos obtenidos con el algoritmo de Lovaina (ver Sugerencia 6 y [23] para más detalles). Los grupos están delineados por diferentes colores. Realizado con el paquete R igraph.

https://doi.org/10.1371/journal.pcbi.1007434.g001

Fig. 2. Red sintética con 200 nodos y 700 aristas generadas con un SBM (ver Consejo 6) con 4 grupos de intraconectividad e interconectividad de 0.1 y 0.015, respectivamente.

(a) La visualización de red con diseño Kamada y Kawai no resalta ninguna estructura modular, mientras que existe. (b) Representación de la matriz de adyacencia con ordenación de filas y columnas consistente con los 4 grupos. Realizado con el paquete R igraph. SBM, modelo de bloque estocástico.
https://doi.org/10.1371/journal.pcbi.1007434.g002

Por otro lado, la visualización de red puede ser útil como una forma de ilustrar los resultados de un análisis de red (como se presenta en los Consejos 5 y 6). En este caso, se debe elegir un diseño por su capacidad para resaltar las propiedades de la red (heterogeneidad de grado en la figura 1B) o las conclusiones extraídas por un análisis (figura 1D). Por ejemplo, los nodos pueden posicionarse de acuerdo con los valores de algunas métricas particulares de interés [19]. Sin embargo, una ilustración de red no solo debe ser estética, sino que debe ser informativa sobre los nodos y la estructura de los bordes. Por lo tanto, alentamos al analista a considerar cuidadosamente los mensajes que se transmitirán a través de una ilustración de red. Por ejemplo, es frecuente que las redes ecológicas bipartitas se ilustren con 2 capas apiladas (por ejemplo, en un paquete bipartito); en algunos casos, estas ilustraciones solo resaltan la información de los nodos (en cuántos bordes están involucrados) pero generalmente no muestran la estructura de ningún borde debido a los muchos bordes cruzados inherentes a esta representación.

Por último, también recomendamos considerar la visualización de la matriz de adyacencia como un mapa de calor o una matriz de color (consulte la Fig. 2 en [20] para obtener una explicación). Permite representar la presencia o el peso de los bordes (celdas de colores), pero también tiene la ventaja de resaltar la ausencia de bordes (celdas de matriz en blanco). Esto es particularmente relevante cuando las filas y columnas de la matriz se reordenan de manera informativa (por ejemplo, al aumentar el valor de una métrica [21] o de acuerdo con algunos resultados de agrupamiento; consulte los Consejos 5 y 6 y la Figura 2B).

Consejo 5: Evite el uso ciego de métricas; entender fórmulas en su lugar

Además de las limitaciones de la visualización de red, la descripción de una red también puede (y ventajosamente) consistir en calcular estadísticas resumidas. El principiante encontrará inmediatamente el camino hacia una serie de métricas de red: un número por nodo o borde (métricas locales; por ejemplo, grado) o un número para toda la red (métricas globales; por ejemplo, conexión / densidad o modularidad). Las métricas han proliferado, y se recomienda encarecidamente tomarse un tiempo para leer detenidamente la definición matemática de las métricas que se tienen a mano (ver también el Consejo 9): cuanto más profunda sea la comprensión matemática, más fácil será la interpretación. Por ejemplo, el concepto de centralidad de los nodos va con una gama de métricas de centralidad que tienen diferentes significados. Además, es tan fácil calcular cualquier métrica con las herramientas de software antes mencionadas que a veces puede evitar que el analista verifique sus pros y sus contras. Como ejemplo, al leer la definición de la centralidad de intermediación ampliamente utilizada, puede comprender que se basa en caminos más cortos. Si tiene la intención de utilizar esta medida, es necesario verificar si la ruta más corta es un concepto relevante asociado al proceso en estudio (como los flujos de energía en las redes alimentarias) o si es más cuestionable (por ejemplo, rutas en redes funcionales puede que en realidad no se corresponda con el flujo de información [20]; las rutas en las redes de contacto pueden no ser relevantes cuando no se estudia la difusión de la información o la enfermedad [24]). Otro ejemplo consiste en el análisis de redes dirigidas y / o ponderadas con extensiones de métricas para este caso. Es importante tener en cuenta que la fórmula del grado ponderado tiene en cuenta 2 efectos: cuántos vecinos y qué tan grandes son los pesos, 2 efectos que son imposibles de desenredar (un grado ponderado de 2 puede corresponder a un solo borde de peso 2 o 4 bordes de peso 0.5 cada uno). También se puede plantear un problema similar para la ruta ponderada (posibles dificultades resaltadas en [25]). Por último, las métricas globales a menudo se usan para comparar redes (redes medidas a partir de diferentes datos o condiciones o redes simuladas como se menciona en el Consejo 7). En este caso, se debe tener especial cuidado al comparar valores, ya que las diferencias de métricas pueden ser un efecto secundario de las diferencias en las características simples de la red, como el número de nodos o bordes (véanse las dificultades comunes mencionadas en [26] para las redes cerebrales y una discusión sobre covarianza de métricas con características de redes ecológicas en [27]). Por ejemplo, se sabe que la modularidad, el número de módulos y el tamaño de la red están entrelazados [28].

No es inusual que los autores, en lugar de elegir una métrica dada adaptada a una pregunta en particular, calculen una gran cantidad de métricas entre las disponibles. Sin embargo, muchas métricas están correlacionadas (ver un estudio de correlación en [24]), y se hace necesario lidiar con esta redundancia para interpretar los resultados (por ejemplo, con un método de ordenación [29]). Este enfoque no se basa en hipótesis como se recomienda en el Consejo 1 y, sin lugar a dudas, puede ser reemplazado por un enfoque incremental en el que las métricas se seleccionan una a la vez por su capacidad de verificar hipótesis particulares asociadas a las preguntas fundamentales sobre los datos (como para muchos análisis estadísticos , ver la regla 5 en [4]).

Consejo 6: Evite el uso ciego de métodos de agrupamiento; comprobar su diferencia en su lugar

Con la avalancha de datos que surgió en esta década, que condujo a redes más grandes, el agrupamiento se ha convertido en una de las herramientas más populares para obtener una visión integral de la estructura de la red. Su propósito general es agregar nodos en grupos para identificar una estructura de mesoescala en la red (es decir, alejar la red). Elegir una agrupación en red plantea problemas similares a elegir una métrica de red (Consejo 5). Es mucho más que usar una de las funciones disponibles en un software. En cuanto a los métodos de agrupamiento en nubes de puntos, los construidos en redes tienen como objetivo reunir objetos similares (es decir, nodos) y, por lo tanto, se basan en una definición específica de similitud de nodos. ¿Qué quiere el analista ser similar en una red? Discutir los pros y los contras de los diferentes métodos está más allá del alcance de este artículo, mientras que existe una literatura masiva sobre el tema (ver Consejo 9). Sin embargo, ilustramos el impacto de elegir una definición específica para la similitud de nodos con 3 propuestas clásicas (entre otras).

Una primera y natural definición de la similitud entre nodos es la existencia de una conexión entre ellos. Según esta definición, la agrupación en red consiste en encontrar una estructura modular, es decir, identificar grupos densos de nodos (también llamados módulos o comunidades) mal conectados con otros. Los métodos de detección comunitaria [23] implementan este enfoque, que supone implícitamente la existencia de módulos en la red. Se aplicaron con éxito en muchos estudios de biología (por ejemplo, para identificar dominios de cromatina [30]). Un segundo enfoque considera que 2 nodos son similares cuando tienden a estar conectados (o no) con el mismo tipo de nodos. Por lo tanto, las especies en una red alimentaria se consideran similares si tienen presas y depredadores similares [31]. Esta definición puede acomodar redes con estructura no modular [32], ya que supone que los nodos están involucrados en una "diversidad de arquitecturas de mesoescala" [33]. El modelo de bloque estocástico (SBM) es un método popular basado en esta definición [32, 34], que ha demostrado ser relevante para el análisis de algunas redes biológicas (para resaltar la compleja arquitectura de conectomas [33] o grupos funcionales en ecológicos). redes [35]). Una característica importante es que le permite a uno modelar explícitamente direcciones de borde y pesos por medio de diferentes distribuciones estadísticas [11]. Un tercer enfoque consiste en asociar un vector de características a cada nodo y luego reunir nodos con características similares. Esto incluye enfoques basados ​​en motivos [36] y una amplia gama de técnicas innovadoras de inclusión de nodos [37, 38]. Los nodos se describen como puntos en un espacio con una dimensión razonablemente baja, lo que permite aplicar la gran variedad de métodos de agrupamiento existentes para datos multivariados. Es importante darse cuenta de que cada uno de estos conceptos de similitud naturalmente da como resultado una agrupación de nodos diferentes. La elección entre estas alternativas debe ser impulsada por preguntas biológicas, no por su disponibilidad en herramientas de software (Consejo 1).

Consejo 7: no elija la manera fácil al simular redes

Para resaltar las propiedades específicas de una red observada (por ejemplo, un valor métrico peculiar), una práctica común consiste en comparar con redes simuladas. Estas propiedades se detectan como una desviación significativa (o no) de un comportamiento típico implementado en redes simuladas. Sin embargo, no existe una definición genérica de una red típica y, como consecuencia, las características que se pueden detectar dependen dramáticamente del modelo nulo utilizado para simular redes. Este modelo nulo debe elegirse para un propósito dado, ajustarse a los comportamientos esperados, al tiempo que contrasta con los que nos interesan. En otras palabras, debe ajustarse razonablemente a los datos para evitar numerosos descubrimientos falsos, pero no demasiado bien para que puedan surgir desviaciones.

Una opción natural podría consistir en seleccionar un modelo nulo entre la serie de modelos de grafos aleatorios (por ejemplo, Erdős – Rényi, mundo pequeño, sin escala, SBM, grafo aleatorio exponencial o modelo de configuración). Sin embargo, recomendamos no usarlos demasiado apresuradamente porque a menudo son demasiado generales. Por ejemplo, el modelo Erdős – Rényi (todos los bordes son independientes y tienen la misma probabilidad de ocurrencia) es a menudo un modelo nulo pobre para detectar nodos que tienen un grado inesperadamente alto. De hecho, induce una distribución de grados de Poisson, que está tan lejos de la observada en la mayoría de las redes que muchos nodos parecen estar conectados inesperadamente. Por otro lado, ningún nodo puede mostrar un grado inesperadamente alto con respecto al modelo de configuración, ya que este modelo nulo se ajusta con precisión al grado de cada nodo. Además, el analista suele ser consciente de una serie de propiedades que una red simulada debe mostrar: distribución de grados desequilibrados, diferentes roles de los nodos asociados con la información lateral disponible, interacciones prohibidas (por ejemplo, dependiendo de la masa corporal en las redes alimentarias [39] ), etc. Tales propiedades esperadas deben codificarse en el proceso de simulación (por ejemplo, una secuencia de grado fijo [35]), de lo contrario surgirán y se detectarán como significativas o contribuirán a detectar efectos falsos significativos como efectos secundarios. Como ejemplo, al evaluar si el número de bucles de avance es inesperado en una red de transcripción dada, el procedimiento de simulación debe basarse en un número fijo de nodos y grados, mientras que el número de estos bucles permanece libre.

Por último, cuando la red en estudio no se observa directamente, sino que se construye a partir de la interpretación de datos sin procesar, puede ser relevante simular todo el proceso de construcción. Considere el caso de las redes de contactos inferidas de los datos de movimiento [24]: se puede simular trayectorias manteniendo algunas propiedades de los datos originales y luego construir una red de contactos o simular directamente una red de contactos "realista". El primer enfoque tendrá en cuenta intrínsecamente las incertidumbres y los prejuicios inducidos por los pasos de construcción, que es probable que el último enfoque pase por alto.

Consejo 8: reconsidere los datos para construir múltiples capas de red

Un objeto de red puede ser el resultado de la agregación de datos. De hecho, las interacciones a menudo se observan en diferentes momentos y lugares o en diferentes condiciones. Por lo tanto, se recomienda encarecidamente tener en cuenta (y tener a la mano) las diferentes capas de datos (tiempo, espacio, tipo, etc.) y considerar las redes compuestas de varias capas, porque las redes de múltiples capas pueden proporcionar nuevas ideas en comparación con una agregada [ 40-42].

Una red se llama dinámica cuando reúne una serie temporal de instantáneas de red correspondientes a rondas sucesivas de recopilación de datos (la lista de nodos posiblemente varía en el tiempo). En este caso, se puede evaluar la variabilidad temporal de la estructura de la red (p. Ej., Reconexión de interacciones o cambios en las métricas de la red a lo largo del tiempo), y las extensiones de los conceptos desarrollados en el Consejo 6 ahora existen en el caso dinámico [43, 44]. Por ejemplo, la dinámica de la estructura social animal se puede inferir de las redes dinámicas para mejorar la comprensión de la transmisión de enfermedades [45]. Por otro lado, las interacciones se pueden observar en diferentes ubicaciones espaciales. En ecología, a menudo se agregan en una metared (o metaweb [46]) para estudiar cómo las redes locales difieren de esta metared y explicar estas variaciones con factores ambientales. En estos 2 casos, las capas múltiples permiten describir una red como un objeto en evolución, y el análisis tiene como objetivo identificar las variaciones espacio-temporales de las interacciones y sus impulsores.

También se pueden observar diferentes tipos de interacciones entre nodos. El apilamiento de capas que representan interacciones moleculares en diferentes tejidos humanos [47] o el mapeo de conectomas extrasinápticos y sinápticos [48] conduce a una red multiplex: entre 2 nodos, posiblemente exista más de 1 borde, 1 por tipo de interacción como máximo (a menudo visualizado con Colores diferentes). Tener en cuenta conjuntamente las diferentes capas mejora la comprensión de la interacción de los nodos. Por ejemplo, el uso conjunto de interacciones tróficas y no tróficas mejora la definición de los roles ecológicos de las especies en comparación con el uso de capas individuales de forma independiente [35]. Finalmente, también es posible integrar diferentes capas de información con diferentes conjuntos de nodos para cada capa, como proteínas y compuestos químicos [49]. En este caso, se definen diferentes tipos de interacciones dentro y entre capas. En todos estos casos, las diferentes capas de información se integran en una red integral, de modo que se tratan conjuntamente en lugar de una tras otra.

Consejo 9: Sumérgete en la literatura de la red más allá de tu disciplina

La ciencia de redes ahora involucra una comunidad hiperactiva de investigadores de diferentes dominios como física, estadística, informática o ciencias sociales. Como resultado, existe una literatura masiva sobre redes, y es un desafío para los biólogos sumergirse en ella. De hecho, no estamos acostumbrados a explorar la bibliografía fuera de nuestro dominio de investigación. Los libros de referencia [5, 42, 50, 51] y las revisiones [23, 40, 52] son ​​obviamente buenos puntos de entrada para desarrollar sus habilidades de red. Sin embargo, sin lugar a dudas, se beneficiará enormemente de un viaje de ida y vuelta en esta literatura exógeno a su campo (incluidos los avances más recientes en la metodología de red disponibles en el repositorio de preimpresión arXiv), siempre que haga el esfuerzo de aprender el vocabulario apropiado de esta área. Ejemplos concretos incluyen el análisis de la modularidad en biología, que se tomó prestada de la física (a diferencia de la anidación, que se origina en la biogeografía), o el uso reciente de SBM (Consejo 6) que se han aplicado en la literatura de ciencias sociales desde el siglo pasado.

Conclusión

Los 9 consejos presentados aquí deberían ser una forma para que el analista de datos ponga un pie en la puerta del análisis de datos de red. Estos consejos no son exclusivos y conocemos otras preguntas basadas en la red que merecen un interés especial, incluida la difusión en redes, por ejemplo. Aún así, el especialista no especializado en redes debe confiar en su capacidad para aprender, paso a paso, los conceptos y métodos de la red con un efecto productivo en sus preguntas científicas.


Referencias

1. Ideker T, Nussinov R. Network approaches and applications in biology. PLoS Comput Biol. 2017;13(10):e1005771. pmid:29023447
View Article
PubMed/NCBI
Google Scholar
2. Zitnik M, Sosi R, Leskovec J. Prioritizing network communities. Nature Communications. 2018;9(1):2544. pmid:29959323
View Article
PubMed/NCBI
Google Scholar
3. Wang B, Pourshafeie A, Zitnik M, Zhu J, Bustamante CD, Batzoglou S, et al. Network enhancement as a general method to denoise weighted biological networks. Nature Communications. 2018;9(1):3108. pmid:30082777
View Article
PubMed/NCBI
Google Scholar
4. Kass RE, Caffo BS, Davidian M, Meng XL, Yu B, Reid N. Ten simple rules for effective statistical practice. PLoS Comput Biol. 2016;12(6):e1004961. pmid:27281180
View Article
PubMed/NCBI
Google Scholar
5. Diestel R. Graph Theory. Springer-Verlag; 2016.
6. Barrat A, Barthelemy M, Pastor-Satorras R, Vespignani A. The architecture of complex weighted networks. Proceedings of the national academy of sciences. 2004;101(11):3747–3752.
View Article
Google Scholar
7. Staniczenko PP, Kopp JC, Allesina S. The ghost of nestedness in ecological networks. Nature communications. 2013;4:1391. pmid:23340431
View Article
PubMed/NCBI
Google Scholar
8. Pavlopoulos GA, Kontou PI, Pavlopoulou A, Bouyioukos C, Markou E, Bagos PG. Bipartite graphs in systems biology and medicine: a survey of methods and applications. GigaScience. 2018;7(4):giy014.
View Article
Google Scholar
9. Miele V, Picard F, Dray S. Spatially constrained clustering of ecological networks. Methods in Ecology and Evolution. 2014;5(8):771–779.
View Article
Google Scholar
10. Expert P, Evans TS, Blondel VD, Lambiotte R. Uncovering space-independent communities in spatial networks. Proceedings of the National Academy of Sciences. 2011;108(19):7663–7668.
View Article
Google Scholar
11. Mariadassou M, Robin S, Vacher C. Uncovering latent structure in valued graphs: a variational approach. The Annals of Applied Statistics. 2010;4(2):715–742.
View Article
Google Scholar
12. Fortuna MA, Albaladejo RG, Fernández L, Aparicio A, Bascompte J. Networks of spatial genetic variation across species. Proceedings of the National Academy of Sciences. 2009;106(45):19044–19049.
View Article
Google Scholar
13. Hric D, Darst RK, Fortunato S. Community detection in networks: Structural communities versus ground truth. Physical Review E. 2014;90(6):062805.
View Article
Google Scholar
14. Rossi R, Ahmed N. The network data repository with interactive graph analytics and visualization. In: Twenty-Ninth AAAI Conference on Artificial Intelligence; 2015.
15. Sandve GK, Nekrutenko A, Taylor J, Hovig E. Ten simple rules for reproducible computational research. PLoS Comput Biol. 2013;9(10):e1003285. pmid:24204232
View Article
PubMed/NCBI
Google Scholar
16. Carey MA, Papin JA. Ten simple rules for biologists learning to program. PLoS Comput Biol. 2018;14(1):e1005871. pmid:29300745
View Article
PubMed/NCBI
Google Scholar
17. Pocock MJ, Evans DM, Fontaine C, Harvey M, Julliard R, McLaughlin Ó, et al. The visualisation of ecological networks, and their use as a tool for engagement, advocacy and management. In: Advances in Ecological Research. vol. 54. Elsevier; 2016. p. 41–85.
View Article
Google Scholar
18. Tukey JW. Exploratory data analysis. Reading: Addison-Wesley; 1977.
19. Krzywinski M, Birol I, Jones SJ, Marra MA. Hive plots—rational approach to visualizing networks. Briefings in Bioinformatics. 2011;13(5):627–644. pmid:22155641
View Article
PubMed/NCBI
Google Scholar
20. Rubinov M, Sporns O. Complex network measures of brain connectivity: uses and interpretations. Neuroimage. 2010;52(3):1059–1069. pmid:19819337
View Article
PubMed/NCBI
Google Scholar
21. Bascompte J, Jordano P, Melián CJ, Olesen JM. The nested assembly of plant–animal mutualistic networks. Proceedings of the National Academy of Sciences. 2003;100(16):9383–9387.
View Article
Google Scholar
22. Van Dijk RE, Kaden JC, Argüelles-Ticó A, Dawson DA, Burke T, Hatchwell BJ. Cooperative investment in public goods is kin directed in communal nests of social birds. Ecology letters. 2014;17(9):1141–1148. pmid:25039999
View Article
PubMed/NCBI
Google Scholar
23. Fortunato S, Hric D. Community detection in networks: A user guide. Physics Reports. 2016;659:1–44.
View Article
Google Scholar
24. Farine DR, Whitehead H. Constructing, conducting and interpreting animal social network analysis. J Anim Ecol. 2015;84(5):1144–1163. pmid:26172345
View Article
PubMed/NCBI
Google Scholar
25. Costa A, Gonzalez AMM, Guizien K, Doglioli AM, Gomez JM, Petrenko A, et al. Ecological networks: Pursuing the shortest path, however narrow and crooked. bioRxiv. 2018;.
View Article
Google Scholar
26. Van Wijk BC, Stam CJ, Daffertshofer A. Comparing brain networks of different size and connectivity density using graph theory. PLoS ONE. 2010;5(10):e13701. pmid:21060892
View Article
PubMed/NCBI
Google Scholar
27. Pellissier L, Albouy C, Bascompte J, Farwig N, Graham C, Loreau M, et al. Comparing species interaction networks along environmental gradients. Biological Reviews. 2018;93(2):785–800. pmid:28941124
View Article
PubMed/NCBI
Google Scholar
28. Fortunato S, Barthelemy M. Resolution limit in community detection. Proceedings of the National Academy of Sciences. 2007;104(1):36–41.
View Article
Google Scholar
29. Kortsch S, Primicerio R, Aschan M, Lind S, Dolgov AV, Planque B. Food-web structure varies along environmental gradients in a high-latitude marine ecosystem. Ecography. 2019;42(2):295–308.
View Article
Google Scholar
30. Norton HK, Emerson DJ, Huang H, Kim J, Titus KR, Gu S, et al. Detecting hierarchical genome folding with network modularity. Nature methods. 2018;15(2):119. pmid:29334377
View Article
PubMed/NCBI
Google Scholar
31. Allesina S, Pascual M. Food web models: a plea for groups. Ecology Letters. 2009;12(7):652–662. pmid:19453619
View Article
PubMed/NCBI
Google Scholar
32. Newman ME, Leicht EA. Mixture models and exploratory analysis in networks. Proceedings of the National Academy of Sciences. 2007;104(23):9564–9569.
View Article
Google Scholar
33. Betzel RF, Medaglia JD, Bassett DS. Diversity of meso-scale architecture in human and non-human connectomes. Nature Communications. 2018;9(1):346. pmid:29367627
View Article
PubMed/NCBI
Google Scholar
34. Daudin JJ, Picard F, Robin S. A mixture model for random graphs. Statistics and computing. 2008;18(2):173–183.
View Article
Google Scholar
35. Kéfi S, Miele V, Wieters EA, Navarrete SA, Berlow EL. How Structured Is the Entangled Bank? The Surprisingly Simple Organization of Multiplex Ecological Networks Leads to Increased Persistence and Resilience. PLoS Biol. 2016;14(8):e1002527. pmid:27487303
View Article
PubMed/NCBI
Google Scholar
36. Stouffer DB, Sales-Pardo M, Sirer MI, Bascompte J. Evolutionary conservation of species’ roles in food webs. Science. 2012;335(6075):1489–1492. pmid:22442483
View Article
PubMed/NCBI
Google Scholar
37. Perozzi B, Al-Rfou R, Skiena S. DeepWalk: Online Learning of Social Representations. In: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '14. New York, NY, USA: ACM; 2014. p. 701–710.
38. Grover A, Leskovec J. node2vec: Scalable feature learning for networks. In: Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM; 2016. p. 855–864.
39. Brose U, Jonsson T, Berlow EL, Warren P, Banasek-Richter C, Bersier LF, et al. Consumer–resource body-size relationships in natural food webs. Ecology. 2006;87(10):2411–2417. pmid:17089649
View Article
PubMed/NCBI
Google Scholar
40. Boccaletti S, Bianconi G, Criado R, Del Genio CI, Gómez-Gardenes J, Romance M, et al. The structure and dynamics of multilayer networks. Physics Reports. 2014;544(1):1–122.
View Article
Google Scholar
41. Pilosof S, Porter MA, Pascual M, Kéfi S. The multilayer nature of ecological networks. Nature Ecology & Evolution. 2017;1(4):0101.
View Article
Google Scholar
42. Bianconi G. Multilayer Networks: Structure and Function. Oxford university press; 2018.
43. Matias C, Miele V. Statistical clustering of temporal networks through a dynamic stochastic block model. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2017;79(4):1119–1141.
View Article
Google Scholar
44. Rossetti G, Cazabet R. Community discovery in dynamic networks: a survey. ACM Computing Surveys (CSUR). 2018;51(2):35.
View Article
Google Scholar
45. Farine D. The dynamics of transmission and the dynamics of networks. Journal of Animal Ecology. 2017;86(3):415–418. pmid:28394028
View Article
PubMed/NCBI
Google Scholar
46. Ohlmann M, Miele V, Dray S, Chalmandrier L, O’Connor L, Thuiller W. Diversity indices for ecological networks: a unifying framework using Hill numbers. Ecology letters. 2019;.
View Article
Google Scholar
47. Zitnik M, Leskovec J. Predicting multicellular function through multi-layer tissue networks. Bioinformatics. 2017;33(14):i190–i198. pmid:28881986
View Article
PubMed/NCBI
Google Scholar
48. Bentley B, Branicky R, Barnes CL, Chew YL, Yemini E, Bullmore ET, et al. The multilayer connectome of Caenorhabditis elegans. PLoS Comput Biol. 2016;12(12):e1005283. pmid:27984591
View Article
PubMed/NCBI
Google Scholar
49. Berenstein AJ, Magariños MP, Chernomoretz A, Agüero F. A multilayer network approach for guiding drug repositioning in neglected diseases. PLoS Negl Trop Dis. 2016;10(1):e0004300. pmid:26735851
View Article
PubMed/NCBI
Google Scholar
50. Newman M. Networks. Oxford University Press; 2018. https://doi.org/10.1002/net.21828
51. Barabási AL. Network Science; 2019. [cited 2019 Oct 15]. Available from: http://networksciencebook.com.
View Article
Google Scholar
52. Goyal P, Ferrara E. Graph embedding techniques, applications, and performance: A survey. Knowledge-Based Systems. 2018;151:78–94.
View Article
Google Scholar

No hay comentarios:

Publicar un comentario