lunes, 13 de enero de 2020

11 consejos de cómo lidiar con grandes conjuntos de datos

Once consejos para trabajar con grandes conjuntos de datos

Los grandes datos son difíciles de manejar. Estos consejos y trucos pueden allanar el camino.
Anna Nowogrodzki



Ilustración de The Project Twins
Versión PDF
Nature


Los grandes datos están en todas partes en la investigación, y los conjuntos de datos son cada vez más grandes y más difíciles de trabajar. Desafortunadamente, dice Tracy Teal, es un tipo de trabajo que con demasiada frecuencia queda fuera de la capacitación científica.

"Es una mentalidad", dice Teal, "tratando los datos como un ciudadano de primera clase". Ella debe saber: Teal fue hasta el mes pasado el director ejecutivo de The Carpentries, una organización en Oakland, California, que enseña habilidades de codificación y datos a investigadores a nivel mundial. Ella dice que existe una tendencia en la comunidad de investigación a descartar el tiempo y el esfuerzo necesarios para administrar y compartir datos, y no considerarlos como una parte real de la ciencia. Pero, sugiere, "podemos cambiar nuestra mentalidad para valorar ese trabajo como parte del proceso de investigación", en lugar de tratarlo como una ocurrencia tardía.

Aquí hay 11 consejos para aprovechar al máximo sus grandes conjuntos de datos.

Aprecia tus datos


"Mantenga sus datos en bruto sin procesar: no los manipule sin tener una copia", dice Teal. Recomienda almacenar sus datos en algún lugar que cree copias de seguridad automáticas y que otros miembros del laboratorio puedan acceder, respetando las normas de su institución sobre consentimiento y privacidad de datos.

Debido a que no necesitará acceder a estos datos con frecuencia, dice Teal, "puede usar las opciones de almacenamiento donde puede costar más dinero acceder a los datos, pero los costos de almacenamiento son bajos", por ejemplo, el servicio Glacier de Amazon. Incluso podría almacenar los datos en bruto en discos duros duplicados guardados en diferentes ubicaciones. Los costos de almacenamiento para archivos de datos grandes pueden acumularse, por lo que debe presupuestar en consecuencia.

Visualiza la información

A medida que los conjuntos de datos se hacen más grandes, surgen nuevas arrugas, dice Titus Brown, un bioinformático de la Universidad de California, Davis. "En cada etapa, te encontrarás con un nuevo y emocionante comportamiento desordenado". Su consejo: "Haz muchos gráficos y busca valores atípicos". En abril pasado, uno de los estudiantes de Brown analizó los transcriptomes: el conjunto completo de Moléculas de ARN producidas por una célula u organismo: a partir de 678 microorganismos marinos como el plancton (LK Johnson et al. GigaScience 8, giy158; 2019). Cuando Brown y su alumno registraron los valores promedio de la duración de la transcripción, la cobertura y el contenido genético, notaron que algunos valores eran cero, lo que indica dónde había fallado el flujo de trabajo computacional y había que volver a ejecutarlo.

Muestra tu flujo de trabajo

Cuando el físico de partículas Peter Elmer ayuda a su hijo de 11 años con su tarea de matemáticas, tiene que recordarle que documente sus pasos. "Él solo quiere escribir la respuesta", dice Elmer, quien es director ejecutivo del Instituto de Investigación e Innovación en Software para Física de Alta Energía en la Universidad de Princeton en Nueva Jersey. Los investigadores que trabajan con grandes conjuntos de datos pueden beneficiarse del mismo consejo que Elmer le dio a su hijo: "Mostrar su trabajo es tan importante como llegar al final".

Esto significa registrar todo su flujo de trabajo de datos, qué versión de los datos que utilizó, los pasos de limpieza y control de calidad y cualquier código de procesamiento que ejecutó. Dicha información es invaluable para documentar y reproducir sus métodos. Eric Lyons, biólogo computacional de la Universidad de Arizona en Tucson, utiliza la herramienta de captura de video asciinema para registrar lo que escribe en la línea de comando, pero las soluciones de baja tecnología también pueden funcionar. Un grupo de sus colegas, recuerda, tomó fotos de la pantalla de su computadora y las publicó en el grupo del laboratorio en Slack, una plataforma de mensajería instantánea.

Usar control de versiones

Los sistemas de control de versiones permiten a los investigadores comprender con precisión cómo ha cambiado un archivo con el tiempo y quién realizó los cambios. Pero algunos sistemas limitan el tamaño de los archivos que puede usar. Harvard Dataverse (que está abierto a todos los investigadores) y Zenodo se pueden usar para el control de versiones de archivos grandes, dice Alyssa Goodman, astrofísica y especialista en visualización de datos en la Universidad de Harvard en Cambridge, Massachusetts. Otra opción es Dat, una red gratuita de igual a igual para compartir y versionar archivos de cualquier tamaño. El sistema mantiene un registro a prueba de manipulaciones que registra todas las operaciones que realiza en su archivo, dice Andrew Osheroff, desarrollador principal de software en Dat en Copenhague. Y los usuarios pueden ordenar al sistema que archive una copia de cada versión de un archivo, dice la gerente de producto de Dat, Karissa McKelvey, con sede en Oakland, California. Dat es actualmente una utilidad de línea de comandos, pero "hemos estado actualizando activamente", dice McKelvey; El equipo espera lanzar un front end más fácil de usar a finales de este año.

Grabar metadatos

"Sus datos no son útiles a menos que las personas, y" el futuro ", sepan cuáles son", dice Teal. Ese es el trabajo de los metadatos, que describen cómo se recopilaron, formatearon y organizaron las observaciones. Considere qué metadatos registrar antes de comenzar a recopilar, Lyons aconseja, y almacene esa información junto con los datos, ya sea en la herramienta de software utilizada para recopilar las observaciones o en un archivo README u otro archivo dedicado. El Proyecto Open Connectome, dirigido por Joshua Vogelstein, un neuroestadístico de la Universidad Johns Hopkins en Baltimore, Maryland, registra sus metadatos en un formato de texto plano estructurado llamado JSON. Cualquiera que sea su estrategia, trate de pensar a largo plazo, dice Lyons: algún día querrá integrar sus datos con los de otros laboratorios. Si eres proactivo con tus metadatos, esa integración será más fácil en el futuro.

Automatizar, automatizar, automatizar

Los grandes conjuntos de datos son demasiado grandes para peinarlos manualmente, por lo que la automatización es clave, dice Shoaib Mufti, director senior de datos y tecnología del Instituto Allen para la Ciencia del Cerebro en Seattle, Washington. El equipo de neuroinformática del instituto, por ejemplo, utiliza una plantilla para los datos de las células cerebrales y la genética que acepta información solo en el formato y tipo correctos, dice Mufti. Cuando llega el momento de integrar esos datos en una base de datos o colección más grande, los pasos de garantía de calidad de datos se automatizan usando Apache Spark y Apache Hbase, dos herramientas de código abierto, para validar y reparar datos en tiempo real. "Nuestro conjunto completo de herramientas de software para validar e ingerir datos se ejecuta en la nube, lo que nos permite escalar fácilmente", dice. El Proyecto Open Connectome también proporciona garantía de calidad automatizada, dice Vogelstein: esto genera visualizaciones de estadísticas resumidas que los usuarios pueden inspeccionar antes de continuar con sus análisis.

Haga que el tiempo de computación cuente

Grandes conjuntos de datos requieren informática de alto rendimiento (HPC), y muchos institutos de investigación ahora tienen sus propias instalaciones de HPC. La Fundación Nacional de Ciencias de EE. UU. mantiene la red nacional HPC XSEDE, que incluye la red de computación basada en la nube Jetstream y los centros HPC en todo el país. Los investigadores pueden solicitar asignaciones de recursos en xsede.org y crear cuentas de prueba en go.nature.com/36ufhgh. Otras opciones incluyen la red ACI-REF con sede en EE. UU., NCI Australia, la Asociación para la Computación Avanzada en Europa y las redes ELIXIR, así como proveedores comerciales como Amazon, Google y Microsoft.

Pero cuando se trata de computación, el tiempo es dinero. Para aprovechar al máximo su tiempo de computación en los clústeres GenomeDK y Computerome en Dinamarca, Guojie Zhang, investigador de genómica de la Universidad de Copenhague, dice que su grupo generalmente realiza pruebas a pequeña escala antes de migrar sus análisis a la red HPC. Zhang es miembro del Proyecto de Genomas de Vertebrados, que busca ensamblar los genomas de unas 70,000 especies de vertebrados. "Necesitamos millones o incluso miles de millones de horas informáticas", dice.

Captura tu entorno

Para replicar un análisis más tarde, no necesitará la misma versión de la herramienta que utilizó, dice Benjamin Haibe-Kains, farmacogenómico computacional en el Centro de Cáncer Princess Margaret en Toronto, Canadá. También necesitará el mismo sistema operativo y las mismas bibliotecas de software que requiere la herramienta. Por esta razón, recomienda trabajar en un entorno informático autónomo, un contenedor Docker, que se puede ensamblar en cualquier lugar. Haibe-Kains y su equipo utilizan la plataforma en línea Code Ocean (que se basa en Docker) para capturar y compartir sus entornos virtuales; Otras opciones incluyen Binder, Gigantum y Nextjournal. "Diez años a partir de ahora, aún podría ejecutar esa tubería exactamente de la misma manera si lo necesita", dice Haibe-Kains.

No descargue los datos.

Descargar y almacenar grandes conjuntos de datos no es práctico. Los investigadores deben ejecutar análisis de forma remota, cerca de donde se almacenan los datos, dice Brown. Muchos proyectos de big data usan Jupyter Notebook, que crea documentos que combinan código de software, texto y figuras. Los investigadores pueden "girar" dichos documentos en o cerca de los servidores de datos para realizar análisis remotos, explorar los datos y más, dice Brown. Brown dice que Jupyter Notebook no es particularmente accesible para los investigadores que podrían sentirse incómodos usando una línea de comando, pero hay plataformas más fáciles de usar que pueden cerrar la brecha, incluidas Terra y Seven Bridges Genomics.

Empezar temprano

La gestión de datos es crucial incluso para los investigadores jóvenes, así que comience su entrenamiento temprano. "Las personas sienten que nunca tienen tiempo para invertir", dice Elmer, pero "a la larga se ahorra tiempo". Comience con los conceptos básicos de la línea de comandos, más un lenguaje de programación como Python o R, lo que sea más importante para su campo, dice. Lyons está de acuerdo: "Paso uno: familiarizarse con los datos de la línea de comandos". En noviembre, algunos de sus colaboradores que no dominaban el uso de la línea de comandos tuvieron problemas con los datos genómicos porque los nombres de los cromosomas no coincidían en todos sus archivos, Dice Lyons. "Tener algunas habilidades básicas de línea de comandos y programación me permite corregir rápidamente los nombres de los cromosomas".

Consigue ayuda


La ayuda está disponible, en línea y fuera de ella. Comience con el foro en línea Stack Overflow. Consulte a los bibliotecarios de su institución sobre las habilidades que necesita y los recursos que tiene disponibles, aconseja Teal. Y no descarte la capacitación en el sitio, Lyons dice: "The Carpentries es un excelente lugar para comenzar".

sábado, 28 de diciembre de 2019

Esculturas de redes de realidad aumentada


Esculturas de red aumentadas

Agoston Nagy || Startup




Su artículo presenta una colaboración continua entre la Universidad de Arte y Diseño Moholy-Nagy (Budapest, H) y Barabasi Lab (Boston, EE. UU.). El objetivo del proyecto es unir redes espaciales físicas impresas en 3D con sus correspondientes capas de información de fondo utilizando la realidad aumentada. Dado que un modelo virtual está alineado con la escultura de red impresa real, la audiencia puede revelar capas de información navegando sobre diferentes capas de la realidad: interactuando con un dispositivo móvil táctil en su pantalla, pero también, navegando en el espacio real moviéndose El dispositivo alrededor. Usando los sensores de movimiento integrados, el giroscopio y la imagen de la cámara en tiempo real, el resultado es una experiencia de realidad mixta, donde la información digital en capas se conecta a la escultura de red física real.

Un taller


Después de una lluvia de ideas inicial con el científico de redes László Albert Barabási, comenzamos el proyecto con un taller en el campus MOME con Mihály Minkó, donde se invitó a diseñadores, artistas, ingenieros y personas de diferentes campos de las humanidades. Estábamos investigando formas de cómo podemos mezclar el lenguaje de la realidad aumentada con los problemas de visualización de la red. Se dieron dos conferencias teóricas como punto de partida, que abordan las taxonomías de la realidad aumentada (y sus correspondientes modelos cognitivos de las diferentes modalidades del espacio) y la topología de la red: visualización, comprensión de las estructuras de redes complejas y sin escala.


Algunas diapositivas de la conferencia.

El pensamiento colaborativo, los ajustes y la cultura del bricolaje también son una parte crucial de la metodología de nuestro taller, por lo que obtuvimos algunos componentes de plástico que consisten en bloques de construcción simples para ensamblar diferentes sistemas moleculares, y los participantes tuvieron que construir redes simplificadas por su cuenta. Las instrucciones se basaron en algunos datos extremadamente filtrados y limitados que obtuvieron en sus manos, sentados alrededor de una mesa, construyendo el objeto juntos, independientemente de sus antecedentes profesionales. Esta forma de diseño colaborativo abre conversaciones significativas, invoca varias preguntas sobre el tema que el grupo está investigando. Como resultado del taller, obtuvimos algunas ideas interesantes sobre los conceptos de navegación dentro de la realidad aumentada, también tuvimos una experiencia de primera mano sobre cómo se pueden crear redes, nodos y sus enlaces.

Diferentes conceptos espaciales para la realidad aumentada portátil

Dado que las redes son estructuras abstractas en sí mismas, visualizarlas en otro modelo abstracto (realidad aumentada) es aún más desafiante, estamos construyendo algo que ninguno de nosotros había experimentado antes.

Hasta aquí todo bien. Parece que

Los métodos de comprensión de redes y relaciones complejas se pueden aprender y comprender mejor si tenemos experiencia práctica con respecto a una estructura (construcción, combinación, reestructuración de partes y piezas) además de leer teorías y conceptos abstractos solamente.



Colocar contenido virtual en una red física simple

La realidad aumentada es un campo emergente de comunicación visual, que tiene mucho potencial, lo que significa que también necesita mucha experimentación práctica. Como el paradigma computacional donde la fusión del espacio real y los algoritmos comenzaron con la navegación náutica, nuestro tiempo también está lidiando con el mismo paradigma con nuevos métodos. Hoy en día, las personas tienen que combinar el espacio físico real con capas de contenido virtual: estos son los conceptos básicos de la computación consciente del espacio, donde tenemos que construir el lenguaje para la próxima era del diseño computacional.

Contar historias significativas dentro de este espacio híbrido es un concepto muy novedoso para creadores de contenido, diseñadores e ingenieros. Comprender el contexto de estos escenarios complejos involucra a personas de diferentes profesiones, incluidos ingenieros, humanidades (literatura, semiótica, etc.), científicos cognitivos, expertos en visualización y, lo que es más importante, expertos que se ocupan de las consecuencias éticas y biológicas de la tecnología, como como inteligencia artificial y diferentes capas de realidad.

Taller de Realidad Aumentada y Ciencia de Redes (MOME, 2019)

Un prototipo

El objetivo de la colaboración entre los dos institutos es encontrar y construir visualizaciones significativas para estas interrelaciones conceptuales entre el espacio, los datos y su representación. Es un viaje interesante para crear una nueva estética basada en datos y redes, donde los conceptos científicos son más fáciles de comprender para las personas que están fuera de los círculos académicos de diseño o comunidades científicas.

Comenzamos a construir un prototipo de iOS en C ++ (OpenFrameworks) que se basa en la plataforma de realidad aumentada de Apple, ARKit. Estamos utilizando puntos de características de la alimentación de la cámara del dispositivo para construir, cargar y guardar coordenadas mundiales que están conectadas a la escultura de la red física. También utilizamos la misma aplicación para representar contenido virtual en la pantalla, usando OpenGL combinado con el Metal de Apple como el procesador gráfico.


Proceso de calibración en el prototipo.

La interfaz de usuario y el ciclo de vida de la aplicación se basan en componentes personalizados, no hay elementos y módulos integrados específicos del sistema operativo que se utilicen, lo que conduce a una portabilidad más fácil y una estrategia de desarrollo multiplataforma a prueba de futuro. El prototipo más tarde se puede portar a la plataforma ARCore de Android u otros sistemas operativos de la próxima industria de realidad montada en la cabeza.

El uso de la aplicación está destinado a ser "consciente del espacio", lo que significa que está utilizando algunos conceptos especiales más allá de las rutinas de navegación convencionales (como tocar, deslizar, pellizcar, etc.). La distancia del objeto físico real juega un papel extremadamente importante en la experiencia.

El concepto de aplicación, transformación de datos, diseño y desarrollo se realiza junto con Mihály Minkó. La aplicación está a punto de ser lanzada en 2020 como una parte integrada de las próximas exhibiciones de diferentes redes y esculturas generativas hechas por Barabasi Lab, esta publicación se actualizará, en consecuencia.

martes, 24 de diciembre de 2019

9 consejos rápidos para analizar datos de red

Nueve consejos rápidos para analizar datos de red


Vincent Miele, Catherine Matias, Stéphane Robin, Stéphane Dray (2019) Nine quick tips for analyzing network data. PLoS Comput Biol 15(12): e1007434.
https://doi.org/10.1371/journal.pcbi.1007434



Introducción

Desde el nivel molecular hasta el ecosistema, un sistema biológico a menudo se puede representar como un conjunto de entidades que interactúan entre sí. Los avances recientes en la tecnología de adquisición de datos (por ejemplo, la secuenciación de alto rendimiento o los dispositivos de seguimiento) abren la oportunidad de cuantificar estas interacciones y exigen el desarrollo de una metodología ambiciosa para abordar estos datos. En este contexto, las redes se utilizan ampliamente en biología, bioinformática, ecología, neurociencia o epidemiología para representar datos de interacción [1]. Una red contiene un conjunto de entidades (los nodos o vértices) que están conectados por bordes (o enlaces) que representan algunas interacciones o relaciones. Estas relaciones pueden observarse directamente o deducirse de los datos sin procesar. El primer caso abarca las redes de interacción proteína-proteína (PPI), en las cuales las interacciones entre 2 proteínas se evalúan experimentalmente, o las interacciones planta-polinizador que se observan directamente en el campo. Las redes reguladoras de genes reconstruidas a partir de datos de expresión génica, las redes de coincidencia deducidas de la abundancia de especies o las redes de contacto social con animales deducidas de las pistas del Sistema de Posicionamiento Global (GPS) son algunos ejemplos del segundo caso. Todavía están surgiendo nuevos tipos de redes (por ejemplo, redes de similitud célula-célula [2], redes Hi-C y redes de similitud de imagen [3]).

Las redes son objetos muy atractivos y se han desarrollado muchos métodos para analizar su estructura. Sin embargo, las redes biológicas a menudo son analizadas por no especialistas, y puede ser difícil para ellos navegar a través de la gran cantidad de conceptos y métodos disponibles. En este documento, proponemos 9 consejos para evitar dificultades comunes y mejorar el análisis de los datos de la red por parte de los biólogos.

Consejo 1: Formule preguntas primero; usar redes más tarde

La teoría de redes está bien establecida y es realmente poderosa, pero no se puede usar como una "caja negra". De hecho, construir una red no debe considerarse como un fin en sí mismo. Recomendamos (1) establecer una lista de preguntas e hipótesis científicas antes de manipular los datos, y luego (2) evaluar si estas preguntas se traducen naturalmente en una serie de análisis de red, en lugar de hacer análisis de red primero y verificar si plantean preguntas después ( de acuerdo con la Regla 1 en [4]). De hecho, generalmente es inmediato representar y modelar los datos con una red, pero es mucho más complicado traducir una pregunta en un análisis basado en la red.

Para este fin, además de integrar el formalismo de la red, es importante adoptar el punto de vista de la red. Se basa en una idea fundamental que hace la fuerza pero también el desafío del modelado de red: cualquier interacción se considera dentro de su contexto, teniendo en cuenta las otras interacciones que ocurren (o no). Desde este punto de vista, cualquier interacción entre 2 nodos se considera no solo en el contexto de otros pares que involucran estos nodos sino también en relación con el patrón de conectividad global. Por ejemplo, la importancia de un límite particular entre 2 genes se evaluará de manera diferente si el gen objetivo es o no un centro (es decir, regulado por muchos genes). Este punto de vista no considera las interacciones como objetos independientes y, por lo tanto, es exactamente lo contrario de examinar el conjunto de interacciones una por una.

Finalmente, obviamente se recomienda verificar si sus preguntas y datos realmente se ajustan al punto de vista de la red antes de realizar cualquier análisis. Si el número de nodos y / o bordes es muy bajo, se puede aplicar el análisis de red, pero los resultados pueden ser decepcionantes porque no hay suficientes interacciones observadas para identificar una estructura en los datos. Por otro lado, aunque cualquier matriz puede verse como una red (1 borde por celda; ver el siguiente consejo), a menudo es más adecuado considerar el uso de métodos que no sean de red dedicados a completar matrices. Por ejemplo, una matriz de correlación, posiblemente vista como una red de correlación, puede analizarse naturalmente con un agrupamiento jerárquico o un análisis de componentes principales. En otras palabras, el análisis de red no es necesariamente la respuesta al analizar una matriz de datos.

Consejo 2: categorice sus datos de red correctamente

Para captar los conceptos y métodos de vanguardia en el campo de las redes, aprender el vocabulario apropiado de la teoría de grafos es un requisito previo [5]. En particular, es importante clasificar su red adecuadamente para asegurarse de aplicar los métodos adecuados. Las diferentes categorías de red para diferentes datos conducen a diferentes enfoques. Los bordes se pueden dirigir (de una fuente a un objetivo), posiblemente incluyendo bucles automáticos (por ejemplo, una proteína que interactúa consigo misma o el canibalismo en las redes alimentarias). Ignorar esta información por simplicidad traicionaría los datos originales. Cuando se trata de bordes que incorporan un valor (un peso), le recomendamos que evite transformar la red en una binaria, sin tener en cuenta los pesos o manteniendo solo los bordes con peso por encima o por debajo de un cierto umbral. De hecho, borra una parte importante de la información disponible porque algunos aspectos de la estructura de la red podrían no ser detectados en la red binarizada [6]. Por lo tanto, sería ingenuo considerar que analizar una red binarizada o la ponderada original es más o menos equivalente. Además, los métodos que manejan redes ponderadas generalmente están disponibles y, por lo tanto, son más apropiados. Sin embargo, en algunos casos, en realidad es útil estudiar las versiones ponderadas y binarias por separado, para poder desenredar 2 efectos que conducen la estructura de la red: interacción (presencia o ausencia) e intensidad (pesos). Por ejemplo, algunos autores han informado que un patrón anidado se observó con frecuencia en redes ecológicas binarizadas pero no en redes ponderadas [7]. Por último, el analista de datos debe ser muy cauteloso ya que, en la literatura y en los métodos disponibles, los pesos se pueden considerar basados ​​en la intensidad (cuanto mayor es el peso, más fuerte es el borde) así como en la distancia (cuanto menor es el peso, cuanto más cerca están los nodos).

Los nodos pueden pertenecer a diferentes categorías, y los bordes solo se pueden permitir entre nodos de diferentes categorías (redes bipartitas, tripartitas y multipartitas; por ejemplo, nodos como anfitriones y parásitos, o como dispersores de plantas, hongos y semillas [8]). Es obligatorio seleccionar métodos que manejen esta particularidad. Por ejemplo, muchos enfoques estadísticos se basan en el número esperado de aristas (por ejemplo, en el cálculo de la modularidad, consulte el Consejo 5), que aquí es claramente diferente en comparación con el caso unipartito.

Finalmente, la información adicional sobre los nodos a menudo está disponible. Por ejemplo, los nodos pueden tener posiciones espaciales (por ejemplo, nodos como parches de hábitat o granjas en 2D y área del cerebro en 3D) o pueden estar asociados a atributos externos (por ejemplo, rasgos de especies en una red alimentaria). Esta información adicional se puede considerar explícitamente en el análisis, ya sea para comprender si contribuye a organizar la red [9] o para buscar alguna estructura restante una vez que se tenga en cuenta su efecto (p. Ej., Efecto espacial [10] o filogenético [11]) . En el primer caso, una alternativa más simple pero subóptima a menudo consiste en utilizar esta información a posteriori en la interpretación de los resultados (por ejemplo, explicando la estructura de las redes genéticas con información espacial [12] o comparando la estructura de la red con los metadatos [13]).

Consejo 3: use un software de análisis de red específico

Una gama de software versátil está dedicada al análisis de redes. Por lo tanto, es una pérdida de tiempo tratar de usar herramientas inespecíficas. Estas herramientas de software pertenecen a 2 categorías distintas que tienen pros y contras: interfaz gráfica de usuario (navegación basada en mouse) y paquetes de software (interfaz de línea de comandos o programación). La primera categoría está dedicada principalmente a la visualización potente e interactiva (ver Consejo 4). Incluye las 2 principales herramientas de software de código abierto, Gephi y Cytoscape, ambas compatibles con una comunidad activa. También ofrecen el cálculo de algunas métricas de red (la elección de una métrica relevante se trata en el Consejo 5). La segunda categoría está dominada por los 2 principales paquetes de red de propósito general, NetworkX e igraph, pero existen muchos paquetes más específicos (por ejemplo, bipartito en R). La visualización basada en navegador [14] surgió recientemente como una categoría intermedia, principalmente basada en una colección de bibliotecas de JavaScript (por ejemplo, Sigma.js).

Dicho esto, le recomendamos encarecidamente que aprenda a programar y escribir su análisis (de acuerdo con los documentos de la colección "Diez reglas simples" sobre habilidades informáticas y reproducibilidad [15, 16]). El manejo del código reproducible mejora la investigación de la red: puede volver a ejecutar sin esfuerzo el análisis completo de una versión modificada de sus datos sin procesar en diferentes conjuntos de datos y compartir el código con otros colegas interesados ​​en el enfoque de modelado. Finalmente, existe un conjunto limitado de formatos de archivo de red comunes (por ejemplo, una lista de adyacencia en el destino de origen del formato) que debe adoptar desde el principio para cambiar fácilmente entre diferentes herramientas de software.

Mientras tanto, el analista de datos debe evitar el uso apresurado de las diferentes funciones implementadas en estas herramientas. Como se subraya en los Consejos 5 y 6, es crucial comprender las métricas y los métodos antes de ejecutar las funciones y seleccionar los apropiados con respecto a las preguntas y los datos disponibles.

Consejo 4: Tenga en cuenta que la visualización de red puede ser útil pero posiblemente engañosa

Un aspecto poderoso de las redes es su capacidad para representar datos complejos en un solo objeto. Por lo tanto, puede ser natural representar redes gráficamente en 2 dimensiones: los nodos se extienden en el plano y los bordes se dibujan en consecuencia, con el objetivo de lograr el diseño más estético e informativo [17]. Antes de continuar, dado que las posiciones de los nodos (denominadas diseño de grafos) en una pantalla de este tipo no son parte de los datos, sino que resultan de una elección o método en particular, alentamos a los biólogos a describir claramente el diseño utilizado en cualquier representación gráfica de un red en publicaciones científicas, especialmente para que sea reproducible.

Los grafos generalmente se consideran una herramienta importante para el análisis exploratorio de datos [18]. Una comunidad de investigación activa propuso una serie de heurísticas (disponibles en las herramientas mencionadas en el Consejo 3) destinadas a obtener una buena vista de la red en un tiempo razonable, a pesar del tamaño creciente de las redes disponibles. Esta tarea aparentemente simple es, de hecho, un problema combinatorio muy difícil y consiste en buscar el diseño óptimo para un conjunto dado de objetivos que a menudo ignoras (por ejemplo, maximizar las atracciones entre los nodos conectados o minimizar los cruces de bordes). Como consecuencia, lo que ves con tus ojos puede ser parcial. De hecho, se requiere un cuidado especial para no sobreinterpretar la visualización de la red al explorar los datos. Por ejemplo, siempre tenga en cuenta que la distancia entre 2 nodos no debe interpretarse como una medida intrínseca de proximidad porque otro algoritmo de visualización podría resultar en una distancia posiblemente muy diferente (ver 2 nodos rojos en la figura 1A-1C). Además, es mejor evitar conclusiones apresuradas basadas únicamente en una visualización de red (por ejemplo, la figura 1C podría sugerir una estructura modular con 3 grupos, mientras que un análisis riguroso de la red podría concluir 5 grupos como se representa en la figura 1D). Por otro lado, si no surge una estructura de una inspección visual de la red en un paso explicativo, no significa que no sea necesario un análisis de red adicional (ver Fig. 2A), especialmente cuando se trata de redes grandes.




Fig. 1. Cuatro visualizaciones de las mismas interacciones de modelado de red entre 64 tejedores sociables [14, 22].

(a – c) Los mismos 2 nodos están coloreados en rojo para mostrar que su distancia varía según el diseño. (a) Diseño aleatorio. (b) Diseño circular en el que el tamaño y la posición de los nodos se definen por su grado. (c) Diseño de Fruchterman y Reingold, que muestra 3 grupos aparentes en la parte superior e inferior derecha e izquierda. (d) Conjunto de diseño de Kamada y Kawai con pesos en los bordes (en rojo) que conectan los 5 grupos obtenidos con el algoritmo de Lovaina (ver Sugerencia 6 y [23] para más detalles). Los grupos están delineados por diferentes colores. Realizado con el paquete R igraph.

https://doi.org/10.1371/journal.pcbi.1007434.g001

Fig. 2. Red sintética con 200 nodos y 700 aristas generadas con un SBM (ver Consejo 6) con 4 grupos de intraconectividad e interconectividad de 0.1 y 0.015, respectivamente.

(a) La visualización de red con diseño Kamada y Kawai no resalta ninguna estructura modular, mientras que existe. (b) Representación de la matriz de adyacencia con ordenación de filas y columnas consistente con los 4 grupos. Realizado con el paquete R igraph. SBM, modelo de bloque estocástico.
https://doi.org/10.1371/journal.pcbi.1007434.g002

Por otro lado, la visualización de red puede ser útil como una forma de ilustrar los resultados de un análisis de red (como se presenta en los Consejos 5 y 6). En este caso, se debe elegir un diseño por su capacidad para resaltar las propiedades de la red (heterogeneidad de grado en la figura 1B) o las conclusiones extraídas por un análisis (figura 1D). Por ejemplo, los nodos pueden posicionarse de acuerdo con los valores de algunas métricas particulares de interés [19]. Sin embargo, una ilustración de red no solo debe ser estética, sino que debe ser informativa sobre los nodos y la estructura de los bordes. Por lo tanto, alentamos al analista a considerar cuidadosamente los mensajes que se transmitirán a través de una ilustración de red. Por ejemplo, es frecuente que las redes ecológicas bipartitas se ilustren con 2 capas apiladas (por ejemplo, en un paquete bipartito); en algunos casos, estas ilustraciones solo resaltan la información de los nodos (en cuántos bordes están involucrados) pero generalmente no muestran la estructura de ningún borde debido a los muchos bordes cruzados inherentes a esta representación.

Por último, también recomendamos considerar la visualización de la matriz de adyacencia como un mapa de calor o una matriz de color (consulte la Fig. 2 en [20] para obtener una explicación). Permite representar la presencia o el peso de los bordes (celdas de colores), pero también tiene la ventaja de resaltar la ausencia de bordes (celdas de matriz en blanco). Esto es particularmente relevante cuando las filas y columnas de la matriz se reordenan de manera informativa (por ejemplo, al aumentar el valor de una métrica [21] o de acuerdo con algunos resultados de agrupamiento; consulte los Consejos 5 y 6 y la Figura 2B).

Consejo 5: Evite el uso ciego de métricas; entender fórmulas en su lugar

Además de las limitaciones de la visualización de red, la descripción de una red también puede (y ventajosamente) consistir en calcular estadísticas resumidas. El principiante encontrará inmediatamente el camino hacia una serie de métricas de red: un número por nodo o borde (métricas locales; por ejemplo, grado) o un número para toda la red (métricas globales; por ejemplo, conexión / densidad o modularidad). Las métricas han proliferado, y se recomienda encarecidamente tomarse un tiempo para leer detenidamente la definición matemática de las métricas que se tienen a mano (ver también el Consejo 9): cuanto más profunda sea la comprensión matemática, más fácil será la interpretación. Por ejemplo, el concepto de centralidad de los nodos va con una gama de métricas de centralidad que tienen diferentes significados. Además, es tan fácil calcular cualquier métrica con las herramientas de software antes mencionadas que a veces puede evitar que el analista verifique sus pros y sus contras. Como ejemplo, al leer la definición de la centralidad de intermediación ampliamente utilizada, puede comprender que se basa en caminos más cortos. Si tiene la intención de utilizar esta medida, es necesario verificar si la ruta más corta es un concepto relevante asociado al proceso en estudio (como los flujos de energía en las redes alimentarias) o si es más cuestionable (por ejemplo, rutas en redes funcionales puede que en realidad no se corresponda con el flujo de información [20]; las rutas en las redes de contacto pueden no ser relevantes cuando no se estudia la difusión de la información o la enfermedad [24]). Otro ejemplo consiste en el análisis de redes dirigidas y / o ponderadas con extensiones de métricas para este caso. Es importante tener en cuenta que la fórmula del grado ponderado tiene en cuenta 2 efectos: cuántos vecinos y qué tan grandes son los pesos, 2 efectos que son imposibles de desenredar (un grado ponderado de 2 puede corresponder a un solo borde de peso 2 o 4 bordes de peso 0.5 cada uno). También se puede plantear un problema similar para la ruta ponderada (posibles dificultades resaltadas en [25]). Por último, las métricas globales a menudo se usan para comparar redes (redes medidas a partir de diferentes datos o condiciones o redes simuladas como se menciona en el Consejo 7). En este caso, se debe tener especial cuidado al comparar valores, ya que las diferencias de métricas pueden ser un efecto secundario de las diferencias en las características simples de la red, como el número de nodos o bordes (véanse las dificultades comunes mencionadas en [26] para las redes cerebrales y una discusión sobre covarianza de métricas con características de redes ecológicas en [27]). Por ejemplo, se sabe que la modularidad, el número de módulos y el tamaño de la red están entrelazados [28].

No es inusual que los autores, en lugar de elegir una métrica dada adaptada a una pregunta en particular, calculen una gran cantidad de métricas entre las disponibles. Sin embargo, muchas métricas están correlacionadas (ver un estudio de correlación en [24]), y se hace necesario lidiar con esta redundancia para interpretar los resultados (por ejemplo, con un método de ordenación [29]). Este enfoque no se basa en hipótesis como se recomienda en el Consejo 1 y, sin lugar a dudas, puede ser reemplazado por un enfoque incremental en el que las métricas se seleccionan una a la vez por su capacidad de verificar hipótesis particulares asociadas a las preguntas fundamentales sobre los datos (como para muchos análisis estadísticos , ver la regla 5 en [4]).

Consejo 6: Evite el uso ciego de métodos de agrupamiento; comprobar su diferencia en su lugar

Con la avalancha de datos que surgió en esta década, que condujo a redes más grandes, el agrupamiento se ha convertido en una de las herramientas más populares para obtener una visión integral de la estructura de la red. Su propósito general es agregar nodos en grupos para identificar una estructura de mesoescala en la red (es decir, alejar la red). Elegir una agrupación en red plantea problemas similares a elegir una métrica de red (Consejo 5). Es mucho más que usar una de las funciones disponibles en un software. En cuanto a los métodos de agrupamiento en nubes de puntos, los construidos en redes tienen como objetivo reunir objetos similares (es decir, nodos) y, por lo tanto, se basan en una definición específica de similitud de nodos. ¿Qué quiere el analista ser similar en una red? Discutir los pros y los contras de los diferentes métodos está más allá del alcance de este artículo, mientras que existe una literatura masiva sobre el tema (ver Consejo 9). Sin embargo, ilustramos el impacto de elegir una definición específica para la similitud de nodos con 3 propuestas clásicas (entre otras).

Una primera y natural definición de la similitud entre nodos es la existencia de una conexión entre ellos. Según esta definición, la agrupación en red consiste en encontrar una estructura modular, es decir, identificar grupos densos de nodos (también llamados módulos o comunidades) mal conectados con otros. Los métodos de detección comunitaria [23] implementan este enfoque, que supone implícitamente la existencia de módulos en la red. Se aplicaron con éxito en muchos estudios de biología (por ejemplo, para identificar dominios de cromatina [30]). Un segundo enfoque considera que 2 nodos son similares cuando tienden a estar conectados (o no) con el mismo tipo de nodos. Por lo tanto, las especies en una red alimentaria se consideran similares si tienen presas y depredadores similares [31]. Esta definición puede acomodar redes con estructura no modular [32], ya que supone que los nodos están involucrados en una "diversidad de arquitecturas de mesoescala" [33]. El modelo de bloque estocástico (SBM) es un método popular basado en esta definición [32, 34], que ha demostrado ser relevante para el análisis de algunas redes biológicas (para resaltar la compleja arquitectura de conectomas [33] o grupos funcionales en ecológicos). redes [35]). Una característica importante es que le permite a uno modelar explícitamente direcciones de borde y pesos por medio de diferentes distribuciones estadísticas [11]. Un tercer enfoque consiste en asociar un vector de características a cada nodo y luego reunir nodos con características similares. Esto incluye enfoques basados ​​en motivos [36] y una amplia gama de técnicas innovadoras de inclusión de nodos [37, 38]. Los nodos se describen como puntos en un espacio con una dimensión razonablemente baja, lo que permite aplicar la gran variedad de métodos de agrupamiento existentes para datos multivariados. Es importante darse cuenta de que cada uno de estos conceptos de similitud naturalmente da como resultado una agrupación de nodos diferentes. La elección entre estas alternativas debe ser impulsada por preguntas biológicas, no por su disponibilidad en herramientas de software (Consejo 1).

Consejo 7: no elija la manera fácil al simular redes

Para resaltar las propiedades específicas de una red observada (por ejemplo, un valor métrico peculiar), una práctica común consiste en comparar con redes simuladas. Estas propiedades se detectan como una desviación significativa (o no) de un comportamiento típico implementado en redes simuladas. Sin embargo, no existe una definición genérica de una red típica y, como consecuencia, las características que se pueden detectar dependen dramáticamente del modelo nulo utilizado para simular redes. Este modelo nulo debe elegirse para un propósito dado, ajustarse a los comportamientos esperados, al tiempo que contrasta con los que nos interesan. En otras palabras, debe ajustarse razonablemente a los datos para evitar numerosos descubrimientos falsos, pero no demasiado bien para que puedan surgir desviaciones.

Una opción natural podría consistir en seleccionar un modelo nulo entre la serie de modelos de grafos aleatorios (por ejemplo, Erdős – Rényi, mundo pequeño, sin escala, SBM, grafo aleatorio exponencial o modelo de configuración). Sin embargo, recomendamos no usarlos demasiado apresuradamente porque a menudo son demasiado generales. Por ejemplo, el modelo Erdős – Rényi (todos los bordes son independientes y tienen la misma probabilidad de ocurrencia) es a menudo un modelo nulo pobre para detectar nodos que tienen un grado inesperadamente alto. De hecho, induce una distribución de grados de Poisson, que está tan lejos de la observada en la mayoría de las redes que muchos nodos parecen estar conectados inesperadamente. Por otro lado, ningún nodo puede mostrar un grado inesperadamente alto con respecto al modelo de configuración, ya que este modelo nulo se ajusta con precisión al grado de cada nodo. Además, el analista suele ser consciente de una serie de propiedades que una red simulada debe mostrar: distribución de grados desequilibrados, diferentes roles de los nodos asociados con la información lateral disponible, interacciones prohibidas (por ejemplo, dependiendo de la masa corporal en las redes alimentarias [39] ), etc. Tales propiedades esperadas deben codificarse en el proceso de simulación (por ejemplo, una secuencia de grado fijo [35]), de lo contrario surgirán y se detectarán como significativas o contribuirán a detectar efectos falsos significativos como efectos secundarios. Como ejemplo, al evaluar si el número de bucles de avance es inesperado en una red de transcripción dada, el procedimiento de simulación debe basarse en un número fijo de nodos y grados, mientras que el número de estos bucles permanece libre.

Por último, cuando la red en estudio no se observa directamente, sino que se construye a partir de la interpretación de datos sin procesar, puede ser relevante simular todo el proceso de construcción. Considere el caso de las redes de contactos inferidas de los datos de movimiento [24]: se puede simular trayectorias manteniendo algunas propiedades de los datos originales y luego construir una red de contactos o simular directamente una red de contactos "realista". El primer enfoque tendrá en cuenta intrínsecamente las incertidumbres y los prejuicios inducidos por los pasos de construcción, que es probable que el último enfoque pase por alto.

Consejo 8: reconsidere los datos para construir múltiples capas de red

Un objeto de red puede ser el resultado de la agregación de datos. De hecho, las interacciones a menudo se observan en diferentes momentos y lugares o en diferentes condiciones. Por lo tanto, se recomienda encarecidamente tener en cuenta (y tener a la mano) las diferentes capas de datos (tiempo, espacio, tipo, etc.) y considerar las redes compuestas de varias capas, porque las redes de múltiples capas pueden proporcionar nuevas ideas en comparación con una agregada [ 40-42].

Una red se llama dinámica cuando reúne una serie temporal de instantáneas de red correspondientes a rondas sucesivas de recopilación de datos (la lista de nodos posiblemente varía en el tiempo). En este caso, se puede evaluar la variabilidad temporal de la estructura de la red (p. Ej., Reconexión de interacciones o cambios en las métricas de la red a lo largo del tiempo), y las extensiones de los conceptos desarrollados en el Consejo 6 ahora existen en el caso dinámico [43, 44]. Por ejemplo, la dinámica de la estructura social animal se puede inferir de las redes dinámicas para mejorar la comprensión de la transmisión de enfermedades [45]. Por otro lado, las interacciones se pueden observar en diferentes ubicaciones espaciales. En ecología, a menudo se agregan en una metared (o metaweb [46]) para estudiar cómo las redes locales difieren de esta metared y explicar estas variaciones con factores ambientales. En estos 2 casos, las capas múltiples permiten describir una red como un objeto en evolución, y el análisis tiene como objetivo identificar las variaciones espacio-temporales de las interacciones y sus impulsores.

También se pueden observar diferentes tipos de interacciones entre nodos. El apilamiento de capas que representan interacciones moleculares en diferentes tejidos humanos [47] o el mapeo de conectomas extrasinápticos y sinápticos [48] conduce a una red multiplex: entre 2 nodos, posiblemente exista más de 1 borde, 1 por tipo de interacción como máximo (a menudo visualizado con Colores diferentes). Tener en cuenta conjuntamente las diferentes capas mejora la comprensión de la interacción de los nodos. Por ejemplo, el uso conjunto de interacciones tróficas y no tróficas mejora la definición de los roles ecológicos de las especies en comparación con el uso de capas individuales de forma independiente [35]. Finalmente, también es posible integrar diferentes capas de información con diferentes conjuntos de nodos para cada capa, como proteínas y compuestos químicos [49]. En este caso, se definen diferentes tipos de interacciones dentro y entre capas. En todos estos casos, las diferentes capas de información se integran en una red integral, de modo que se tratan conjuntamente en lugar de una tras otra.

Consejo 9: Sumérgete en la literatura de la red más allá de tu disciplina

La ciencia de redes ahora involucra una comunidad hiperactiva de investigadores de diferentes dominios como física, estadística, informática o ciencias sociales. Como resultado, existe una literatura masiva sobre redes, y es un desafío para los biólogos sumergirse en ella. De hecho, no estamos acostumbrados a explorar la bibliografía fuera de nuestro dominio de investigación. Los libros de referencia [5, 42, 50, 51] y las revisiones [23, 40, 52] son ​​obviamente buenos puntos de entrada para desarrollar sus habilidades de red. Sin embargo, sin lugar a dudas, se beneficiará enormemente de un viaje de ida y vuelta en esta literatura exógeno a su campo (incluidos los avances más recientes en la metodología de red disponibles en el repositorio de preimpresión arXiv), siempre que haga el esfuerzo de aprender el vocabulario apropiado de esta área. Ejemplos concretos incluyen el análisis de la modularidad en biología, que se tomó prestada de la física (a diferencia de la anidación, que se origina en la biogeografía), o el uso reciente de SBM (Consejo 6) que se han aplicado en la literatura de ciencias sociales desde el siglo pasado.

Conclusión

Los 9 consejos presentados aquí deberían ser una forma para que el analista de datos ponga un pie en la puerta del análisis de datos de red. Estos consejos no son exclusivos y conocemos otras preguntas basadas en la red que merecen un interés especial, incluida la difusión en redes, por ejemplo. Aún así, el especialista no especializado en redes debe confiar en su capacidad para aprender, paso a paso, los conceptos y métodos de la red con un efecto productivo en sus preguntas científicas.


Referencias

1. Ideker T, Nussinov R. Network approaches and applications in biology. PLoS Comput Biol. 2017;13(10):e1005771. pmid:29023447
View Article
PubMed/NCBI
Google Scholar
2. Zitnik M, Sosi R, Leskovec J. Prioritizing network communities. Nature Communications. 2018;9(1):2544. pmid:29959323
View Article
PubMed/NCBI
Google Scholar
3. Wang B, Pourshafeie A, Zitnik M, Zhu J, Bustamante CD, Batzoglou S, et al. Network enhancement as a general method to denoise weighted biological networks. Nature Communications. 2018;9(1):3108. pmid:30082777
View Article
PubMed/NCBI
Google Scholar
4. Kass RE, Caffo BS, Davidian M, Meng XL, Yu B, Reid N. Ten simple rules for effective statistical practice. PLoS Comput Biol. 2016;12(6):e1004961. pmid:27281180
View Article
PubMed/NCBI
Google Scholar
5. Diestel R. Graph Theory. Springer-Verlag; 2016.
6. Barrat A, Barthelemy M, Pastor-Satorras R, Vespignani A. The architecture of complex weighted networks. Proceedings of the national academy of sciences. 2004;101(11):3747–3752.
View Article
Google Scholar
7. Staniczenko PP, Kopp JC, Allesina S. The ghost of nestedness in ecological networks. Nature communications. 2013;4:1391. pmid:23340431
View Article
PubMed/NCBI
Google Scholar
8. Pavlopoulos GA, Kontou PI, Pavlopoulou A, Bouyioukos C, Markou E, Bagos PG. Bipartite graphs in systems biology and medicine: a survey of methods and applications. GigaScience. 2018;7(4):giy014.
View Article
Google Scholar
9. Miele V, Picard F, Dray S. Spatially constrained clustering of ecological networks. Methods in Ecology and Evolution. 2014;5(8):771–779.
View Article
Google Scholar
10. Expert P, Evans TS, Blondel VD, Lambiotte R. Uncovering space-independent communities in spatial networks. Proceedings of the National Academy of Sciences. 2011;108(19):7663–7668.
View Article
Google Scholar
11. Mariadassou M, Robin S, Vacher C. Uncovering latent structure in valued graphs: a variational approach. The Annals of Applied Statistics. 2010;4(2):715–742.
View Article
Google Scholar
12. Fortuna MA, Albaladejo RG, Fernández L, Aparicio A, Bascompte J. Networks of spatial genetic variation across species. Proceedings of the National Academy of Sciences. 2009;106(45):19044–19049.
View Article
Google Scholar
13. Hric D, Darst RK, Fortunato S. Community detection in networks: Structural communities versus ground truth. Physical Review E. 2014;90(6):062805.
View Article
Google Scholar
14. Rossi R, Ahmed N. The network data repository with interactive graph analytics and visualization. In: Twenty-Ninth AAAI Conference on Artificial Intelligence; 2015.
15. Sandve GK, Nekrutenko A, Taylor J, Hovig E. Ten simple rules for reproducible computational research. PLoS Comput Biol. 2013;9(10):e1003285. pmid:24204232
View Article
PubMed/NCBI
Google Scholar
16. Carey MA, Papin JA. Ten simple rules for biologists learning to program. PLoS Comput Biol. 2018;14(1):e1005871. pmid:29300745
View Article
PubMed/NCBI
Google Scholar
17. Pocock MJ, Evans DM, Fontaine C, Harvey M, Julliard R, McLaughlin Ó, et al. The visualisation of ecological networks, and their use as a tool for engagement, advocacy and management. In: Advances in Ecological Research. vol. 54. Elsevier; 2016. p. 41–85.
View Article
Google Scholar
18. Tukey JW. Exploratory data analysis. Reading: Addison-Wesley; 1977.
19. Krzywinski M, Birol I, Jones SJ, Marra MA. Hive plots—rational approach to visualizing networks. Briefings in Bioinformatics. 2011;13(5):627–644. pmid:22155641
View Article
PubMed/NCBI
Google Scholar
20. Rubinov M, Sporns O. Complex network measures of brain connectivity: uses and interpretations. Neuroimage. 2010;52(3):1059–1069. pmid:19819337
View Article
PubMed/NCBI
Google Scholar
21. Bascompte J, Jordano P, Melián CJ, Olesen JM. The nested assembly of plant–animal mutualistic networks. Proceedings of the National Academy of Sciences. 2003;100(16):9383–9387.
View Article
Google Scholar
22. Van Dijk RE, Kaden JC, Argüelles-Ticó A, Dawson DA, Burke T, Hatchwell BJ. Cooperative investment in public goods is kin directed in communal nests of social birds. Ecology letters. 2014;17(9):1141–1148. pmid:25039999
View Article
PubMed/NCBI
Google Scholar
23. Fortunato S, Hric D. Community detection in networks: A user guide. Physics Reports. 2016;659:1–44.
View Article
Google Scholar
24. Farine DR, Whitehead H. Constructing, conducting and interpreting animal social network analysis. J Anim Ecol. 2015;84(5):1144–1163. pmid:26172345
View Article
PubMed/NCBI
Google Scholar
25. Costa A, Gonzalez AMM, Guizien K, Doglioli AM, Gomez JM, Petrenko A, et al. Ecological networks: Pursuing the shortest path, however narrow and crooked. bioRxiv. 2018;.
View Article
Google Scholar
26. Van Wijk BC, Stam CJ, Daffertshofer A. Comparing brain networks of different size and connectivity density using graph theory. PLoS ONE. 2010;5(10):e13701. pmid:21060892
View Article
PubMed/NCBI
Google Scholar
27. Pellissier L, Albouy C, Bascompte J, Farwig N, Graham C, Loreau M, et al. Comparing species interaction networks along environmental gradients. Biological Reviews. 2018;93(2):785–800. pmid:28941124
View Article
PubMed/NCBI
Google Scholar
28. Fortunato S, Barthelemy M. Resolution limit in community detection. Proceedings of the National Academy of Sciences. 2007;104(1):36–41.
View Article
Google Scholar
29. Kortsch S, Primicerio R, Aschan M, Lind S, Dolgov AV, Planque B. Food-web structure varies along environmental gradients in a high-latitude marine ecosystem. Ecography. 2019;42(2):295–308.
View Article
Google Scholar
30. Norton HK, Emerson DJ, Huang H, Kim J, Titus KR, Gu S, et al. Detecting hierarchical genome folding with network modularity. Nature methods. 2018;15(2):119. pmid:29334377
View Article
PubMed/NCBI
Google Scholar
31. Allesina S, Pascual M. Food web models: a plea for groups. Ecology Letters. 2009;12(7):652–662. pmid:19453619
View Article
PubMed/NCBI
Google Scholar
32. Newman ME, Leicht EA. Mixture models and exploratory analysis in networks. Proceedings of the National Academy of Sciences. 2007;104(23):9564–9569.
View Article
Google Scholar
33. Betzel RF, Medaglia JD, Bassett DS. Diversity of meso-scale architecture in human and non-human connectomes. Nature Communications. 2018;9(1):346. pmid:29367627
View Article
PubMed/NCBI
Google Scholar
34. Daudin JJ, Picard F, Robin S. A mixture model for random graphs. Statistics and computing. 2008;18(2):173–183.
View Article
Google Scholar
35. Kéfi S, Miele V, Wieters EA, Navarrete SA, Berlow EL. How Structured Is the Entangled Bank? The Surprisingly Simple Organization of Multiplex Ecological Networks Leads to Increased Persistence and Resilience. PLoS Biol. 2016;14(8):e1002527. pmid:27487303
View Article
PubMed/NCBI
Google Scholar
36. Stouffer DB, Sales-Pardo M, Sirer MI, Bascompte J. Evolutionary conservation of species’ roles in food webs. Science. 2012;335(6075):1489–1492. pmid:22442483
View Article
PubMed/NCBI
Google Scholar
37. Perozzi B, Al-Rfou R, Skiena S. DeepWalk: Online Learning of Social Representations. In: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD '14. New York, NY, USA: ACM; 2014. p. 701–710.
38. Grover A, Leskovec J. node2vec: Scalable feature learning for networks. In: Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM; 2016. p. 855–864.
39. Brose U, Jonsson T, Berlow EL, Warren P, Banasek-Richter C, Bersier LF, et al. Consumer–resource body-size relationships in natural food webs. Ecology. 2006;87(10):2411–2417. pmid:17089649
View Article
PubMed/NCBI
Google Scholar
40. Boccaletti S, Bianconi G, Criado R, Del Genio CI, Gómez-Gardenes J, Romance M, et al. The structure and dynamics of multilayer networks. Physics Reports. 2014;544(1):1–122.
View Article
Google Scholar
41. Pilosof S, Porter MA, Pascual M, Kéfi S. The multilayer nature of ecological networks. Nature Ecology & Evolution. 2017;1(4):0101.
View Article
Google Scholar
42. Bianconi G. Multilayer Networks: Structure and Function. Oxford university press; 2018.
43. Matias C, Miele V. Statistical clustering of temporal networks through a dynamic stochastic block model. Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2017;79(4):1119–1141.
View Article
Google Scholar
44. Rossetti G, Cazabet R. Community discovery in dynamic networks: a survey. ACM Computing Surveys (CSUR). 2018;51(2):35.
View Article
Google Scholar
45. Farine D. The dynamics of transmission and the dynamics of networks. Journal of Animal Ecology. 2017;86(3):415–418. pmid:28394028
View Article
PubMed/NCBI
Google Scholar
46. Ohlmann M, Miele V, Dray S, Chalmandrier L, O’Connor L, Thuiller W. Diversity indices for ecological networks: a unifying framework using Hill numbers. Ecology letters. 2019;.
View Article
Google Scholar
47. Zitnik M, Leskovec J. Predicting multicellular function through multi-layer tissue networks. Bioinformatics. 2017;33(14):i190–i198. pmid:28881986
View Article
PubMed/NCBI
Google Scholar
48. Bentley B, Branicky R, Barnes CL, Chew YL, Yemini E, Bullmore ET, et al. The multilayer connectome of Caenorhabditis elegans. PLoS Comput Biol. 2016;12(12):e1005283. pmid:27984591
View Article
PubMed/NCBI
Google Scholar
49. Berenstein AJ, Magariños MP, Chernomoretz A, Agüero F. A multilayer network approach for guiding drug repositioning in neglected diseases. PLoS Negl Trop Dis. 2016;10(1):e0004300. pmid:26735851
View Article
PubMed/NCBI
Google Scholar
50. Newman M. Networks. Oxford University Press; 2018. https://doi.org/10.1002/net.21828
51. Barabási AL. Network Science; 2019. [cited 2019 Oct 15]. Available from: http://networksciencebook.com.
View Article
Google Scholar
52. Goyal P, Ferrara E. Graph embedding techniques, applications, and performance: A survey. Knowledge-Based Systems. 2018;151:78–94.
View Article
Google Scholar

jueves, 19 de diciembre de 2019

Difusión de ataques localizados en una estructura espacial múltiple con comunidades

Difusión de ataques localizados en redes espaciales múltiples con una estructura comunitaria



Dana Vaknin, Bnaya Gross, Sergey V. Buldyrev y Shlomo Havlin
Universidad Bar-Ilan, Ramat Gan, Israel
Universidad Yeshiva, Nueva York, EE. UU.
Arxiv

Estudiamos el efecto de los ataques localizados en una red espacial multiplex, donde cada capa es una red de comunidades. El sistema se considera funcional cuando los nodos pertenecen al componente gigante en todas las capas multiplex. Las comunidades son de tamaño linealζ, de modo que dentro de muchos pares de nodos están vinculados con la misma probabilidad, y adicionalmente los nodos en comunidades cercanas están vinculados con una probabilidad diferente (típicamente más pequeña). Este modelo puede representar un sistema de infraestructura interdependiente de ciudades donde dentro de la ciudad hay muchos enlaces, mientras que entre las ciudades hay menos enlaces. Desarrollamos un método analítico, similar al método de elementos finitos aplicado a una red con comunidades, y verificamos nuestros resultados analíticos mediante simulaciones. Descubrimos, tanto por simulación como por teoría, que para diferentes parámetros de conectividad y espacialidad, existe un tamaño de daño acrítico localizado por encima del cual se extenderá y todo el sistema colapsará.





miércoles, 18 de diciembre de 2019

Las grandes redes de colaboración científica mundial

Física, ciencias de la vida, genética: tres grandes jugadores y sus principales socios

La investigación es un juego global, pero incluso para los principales colaboradores, los socios más cercanos son principalmente locales.

Versión PDF




La infografía muestra los 25 principales socios de investigación de grandes colaboradores científicos líderes en 3 campos: física de alta energía, ciencias de la vida y genómica.

The Nature Index clasifica a las instituciones en los grandes campos de la ciencia por sus recuentos fraccionales (FC), en referencia a la parte de las contribuciones de sus autores afiliados, y los recuentos de artículos (AC) en 82 revistas de alta calidad. Las clasificaciones de la tabla son solo para artículos de alta afiliación, es decir, aquellos con autores de 10 o más instituciones principales separadas.



Nature Index 2019 Colaboración y gran ciencia

Las relaciones con los socios que se muestran son para los Institutos Nacionales de Salud de EE. UU. (NIH), que ocupa el segundo lugar entre las principales instituciones del mundo por producir grandes artículos de investigación científica en el campo de la oncología y la inmunología y el tercero en el campo de la genética; la Organización Europea para la Investigación Nuclear (CERN), en Suiza, que es el tercer mayor contribuyente a grandes artículos de ciencia en física y astronomía en el Índice de la Naturaleza; y BGI, una compañía de secuenciación del genoma que es el mayor contribuyente de China a la gran ciencia en genética. Esta infografía se basa en todos los artículos de colaboración de las tres instituciones identificadas, independientemente del número de afiliaciones.

Los 25 principales colaboradores de las tres instituciones centrales se muestran de acuerdo con su puntaje de colaboración conjunta (CS) con la institución central, derivado al sumar los FC * de los artículos con autores de ambas instituciones. CS determina el tamaño de las burbujas de las instituciones asociadas. El rango del 1 al 25 de su CS con la institución central se indica por su grosor de línea.

martes, 17 de diciembre de 2019

Usando aprendizaje automático para detectar a ISIS


Cómo el aprendizaje automático puede encontrar extremistas en las redes sociales

Tauhid Zaman ||Lea el estudio completo: “Finding extremists in online social networks”

Los grupos extremistas a menudo usan las redes sociales en línea para reclutar miembros y difundir propaganda. Tauhid Zaman, profesor asociado de gestión de operaciones en Yale SOM, y sus colegas investigaron recientemente cómo la inteligencia artificial podría ayudar a los esfuerzos para detectar y suspender dichas cuentas, antes de que el usuario publique contenido dañino. Los hallazgos del equipo podrían ayudar a las agencias de aplicación de la ley a rastrear a los partidarios de ISIS o los supremacistas blancos.

Liderazgo de operaciones de tecnología de datos

Por Roberta Kwok || Yale Insights

En octubre de 2015, un partidario británico del ISIS llamado Sally Jones publicó un tweet con el hashtag #RunRobertRun. El tuit incluía un enlace a otro mensaje que contenía la supuesta dirección de Robert O’Neill, el ex SEAL de la Marina que afirma haber matado a Osama bin Laden. Cuando Twitter suspendió la cuenta de Jones, la información se había extendido a otros partidarios de ISIS.

O'Neill no vivía en esa dirección y permaneció ileso. Pero el tuit de Jones es un ejemplo preocupante de cómo los grupos extremistas explotan las redes sociales para atraer a otros a su causa e incitar a la violencia. "Twitter solía ser una broma, algo divertido para los niños", dice Tauhid Zaman, profesor asociado de gestión de operaciones en Yale SOM. "Ahora es un problema de seguridad nacional".

En un estudio reciente, el equipo de Zaman investigó cómo identificar afiliados de ISIS en Twitter para que sus cuentas puedan cerrarse rápidamente. Los investigadores utilizaron el aprendizaje automático para predecir qué usuarios tenían más probabilidades de ser extremistas, en función de características tales como a quién seguía la persona. Los usuarios suspendidos a menudo se registran nuevamente con un nombre ligeramente diferente, por lo que el equipo también desarrolló estrategias para detectar estas nuevas cuentas.

Si bien el estudio se centró en Twitter, Zaman dice que el método es lo suficientemente general como para aplicarlo a otras redes sociales en línea. Y cree que las estrategias deberían funcionar para otros grupos extremistas, como los supremacistas blancos, que exhiben un comportamiento similar, como la creación de cuentas duplicadas. "Juegan el mismo juego", dice Zaman.

En 2014, Christopher Marks, un teniente coronel del ejército de EE. UU., era estudiante de doctorado en el laboratorio de Zaman y quería estudiar redes sociales. En ese momento, ISIS tenía una presencia creciente en Twitter.

Zaman y Marks decidieron intentar detectar cuentas de ISIS incluso antes de que el usuario publicara algún mensaje. Para cuando la persona tuiteó contenido dañino, Zaman dice que "podría ser demasiado tarde".

Para investigar, colaboraron con Jytte Klausen, investigadora de la Universidad de Brandeis que estudia el yihadismo occidental. Klausen proporcionó una lista de alrededor de 100 usuarios de Twitter conocidos por estar afiliados a ISIS. Luego, el equipo identificó a los seguidores de esas personas, las personas que siguieron, las personas conectadas con los seguidores, y así sucesivamente, lo que arrojó más de 1.3 millones de cuentas. Sin embargo, no todos esos usuarios eran extremistas; Por ejemplo, algunos eran investigadores que estudiaban ISIS.
"Cuando matas una cuenta de ISIS, vuelve".

El equipo de Zaman luego rastreó alrededor de 647,000 de las cuentas durante varios meses, y en septiembre de 2015, Twitter había suspendido aproximadamente 35,000 de ellas, presumiblemente porque esos usuarios habían publicado contenido extremista. Entonces, los investigadores utilizaron IA para identificar las características típicas de las cuentas suspendidas. Por ejemplo, seguir a ciertos usuarios u ocultar la ubicación de uno estaba vinculado a una mayor probabilidad de extremismo.

Sobre la base de esas medidas, los investigadores pudieron identificar automáticamente alrededor del 60% de las cuentas que luego se suspendieron. Alrededor del 10% de los usuarios marcados eran falsos positivos. (El software se puede ajustar para establecer un umbral más estricto, dice Zaman, en cuyo caso identificaría más afiliados de ISIS y produciría más falsos positivos).

Luego, el equipo quería detectar nuevas cuentas creadas por usuarios suspendidos. A menudo, "cuando matas una cuenta de ISIS, vuelve", dice Zaman.

El software que simplemente buscaba similitudes en nombres y fotos funcionó bastante bien. Los usuarios suspendidos a menudo eligen un nombre de pantalla e imagen similares para su nueva cuenta porque quieren que los seguidores anteriores los encuentren, dice.

Pero los investigadores finalmente desarrollaron una estrategia de búsqueda más eficiente. Cuando un usuario suspendido creó una nueva cuenta, esa persona probablemente volvería a seguir a muchas de las mismas personas que habían seguido anteriormente. Entonces, una forma de encontrar a ese usuario era buscar en las redes de cuentas seguidas previamente por la cuenta suspendida.

Utilizando el aprendizaje automático, el equipo asignó a cada cuenta un puntaje, que capturó la probabilidad de que un usuario suspendido los volviera a seguir. El mejor enfoque, dice Zaman, era priorizar la búsqueda en las redes de cuentas con un puntaje alto y relativamente pocos seguidores. Después de buscar en la red de una cuenta un seguidor similar a la cuenta suspendida, el software pasó al siguiente amigo de la lista y repitió el proceso. "Eso te da la forma más rápida de encontrar estas cuentas", dice Zaman.

Zaman señala que si bien las agencias de aplicación de la ley podrían usar el software para erradicar a los extremistas, los gobiernos autoritarios podrían hacer lo mismo para sofocar la resistencia. "Si lo usa incorrectamente, es la supresión de la disidencia", dice.

Y una persona siempre debe revisar el resultado para confirmar si el software realizó la llamada correcta. "Quieres que un humano sea el último punto de control", dice Zaman.

Es probable que el software no supere los métodos internos de Twitter para señalar a los extremistas porque la empresa tiene acceso a más datos, como las direcciones IP. Pero Zaman dice que el método del equipo ayudará a cualquier red social a combatir grupos peligrosos.

"Nuevos tipos de grupos extremistas continuarán apareciendo en diferentes redes sociales y los usarán para propaganda y reclutamiento", dice. "Nuestra investigación proporciona un conjunto de herramientas que pueden detectar y monitorear estos grupos sin importar en qué red se encuentren y qué mensaje peligroso defiendan".

martes, 10 de diciembre de 2019

Sistema interactivo de Código de Nomenclatura Zoológica basada en redes

Crean un sistema interactivo para acceder a las reglas de nomenclatura de todas las especies del reino animal

El investigador del CONICET Evangelos Vlachos desarrolló un nuevo método para navegar a través del Código de Nomenclatura Zoológica.

CONICET



Captura de pantalla del sistema creado por Vlachos.


El Código Internacional de Nomenclatura Zoológica es el texto que regula de forma estandarizada cómo nombrar a las especies del reino animal. Cada uno de los animales descubiertos y descritos, actuales y extintos, llevan un nombre que se encuentra en ese código: en total, hay 51 mil palabras agrupadas en 90 artículos principales, con 754 sub artículos, 129 recomendaciones, 129 ejemplos y 333 elementos del glosario. Pero, como toda legislación, su lectura es intrincada y difícil de leer, usar y enseñar: para simplificarlo y hacerlo legible, el investigador asistente del CONICET en el Museo Paleontológico Egido Feruglio, Evangelos Vlachos creó un sistema de red interactiva que agrupa la información disponible de modo más sencillo y fue publicado en la revista científica PeerJ. La herramienta está disponible de forma libre y gratuita en una versión en inglés.

“Científicamente hablando, cada especie tiene dos nombres: el nombre del género (por ejemplo, Homo) y el nombre de la especie (por ejemplo, sapiens). Juntos, forman un nombre de dos componentes: Homo sapiens, el primero escrito con mayúscula, el segundo con una letra minúscula y ambos en cursiva”, explica Vlachos. Para el científico, la idea de este sistema es que el nombre de cada especie sea único y estable. De esa manera, cualquier científico en el mundo que se encuentre usando ese nombre sabrá que se trata de una misma especie y de este modo podrá evitar confusiones por usos regionales o locales (como perro, dog, can, chucho). “Idealmente, cada nombre solo se forma una vez y se forma correctamente. Simple en teoría, pero mucho más difícil en la práctica”, agrega el científico.

Porque, ¿qué sucede si dos o más científicos forman nombres diferentes para la misma especie? ¿Si dos o más científicos crean el mismo nombre para diferentes especies? ¿Si algunos de los nombres están formados incorrectamente y contienen errores tipográficos y otros errores? ¿Si dos especies con dos nombres diferentes ahora se consideran la misma especie? ¿Cuál es el nombre correcto y válido para usar, y quién decide eso? Para regular este y otros tipos de conflictos potenciales que podrían suceder a la hora de crear un nombre, surgió el Código Internacional de Nomenclatura, pero terminó convirtiéndose en un texto complejo. Por eso, el científico se vio motivado a buscar la manera de hacerlo más simple.

Transformando el código en una red interactiva

El método que este científico desarrolló para lograr un acceso más dinámico al Código Internacional de Nomenclatura es en forma de red. “Para realizarlo, utilicé una metodología matemática conocida como análisis de redes, que generalmente se usa para describir y analizar redes sociales y otros tipos de estructuras conectadas”, explica. Y describe: “ Dividí el texto del Código en 1379 nodos de texto y luego conecté esos nodos con al menos 11276 conexiones o bordes: mediante el uso de potentes algoritmos de diseño, el texto del Código se transformó en una herramienta interactiva”.

Para Vlachos, este método podría ser útil en otras disciplinas que usan textos similares, como Historia, Leyes, Medicina y Lingüística. “Al transformar estos textos en redes, se abre una nueva línea de investigación en la que podemos manejar este tipo de documentos en forma interactiva y, además, ahora es posible describirlos total o parcialmente a través de métricas y otras estadísticas, permitiendo una comprensión profunda de los textos tanto por los usuarios profesionales como por el público”, finaliza.