Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas
Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

lunes, 13 de enero de 2020

11 consejos de cómo lidiar con grandes conjuntos de datos

Once consejos para trabajar con grandes conjuntos de datos

Los grandes datos son difíciles de manejar. Estos consejos y trucos pueden allanar el camino.
Anna Nowogrodzki



Ilustración de The Project Twins
Versión PDF
Nature


Los grandes datos están en todas partes en la investigación, y los conjuntos de datos son cada vez más grandes y más difíciles de trabajar. Desafortunadamente, dice Tracy Teal, es un tipo de trabajo que con demasiada frecuencia queda fuera de la capacitación científica.

"Es una mentalidad", dice Teal, "tratando los datos como un ciudadano de primera clase". Ella debe saber: Teal fue hasta el mes pasado el director ejecutivo de The Carpentries, una organización en Oakland, California, que enseña habilidades de codificación y datos a investigadores a nivel mundial. Ella dice que existe una tendencia en la comunidad de investigación a descartar el tiempo y el esfuerzo necesarios para administrar y compartir datos, y no considerarlos como una parte real de la ciencia. Pero, sugiere, "podemos cambiar nuestra mentalidad para valorar ese trabajo como parte del proceso de investigación", en lugar de tratarlo como una ocurrencia tardía.

Aquí hay 11 consejos para aprovechar al máximo sus grandes conjuntos de datos.

Aprecia tus datos


"Mantenga sus datos en bruto sin procesar: no los manipule sin tener una copia", dice Teal. Recomienda almacenar sus datos en algún lugar que cree copias de seguridad automáticas y que otros miembros del laboratorio puedan acceder, respetando las normas de su institución sobre consentimiento y privacidad de datos.

Debido a que no necesitará acceder a estos datos con frecuencia, dice Teal, "puede usar las opciones de almacenamiento donde puede costar más dinero acceder a los datos, pero los costos de almacenamiento son bajos", por ejemplo, el servicio Glacier de Amazon. Incluso podría almacenar los datos en bruto en discos duros duplicados guardados en diferentes ubicaciones. Los costos de almacenamiento para archivos de datos grandes pueden acumularse, por lo que debe presupuestar en consecuencia.

Visualiza la información

A medida que los conjuntos de datos se hacen más grandes, surgen nuevas arrugas, dice Titus Brown, un bioinformático de la Universidad de California, Davis. "En cada etapa, te encontrarás con un nuevo y emocionante comportamiento desordenado". Su consejo: "Haz muchos gráficos y busca valores atípicos". En abril pasado, uno de los estudiantes de Brown analizó los transcriptomes: el conjunto completo de Moléculas de ARN producidas por una célula u organismo: a partir de 678 microorganismos marinos como el plancton (LK Johnson et al. GigaScience 8, giy158; 2019). Cuando Brown y su alumno registraron los valores promedio de la duración de la transcripción, la cobertura y el contenido genético, notaron que algunos valores eran cero, lo que indica dónde había fallado el flujo de trabajo computacional y había que volver a ejecutarlo.

Muestra tu flujo de trabajo

Cuando el físico de partículas Peter Elmer ayuda a su hijo de 11 años con su tarea de matemáticas, tiene que recordarle que documente sus pasos. "Él solo quiere escribir la respuesta", dice Elmer, quien es director ejecutivo del Instituto de Investigación e Innovación en Software para Física de Alta Energía en la Universidad de Princeton en Nueva Jersey. Los investigadores que trabajan con grandes conjuntos de datos pueden beneficiarse del mismo consejo que Elmer le dio a su hijo: "Mostrar su trabajo es tan importante como llegar al final".

Esto significa registrar todo su flujo de trabajo de datos, qué versión de los datos que utilizó, los pasos de limpieza y control de calidad y cualquier código de procesamiento que ejecutó. Dicha información es invaluable para documentar y reproducir sus métodos. Eric Lyons, biólogo computacional de la Universidad de Arizona en Tucson, utiliza la herramienta de captura de video asciinema para registrar lo que escribe en la línea de comando, pero las soluciones de baja tecnología también pueden funcionar. Un grupo de sus colegas, recuerda, tomó fotos de la pantalla de su computadora y las publicó en el grupo del laboratorio en Slack, una plataforma de mensajería instantánea.

Usar control de versiones

Los sistemas de control de versiones permiten a los investigadores comprender con precisión cómo ha cambiado un archivo con el tiempo y quién realizó los cambios. Pero algunos sistemas limitan el tamaño de los archivos que puede usar. Harvard Dataverse (que está abierto a todos los investigadores) y Zenodo se pueden usar para el control de versiones de archivos grandes, dice Alyssa Goodman, astrofísica y especialista en visualización de datos en la Universidad de Harvard en Cambridge, Massachusetts. Otra opción es Dat, una red gratuita de igual a igual para compartir y versionar archivos de cualquier tamaño. El sistema mantiene un registro a prueba de manipulaciones que registra todas las operaciones que realiza en su archivo, dice Andrew Osheroff, desarrollador principal de software en Dat en Copenhague. Y los usuarios pueden ordenar al sistema que archive una copia de cada versión de un archivo, dice la gerente de producto de Dat, Karissa McKelvey, con sede en Oakland, California. Dat es actualmente una utilidad de línea de comandos, pero "hemos estado actualizando activamente", dice McKelvey; El equipo espera lanzar un front end más fácil de usar a finales de este año.

Grabar metadatos

"Sus datos no son útiles a menos que las personas, y" el futuro ", sepan cuáles son", dice Teal. Ese es el trabajo de los metadatos, que describen cómo se recopilaron, formatearon y organizaron las observaciones. Considere qué metadatos registrar antes de comenzar a recopilar, Lyons aconseja, y almacene esa información junto con los datos, ya sea en la herramienta de software utilizada para recopilar las observaciones o en un archivo README u otro archivo dedicado. El Proyecto Open Connectome, dirigido por Joshua Vogelstein, un neuroestadístico de la Universidad Johns Hopkins en Baltimore, Maryland, registra sus metadatos en un formato de texto plano estructurado llamado JSON. Cualquiera que sea su estrategia, trate de pensar a largo plazo, dice Lyons: algún día querrá integrar sus datos con los de otros laboratorios. Si eres proactivo con tus metadatos, esa integración será más fácil en el futuro.

Automatizar, automatizar, automatizar

Los grandes conjuntos de datos son demasiado grandes para peinarlos manualmente, por lo que la automatización es clave, dice Shoaib Mufti, director senior de datos y tecnología del Instituto Allen para la Ciencia del Cerebro en Seattle, Washington. El equipo de neuroinformática del instituto, por ejemplo, utiliza una plantilla para los datos de las células cerebrales y la genética que acepta información solo en el formato y tipo correctos, dice Mufti. Cuando llega el momento de integrar esos datos en una base de datos o colección más grande, los pasos de garantía de calidad de datos se automatizan usando Apache Spark y Apache Hbase, dos herramientas de código abierto, para validar y reparar datos en tiempo real. "Nuestro conjunto completo de herramientas de software para validar e ingerir datos se ejecuta en la nube, lo que nos permite escalar fácilmente", dice. El Proyecto Open Connectome también proporciona garantía de calidad automatizada, dice Vogelstein: esto genera visualizaciones de estadísticas resumidas que los usuarios pueden inspeccionar antes de continuar con sus análisis.

Haga que el tiempo de computación cuente

Grandes conjuntos de datos requieren informática de alto rendimiento (HPC), y muchos institutos de investigación ahora tienen sus propias instalaciones de HPC. La Fundación Nacional de Ciencias de EE. UU. mantiene la red nacional HPC XSEDE, que incluye la red de computación basada en la nube Jetstream y los centros HPC en todo el país. Los investigadores pueden solicitar asignaciones de recursos en xsede.org y crear cuentas de prueba en go.nature.com/36ufhgh. Otras opciones incluyen la red ACI-REF con sede en EE. UU., NCI Australia, la Asociación para la Computación Avanzada en Europa y las redes ELIXIR, así como proveedores comerciales como Amazon, Google y Microsoft.

Pero cuando se trata de computación, el tiempo es dinero. Para aprovechar al máximo su tiempo de computación en los clústeres GenomeDK y Computerome en Dinamarca, Guojie Zhang, investigador de genómica de la Universidad de Copenhague, dice que su grupo generalmente realiza pruebas a pequeña escala antes de migrar sus análisis a la red HPC. Zhang es miembro del Proyecto de Genomas de Vertebrados, que busca ensamblar los genomas de unas 70,000 especies de vertebrados. "Necesitamos millones o incluso miles de millones de horas informáticas", dice.

Captura tu entorno

Para replicar un análisis más tarde, no necesitará la misma versión de la herramienta que utilizó, dice Benjamin Haibe-Kains, farmacogenómico computacional en el Centro de Cáncer Princess Margaret en Toronto, Canadá. También necesitará el mismo sistema operativo y las mismas bibliotecas de software que requiere la herramienta. Por esta razón, recomienda trabajar en un entorno informático autónomo, un contenedor Docker, que se puede ensamblar en cualquier lugar. Haibe-Kains y su equipo utilizan la plataforma en línea Code Ocean (que se basa en Docker) para capturar y compartir sus entornos virtuales; Otras opciones incluyen Binder, Gigantum y Nextjournal. "Diez años a partir de ahora, aún podría ejecutar esa tubería exactamente de la misma manera si lo necesita", dice Haibe-Kains.

No descargue los datos.

Descargar y almacenar grandes conjuntos de datos no es práctico. Los investigadores deben ejecutar análisis de forma remota, cerca de donde se almacenan los datos, dice Brown. Muchos proyectos de big data usan Jupyter Notebook, que crea documentos que combinan código de software, texto y figuras. Los investigadores pueden "girar" dichos documentos en o cerca de los servidores de datos para realizar análisis remotos, explorar los datos y más, dice Brown. Brown dice que Jupyter Notebook no es particularmente accesible para los investigadores que podrían sentirse incómodos usando una línea de comando, pero hay plataformas más fáciles de usar que pueden cerrar la brecha, incluidas Terra y Seven Bridges Genomics.

Empezar temprano

La gestión de datos es crucial incluso para los investigadores jóvenes, así que comience su entrenamiento temprano. "Las personas sienten que nunca tienen tiempo para invertir", dice Elmer, pero "a la larga se ahorra tiempo". Comience con los conceptos básicos de la línea de comandos, más un lenguaje de programación como Python o R, lo que sea más importante para su campo, dice. Lyons está de acuerdo: "Paso uno: familiarizarse con los datos de la línea de comandos". En noviembre, algunos de sus colaboradores que no dominaban el uso de la línea de comandos tuvieron problemas con los datos genómicos porque los nombres de los cromosomas no coincidían en todos sus archivos, Dice Lyons. "Tener algunas habilidades básicas de línea de comandos y programación me permite corregir rápidamente los nombres de los cromosomas".

Consigue ayuda


La ayuda está disponible, en línea y fuera de ella. Comience con el foro en línea Stack Overflow. Consulte a los bibliotecarios de su institución sobre las habilidades que necesita y los recursos que tiene disponibles, aconseja Teal. Y no descarte la capacitación en el sitio, Lyons dice: "The Carpentries es un excelente lugar para comenzar".

miércoles, 20 de febrero de 2019

Big Data sobre Linkedin: Flujos de migración laboral revelan el mercado laboral mundial

La red de flujo de trabajo global revela la organización jerárquica y la dinámica de los clusters geoindustriales en la economía mundial

Jaehyuk Park, Ian Wood, Elise Jing, Azadeh Nematzadeh, Souvik Ghosh, Michael Conover, Yong-Yeol Ahn





Los grupos de empresas a menudo logran una ventaja competitiva a través de la formación de agrupaciones geoindustriales. Aunque muchos grupos ejemplares, como Hollywood o Silicon Valley, se han estudiado con frecuencia, los enfoques sistemáticos para identificar y analizar la estructura jerárquica de los grupos geoindustriales a escala global son raros. En este trabajo, utilizamos las historias de empleo de LinkedIn de más de 500 millones de usuarios a lo largo de 25 años para construir una red de flujo de mano de obra de más de 4 millones de empresas en todo el mundo y aplicar un algoritmo recursivo de detección de comunidades de redes para revelar la estructura jerárquica de los clústeres geoindustriales. Mostramos que los grupos geoindustriales resultantes muestran una asociación más fuerte entre la afluencia de trabajadores educados y el desempeño financiero, en comparación con las unidades de agregación existentes. Además, nuestro análisis adicional de los conjuntos de habilidades de trabajadores educados complementa la relación entre el flujo laboral de trabajadores educados y el crecimiento de la productividad. Argumentamos que las agrupaciones geoindustriales definidas por el flujo de trabajo proporcionan una mejor comprensión del crecimiento y el declive de la economía que otras unidades económicas comunes.

jueves, 14 de febrero de 2019

Redes de influencia de estilos musicales

Los ciclos de la moda y el arte son impulsados por señales de contra-dominantes de la competencia de élite: Evidencia cuantitativa de estilos musicales


Peter Klimek ,
Robert Kreuzbauer y
Stefan Thurner
https://doi.org/10.1098/rsif.2018.0731

Resumen

Los sistemas de símbolos humanos, como el arte y los estilos de moda, surgen de procesos sociales complejos que rigen la reorganización continua de las sociedades modernas. Proporcionan un esquema de señalización que permite a los miembros de una élite distinguirse del resto de la sociedad. Los esfuerzos por comprender la dinámica del arte y los ciclos de la moda se han colocado en las teorías "de abajo hacia arriba" y "de arriba hacia abajo". De acuerdo con las teorías "de arriba a abajo", los miembros de la élite señalan su estado superior al introducir nuevos símbolos (por ejemplo, estilos de moda), que son adoptados por grupos de bajo estado. En respuesta a esta adopción, los miembros de la élite tendrían que introducir nuevos símbolos para indicar su estado. De acuerdo con muchas teorías "de abajo hacia arriba", los ciclos de estilo evolucionan de clases más bajas y siguen un patrón esencialmente aleatorio. Proponemos una explicación alternativa basada en la señalización de dominación dominante (CDS). En CDS, los miembros de la élite quieren que otros imiten sus símbolos; los cambios solo ocurren cuando los grupos externos desafían con éxito a la élite mediante la introducción de señales que contrastan con las respaldadas por la élite. Investigamos estos mecanismos utilizando un enfoque de red dinámico en datos que contienen casi 8 millones de álbumes de música lanzados entre 1956 y 2015. La red cuantifica sistemáticamente las similitudes artísticas de los estilos musicales de la competencia y sus cambios a lo largo del tiempo. Formulamos pruebas empíricas para determinar si se introducen nuevos símbolos por parte de los miembros de la élite actuales (arriba-abajo), aleatoriedad (abajo-arriba) o por grupos periféricos a través de señales de dominación dominante. Encontramos evidencia clara de que CDS impulsa cambios en los estilos musicales. Esto proporciona una respuesta cuantitativa, completamente basada en datos, a un debate centenario sobre la naturaleza de las dinámicas sociales subyacentes de los ciclos de la moda. 



Evolución de la red para competir teorías del cambio cultural. (a) Las características de cada estilo musical (círculos azules) vienen dadas por los instrumentos que típicamente están asociados con este estilo (cuadrados verdes). Las similitudes de dos estilos musicales se miden por la cantidad de instrumentos que comparten, lo que lleva a una red de similitud de estilo. El tamaño de los círculos es proporcional a su popularidad; El grosor del enlace que conecta dos estilos es proporcional a su similitud. (b) Las teorías competitivas del cambio cultural implican diferentes tipos de evolución de la red de estilos musicales. Consideramos una red con una elite (corona amarilla) que inicialmente se adhiere al estilo i. El estilo popular i será imitado por otros estilos (los enlaces a i aumentan en grosor). Siguiendo la costosa teoría de la señalización (ST), la élite busca diferenciarse de los imitadores y adopta un nuevo estilo, k. La teoría de patrones aleatorios (RPT) sugiere que una nueva elite (corona verde) emergerá en una posición aleatoria en la red. La señalización de dominación dominante (CDS) predice el surgimiento de una nueva contra-élite (azul, corona invertida) que es muy diferente a la elite actual, que se muestra aquí para el estilo j. (c) Las tres teorías, ST, RPT y CDS, dan lugar a ciclos de moda en los que el estilo i inicialmente aumenta en popularidad bajo la imitación de otros estilos hasta que surge un nuevo estilo a través de ST, RPT o CDS, y luego domina el siguiente ciclo de moda . (Versión en línea en color.)


Dinámica de la red de similitud estilo-estilo. Mostramos el MST de la red de similitud estilo-estilo durante tres intervalos de tiempo. Los nodos corresponden a estilos con colores dados por su género. El tamaño de los nodos es proporcional a su popularidad, ns (t). Existe una gran cantidad de estilos en la periferia de la red con importantes ganancias en popularidad, mientras que algunos estilos en el núcleo de la red disminuyen en popularidad, por ejemplo. Estilos de música latina. (Versión en línea en color.)


domingo, 3 de febrero de 2019

Redes de sustancias medievales revelan medicamentos bioactivos


El texto medieval de minería de datos revela ingredientes médicamente bioactivos.

Según los investigadores, los boticarios medievales usaban recetas con propiedades antibacterianas significativas.

por Emerging Technology from the arXiv 




El Lylye of Medicynes es un manuscrito del siglo XV que reside en la Biblioteca Bodleian de Oxford, Inglaterra. Es una traducción al inglés medio de un tratado latino anterior sobre enfermedades, que contiene estudios de casos y recetas de tratamientos. Era un texto influyente que se creía que originalmente pertenecía a Robert Broke, un boticario personal del monarca inglés Enrique VI.

El Lylye of Medicynes es muy familiar para los historiadores que estudian tratamientos médicos medievales. Hace tiempo que saben que algunas recetas contienen ingredientes, como la miel, con propiedades antibióticas.

Pero la cuestión más amplia de la eficacia de la medicina medieval en general es mucho más difícil de estudiar. "La farmacopea utilizada por los médicos y los laicos en la Europa medieval se ha descartado en gran medida como placebo o superstición", dice Erin Connelly de la Universidad de Pennsylvania y colegas de la Universidad de Warwick en el Reino Unido.

Ahora esa vista parece que va a cambiar. Connelly y compañía dicen que las recetas medievales siguen un patrón racional de tratamiento que resiste el control médico moderno. Su evidencia proviene de la extracción de datos de los patrones de ingredientes en el Lylye of Medicynes, que revela redes de sustancias en las recetas con importantes propiedades bioactivas.

En primer lugar, algunos antecedentes. El Lylye of Medicynes contiene 360 ​​recetas, cada una en un formato estándar que comienza con el tipo de remedio (un jarabe de ungüento o yeso, por ejemplo), luego especifica la fase de la enfermedad cuando debe aplicarse y termina con una lista de ingredientes. .

La minería de datos de este texto no es tarea fácil. Las recetas mencionan más de 3,000 ingredientes para el tratamiento de 113 condiciones diferentes. De estas condiciones, 30 describen síntomas tales como fractura de piel, purulencia, enrojecimiento, corteza negra, mal olor, calor o ardor, etc., que se traducen en síntomas de infecciones externas.

Un desafío es que el texto a menudo se refiere a los mismos ingredientes usando diferentes palabras y ortografías. Por ejemplo, la hierba hinojo se conoce como fenel, feniculi, feniculum, marathri, maratri y maratrum. Todos estos deben ser condensados ​​bajo el mismo título.

Sin embargo, varias partes de una planta pueden contener diferentes ingredientes activos, y esto también debe tenerse en cuenta. Por lo tanto, la raíz de hinojo, el jugo de hinojo y las semillas de hinojo deben incluirse por separado. El equipo también corrigió las variantes de ortografía a mano.

Una vez estandarizados los ingredientes, el equipo estudió las redes que formaron. Para ello, crearon un nodo para cada ingrediente y dibujaron conexiones entre ellos si aparecían en la misma receta. Cuanto más a menudo estos ingredientes aparecían juntos, más fuerte se hacía esta conexión. Una vez montada la red, los investigadores utilizaron un algoritmo estándar para buscar comunidades dentro de la red.

Los hallazgos hacen para la lectura interesante. "Los resultados muestran claramente la existencia de una estructura jerárquica dentro de las recetas", dicen los investigadores.

Cada comunidad en la red está compuesta por comunidades más pequeñas, todas con un núcleo común de ingredientes. Por ejemplo, un núcleo de ingredientes consiste en aloe vera más "sarcocolla nutria", una goma de uno de varios árboles persas mezclados con leche materna.

Varios ingredientes individuales juegan un papel importante en la red. Estos incluyen miel, vinagre y flores de granada.

El siguiente paso del equipo fue buscar recetas emblemáticas que exploten combinaciones de ingredientes. Luego buscaron en la literatura médica moderna la evidencia de que esas recetas podrían haber funcionado.

Por ejemplo, una receta en el tratado es un enjuague bucal descrito como un tratamiento para "pústulas, úlceras, apostemas (hinchazón / inflamación), cáncer, fístula, herpestiomenus (gangrena) y carbúnculo (carbunclo; ebullición supurativa)".

Esta mezcla se hace con "sumac, galle, psidia (la corteza de la granada o la corteza del árbol), balaustia, masilla (resina exudada del árbol de la masilla, Pistacia lentiscus), olibanum, hony y vinagre" probablemente mezclada con nitrito o leche materna.

Una pregunta importante es si alguno de esos ingredientes tiene efectos antibacterianos o inmunomoduladores. Para averiguarlo, Connelly y sus colegas los buscaron en la Base de Datos Cochrane de Revisiones Sistemáticas, una biblioteca bien conocida de investigación médica basada en la evidencia.

Resulta que hay buena evidencia de que algunos de esos ingredientes son bioactivos. Se sabe que la miel tiene propiedades antibióticas, y el Servicio Nacional de Salud del Reino Unido la usa regularmente para curar heridas. El vinagre es un buen desinfectante y la leche materna contiene una variedad de componentes antimicrobianos. La bilis (o galle) también se reconoce como un potente bactericida.

Sin embargo, hay poca evidencia de que el aloe, el incienso, la masilla y la sarcocolla tengan efectos curativos. Por ejemplo, una revisión Cochrane de los efectos de curación de la herida del áloe encontró que los estudios relevantes en general eran de baja calidad. Así que el jurado aún está deliberando sobre el poder de esas sustancias.

Sin embargo, la combinación de los ingredientes especificados en un solo enjuague bucal claramente tiene sentido. Aumenta la redundancia, si un ingrediente no funciona, otro podría y "podría aumentar la eficacia contra una especie microbiana objetivo en particular atacando varios objetivos celulares al mismo tiempo, o permitiendo la activación química de moléculas de componentes particulares", dice Connelly. y compañía.

Concluyen que la receta de enjuague bucal, y otras similares, reflejan un enfoque racional para la toma de decisiones médicas.

Eso es un trabajo interesante. Implica que la visión convencional de la medicina medieval como poco más que un hocus pocus necesita ser reconsiderada. "Este trabajo demuestra la posibilidad de usar algoritmos de redes complejas para explorar un conjunto de datos médicos medievales para patrones subyacentes en combinaciones de ingredientes relacionados con el tratamiento de enfermedades infecciosas", dicen los investigadores.

Además, creen que podría haber mucho más por descubrir en los textos medievales, incluida la posibilidad de nuevos agentes antimicrobianos que aún son desconocidos para la ciencia moderna. "El uso de las tecnologías digitales para convertir estos textos en bases de datos susceptibles de minería de datos cuantitativos requiere un enfoque interdisciplinario cuidadoso, pero podría proporcionar una perspectiva completamente nueva sobre la ciencia y la racionalidad medievales", dicen Connelly y coautores.

Ref: https://arxiv.org/abs/1807.07127 : Data Mining a Medieval Medical Text Reveals Patterns in Ingredient Choice That Reflect Biological Activity Against the Causative Agents of Specified Infections


martes, 26 de junio de 2018

Curación de datos en Big Data


Cómo hacer curación de contenido con los datos

Dr. Who



El contenido es el rey: siempre lo escuchamos cuando hablamos de la cura del contenido. Producir contenido valioso es difícil, si no tenemos idea, es prácticamente imposible. El valor de un contenido puede tener múltiples significados. Una cosa es segura: además de su originalidad, debe reflejar la demanda del mercado; debe reflejar, es decir, lo que las personas buscan en la red. Los datos en la web pueden ayudarnos en este sentido y, una vez procesados, pueden brindarnos diferentes maneras de hacerlo.

Curación de contenido guiados por datos: Pasos operacionales

Comienza desde el tema: definido el tema es necesario para dibujar la arquitectura de análisis. La arquitectura de análisis no es más que un documento simple para registrar los principales elementos de nuestro análisis, como son: el lapso de tiempo a considerar, la identificación de los canales donde residen los contenidos, el análisis de la pregunta específica.

Estos cuatro elementos básicos se deben expandir de acuerdo con los hallazgos que proporciona el raspado de datos. Un elemento fundamental es tener un buen crowler para obtener los datos de partida sin procesar.

El tema que traigo como ejemplo, y cuyos datos se tomaron hace más de un año, es el de la salud digital. El período de tiempo considerado fue de 30 días. La elección de este tiempo ajustado se debe al hecho de que es necesario evitar la dispersión de la demanda: un tiempo ajustado asegura que los datos se recopilan de los eventos recientes.

El cuestionamiento de la red permitió extraer más de 1700 contenidos con un duopolio de canales en los que viajó este contenido. Los tweets y artículos en línea dividían, hace un año, los contenidos sobre el tema de salud digital.

A partir de esta información, es posible ampliar la estructura arquitectónica de nuestro análisis: extraer información de la web para realizar el análisis de extracción de texto y comprender la existencia de aspectos particulares; lleve a cabo el análisis de las conversaciones de twitter para comprender cómo se debatió el tema e identifique, si existieran, personas influyentes específicas.


Curación de contenido: análisis SERP


El análisis SERP nos permite identificar tanto la competencia existente sobre el tema, como los segmentos que lo componen. El enfoque es el del análisis de cola larga que muchos de ustedes conocen. El análisis de cola larga, sin embargo, no es el único tipo de actividad que se puede realizar en un SERP: una vez tomada, también se puede analizar a través del análisis de minería de texto, en particular en la dimensión de metadescripción. La metadescripción es uno de los elementos fundamentales que guían nuestra investigación al facilitar la elección de clikkare, o no, en uno de los diversos enlaces que nos devuelve una consulta en Google. Dado el tiempo y el tema, hace un año tomé unos 980 sitios (igual al 50% del SERP completo) con una opción aleatoria estratificada. La estratificación permite considerar diferentes grupos de agregaciones y tener una representación estadística.

Para evaluar la oportunidad de llevar a cabo el análisis minería de texto en profundidad, el primer indicador que vemos es el de la tabla Zipf: un gráfico denso nos muestra que los temas resumidos en la meta descripción se argumentan; hay algún material sobre el cual trabajar y avanzar con el análisis.

Curación de contenido: análisis de minería de texto


Las ideas que surgieron hace un año fueron muy interesantes: la mayor parte del contenido en línea se relacionó con artículos / publicaciones para personajes locales y esto ensucia la capacidad del análisis para resaltar el estado de ánimo subyacente.



Al eliminar estos aspectos, fue posible identificar dos macroconjuntos: uno relacionado con la identidad digital, el otro más específico sobre el tema de la innovación digital en el sector hospitalario (lado derecho del gráfico).

La lectura de los contenidos de los dos clusters identificados: 4 referencias web para el clúster de identidad digital y 10 referencias para el clúster de innovación digital.

Estos 14 sitios representan las fuentes relevantes para una primera identificación del estado de ánimo subyacente en un tema determinado. Al combinar estas instancias con la segmentación hecha con el análisis de la cola larga, tenemos excelentes indicaciones para identificar el área temática que queremos cubrir con nuestro contenido.

Curación de contenido: evaluación de tema con el SNA

Se recopilaron más de 728 conversaciones en Twitter y se encontró una red de 526 oradores que generaron más de 500 informes.

Al aplicar los indicadores estadísticos apropiados, se resaltaron algunos conglomerados de conversación. En particular:

  • Mercado de salud digital (clúster verde)
  • Innovación en asistencia sanitaria digital (racimo rojo)
  • Dossier electrónico (clúster negro)
  • Observatorio PoLIMI (grupo naranja)
  • Convención del observatorio digital (clúster central)



Los principales contenidos fueron extraídos de cada grupo individual.

Ambos análisis, aunque con matices obvios, confirman los conocimientos que se pueden utilizar en términos de datos de curación de contenido impulsados, lo que respalda tanto la demanda del mercado como las conversaciones relacionadas con ella. No solo eso: el análisis de redes sociales también nos permite identificar cuáles de los actores analizados son los mejores para "contactar" para compartir el contenido que vamos a crear.

viernes, 13 de abril de 2018

Machine learning y redes de textos detectan cambios en los estereotipos

Los investigadores de Stanford usan el algoritmo de aprendizaje automático para medir los cambios en el sesgo étnico y de género en los EE. UU.

La nueva investigación de Stanford muestra que, durante el siglo pasado, los cambios lingüísticos en los estereotipos de género y étnicos se correlacionaron con los principales movimientos sociales y los cambios demográficos en los datos del censo de los EE. UU.


Alex Shashkevich | Stanford News




Un equipo de Stanford usó algoritmos especiales para detectar la evolución de los sesgos étnicos y de género entre los estadounidenses desde 1900 hasta el presente. (Crédito de la imagen: mousitj / Getty Images)

Los sistemas de inteligencia artificial y los algoritmos de aprendizaje automático han sido criticados recientemente porque pueden recoger y reforzar los prejuicios existentes en nuestra sociedad, según los datos con los que están programados.

Pero un grupo interdisciplinario de académicos de Stanford resolvió este problema en un nuevo documento de Procedimientos de la Academia Nacional de Ciencias publicado el 3 de abril.

Los investigadores usaron incrustaciones de palabras, una técnica algorítmica que puede mapear relaciones y asociaciones entre palabras, para medir los cambios en los estereotipos de género y étnicos durante el siglo pasado en los Estados Unidos. Analizaron grandes bases de datos de libros, periódicos y otros textos estadounidenses y observaron cómo esos cambios lingüísticos se correlacionaban con los datos demográficos del Censo de EE. UU. y los grandes cambios sociales como el movimiento de mujeres en la década de 1960 y el aumento de la inmigración asiática, según la investigación.

"Las incrustaciones de palabras se pueden usar como un microscopio para estudiar los cambios históricos en los estereotipos en nuestra sociedad", dijo James Zou, profesor asistente de ciencia de datos biomédicos. "Nuestra investigación previa ha demostrado que las incrustaciones capturan de manera efectiva los estereotipos existentes y que esos sesgos se pueden eliminar sistemáticamente. Pero creemos que, en lugar de eliminar esos estereotipos, también podemos utilizar las incrustaciones como un objetivo histórico para los análisis cuantitativos, lingüísticos y sociológicos de los sesgos ".

Zou es coautor del artículo con historia del profesor Londa Schiebinger, del profesor de lingüística e informática Dan Jurafsky y del estudiante graduado en ingeniería eléctrica Nikhil Garg, quien fue el autor principal.

"Este tipo de investigación nos abre todo tipo de puertas", dijo Schiebinger. "Proporciona un nuevo nivel de evidencia que permite a los especialistas en humanidades responder preguntas sobre la evolución de los estereotipos y los sesgos a una escala que nunca antes se había hecho".

La geometría de las palabras

Una palabra incrustada es un algoritmo que se usa o se entrena en una colección de texto. El algoritmo luego asigna un vector geométrico a cada palabra, representando cada palabra como un punto en el espacio. La técnica utiliza la ubicación en este espacio para capturar asociaciones entre palabras en el texto fuente.

"Las incrustaciones son una poderosa herramienta lingüística para medir aspectos sutiles del significado de las palabras, como el prejuicio", dijo Jurafsky.

Tome la palabra "honorable". Usando la herramienta de incrustación, investigaciones previas encontraron que el adjetivo tiene una relación más cercana a la palabra "hombre" que a la palabra "mujer".

En su nueva investigación, el equipo de Stanford utilizó incrustaciones para identificar ocupaciones y adjetivos específicos que fueron sesgados hacia las mujeres y grupos étnicos particulares por década desde 1900 hasta el presente. Los investigadores formaron esas incrustaciones en bases de datos de periódicos y también usaron incrustaciones previamente entrenadas por el estudiante de posgrado en informática Stanford Will Hamilton en otros conjuntos de datos de gran tamaño, como el corpus de libros estadounidenses de libros de Google, que contiene más de 130 mil millones de palabras publicadas durante los días 20 y 21 siglos.

Los investigadores compararon los sesgos encontrados por esas incrustaciones con los cambios demográficos en los datos del censo de EE. UU. Entre 1900 y el presente.

Cambios en los estereotipos

Los resultados de la investigación mostraron cambios cuantificables en las representaciones de género y los prejuicios hacia los asiáticos y otros grupos étnicos durante el siglo XX.

Uno de los hallazgos clave que surgieron fue cómo los sesgos hacia las mujeres cambiaron para mejor, de alguna manera, con el tiempo.

Por ejemplo, adjetivos como "inteligente", "lógico" y "reflexivo" se asociaron más con los hombres en la primera mitad del siglo XX. Pero desde la década de 1960, las mismas palabras se han asociado cada vez más con las mujeres en cada década siguiente, lo que se correlaciona con el movimiento de mujeres en la década de 1960, aunque todavía existe una brecha.

La investigación también mostró un cambio dramático en los estereotipos hacia los asiáticos y asiáticos americanos.

Por ejemplo, en la década de 1910, palabras como "bárbaro", "monstruoso" y "cruel" fueron los adjetivos más asociados con los apellidos asiáticos. En la década de 1990, esos adjetivos fueron reemplazados por palabras como "inhibido", "pasivo" y "sensible". Este cambio lingüístico se correlaciona con un fuerte aumento de la inmigración asiática a los Estados Unidos en las décadas de 1960 y 1980 y un cambio en los estereotipos culturales. dijeron los investigadores

"Me llamó la atención la crudeza del cambio en los estereotipos", dijo Garg. "Cuando estudias la historia, aprendes acerca de las campañas de propaganda y estos puntos de vista obsoletos de los grupos extranjeros. Pero lo que la literatura producida en ese momento reflejaba esos estereotipos era difícil de apreciar ".

En general, los investigadores demostraron que los cambios en las incrustaciones de palabras seguían de cerca los cambios demográficos medidos por el censo de Estados Unidos.

Fructífera colaboración

La nueva investigación ilumina el valor del trabajo en equipo interdisciplinario entre las humanidades y las ciencias, dijeron los investigadores.

Schiebinger dijo que se acercó a Zou, quien se unió a Stanford en 2016, después de leer su trabajo anterior sobre la despersonalización de los algoritmos de aprendizaje automático.

"Esto llevó a una colaboración muy interesante y fructífera", dijo Schiebinger, y agregó que los miembros del grupo están trabajando en una mayor investigación conjunta.

"Subraya la importancia de que los humanistas y los científicos informáticos trabajen juntos. Hay un poder para estos nuevos métodos de aprendizaje automático en la investigación de humanidades que recién se está entendiendo ", dijo.

miércoles, 11 de abril de 2018

Círculos sociales a través de grandes datos


Circulos sociales

El estudio del MIT detalla el grado en que el movimiento urbano está vinculado a la actividad social.

Peter Dizikes | MIT News



Si vives en una ciudad, sabes que una buena cantidad de tu movimiento por la ciudad es de naturaleza social. ¿Pero cuánto, exactamente? Un nuevo estudio en coautoría de investigadores del MIT utiliza un método novedoso para inferir que alrededor de una quinta parte del movimiento urbano es estrictamente social, un hallazgo que se mantiene sistemáticamente en múltiples ciudades.

El estudio utilizó datos telefónicos anónimos que, a diferencia de la mayoría de los datos en el campo, proporcionan información que se puede utilizar para reconstruir las ubicaciones de las personas y sus redes sociales. Al vincular esta información en conjunto, los investigadores pudieron construir una imagen que indica qué redes eran principalmente sociales, en lugar de orientadas al trabajo, y luego deducir cuánto movimiento de la ciudad se debía a la actividad social.

"Agregar dos fuentes de datos, una en el lado social y otra en el lado de la movilidad, y superponerlas una a la otra te da algo que es un poco mayor", dice Jameson Toole, estudiante de doctorado en la División de Sistemas de Ingeniería del MIT. y uno de los autores de un documento recientemente publicado que describe los resultados del estudio.

"Es una forma de ver los datos que no se había hecho antes", dice Marta González, profesora asistente en el Departamento de Ingeniería Civil y Ambiental del MIT, y otra coautora del estudio.

Al desarrollar una nueva forma de cuantificar cuánto se basan los viajes urbanos en la actividad social, los investigadores creen que han comenzado a crear una nueva herramienta analítica que podría ser útil para los planificadores y los responsables de la formulación de políticas.

"Hay mucha gente que necesita estimar cómo se mueve la gente en las ciudades: planificadores de transporte y otros planificadores urbanos", dice Toole. "Pero muchos modelos basados ​​en datos no tienen en cuenta el comportamiento social. Lo que descubrimos es que ... si intentas estimar el movimiento en una ciudad y no incluyes el componente social, tus estimaciones se reducirán en un 20% ".

Yendo móvil

El documento, “Coupling human mobility and social ties”, aparecerá esta semana en Interface, una revista revisada por pares publicada por la Royal Society. Los coautores son Toole, que es el autor principal; Carlos Herrer-Yaque, de la Universidad Politécnica de Madrid; González, quien es el investigador principal del estudio; y Christian Schneider, un investigador postdoctoral del MIT durante el curso del estudio.

Los datos del teléfono móvil anónimos del estudio provienen de tres ciudades importantes de Europa y América del Sur. Al examinar las ubicaciones de las llamadas, las redes de llamadas realizadas y los tiempos de contacto, los investigadores descubrieron que la mayoría de las personas tienen esencialmente tres tipos de redes sociales en las ciudades: compañeros sociales (que están mucho por las noches y los fines de semana) ), compañeros de trabajo (con quienes tienden a contactar durante los días de la semana) y conocidos más distantes con quienes las personas tienen un contacto más esporádico.

Después de distinguir estas redes entre sí, los investigadores pudieron cuantificar hasta qué punto la actividad social era la causa principal de un viaje urbano; su conclusión cae dentro de los límites de las estimaciones previas y más amplias, que han atribuido del 15 al 30 por ciento del movimiento urbano a la actividad social.

"Es bastante raro que estos patrones aparezcan por sí mismos en múltiples ciudades", dice Toole. "Da credibilidad a la universalidad de este [patrón]".

En el documento, los investigadores también construyen un modelo de movimiento social urbano, que denominan el modelo "GeoSim"; amplía los modelos previos de movilidad urbana al agregar una capa relacionada con las elecciones de la actividad social. El modelo se ajusta mejor a los datos en este estudio, y también podría ser probado contra conjuntos de datos futuros.

"Los grandes datos son increíbles", dice Toole, "pero esto agrega el contexto nuevamente a las redes sociales y los movimientos".

Los académicos dicen que el documento aporta una nueva visión de los estudios de movilidad urbana. La "novedad del estudio reside en el método utilizado para estudiar la relación entre la movilidad de diferentes usuarios y su relación social", explica Esteban Moro, profesor de matemáticas en la Universidad Carlos III de Madrid, en España. "Utilizando diferentes métricas de movilidad, los autores pueden conocer la naturaleza de la relación entre dos personas. ... Esto permite una comprensión cuantitativa de cómo las personas administran su tiempo, tareas, [e] interacciones en un contexto geográfico como las ciudades ".

Moro agrega que el actual proyecto de investigación abre el camino para estudios más detallados del tema, señalando que "sería interesante ver si el estado socioeconómico de las personas, su edad y / o género tienen un papel en los resultados encontrados".

La investigación fue financiada en parte por la Alianza Accenture-MIT en Business Analytics, el Centro de Sistemas de Ingeniería Complejos en el MIT y la National Science Foundation.

jueves, 1 de marzo de 2018

Entrevista a Aaron Clauset: Aprendizaje automático, economía y genes

Ciencia de redes: el campo oculto detrás del aprendizaje automático, la economía y la genética de la que nunca habrás oído hablar (probablemente): una entrevista con el Dr. Aaron Clauset [Parte 1]

Por Amy Hodler, Gerente del Programa de Analítica
Blog Neo4j


Recientemente tuve la oportunidad de combinar trabajo y placer y reunirme con el Dr. Aaron Clauset, un experto en ciencia de redes, ciencia de datos y sistemas complejos. En 2016, Clauset ganó el Premio Erdos-Renyi en Network Science, pero es posible que esté más familiarizado con su investigación anterior sobre leyes eléctricas, predicción de enlaces y modularidad.

El Dr. Clauset dirige el grupo de investigación que desarrolló la referencia del conjunto de datos ICON (si está buscando datos de red para evaluar, marque esto ahora) y ha publicado recientemente investigaciones que arrojan luz sobre posibles conceptos erróneos sobre estructuras de red. Cuando apareció un viaje de negocios de última hora a Denver, hice el viaje a Boulder, donde Clauset es profesor asistente de ciencias de la computación en la Universidad de Colorado en Boulder.



El Dr. Aaron Clauset es Profesor Asistente de Ciencias de la Computación en la Universidad de Colorado en Boulder y en el Instituto BioFrontiers. También es parte de la facultad externa en el Instituto Santa Fe (para estudios de complejidad).

Entre el almuerzo y la próxima clase de Clauset, hablamos sobre la investigación reciente de su grupo y la dirección general de la ciencia de la red, y me fui con una superposición de desilusión y entusiasmo. El Laboratorio Clauset ha estado trabajando para ampliar la diversidad y el rigor de estudiar sistemas complejos y, al hacerlo, pueden desmantelar algunas creencias que datan de los años 90. (Debería haber sabido que no sería simple, estamos hablando de sistemas complejos después de todo).

Esto le importa a la comunidad gráfica de Neo4j porque cualquier persona que analice las redes, especialmente si buscan atributos globales, necesita comprender la estructura y la dinámica subyacente. A continuación se encuentra un resumen de nuestra discusión.

¿En qué tipo de trabajo se enfoca su equipo?

Clauset: Mi grupo de investigación en CU Boulder actualmente incluye cinco Ph.D. estudiantes, junto con algunos maestros y varios estudiantes universitarios. Nuestra investigación se centra tanto en el desarrollo de nuevos métodos computacionales para la comprensión de conjuntos de datos complicados y desordenados, como en la aplicación de estos métodos para resolver problemas científicos reales, principalmente en entornos biológicos y sociales.

En el grupo, todos están involucrados en la investigación de alguna manera. Por ejemplo, el sitio web ICON (índice de redes complejas) fue construido por un par de estudiantes de licenciatura para aprender conceptos de redes y explorar herramientas.

Las redes son una de nuestras áreas de trabajo clave. Las redes son en realidad solo una representación, una herramienta para comprender sistemas complejos. Representamos cómo funciona un sistema social al pensar en las interacciones entre pares de personas. Al analizar la estructura de esta representación, podemos responder preguntas sobre cómo funciona el sistema o cómo se comportan las personas dentro de él. En este sentido, la ciencia de la red es un conjunto de herramientas técnicas que se pueden aplicar a casi cualquier dominio.

Las redes también actúan como un puente para comprender cómo las interacciones y dinámicas microscópicas pueden conducir a regularidades globales o macroscópicas. Pueden hacer un puente entre lo micro y lo macro porque representan exactamente qué cosas interactúan entre sí. Solía ​​ser común suponer que todo interactúa con todo, y sabemos que eso no es verdad; en genética, no todos los pares de personas y no todos los pares de genes interactúan entre sí.

Tomado de “Hierarchical structure and the prediction of missing links in networks
Un esfuerzo extremadamente importante en la ciencia de redes es descubrir cómo la estructura de una red da forma a la dinámica de todo el sistema. En los últimos 15 años hemos aprendido que para muchos sistemas complejos, la red es increíblemente importante para configurar lo que les sucede a los individuos dentro de la red y cómo evoluciona todo el sistema.

El trabajo de mi grupo se centra en caracterizar la estructura de estas redes para que podamos comprender mejor cómo la estructura finalmente da forma a la función.

¿Hay puntos en común entre los diferentes tipos de redes?

Clauset: A fines de la década de 1990 y principios de la década de 2000, mucha energía en la conducción de la ciencia de redes provino de los físicos, que aportaron nuevas herramientas matemáticas, modelos y muchos datos nuevos. Una idea que popularizaron fue la hipótesis de que los patrones "universales" ocurrieron en redes de todo tipo: redes sociales, biológicas, tecnológicas, de información e incluso económicas, y que fueron impulsadas por un pequeño número de procesos fundamentales.

Este tipo de idea era bastante normal en una parte de la física. Por ejemplo, hay un modelo matemático universal de cómo funciona un imán que hace predicciones notablemente precisas sobre imanes reales de todo tipo.

El sueño de las redes era mostrar que lo mismo se podía hacer por ellos: que todos los diferentes tipos de redes podían explicarse mediante un pequeño conjunto de principios o procesos matemáticos básicos, o que caían en un pequeño número de categorías estructurales generales. Es una idea bastante poderosa e inspiró tanto un trabajo multidisciplinario realmente bueno como varias afirmaciones altamente provocativas.



La validez de algunas de las afirmaciones más audaces ha sido difícil de evaluar empíricamente porque requirió el uso de un conjunto grande y diverso de redes del mundo real para probar la "universalidad" empírica del patrón. Reunir un conjunto de datos de este tipo es parte de lo que nos llevó a armar el índice de redes complejas, lo que llamamos el índice ICON.

Aunque todavía estamos expandiéndolo, mi grupo ya ha comenzado a revisar muchas de las afirmaciones iniciales sobre patrones universales en redes, incluida la idea de que "todas las redes están libres de escalas", o que solo las redes sociales tienen una alta densidad triangular, o que las redes se agrupan en "superfamilias" basadas en el patrón de su estructura local. Sorprendentemente, muchas afirmaciones sobre la estructura de las redes se han repetido una y otra vez en la literatura, pero no han sido escrutadas cuidadosamente con datos empíricos.

Resulta que muchos de estos patrones universales se desmoronan cuando se puede mirar a través de una gran variedad de redes. El reciente artículo de Kansuke Ikehara [Characterizing the structural diversity of complex networks across domains] plantea una pregunta simple: si etiqueto una gran cantidad de redes de dónde provienen (por ejemplo, una red de transporte / carretera, una red social / en línea o una red metabólica / biológica) ¿puede utilizar el aprendizaje automático para descubrir qué características distinguen a estas clases de redes?

La diversidad estructural de las redes complejas. Si hay algunas "familias" de estructuras de red, entonces ningún algoritmo debería ser capaz de aprender a distinguir las diferentes redes dentro de una familia. En cambio, lo que encontramos fue que prácticamente todas las clases de redes se distinguían fácilmente de las demás clases.


Las redes sociales se agrupan en una parte del espacio de características, las redes biológicas generalmente están bien separadas de aquellas, etc., y esto es cierto para cada clase de red que examinamos. El claro mensaje para llevar a casa es que hay mucha más diversidad en las estructuras de red de lo que pensamos hace 20 años, y por lo tanto, mucho más trabajo por hacer para comprender de dónde viene esta diversidad.

La investigación de Ikehara reveló la diversidad estructural oculta de las redes y sugiere que puede haber menos patrones universales de lo que alguna vez se pensó. Al mismo tiempo, algunos grupos de redes están más cerca unos de otros en términos de su estructura.

Por ejemplo, encontramos que las redes de distribución de agua exhiben firmas estructurales similares a las redes miceliales fúngicas, lo que sugiere que pueden estar formadas por procesos subyacentes similares o problemas de optimización. De esta forma, el aprendizaje automático puede ayudarnos a identificar semejanzas estructurales y, por lo tanto, a ayudarnos a descubrir, de una manera basada en datos, dónde es más probable que encontremos una explicación mecánica común.

¿Cómo está evolucionando la ciencia de la red?

Clauset: En muchos sentidos, la ciencia de redes hoy se está diversificando y expandiendo. Esta expansión permite una gran especialización, pero hay una compensación. Ahora las personas pueden tomar métodos de red y aplicarlos en preguntas realmente específicas sobre sistemas realmente específicos.

Esto es enormemente productivo y un logro emocionante para la ciencia de redes. Pero, el crecimiento del trabajo disciplinario alrededor de las redes también significa que hay relativamente menos trabajo que cruza los límites disciplinarios. Sin espacios compartidos donde personas de diferentes dominios se reúnan para hablar sobre sus avances, las personas que trabajan en un tipo de problema tienen menos probabilidades de exponerse a ideas potencialmente notables en un área diferente.

Claro, muchas ideas sobre economía no se aplicarán a las redes biológicas, pero algunas lo harán, y si los economistas y los biólogos nunca se comunican entre sí, nunca lo sabremos. Si no hay un terreno común, habrá una gran cantidad de reinvención y retrasos, incluso años para que los métodos en un dominio pasen a otro.

Es por eso que creo que es muy importante estudiar y reunirse para debatir sobre las redes en general. Este tipo de fervor interdisciplinario es otra cosa que los físicos y los informáticos ayudaron a poner en marcha hace unos 20 años; eran principalmente físicos y científicos informáticos que transmitían "también podemos hacer sociología, política y ecología".

Esa actitud ciertamente molestó a algunas personas, especialmente a los sociólogos que ya habían estado haciendo redes durante 80 años, pero también generó un enorme y amplio interés en las redes de prácticamente todas las ciencias. Ahora, las diferentes áreas disciplinarias de la ciencia de las redes crecen tan rápido que, de alguna manera, el centro -encrucijada donde las ideas pueden saltar entre los campos- se está reduciendo de manera efectiva.

¿Cómo puede la ciencia de redes fomentar una mayor colaboración entre dominios?

Clauset: Tener un evento real que sirva como una encrucijada entre dominios donde las personas pueden presentarse e interactuar es esencial. En muchos sentidos, la Conferencia Internacional sobre Ciencia de Redes está tratando de hacer eso, pero se esfuerza por sacar a los investigadores de sus dominios y colocarlos en el medio, ya que las diferentes disciplinas tienen diferentes preguntas generales. Creo que siempre que algunos expertos en dominios de diferentes campos lleguen a la encrucijada para hablar e interactuar, las buenas ideas eventualmente se extenderán.

Continuar con este esfuerzo interdisciplinario será una parte clave para continuar el avance de la ciencia de redes. Pero no todos los esfuerzos deben ser interdisciplinarios. De hecho, las disciplinas son esenciales para ayudar a enfocar nuestra atención colectiva.

No estoy seguro de cuál es el equilibrio correcto entre el trabajo disciplinario y el interdisciplinario, pero para mí las ideas interdisciplinarias son las más interesantes. Si el trabajo sobre estos no está financiado y respaldado a niveles decentes, seguramente no abordaremos muchas de las ideas más importantes de la sociedad porque son las que abarcan diferentes disciplinas.

Por ejemplo, la ciberseguridad no es solo un problema técnico, ya que los humanos tienen un terrible historial de escritura de software libre de errores. La seguridad real requiere componentes legales, componentes sociales, componentes éticos, componentes económicos y probablemente más para desarrollar una solución duradera.

De hecho, si elige cualquier problema que afecte a una porción decente de la población, entonces seguramente se trate de un problema interdisciplinario que requerirá un enfoque interdisciplinario para comprender y resolver.

Conclusión

Como puede ver, tuvimos una gran discusión sobre cómo están cambiando algunas de las ideas preconcebidas sobre las redes. La próxima semana, en la segunda parte de esta serie, resumiré nuestra inmersión más profunda en algunos de los avances y temas emergentes en la ciencia de redes.

lunes, 22 de enero de 2018

Grafos y Big Data: Una combinación con enorme futuro

El año del grafo: obtener grafos, volverse nativo, remodelar el paisaje

El año del grafo está aquí. ¿Realmente necesita una base de datos de grafos y, en caso afirmativo, cómo elegir una?

 George Anadiotis  ||  ZDNet



Video: ¿Qué hay de nuevo en el mundo de las bases de datos de grafos? Aquí hay un resumen rápido

Es oficial: las bases de datos de grafos son una cosa. Ese es el consenso aquí en Big on Data entre los colaboradores Andrew Brust y Tony Baer. Cuando AWS ingresa a un dominio, señala oficialmente la pendiente ascendente del ciclo de promoción. Es un poco como la tierra recién descubierta: primero es en gran parte desconocida y habitada por nativos, luego los pioneros muestran que hay oportunidades, y luego los pesos pesados ​​intentarán colonizarla.

La reciente presentación de AWS Neptune parece haber convencido incluso a los que se autoproclamaron escépticos de los grafos como Brust y Baer. ¿Por qué ahora, preguntas? Al igual que el Aprendizaje automático, por ejemplo, no es tanto que haya un avance importante en la tecnología, sino que es principalmente una cuestión de maduración.

Las capacidades de hardware y software, como almacenamiento económico y capacidad de procesamiento en la nube y en el local, la comprensión de los desafíos en técnicas de indexación distribuida y consulta de grafos y la realización de conjuntos de datos grandes y conectados han contribuido a la tormenta gráfica perfecta.


Obteniendo grafos

Como siempre, cuando alguna tecnología de nicho se generaliza, existe el riesgo de malentendidos o sobrevaloración hasta el punto en que se convierte en una palabra de moda sin sentido, un martillo aplicado a cada problema independientemente de si se trata de un clavo. Entonces, advertencia justa: si algo no se siente como un grafo, entonces no intente forzarlo.

Es probable que tus videos estén viviendo bastante bien en la tienda de objetos donde los tienes actualmente. Un sistema de contabilidad de ventas construido usando una base de datos relacional probablemente esté funcionando bien, y de la misma manera una tienda de documentos es posiblemente el lugar correcto para almacenar sus documentos. Por lo tanto, "usar la herramienta adecuada para el trabajo" sigue siendo una frase válida aquí y en cualquier otro lugar.

Dicho esto, parte del motivo detrás del atractivo del grafo es que, en muchos casos, es una forma natural de modelar el mundo. ¿Más natural que el viejo modelo relacional? Para ciertos dominios y casos de uso, cuando los datos que está almacenando están intrínsecamente vinculados por su naturaleza, sí. Por un lado, ciertamente se siente más fácil y funciona mejor para consultar una base de datos de grafos que relacional para casos de uso que involucran muchos saltos.



En los conjuntos de datos conectados, como los de los dominios sociales, por ejemplo, el grafo tiene mucho sentido. Imagen: Amazon

Tener que pasar por una serie de uniones en el álgebra relacional para hacer cosas como encontrar amigos de amigos de amigos es engorroso para escribir y mantener y degrada el rendimiento. Un modelo de grafo y un lenguaje de consulta pueden ser más naturales y eficientes, pero la palabra clave allí es "puede". No todo lo que parece un grafo es, de hecho, un grafo, y no todos los grafos vienen con las mismas facilidades de consulta.

Para citar a Tony Baer: "Siempre consideré que el grafo era más adecuada para ser incluida bajo el capó porque era una nueva y extraña base de datos sin estándares de facto ni de otro tipo. Pero estoy empezando a cambiar mi tono: todos los principales proveedores de plataformas de datos ahora tienen ya sea una base de datos de grafos o API / motor ". Esto resalta dos puntos importantes: la diferencia entre un grafo nativo y un API de grafo, y la falta de estándares.

Convertirse en nativo

Diferentes personas usarán diferentes definiciones de motores y API, pero al final todo se trata de estructuras de datos. Si su base de datos se basa en estructuras de datos que no encajan de manera natural en un grafo y no cuenta con la indexación correcta, entonces, aunque sus consultas sean más fáciles de escribir utilizando una API de grafos, su rendimiento solo puede ser tan bueno como tu base de datos.

Para dar un ejemplo del mundo de Microsoft, citando a Andrew Brust: "Las capacidades de procesamiento de grafos en SQL Server 2017 son claramente una capa de abstracción y no nativa. Aunque los tipos de tablas de nodo y borde son reales. ¿Pero qué pasa con Cosmos DB? solo un modo de operación, pero aún lo consideraría nativo ".

Este criterio es importante, pero no el único, y dar sentido a un mercado incipiente que descompensa todo no es algo que se pueda hacer en el contexto de un artículo. Puede esperar un trabajo más extenso de esto en un futuro cercano, pero si todavía desea una versión de 10 minutos del Paisaje de base de datos de grafos, puede ver la escrita por Yu Xu, CEO de TigerGraph, además de nuestra cobertura anterior.

TigerGraph es una de las bases de datos de grafos que cubrimos en 2017, junto con AllegroGraph, GraphDB y Neo4j. GraphDB y Neo4j también figuran entre las bases de datos de grafos que oficialmente se ofrecen en AWS, aunque eso no significa que no se puedan implementar otras bases de datos de grafos en AWS.

Ese es el escenario habitual de cooperación que los proveedores y vendedores de la nube han aprendido a vivir, aunque en este caso complicado puede ser más complicado de lo habitual.

Las otras 2 bases de datos de grafos que reciben el visto bueno oficial de AWS son JanusGraph y OrientDB. JanusGraph solía ser Titan, y después de que la empresa matriz de Titan, Aurelius, fuera adquirida por DataStax Titan, se bifurcó como JanusGraph y ahora cuenta con el respaldo de IBM, también proveedor de la nube. OrientDB también fue adquirido recientemente por el proveedor de software empresarial CallidusCloud.

Desempacando AWS Neptune

En cuanto a AWS Neptune (aún en versión beta privada), aunque no esperamos ver demasiada información en términos de funcionamiento interno, podemos notar un par de cosas.

Como Tony Baer escribió recientemente, el almacenamiento en la nube se convierte en el lago de almacenamiento de facto. En AWS, las personas usan S3, y hasta ahora tienen instalaciones de consulta SQL para ello. ¿Podría AWS haber construido Neptune directamente en S3, y eso tendría sentido?

Realmente no lo sabemos, pero probablemente no. AWS habla de la capacidad de realizar copias de seguridad continuas de Neptune a S3, lo cual es bastante revelador. Si S3 era el almacenamiento utilizado para Neptune, las copias de seguridad S3 no tendrían sentido ya que los datos ya estarían en S3, y todo lo que se necesitaría sería habilitar la replicación. Pero hay otra pista allí.

AWS está vendiendo la opción de usar JanusGraph con Amazon DynamoDB como su back-end de almacenamiento. DynamoDB es una base de datos clave-valor, y una metáfora y estructura de clave-valor, se presta bien para graficar. De hecho, es lo que Titan y ahora JanusGraph están utilizando como una tienda de back-end para sus grafos, por lo que tiene sentido para AWS haber construido Neptune en DynamoDB.

Para volver al grafo del colaborador de Big on Data y citar a Andrew Brust, "en el mundo de la base de datos, todo se reduce a pares clave-valor. Por lo tanto, si tienes una base de datos como construcción central, tienes el potencial de hacer casi cualquier cosa que desee. Aunque, de fábrica, es posible que no pueda hacer mucho ".

Entonces, ¿podría ser que AWS Neptune realmente es una capa elaborada sobre DynamoDB que agrega una metáfora gráfica y una API a una tienda clave de valor subyacente? Eso puede sonar demasiado simplificador, pero parece plausible.



Hacer que las bases de datos de grafos escalen significa ir distribuidas, y hay muchos problemas allí. Imagen: ArangoDB

Se podría argumentar que Titan y sus descendientes, JanusGraph y DSE Graph, son de naturaleza similar, y AWS hace hincapié en cómo la arquitectura enchufable de Titan hace que sea fácil comenzar a usar DynamoDB sin cambiar las aplicaciones. ¿Pero qué tan eficiente es eso?

Realmente no tenemos indicadores del rendimiento de AWS Neptune en este momento, aunque como cabría esperar, AWS se muestra lírico al respecto y otros proveedores señalan rápidamente todos los detalles de hacer que los grafos distribuidos funcionen y que AWS podría equivocarse.

Sin embargo, el hecho es que AWS no está realmente en el negocio de equivocarse, y su gran gravedad lo convierte en una fuerza a tener en cuenta. Esto es lo que dice el CEO de Neo4j, la base de datos de grafos líder en adopción de mercado actualmente. Otros vendedores de grafos también están reconociendo el hecho de que su mercado parece que va a crecer de manera significativa, y preparándose para luchar frente a una mayor competencia.

Estándares, muchos o ninguno

Sin embargo, lo que sí sabemos sobre AWS Neptune, que nos lleva al segundo punto importante (estándares) es este: Neptune admite los populares lenguajes de consulta de grafos Apache TinkerPop Gremlin y SPARQL de W3C, lo que permite a los usuarios crear fácilmente consultas que navegan de manera eficiente altamente conectadas conjuntos de datos.

En un mundo que parece carecer del equivalente de lo que SQL es en el mundo relacional, un estándar de facto para las consultas, esto es bastante importante. Significa que Neptune ofrece la máxima flexibilidad para sus usuarios, y es una acción inteligente y pragmática de AWS.

En el grafo, existen modelos de competencia y lenguajes de consulta, y la posibilidad de consultar Neptune utilizando dos de los más populares amplía la base de usuarios potenciales y los casos de uso de Neptune. AWS no está solo en esto, pero ser elocuente y facilitar su uso podría marcar la diferencia.

Ya hemos cubierto SPARQL y algunas de las cosas para las que se puede usar. En la siguiente parte de esta mini serie en grafo, nos centraremos en Apache TinkerPop, su lenguaje de consulta llamado Gremlin, sus características y el papel que puede desempeñar en el mundo de las bases de datos de grafos y más allá.

sábado, 6 de enero de 2018

Comparación de software para redes de gran escala

Volumen 2017 (2017), ID del artículo 1278932, 8 páginas
Artículo de revisión

Comparación empírica de herramientas de visualización para análisis de red a mayor escala

Georgios A. Pavlopoulos, 1 David Paez-Espino, 1 Nikos C. Kyrpides, 1 e Ioannis Iliopoulos2
1 Departamento de Energía, Joint Genome Institute, Lawrence Berkeley Labs, 2800 Mitchell Drive, Walnut Creek, CA 94598, EE. UU.
2 División de Ciencias Básicas, Escuela de Medicina de la Universidad de Creta, Calle Andrea Kalokerinou, Heraklion, Grecia

La correspondencia debe dirigirse a Georgios A. Pavlopoulos y Ioannis Iliopoulos

Recibido el 22 de febrero de 2017; Revisado el 14 de mayo de 2017; Aceptado el 4 de junio de 2017; Publicado el 18 de julio de 2017

Editor académico: Klaus Jung

Copyright © 2017 Georgios A. Pavlopoulos y otros Este es un artículo de acceso abierto distribuido bajo la Creative Commons Attribution License, que permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que el trabajo original esté debidamente citado.

Resumen
La expresión génica, la transducción de señales, las interacciones proteína / química, las coocurrencias de literatura biomédica y otros conceptos a menudo se capturan en representaciones de redes biológicas donde los nodos representan una cierta bioentidad y limitan las conexiones entre ellos. Si bien ya existen muchas herramientas para manipular, visualizar e interactivamente explorar tales redes, solo algunas de ellas pueden escalar y seguir el crecimiento de información indiscutible de hoy. En esta revisión, enumeramos en breve un catálogo de herramientas de visualización de red disponibles y, desde el punto de vista de la experiencia del usuario, identificamos cuatro herramientas candidatas adecuadas para el análisis, la visualización y la exploración de redes a gran escala. Comentamos sus puntos fuertes y sus puntos débiles y discutimos empíricamente su escalabilidad, facilidad de uso y capacidades de visualización posterior.


1. Antecedentes

La salud y las ciencias naturales se han convertido en protagonistas en el mundo de los grandes datos, ya que los avances de alto rendimiento contribuyen continuamente al crecimiento exponencial de los volúmenes de datos. Hoy en día, los repositorios biológicos se expanden todos los días al alojar diversas entidades como proteínas, genes, fármacos, productos químicos, ontologías, funciones, artículos y las interacciones entre ellos, lo que a menudo conduce a redes a gran escala de miles o incluso millones de nodos y conexiones. Como tales redes se caracterizan por diferentes propiedades y topologías, la teoría de grafos juega un papel muy importante al proporcionar formas de almacenarlas, analizarlas y visualizarlas de manera eficiente [1-5].

La visualización y exploración de redes biológicas a tal escala es una tarea desafiante desde el punto de vista computacional y muchos esfuerzos en esta dirección han fallado a lo largo de los años. Los artículos de revisión recientes [3, 4, 6] discuten los desafíos en el campo de visualización de datos biológicos y enumeran un catálogo de herramientas de visualización independientes y basadas en la web, así como los conceptos visuales para los que se implementan. Si bien estos recursos son valiosos para capturar el panorama general en el campo, tener una idea de las herramientas disponibles y detectar las fortalezas y debilidades de una herramienta de interés de un vistazo, no fue obvia la retroalimentación empírica sobre la escalabilidad de las herramientas.

Para mencionar en breve las herramientas representativas en el campo, aplicaciones 2D independientes como graphVizdb [7], Ondex [8], Proviz [9], VizANT [10], GUESS [11], UCINET [12], MAPMAN [13], PATIKA [ 14], Medusa [15], o Osprey [16], así como las herramientas de visualización 3D como Arena3D [17, 18] y BioLayout Express [19] ya existen. Cada uno de ellos está diseñado para servir a un propósito diferente. Por ejemplo, Ondex se implementa para recopilar y administrar datos de conjuntos de datos heterogéneos y diversos, Proviz se dedica a manejar conjuntos de datos de interacción proteína-proteína, VizANT se enfoca en redes metabólicas y ecosistemas, Medusa puede mostrar redes semánticas y conexiones multielaboradas, GUESS soporta dinámica y datos sensibles al tiempo, Osprey se implementa para anotar redes biológicas, Arena3D apunta a gráficos de varias capas, y BioLayout Express está diseñado para visualizaciones genéricas de redes 3D avanzadas.

A pesar del hecho de que tales herramientas son ampliamente utilizadas y tienen un gran potencial para un mayor desarrollo, según nuestra experiencia, no se recomiendan para el análisis de redes a gran escala en sus versiones actuales. La aplicación de Windows UCINET podría ser utilizada solo con fines de visualización. Su tamaño de red máximo absoluto es de aproximadamente 2 millones de nodos pero, en la práctica, la mayoría de sus procedimientos son demasiado lentos para ejecutar redes de más de 5.000 nodos.

Entre varias herramientas existentes que probamos, encontramos Cytoscape (v3.5.1) [20], Tulip (v4.10.0) [21], Gephi (v0.9.1) [22] y Pajek (v5.01) [23, 24] aplicaciones independientes para ser los cuatro principales candidatos para la visualización, manipulación, exploración y análisis de redes muy grandes. Para estas cuatro herramientas, evaluamos empíricamente sus pros y sus contras, comentamos su escalabilidad, facilidad de uso, velocidad de diseño, análisis ofrecidos, perfil, eficiencia de la memoria y estilos visuales, y proporcionamos sugerencias y consejos sobre cuáles de sus características pueden escalar y cuál de ellos es mejor evitar.

Para mostrar una visualización representativa generada por estas cuatro herramientas, construimos un gráfico que consta de 202,424 nodos y 354,468 bordes que muestran la distribución del hábitat de 202,417 familias de proteínas en 7 hábitats. Los datos se recogieron del sistema de análisis de datos comparativos de genoma integrado y metagenoma IMG [25], mientras que las familias de proteínas se originaron solo en metagenomas públicos.

Un protocolo paso a paso que describe cómo se generaron estas imágenes se presenta como material complementario, disponible en línea en https://doi.org/10.1155/2017/1278932. Los comentarios sobre los problemas que ocurrieron durante nuestro análisis, así como los inconvenientes y fortalezas de las herramientas de visualización utilizadas a los fines de esta revisión, se discuten ampliamente.

2. Los cuatro candidatos principales para la visualización en red a gran escala

2.1. Gephi (Versión 0.9.1)

Gephi es un software gratuito de código abierto de visualización y exploración para todo tipo de redes y se ejecuta en Windows, Mac OS X y Linux. Es nuestra principal preferencia, ya que es altamente interactivo y los usuarios pueden editar fácilmente las formas y colores de nodo / borde para revelar patrones ocultos. El objetivo de las herramientas es ayudar a los usuarios en el descubrimiento de patrones y la creación de hipótesis a través de un filtrado dinámico eficiente y rutinas de visualización iterativa. Como herramienta genérica, es aplicable al análisis de datos exploratorios, análisis de enlaces, análisis de redes sociales, análisis de redes biológicas y creación de carteles.

2.1.1. Escalabilidad

Gephi viene con un motor de renderizado muy rápido y estructuras de datos sofisticadas para el manejo de objetos, lo que lo convierte en una de las herramientas más adecuadas para la visualización de redes a gran escala. Ofrece visualizaciones muy atractivas y, en una computadora típica, puede renderizar fácilmente redes de hasta 300,000 nodos y 1,000,000 de bordes. En comparación con otras herramientas, viene con un esquema de subprocesos múltiples muy eficiente, y por lo tanto los usuarios pueden realizar múltiples análisis simultáneamente sin sufrir problemas de "congelación" del panel.

2.1.2. Diseños

En el análisis de redes a gran escala, el diseño rápido es un cuello de botella ya que la mayoría de los algoritmos de diseño sofisticados se vuelven codiciosos en CPU y memoria al requerir que se complete el tiempo de ejecución prolongado. Mientras que Gephi viene con una gran variedad de algoritmos de diseño, los algoritmos dirigidos por la fuerza OpenOrd [26] y Yifan-Hu [27] se recomiendan principalmente para visualización de red a gran escala. OpenOrd, por ejemplo, puede escalar hasta más de un millón de nodos en menos de media hora, mientras que Yifan-Hu es una opción ideal para aplicar después del diseño de OpenOrd. Notablemente, la disposición de Yifan-Hu puede dar visiones estéticamente comparables a las producidas por Fruchterman y Reingold, ampliamente utilizados pero conservadores y que consumen mucho tiempo [28]. Otros algoritmos ofrecidos por Gephi son circular, contracción, círculo dual, aleatorio, MDS, Geo, isométrico, GraphViz y Force atlas. Si bien la mayoría de ellos se puede ejecutar en un tiempo de ejecución asequible, la combinación de OpenOrd y Yifan-Hu parece dar las visualizaciones más atractivas. La visualización de descenso también se ofrece mediante el algoritmo de diseño OpenOrd si un usuario detiene el proceso cuando ~ 50-60% del progreso se ha completado. Por supuesto, la parametrización eficiente de cualquier algoritmo de diseño elegido afectará tanto el tiempo de ejecución como el resultado visual.

2.1.3. Análisis posterior a la visualización

Edge-bundling y famosos algoritmos de clustering como el MCL [29] no vienen por defecto con Gephi, pero pueden descargarse de la biblioteca de plugins de Gephi (~ 100 complementos). Además, el plugin GeoLayout Gephi es muy adecuado para trazar una red con información geográfica. Al llegar a la visualización de red dinámica, Gephi es la vanguardia de la innovación con análisis de gráficos dinámicos. Los usuarios pueden visualizar cómo una red evoluciona con el tiempo al manipular su línea de tiempo incorporada. Si bien la visualización de una red a lo largo del tiempo es algo muy útil, sus algoritmos actuales no son adecuados para redes de gran escala. De manera similar, para redes de gran escala, es muy recomendable que los usuarios apliquen algoritmos de agrupamiento utilizando aplicaciones de línea de comando externas y luego importen los resultados de agrupamiento a una herramienta de visualización.

Para estudiar la topología de una red, Gephi viene con un perfilador de red muy básico pero de alta calidad que muestra estadísticas básicas sobre la red, como el número de nodos, el número de aristas, su densidad, su coeficiente de agrupación y otras métricas. Los atributos de nodo calculados automáticamente, como la conectividad de nodo, el coeficiente de agrupación, la centralidad de intersección o el peso del borde, son tareas triviales y no requieren demasiado tiempo para calcularse.

2.1.4. Edición

Gephi es altamente interactivo y proporciona accesos directos inteligentes para resaltar comunidades, y se ofrecen recorridos más cortos o distancias relativas de cualquier nodo a un nodo de interés. Además, los usuarios pueden ajustar fácilmente o filtrar interactivamente las formas y colores de los bordes y nodos de la red de acuerdo con sus atributos para revelar patrones ocultos. El objetivo de esta revisión no es el de tutorizar cómo utilizar dichas aplicaciones, ya que se puede encontrar en las páginas de ayuda relevantes de la herramienta. Aunque Gephi es una gran opción para la visualización de redes a gran escala, la importación manual de redes, el manejo de múltiples redes y la edición manual de nodos / bordes / etiquetas puede ser complicado ya que muchas opciones están ocultas en la interfaz de usuario de Gephi o soportadas por complementos específicos.

2.1.5. Formatos de archivo

Gephi puede cargar redes en GEXF, GDF, GML, GraphML, Pajek (NET), GraphViz (DOT), CSV, UCINET (DL), Tulip (TPL), Netdraw (VNA) y hojas de cálculo de Excel. Del mismo modo, Gephi puede exportar redes en archivos JSON, CSV, Pajek (NET), GUESS (GDF), Gephi (GEFX), GML y GraphML [30]. La forma más fácil de hablar con Cytoscape es a través de los formatos GraphML, con Tulip a través de archivos GEFX y con Pajek a través de archivos NET. Desafortunadamente, en su versión actual, falla la comunicación con otras herramientas a través de otros formatos de archivo comunes como JSON.

2.1.6. Disponibilidad

Independientemente de su documentación muy limitada, Gephi es una gran herramienta de visualización de redes en 2D, genérica y no dedicada a la biología. Principalmente hace hincapié en el procesamiento rápido y sin problemas, el diseño rápido, el filtrado eficiente y la exploración interactiva de datos, y creemos que sigue siendo una de las mejores opciones para la visualización genérica de redes a gran escala. Un ejemplo de red visualizado por Gephi se muestra en la Figura 1. Gephi está disponible en: https://gephi.org/.


Figura 1: Gephi visualización de una red que consta de 202,424 nodos y 354,468 bordes que muestra la distribución de 202,417 familias de proteínas en 7 hábitats. Se usó una combinación de OpenOrd y el algoritmo de disposición de Yifan-Hu force-directed para calcular las coordenadas del nodo. Cada hábitat y sus bordes adyacentes tienen un color único. Una guía paso a paso con respecto a los métodos y la parametrización que se utilizaron se describe ampliamente en el archivo suplementario.


2.2. Tulip (Versión 4.10.0)

Tulip es una de las herramientas de visualización de red más fáciles de usar y una opción decente para la visualización de redes de mayor escala. Debido a su simplicidad, es muy recomendable para personas inexpertas, ya que viene con una interfaz fácil de usar. Está escrito en C ++ y permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones específicas de dominio. Comparado con otras herramientas, ofrece visualizaciones muy atractivas, especialmente después de habilitar su gran algoritmo de agrupamiento de bordes.

2.2.1. Escalabilidad

En su versión actual, es capaz de visualizar miles de nodos con cientos de miles de bordes en una computadora promedio y pretende convertirse en un gran mediador entre el análisis de gráficos y la visualización. Si bien Tulip es una de las principales preferencias para redes de mediana escala, según nuestra experiencia, no es tan escalable como Gephi.

2.2.2. Diseños

Su gran variedad de algoritmos de diseño lo convierte en una de las mejores opciones para el diseño gráfico. Por el momento, admite algoritmos simples (circulares, aleatorios), dirigidos a la fuerza (es decir, Fruchterman y Reingold [28], Kamada y Kawai [31]), jerárquicos, multinivel, planos y arborescentes, la mayoría de ellos optimizados y implementado dentro del Marco de Dibujo Gráfico Abierto (OGDF) [32]. A diferencia de los algoritmos de diseño dirigidos por fuerza, más conservadores, el Diseño multipolar rápido multinivel es muy recomendable para redes de gran escala. Si bien sus diseños son de gran calidad, para ahorrar tiempo, es muy recomendable la estrategia de calcular primero el diseño de los nodos con Gephi o Pajek y luego importarlo a Tulip.

2.2.3. Análisis posterior a la visualización

Al tratar de cerrar la brecha entre el análisis y la visualización, Tulip viene con un amplio conjunto de algoritmos de análisis de topología de red y clústeres. Entre otros, Tulip actualmente implementa la codiciosa pero ampliamente codiciada Markov Clustering (MCL) [29] codiciosa, así como la veloz y eficiente memoria de Louvain Clustering [33] para gráficos no ponderados. Además, Tulip incorpora varios algoritmos tradicionales para la exploración de redes, como algoritmos, para encontrar componentes o algoritmos biconnectados o fuertemente conectados dedicados a buscar árboles o bucles de expansión. Al igual que antes, para el análisis de redes a gran escala, se recomienda ejecutar algoritmos de agrupación externamente.

Además, Tulip viene con una interfaz muy simple para hacer preguntas topológicas. La descomposición de K-core de un gráfico, centralidad de excentricidad, grado, rango de página y centralidad de intersección son algunas de las opciones ofrecidas y el tamaño o color de los nodos se puede ajustar de acuerdo con una característica topológica seleccionada.

2.2.4. Edición

Si bien Tulip no incluye una gran variedad de combinaciones de colores predefinidas, los usuarios pueden cambiar manualmente el color, el tamaño y la forma de cualquier nodo, etiqueta o borde y guardar y volver a cargar el estado de una red. Desafortunadamente, puede procesar una red por sesión y los usuarios deben tener cuidado ya que a veces la visualización y los paneles de edición no se coordinan. Desafortunadamente, las tareas simples como la selección interactiva de los bordes de entrada / salida de un nodo directamente desde la visualización pueden llevar una cantidad significativa de tiempo.

2.2.5. Agrupamiento de enlaces

Si bien el renderizador de Tulip no alcanza la resolución de Gephi o Cytoscape, viene con uno de los algoritmos de agrupamiento de enlaces más atractivos. Desafortunadamente, para el análisis de redes a gran escala, su algoritmo de agrupamiento de bordes a menudo puede convertirse en memoria y CPU codicioso, por lo que los usuarios deben ser pacientes. Finalmente, guardar el estado de una vista agrupada en comparación con una vista desagregada puede llevar a requisitos de almacenamiento significativamente mayores (ver el archivo suplementario para ver ejemplos).

2.2.6. Formatos de archivo

Acepta como entrada archivos delimitados por tabulaciones simples, Pajek, GEFX, GML, GraphViz, JSON, TLPB y UCINET y exporta a formatos TLP, SVG, JSON y GML. La forma más fácil de hablar con Pajek es a través de archivos NET, con Cytoscape a través de archivos GML o GraphML, y con Gephi a través de archivos GEFX. Finalmente, Tulip viene con un generador de gráficos muy poderoso de un tamaño y topología definidos por el usuario.

2.2.7. Disponibilidad

En general, Tulip es una herramienta genérica de visualización en red 2D con una interfaz de usuario que se explica por sí misma y es adecuada para el diseño y análisis de nodos y bordes a gran escala. Un ejemplo de red visualizado por Tulip se muestra en la Figura 2. Tulipán está disponible en: http://tulip.labri.fr/TulipDrupal/.

Figura 2: Visualización de Tulip de la misma red, como en la Figura 1. Los 7 hábitats se resaltan y cambian de tamaño según corresponda. Un ejemplo de la misma red después de aplicar bundling de bordes se presenta en el archivo suplementario. Las coordenadas de los nodos se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

2.3. Cytoscape (Versión 3.5.1)

La aplicación Java de código abierto Cytoscape es la herramienta de visualización en red 2D más utilizada en biología y ciencias de la salud. Es compatible con todo tipo de redes (p. Ej., Ponderado no ponderado, bipartito, dirigido, no dirigido y multienlace) y viene con una enorme biblioteca de complementos adicionales (> 250). Inicialmente se implementó para analizar redes de interacción molecular y vías biológicas y apuntaba a integrar estas redes con anotaciones, perfiles de expresión génica y otros datos de estado. Aunque Cytoscape se diseñó originalmente para la investigación biorelacionada, ahora sirve como una plataforma genérica para el análisis y la visualización de redes complejas al proporcionar un conjunto básico de características para la integración, el análisis y la visualización de datos.

2.3.1. Escalabilidad

Las implementaciones de Cytoscape posteriores a la versión 3.0.0 vienen con enormes mejoras en la representación, lo que permite a Cytoscape visualizar grandes redes de cientos de miles de nodos y bordes. A pesar de estas mejoras, Cytoscape no ocupa el primer lugar para el análisis de redes a gran escala, ya que no puede escalar significativamente cuando se trata de análisis. A menudo, las rutinas de agrupamiento y distribución de Cytoscape requieren una gran cantidad de memoria y tiempo. Por lo tanto, para el análisis de redes a gran escala, se sugiere ejecutar dichos procesos en línea de comando fuera de la plataforma Cytoscape y cargar los resultados como atributos de nodo / borde (grupos en el caso de clustering o coordenadas en el caso de un diseño). Además, Cytoscape está sujeto a las limitaciones de memoria y tiempo de ejecución de Java ya que la mayoría de sus rutinas se implementan en Java.

2.3.2. Diseños

Al igual que otras herramientas, viene con una gran variedad de algoritmos de diseño simples (cuadriculados, aleatorios y circulares) o más sofisticados (dirigidos por fuerza, jerárquicos). En particular, para el análisis de redes a gran escala, los usuarios deben tener cuidado y cambiar el algoritmo de diseño predeterminado antes de crear una vista. Se recomienda una cuadrícula simple o un diseño circular simple ya que los diseños dirigidos por fuerza de Cytoscape son codiciosos y la CPU puede "colgar". Otra alternativa podría ser OpenCL, uno de los algoritmos de diseños más rápidos en Cytoscape. Después de la versión 3.2.0, la versión basada en OpenCL se incorpora como una aplicación básica. Este diseño es hasta 100 veces más rápido que el diseño estándar de Prefuse y depende de la aplicación central de CyCL para el soporte de OpenCL. Sin embargo, calcular un primer diseño con Gephi o Pajek y luego importar sus resultados en Cytoscape puede ahorrar tiempo.

2.3.3. Análisis posterior a la visualización

Cytoscape es la herramienta más exitosa para cerrar la brecha entre el análisis y la visualización, y viene con una gran cantidad de algoritmos de diseño, clustering y análisis de redes topológicas. ClusterMaker plugin [34], por ejemplo, incluye algoritmos de clúster de atributos como AutoSOME Clustering [35] y Eisen's hierarchical y -Means clustering [36] así como algoritmos de agrupamiento basados ​​en topología como propagación de afinidad [37], agrupamiento de comunidades (GLay ) [38], MCODE [39], MCL, SCPS (Agrupación espectral de secuencias de proteínas) [40], y clústeres de transitividad [41]. La mayoría de los resultados de la agrupación se pueden visualizar como una red recién construida que conserva los bordes originales o como un mapa de calor. Al igual que antes, para el análisis de redes a gran escala, se anima a los usuarios a ejecutar dichos algoritmos externamente.

Además, Cytoscape incorpora uno de los perfiladores de red más avanzados para explorar las características topológicas de la red. Los usuarios pueden ver estadísticas simples como la conectividad promedio, la centralidad de intermediación, el coeficiente de agrupamiento y otros. Si bien estos cálculos son triviales para redes de gran escala, trazar una característica topológica contra cualquier otro podría ser lento.

Finalmente, las últimas versiones de Cytoscape incorporan un algoritmo de agrupamiento de bordes bastante útil pero lento y con memoria ineficiente, no recomendado para análisis a gran escala.

2.3.4. Edición

Cytoscape es un protagonista en la oferta de estilos visuales y combinaciones de colores predefinidos para crear visualizaciones de alta calidad y belleza estética. Sus capacidades de acercamiento y barrido son muy avanzadas y el visor satelital de Cytoscape hace que sea muy fácil para los usuarios navegar y orientarse cuando la red se dibuja fuera del lienzo principal, algo que no es trivial con Gephi. Finalmente, la elección de nodos y bordes adyacentes desde la interfaz de usuario es muy receptiva.

2.3.5. Formatos de archivo

Cytoscape acepta muchos formatos de archivos de entrada diferentes, como su propio formato CYS, delimitado por tabuladores, formato de archivo de interacción simple (SIF), formato de red anidado (NNF), lenguaje de marcado de gráficos (GML), lenguaje de marcado y lenguaje de modelado extensible (XGMML), SBML [42], BioPAX [43], PSI-MI [44], GraphML, excel libros de trabajo (.xls, .xlsx) y JSON. La forma más fácil de hablar con Tulip y Gephi es a través de un formato GML.

2.3.6. Disponibilidad

En general, Cytoscape es la mejor herramienta de visualización hoy en día para el análisis de redes biológicas. A pesar de su facilidad de uso, su rica documentación y la tremenda mejora de su interfaz de usuario después de la versión 3.0, la familiaridad con la herramienta y sus complementos disponibles aún requiere una curva de aprendizaje para tareas más avanzadas. Cytoscape store actualmente alberga más de 250 complementos, diseñados específicamente para abordar y automatizar complicados análisis biológicos. Complementos para el enriquecimiento funcional, anotaciones de Gene Ontology [45], mapeo de nombres de genes, integración con repositorios públicos biológicos, recuperación eficiente de datos en línea, análisis de rutas, comparaciones de redes directas, expresión diferencial y análisis estadístico hacen que Cytoscape sea único en su género y por eso hoy actualmente es y se espera que siga siendo el jugador número uno para el análisis de redes biológicas. Una red visualizada por Cytoscape se muestra en la Figura 3. Cytoscape está disponible en http://www.cytoscape.org/.


Figura 3: visualización de Cytoscape de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Los 7 hábitats están coloreados en consecuencia. Como en la Figura 2, las coordenadas se calcularon usando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

Finalmente, CytoscapeWeb [46] y Cytoscape.js son proyectos separados. Son dos esfuerzos muy fuertes que apuntan a incorporar las principales funcionalidades visuales de Cytoscape en aplicaciones basadas en navegador, algo que, por supuesto, no es adecuado para el análisis de redes a gran escala. Los usuarios pueden usar Cytoscape y exportar las redes en formato JSON para Cytoscape.js.

2.4. Pajek (Versión 5.01)

Pajek es una herramienta de visualización de redes genérica, con más de 20 años de antigüedad, basada en Microsoft Windows, inicialmente implementada para el análisis de redes sociales, pero una aplicación muy poderosa para el análisis y la visualización de redes masivas.

2.4.1. Escalabilidad

Pajek puede visualizar fácilmente millones de nodos con mil millones de conexiones en una computadora promedio superando a cualquier otra herramienta disponible en el campo. Pajek-XXL es una implementación especial de Pajek con énfasis en el análisis de redes a gran escala. Necesita al menos 2-3 veces menos memoria física que Pajek y la mayoría de las operaciones intensivas de memoria de Pajek están optimizadas para ser mucho más rápidas. La filosofía principal de Pajek-XXL es extraer partes más pequeñas pero más interesantes e informativas de una red más grande que se puede analizar y visualizar con más herramientas avanzadas. El mayor número posible de vértices que Pajek64-XXL puede manejar se ha aumentado a 2 mil millones, en cuanto al Pajek común, el límite es de 100 millones. Pajek-XXL usa enteros de 32 bits (4 bytes) para números de vértices. Por lo tanto, la mayor cantidad de vértices que Pajek-XXL puede manejar se establece en dos mil millones. Si la red contiene más vértices, se debe usar Pajek-3XL. Pajek-3XL utiliza enteros de 64 bits (8 bytes) para números de vértices. La mayor cantidad de vértices que puede manejar Pajek-3XL actualmente se establece en 10 mil millones, pero puede incrementarse fácilmente. En particular, el espacio necesario para almacenar una red en Pajek-3XL y Pajek-XXL es exactamente el mismo.

2.4.2. Diseños

Diseño de gráficos, fusión de nodos, detección de vecindarios, identificación de componentes fuertemente conectados, búsqueda de clics, manipulación de gráficos bipartitos, búsqueda de rutas más cortas o flujos máximos, agrupamiento (es decir, Louvain) y centralidades informáticas de vértices y centralizaciones de redes como grado , la cercanía, la proximidad, los centros y las autoridades, los coeficientes de agrupamiento y la centralidad laplaciana son algunas de las capacidades de Pajek. En particular, Pajek es eficiente en cuanto a la memoria y muy adecuado para una rápida multiplicación de red dispersa.

2.4.3. Formato de archivo

Pajek acepta formatos de entrada de archivos muy estrictos. La forma más fácil de hablar con Tulip y Gephi es a través de un archivo .net

La interfaz de usuario de Pajek es simple, fácil de familiarizar y muy receptiva cuando se trata de análisis de redes masivas. Nunca se pensó en ser el visualizador más avanzado, pero ofrece tremendas metodologías de análisis de gráficos, lo que lo convierte en un gran candidato para el análisis de redes masivas y un gran complemento de las herramientas existentes. Un ejemplo de red visualizado por Pajek se muestra en la Figura 4. Pajek se puede encontrar en http://mrvar.fdv.uni-lj.si/pajek/.

Figura 4: Visualización básica de Pajek de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Al igual que en las Figuras 2 y 3, las coordenadas se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi. Notablemente para una red masiva, se recomienda encarecidamente usar primero el diseño de Pajek.


3. Discusión

A pesar de la gran cantidad de herramientas de visualización de red disponibles, debido al continuo aumento del volumen de datos en las ciencias de la salud, la visualización y la manipulación de redes a gran escala con millones de nodos y bordes siguen siendo un cuello de botella. Mientras que las bibliotecas no interactivas como el Stanford Network Analysis Project (SNAP) [47], se prefieren el Large Graph Layout (LGL) [48], NetworkX [49] o el GraphViz [50] para cálculos de back-end y static a gran escala. visualizaciones y visualizaciones de red alternativas como las ofrecidas por los Circos [51], HivePlots [52], o BioFabric [53] pueden resolver parcialmente el efecto bola de pelo, la implementación de herramientas interactivas fáciles de usar para manejar y visualizar gráficos tan grandes aún sigue siendo una tarea muy complicada. Por lo tanto, para los fines de este artículo de revisión, probamos varias aplicaciones independientes disponibles y concluimos que Pajek, Tulip Gephi y Cytoscape son los principales candidatos para la visualización y el análisis de redes a gran escala.

En conclusión, si bien Cytoscape es la mejor y la herramienta más preferida para los análisis biológicos, tiene problemas de escalabilidad y memoria y, por lo tanto, no es nuestra mejor opción para la visualización en red a gran escala. Por el contrario, lo clasificamos primero para análisis biológicos ya que está acompañado por una gran plétora de más de 200 complementos. Comparado con Tulip, Gephi y Pajek, tiene la paleta más rica de estilos de color predefinidos, la colección más eficiente de algoritmos de agrupamiento y el mejor perfil de red para la comparación intranet de las características topológicas.

Gephi claramente supera a Cytoscape en términos de escalabilidad y eficiencia de la memoria y, en nuestra opinión, es la mejor herramienta de visualización genérica para diseñar redes de gran escala. Si bien es bastante sencillo de usar, algunas veces las opciones de edición de nodos / bordes están bien escondidas en su interfaz de usuario, por lo que es un poco confuso para el usuario. Por otro lado, Gephi ofrece visualizaciones muy avanzadas al permitir a los usuarios realizar múltiples tareas simultáneamente, algo que no siempre es fácil con Cytoscape o Tulip. En general, clasificamos a Gephi como el primero en lo que respecta al equilibrio entre la visualización en red a gran escala y el análisis básico.

Tulip es nuestra tercera mejor opción para visualización de red a gran escala. Sus mejores características son (i) el diseño de agrupamiento de bordes y (ii) su simplicidad en la edición de colores, etiquetas y atributos del nodo / borde. Tulip es altamente recomendado para principiantes debido a su interfaz de usuario que se explica por sí misma.

Finalmente, Pajek y Pajek-XXL son las herramientas más escalables y altamente recomendadas para visualizaciones básicas de redes masivas con> 10 mil millones de nodos, tamaños de red que Cytoscape, Tulip y Gephi no pueden manejar en sus versiones actuales. Desafortunadamente, la falta de interoperabilidad de los sistemas operativos, así como la falta de flexibilidad de formatos de archivos de entrada y la falta de visualizaciones atractivas, impiden que Pajek sea la mejor herramienta para visualizaciones avanzadas.

Todas las observaciones mencionadas se resumen en la Tabla 1. Aunque pueden variar de un usuario a otro según la experiencia y el estudio de caso, en nuestra opinión, Cytoscape, Tulip, Pajek y Gephi siguen siendo la mejor visualización de red a gran escala y herramientas de análisis en sistemas y biología de redes.
Tabla 1: Evaluación empírica de nuestras cuatro herramientas interactivas de visualización de redes (Cytoscape, Gephi, Tulip y Pajek) para el análisis de redes biológicas a gran escala.

CytoscapeTulipGephiPajek

Escalibilidad
Facilidad de uso
Estilo visual
Manejo de enlaces
Relevancia para la Biología
Eficiencia de memoria
Agrupamiento
Edición manual nodo/enlace
Diseños
Perfiles de red
Formato de archivos
Complementos
Estabilidad
Velocidad
Documentación

 = más débil;  = medio;  = bueno;  = más fuerte.

4. Conclusión

Es injusto y no directo comparar directamente las herramientas de visualización entre sí a medida que se implementan para diferentes propósitos. Sin embargo, a medida que el tamaño de la red biológica aumenta con el tiempo, la combinación de las ventajas complementarias de diferentes herramientas es una buena estrategia. Si bien se han estandarizado varios formatos de archivo para describir la estructura de la red, nuestra experiencia demostró que muchos de ellos no se pueden exportar o importar correctamente en varias herramientas. Además, incluso en los mejores casos donde tal problema de importación / exportación está ausente, a menudo los atributos de nodo y borde no se pueden transferir. Por lo tanto, creemos que una red católica convertida para convertir con precisión un formato de archivo en cualquier otra manteniendo simultáneamente la máxima información sobre los componentes de la red es obligatoria. De esta manera, cambiar entre herramientas y varias visualizaciones será más fácil y más directo.


Referencias

  1. G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos et al., “Using graph theory to analyze biological networks,” BioData Mining, vol. 4, no. 1, article 10, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  2. G. A. Pavlopoulos, D. Malliarakis, N. Papanikolaou, T. Theodosiou, A. J. Enright, and I. Iliopoulos, “Visualizing genome and systems biology: Technologies, tools, implementation techniques and trends, past, present and future,” GigaScience, vol. 4, no. 1, article no. 38, 2015. View at Publisher · View at Google Scholar · View at Scopus
  3. N. Gehlenborg, S. I. O’Donoghue, N. S. Baliga et al., “Visualization of omics data for systems biology,” Nature Methods, vol. 7, no. 3, pp. S56–S68, 2010. View at Publisher · View at Google Scholar · View at Scopus
  4. S. I. O’Donoghue, A.-C. Gavin, N. Gehlenborg et al., “Visualizing biological data—now and in the future,” Nature Methods, vol. 7, no. 3, pp. S2–S4, 2010. View at Publisher · View at Google Scholar · View at Scopus
  5. G. A. Pavlopoulos, E. Iacucci, I. Iliopoulos, and P. Bagos, “Interpreting the Omics 'era' Data,” Smart Innovation, Systems and Technologies, vol. 25, pp. 79–100, 2013. View at Publisher · View at Google Scholar · View at Scopus
  6. G. A. Pavlopoulos, A. L. Wegener, and R. Schneider, “A survey of visualization tools for biological network analysis,” BioData Mining, vol. 1, 12 pages, 2008. View at Google Scholar
  7. N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis, “GraphVizdb: A scalable platform for interactive large graph visualization,” in Proceedings of the 32nd IEEE International Conference on Data Engineering, ICDE 2016, pp. 1342–1345, Helsinki, Finland, May 2016. View at Publisher · View at Google Scholar · View at Scopus
  8. J. Köhler, J. Baumbach, J. Taubert et al., “Graph-based analysis and visualization of experimental results with ONDEX,” Bioinformatics, vol. 22, no. 11, pp. 1383–1390, 2006. View at Publisher · View at Google Scholar · View at Scopus
  9. F. Iragne, M. Nikolski, B. Mathieu, D. Auber, and D. Sherman, “ProViz: Protein interaction visualization and exploration,” Bioinformatics, vol. 21, no. 2, pp. 272–274, 2005. View at Publisher · View at Google Scholar · View at Scopus
  10. Z. Hu, J.-H. Hung, Y. Wang et al., “VisANT 3.5: Multi-scale network visualization, analysis and inference based on the gene ontology,” Nucleic Acids Research, vol. 37, no. 2, pp. W115–W121, 2009. View at Publisher · View at Google Scholar · View at Scopus
  11. E. Adar, “GUESS: a language and interface for graph exploration,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 791–800, Montreal, CA, USA, 2006.
  12. S. P. Borgatti, M. G. Everett, and L. C. Freeman, Ucinet for Windows: Software for Social Network Analysis, Analytic Technologies, Harvard, Mass, USA, 2002.
  13. O. Thimm, O. Bläsing, Y. Gibon et al., “MAPMAN: a user-driven tool to display genomics data sets onto diagrams of metabolic pathways and other biological processes,” Plant Journal, vol. 37, no. 6, pp. 914–939, 2004. View at Publisher · View at Google Scholar · View at Scopus
  14. E. Demir, O. Babur, U. Dogrusoz et al., “PATIKA: An integrated visual environment for collaborative construction and analysis of cellular pathways,” Bioinformatics, vol. 18, no. 7, pp. 996–1003, 2002. View at Publisher · View at Google Scholar · View at Scopus
  15. G. A. Pavlopoulos, S. D. Hooper, A. Sifrim, R. Schneider, and J. Aerts, “Medusa: A tool for exploring and clustering biological networks,” BMC Research Notes, vol. 4, article no. 384, 2011. View at Publisher ·View at Google Scholar · View at Scopus
  16. B. J. Breitkreutz, C. Stark, and M. Tyers, “Osprey: a network visualization system,” Genome Biology, vol. 4, article R22, no. 3, 2003. View at Google Scholar
  17. M. Secrier, G. A. Pavlopoulos, J. Aerts, and R. Schneider, “Arena3D: visualizing time-driven phenotypic differences in biological systems,” BMC Bioinformatics, vol. 13, no. 1, article 45, 2012. View at Publisher ·View at Google Scholar · View at Scopus
  18. G. A. Pavlopoulos, S. I. O'Donoghue, V. P. Satagopam, T. G. Soldatos, E. Pafilis, and R. Schneider, “Arena3D: visualization of biological networks in 3D,” BMC Systems Biology, vol. 2, article 104, 2008.View at Publisher · View at Google Scholar · View at Scopus
  19. A. Theocharidis, S. van Dongen, A. J. Enright, and T. C. Freeman, “Network visualization and analysis of gene expression data using BioLayout Express (3D),” Nature Protocols, vol. 4, no. 10, pp. 1535–1550, 2009. View at Google Scholar
  20. P. Shannon, A. Markiel, O. Ozier et al., “Cytoscape: a software Environment for integrated models of biomolecular interaction networks,” Genome Research, vol. 13, no. 11, pp. 2498–2504, 2003. View at Publisher · View at Google Scholar · View at Scopus
  21. D. Auber, “Tulip —a huge graph visualization framework,” in Graph Drawing Software, M. Jünger and P. Mutzel, Eds., Mathematics and Visualization, pp. 105–126, Springer, Berlin, Germany, 2004. View at Publisher · View at Google Scholar
  22. M. Jacomy, T. Venturini, S. Heymann, and M. Bastian, “ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software,” PLoS ONE, vol. 9, no. 6, Article ID e98679, 2014. View at Publisher · View at Google Scholar · View at Scopus
  23. A. Mrvar and V. Batagelj, “Analysis and visualization of large networks with program package Pajek,” Complex Adaptive Systems Modeling, vol. 4, no. 6, 2016. View at Google Scholar
  24. V. Batagelj and A. Mrvar, “Pajeka— program for large network analysis,” Connections, vol. 21, no. 2, pp. 47–57, 1998. View at Google Scholar
  25. I. A. Chen, V. M. Markowitz, K. Chu et al. et al., “IMG/M: integrated genome and metagenome comparative data analysis system,” Nucleic Acids Research, 2016. View at Google Scholar
  26. S. Martin, W. M. Brown, R. Klavans, and K. W. Boyack, “OpenOrd: An open-source toolbox for large graph layout,” in Proceedings of the Visualization and Data Analysis 2011, San Francisco Airport, Calif, USA, January 2011. View at Publisher · View at Google Scholar · View at Scopus
  27. H. Yifan, “Efficient, high-quality force-directed graph drawing,” The Mathematica Journal, vol. 10, no. 1, 2006. View at Google Scholar
  28. T. M. J. Fruchterman and E. M. Reingold, “Graph drawing by force-directed placement,” Software—Practice and Experience, vol. 21, no. 11, pp. 1129–1164, 1991. View at Publisher · View at Google Scholar· View at Scopus
  29. A. J. Enright, S. Van Dongen, and C. A. Ouzounis, “An efficient algorithm for large-scale detection of protein families,” Nucleic Acids Research, vol. 30, no. 7, pp. 1575–1584, 2002. View at Publisher · View at Google Scholar · View at Scopus
  30. U. Brandes, M. Eiglsperger, J. Lerner, and C. Pich, “Graph markup language (GraphML),” in Handbook of Graph Drawing and Visualization, pp. 517–541, 1999. View at Google Scholar
  31. T. Kamada and S. Kawai, “An algorithm for drawing general undirected graphs,” Information Processing Letters, vol. 31, no. 1, pp. 7–15, 1989. View at Publisher · View at Google Scholar · View at MathSciNet ·View at Scopus
  32. M. Chimani, C. Gutwenger, M. Jünger, G. W. Klau, and K. Klein, The Open Graph Drawing Framework (OGDF), Chapman & Hall, London, UK, 2014.
  33. V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre, “Fast unfolding of communities in large networks,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2008, no. 10, Article ID P10008, 2008. View at Publisher · View at Google Scholar · View at Scopus
  34. J. H. Morris, L. Apeltsin, A. M. Newman et al., “ClusterMaker: a multi-algorithm clustering plugin for Cytoscape,” BMC Bioinformatics, vol. 12, article 436, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  35. A. M. Newman and J. B. Cooper, “AutoSOME: A clustering method for identifying gene expression modules without prior knowledge of cluster number,” BMC Bioinformatics, vol. 11, article no. 117, 2010.View at Publisher · View at Google Scholar · View at Scopus
  36. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, “Cluster analysis and display of genome-wide expression patterns,” Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863–14868, 1998. View at Publisher · View at Google Scholar · View at Scopus
  37. B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” American Association for the Advancement of Science. Science, vol. 315, no. 5814, pp. 972–976, 2007. View at Publisher · View at Google Scholar · View at MathSciNet · View at Scopus
  38. M. E. J. Newman and M. Girvan, “Finding and evaluating community structure in networks,” Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, vol. 69, no. 2, Article ID 026113, pp. 1–26113, 2004. View at Publisher · View at Google Scholar · View at Scopus
  39. G. D. Bader and C. W. Hogue, “An automated method for finding molecular complexes in large protein interaction networks,” BMC Bioinformatics, vol. 4, no. 2, 2003. View at Google Scholar
  40. T. Nepusz, R. Sasidharan, and A. Paccanaro, “SCPS: A fast implementation of a spectral method for detecting protein families on a genome-wide scale,” BMC Bioinformatics, vol. 11, article no. 120, 2010.View at Publisher · View at Google Scholar · View at Scopus
  41. T. Wittkop, D. Emig, S. Lange et al., “Partitioning biological data with transitivity clustering,” Nature Methods, vol. 7, no. 6, pp. 419-420, 2010. View at Publisher · View at Google Scholar · View at Scopus
  42. M. Hucka, A. Finney, H. M. Sauro et al., “The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models,” Bioinformatics, vol. 19, no. 4, pp. 524–531, 2003. View at Publisher · View at Google Scholar · View at Scopus
  43. J. S. Luciano and R. D. Stevens, “E-Science and biological pathway semantics,” BMC Bioinformatics, vol. 8, no. 3, article no. S3, 2007. View at Publisher · View at Google Scholar · View at Scopus
  44. H. Hermjakob, L. Montecchi-Palazzi, G. Bader et al., “The HUPO PSI's Molecular Interaction format—a community standard for the representation of protein interaction data,” Nature Biotechnology, vol. 22, no. 2, pp. 177–183, 2004. View at Publisher · View at Google Scholar · View at Scopus
  45. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology,” Nature Genetics, vol. 25, no. 1, pp. 25–29, 2000. View at Publisher · View at Google Scholar · View at Scopus
  46. C. T. Lopes, M. Franz, F. Kazi, S. L. Donaldson, Q. Morris, and G. D. Bader, “Cytoscape web: An interactive web-based network browser,” Bioinformatics, vol. 26, no. 18, Article ID btq430, pp. 2347-2348, 2010. View at Publisher · View at Google Scholar · View at Scopus
  47. J. Leskovec and R. Sosi, “SNAP: a general-purpose network analysis and graph-mining library,” ACM Transactions on Intelligent Systems and Technology, vol. 8, no. 1, pp. 1–20, 2016. View at Google Scholar
  48. A. T. Adai, S. V. Date, S. Wieland, and E. M. Marcotte, “LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks,” Journal of Molecular Biology, vol. 340, no. 1, pp. 179–190, 2004. View at Publisher · View at Google Scholar · View at Scopus
  49. A. Hagberg, D. Schult, and P. Swart, “Exploring Network Structure, Dynamics, and Function using Network,” in Proceedings of the 7th Python in Science Conference (SciPy 2008), pp. 11–15, 2008.
  50. E. R. Gansner and S. C. North, “An open graph visualization system and its applications to software engineering,” Software—Practice & Experience, vol. 30, no. 11, pp. 1203–1233, 2000. View at Google Scholar
  51. M. Krzywinski, J. Schein, I. Birol et al., “Circos: An information aesthetic for comparative genomics,” Genome Research, vol. 19, no. 9, pp. 1639–1645, 2009. View at Publisher · View at Google Scholar · View at Scopus
  52. M. Krzywinski, I. Birol, S. J. Jones, and M. A. Marra, “Hive plots-rational approach to visualizing networks,” Briefings in Bioinformatics, vol. 13, no. 5, pp. 627–644, 2012. View at Publisher · View at Google Scholar · View at Scopus
  53. W. J. R. Longabaugh, “Combing the hairball with BioFabric: A new approach for visualization of large networks,” BMC Bioinformatics, vol. 13, no. 1, article no. 275, 2012. View at Publisher · View at Google Scholar · View at Scopus