sábado, 6 de enero de 2018

Comparación de software para redes de gran escala

Volumen 2017 (2017), ID del artículo 1278932, 8 páginas
Artículo de revisión

Comparación empírica de herramientas de visualización para análisis de red a mayor escala

Georgios A. Pavlopoulos, 1 David Paez-Espino, 1 Nikos C. Kyrpides, 1 e Ioannis Iliopoulos2
1 Departamento de Energía, Joint Genome Institute, Lawrence Berkeley Labs, 2800 Mitchell Drive, Walnut Creek, CA 94598, EE. UU.
2 División de Ciencias Básicas, Escuela de Medicina de la Universidad de Creta, Calle Andrea Kalokerinou, Heraklion, Grecia

La correspondencia debe dirigirse a Georgios A. Pavlopoulos y Ioannis Iliopoulos

Recibido el 22 de febrero de 2017; Revisado el 14 de mayo de 2017; Aceptado el 4 de junio de 2017; Publicado el 18 de julio de 2017

Editor académico: Klaus Jung

Copyright © 2017 Georgios A. Pavlopoulos y otros Este es un artículo de acceso abierto distribuido bajo la Creative Commons Attribution License, que permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que el trabajo original esté debidamente citado.

Resumen
La expresión génica, la transducción de señales, las interacciones proteína / química, las coocurrencias de literatura biomédica y otros conceptos a menudo se capturan en representaciones de redes biológicas donde los nodos representan una cierta bioentidad y limitan las conexiones entre ellos. Si bien ya existen muchas herramientas para manipular, visualizar e interactivamente explorar tales redes, solo algunas de ellas pueden escalar y seguir el crecimiento de información indiscutible de hoy. En esta revisión, enumeramos en breve un catálogo de herramientas de visualización de red disponibles y, desde el punto de vista de la experiencia del usuario, identificamos cuatro herramientas candidatas adecuadas para el análisis, la visualización y la exploración de redes a gran escala. Comentamos sus puntos fuertes y sus puntos débiles y discutimos empíricamente su escalabilidad, facilidad de uso y capacidades de visualización posterior.


1. Antecedentes

La salud y las ciencias naturales se han convertido en protagonistas en el mundo de los grandes datos, ya que los avances de alto rendimiento contribuyen continuamente al crecimiento exponencial de los volúmenes de datos. Hoy en día, los repositorios biológicos se expanden todos los días al alojar diversas entidades como proteínas, genes, fármacos, productos químicos, ontologías, funciones, artículos y las interacciones entre ellos, lo que a menudo conduce a redes a gran escala de miles o incluso millones de nodos y conexiones. Como tales redes se caracterizan por diferentes propiedades y topologías, la teoría de grafos juega un papel muy importante al proporcionar formas de almacenarlas, analizarlas y visualizarlas de manera eficiente [1-5].

La visualización y exploración de redes biológicas a tal escala es una tarea desafiante desde el punto de vista computacional y muchos esfuerzos en esta dirección han fallado a lo largo de los años. Los artículos de revisión recientes [3, 4, 6] discuten los desafíos en el campo de visualización de datos biológicos y enumeran un catálogo de herramientas de visualización independientes y basadas en la web, así como los conceptos visuales para los que se implementan. Si bien estos recursos son valiosos para capturar el panorama general en el campo, tener una idea de las herramientas disponibles y detectar las fortalezas y debilidades de una herramienta de interés de un vistazo, no fue obvia la retroalimentación empírica sobre la escalabilidad de las herramientas.

Para mencionar en breve las herramientas representativas en el campo, aplicaciones 2D independientes como graphVizdb [7], Ondex [8], Proviz [9], VizANT [10], GUESS [11], UCINET [12], MAPMAN [13], PATIKA [ 14], Medusa [15], o Osprey [16], así como las herramientas de visualización 3D como Arena3D [17, 18] y BioLayout Express [19] ya existen. Cada uno de ellos está diseñado para servir a un propósito diferente. Por ejemplo, Ondex se implementa para recopilar y administrar datos de conjuntos de datos heterogéneos y diversos, Proviz se dedica a manejar conjuntos de datos de interacción proteína-proteína, VizANT se enfoca en redes metabólicas y ecosistemas, Medusa puede mostrar redes semánticas y conexiones multielaboradas, GUESS soporta dinámica y datos sensibles al tiempo, Osprey se implementa para anotar redes biológicas, Arena3D apunta a gráficos de varias capas, y BioLayout Express está diseñado para visualizaciones genéricas de redes 3D avanzadas.

A pesar del hecho de que tales herramientas son ampliamente utilizadas y tienen un gran potencial para un mayor desarrollo, según nuestra experiencia, no se recomiendan para el análisis de redes a gran escala en sus versiones actuales. La aplicación de Windows UCINET podría ser utilizada solo con fines de visualización. Su tamaño de red máximo absoluto es de aproximadamente 2 millones de nodos pero, en la práctica, la mayoría de sus procedimientos son demasiado lentos para ejecutar redes de más de 5.000 nodos.

Entre varias herramientas existentes que probamos, encontramos Cytoscape (v3.5.1) [20], Tulip (v4.10.0) [21], Gephi (v0.9.1) [22] y Pajek (v5.01) [23, 24] aplicaciones independientes para ser los cuatro principales candidatos para la visualización, manipulación, exploración y análisis de redes muy grandes. Para estas cuatro herramientas, evaluamos empíricamente sus pros y sus contras, comentamos su escalabilidad, facilidad de uso, velocidad de diseño, análisis ofrecidos, perfil, eficiencia de la memoria y estilos visuales, y proporcionamos sugerencias y consejos sobre cuáles de sus características pueden escalar y cuál de ellos es mejor evitar.

Para mostrar una visualización representativa generada por estas cuatro herramientas, construimos un gráfico que consta de 202,424 nodos y 354,468 bordes que muestran la distribución del hábitat de 202,417 familias de proteínas en 7 hábitats. Los datos se recogieron del sistema de análisis de datos comparativos de genoma integrado y metagenoma IMG [25], mientras que las familias de proteínas se originaron solo en metagenomas públicos.

Un protocolo paso a paso que describe cómo se generaron estas imágenes se presenta como material complementario, disponible en línea en https://doi.org/10.1155/2017/1278932. Los comentarios sobre los problemas que ocurrieron durante nuestro análisis, así como los inconvenientes y fortalezas de las herramientas de visualización utilizadas a los fines de esta revisión, se discuten ampliamente.

2. Los cuatro candidatos principales para la visualización en red a gran escala

2.1. Gephi (Versión 0.9.1)

Gephi es un software gratuito de código abierto de visualización y exploración para todo tipo de redes y se ejecuta en Windows, Mac OS X y Linux. Es nuestra principal preferencia, ya que es altamente interactivo y los usuarios pueden editar fácilmente las formas y colores de nodo / borde para revelar patrones ocultos. El objetivo de las herramientas es ayudar a los usuarios en el descubrimiento de patrones y la creación de hipótesis a través de un filtrado dinámico eficiente y rutinas de visualización iterativa. Como herramienta genérica, es aplicable al análisis de datos exploratorios, análisis de enlaces, análisis de redes sociales, análisis de redes biológicas y creación de carteles.

2.1.1. Escalabilidad

Gephi viene con un motor de renderizado muy rápido y estructuras de datos sofisticadas para el manejo de objetos, lo que lo convierte en una de las herramientas más adecuadas para la visualización de redes a gran escala. Ofrece visualizaciones muy atractivas y, en una computadora típica, puede renderizar fácilmente redes de hasta 300,000 nodos y 1,000,000 de bordes. En comparación con otras herramientas, viene con un esquema de subprocesos múltiples muy eficiente, y por lo tanto los usuarios pueden realizar múltiples análisis simultáneamente sin sufrir problemas de "congelación" del panel.

2.1.2. Diseños

En el análisis de redes a gran escala, el diseño rápido es un cuello de botella ya que la mayoría de los algoritmos de diseño sofisticados se vuelven codiciosos en CPU y memoria al requerir que se complete el tiempo de ejecución prolongado. Mientras que Gephi viene con una gran variedad de algoritmos de diseño, los algoritmos dirigidos por la fuerza OpenOrd [26] y Yifan-Hu [27] se recomiendan principalmente para visualización de red a gran escala. OpenOrd, por ejemplo, puede escalar hasta más de un millón de nodos en menos de media hora, mientras que Yifan-Hu es una opción ideal para aplicar después del diseño de OpenOrd. Notablemente, la disposición de Yifan-Hu puede dar visiones estéticamente comparables a las producidas por Fruchterman y Reingold, ampliamente utilizados pero conservadores y que consumen mucho tiempo [28]. Otros algoritmos ofrecidos por Gephi son circular, contracción, círculo dual, aleatorio, MDS, Geo, isométrico, GraphViz y Force atlas. Si bien la mayoría de ellos se puede ejecutar en un tiempo de ejecución asequible, la combinación de OpenOrd y Yifan-Hu parece dar las visualizaciones más atractivas. La visualización de descenso también se ofrece mediante el algoritmo de diseño OpenOrd si un usuario detiene el proceso cuando ~ 50-60% del progreso se ha completado. Por supuesto, la parametrización eficiente de cualquier algoritmo de diseño elegido afectará tanto el tiempo de ejecución como el resultado visual.

2.1.3. Análisis posterior a la visualización

Edge-bundling y famosos algoritmos de clustering como el MCL [29] no vienen por defecto con Gephi, pero pueden descargarse de la biblioteca de plugins de Gephi (~ 100 complementos). Además, el plugin GeoLayout Gephi es muy adecuado para trazar una red con información geográfica. Al llegar a la visualización de red dinámica, Gephi es la vanguardia de la innovación con análisis de gráficos dinámicos. Los usuarios pueden visualizar cómo una red evoluciona con el tiempo al manipular su línea de tiempo incorporada. Si bien la visualización de una red a lo largo del tiempo es algo muy útil, sus algoritmos actuales no son adecuados para redes de gran escala. De manera similar, para redes de gran escala, es muy recomendable que los usuarios apliquen algoritmos de agrupamiento utilizando aplicaciones de línea de comando externas y luego importen los resultados de agrupamiento a una herramienta de visualización.

Para estudiar la topología de una red, Gephi viene con un perfilador de red muy básico pero de alta calidad que muestra estadísticas básicas sobre la red, como el número de nodos, el número de aristas, su densidad, su coeficiente de agrupación y otras métricas. Los atributos de nodo calculados automáticamente, como la conectividad de nodo, el coeficiente de agrupación, la centralidad de intersección o el peso del borde, son tareas triviales y no requieren demasiado tiempo para calcularse.

2.1.4. Edición

Gephi es altamente interactivo y proporciona accesos directos inteligentes para resaltar comunidades, y se ofrecen recorridos más cortos o distancias relativas de cualquier nodo a un nodo de interés. Además, los usuarios pueden ajustar fácilmente o filtrar interactivamente las formas y colores de los bordes y nodos de la red de acuerdo con sus atributos para revelar patrones ocultos. El objetivo de esta revisión no es el de tutorizar cómo utilizar dichas aplicaciones, ya que se puede encontrar en las páginas de ayuda relevantes de la herramienta. Aunque Gephi es una gran opción para la visualización de redes a gran escala, la importación manual de redes, el manejo de múltiples redes y la edición manual de nodos / bordes / etiquetas puede ser complicado ya que muchas opciones están ocultas en la interfaz de usuario de Gephi o soportadas por complementos específicos.

2.1.5. Formatos de archivo

Gephi puede cargar redes en GEXF, GDF, GML, GraphML, Pajek (NET), GraphViz (DOT), CSV, UCINET (DL), Tulip (TPL), Netdraw (VNA) y hojas de cálculo de Excel. Del mismo modo, Gephi puede exportar redes en archivos JSON, CSV, Pajek (NET), GUESS (GDF), Gephi (GEFX), GML y GraphML [30]. La forma más fácil de hablar con Cytoscape es a través de los formatos GraphML, con Tulip a través de archivos GEFX y con Pajek a través de archivos NET. Desafortunadamente, en su versión actual, falla la comunicación con otras herramientas a través de otros formatos de archivo comunes como JSON.

2.1.6. Disponibilidad

Independientemente de su documentación muy limitada, Gephi es una gran herramienta de visualización de redes en 2D, genérica y no dedicada a la biología. Principalmente hace hincapié en el procesamiento rápido y sin problemas, el diseño rápido, el filtrado eficiente y la exploración interactiva de datos, y creemos que sigue siendo una de las mejores opciones para la visualización genérica de redes a gran escala. Un ejemplo de red visualizado por Gephi se muestra en la Figura 1. Gephi está disponible en: https://gephi.org/.


Figura 1: Gephi visualización de una red que consta de 202,424 nodos y 354,468 bordes que muestra la distribución de 202,417 familias de proteínas en 7 hábitats. Se usó una combinación de OpenOrd y el algoritmo de disposición de Yifan-Hu force-directed para calcular las coordenadas del nodo. Cada hábitat y sus bordes adyacentes tienen un color único. Una guía paso a paso con respecto a los métodos y la parametrización que se utilizaron se describe ampliamente en el archivo suplementario.


2.2. Tulip (Versión 4.10.0)

Tulip es una de las herramientas de visualización de red más fáciles de usar y una opción decente para la visualización de redes de mayor escala. Debido a su simplicidad, es muy recomendable para personas inexpertas, ya que viene con una interfaz fácil de usar. Está escrito en C ++ y permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones específicas de dominio. Comparado con otras herramientas, ofrece visualizaciones muy atractivas, especialmente después de habilitar su gran algoritmo de agrupamiento de bordes.

2.2.1. Escalabilidad

En su versión actual, es capaz de visualizar miles de nodos con cientos de miles de bordes en una computadora promedio y pretende convertirse en un gran mediador entre el análisis de gráficos y la visualización. Si bien Tulip es una de las principales preferencias para redes de mediana escala, según nuestra experiencia, no es tan escalable como Gephi.

2.2.2. Diseños

Su gran variedad de algoritmos de diseño lo convierte en una de las mejores opciones para el diseño gráfico. Por el momento, admite algoritmos simples (circulares, aleatorios), dirigidos a la fuerza (es decir, Fruchterman y Reingold [28], Kamada y Kawai [31]), jerárquicos, multinivel, planos y arborescentes, la mayoría de ellos optimizados y implementado dentro del Marco de Dibujo Gráfico Abierto (OGDF) [32]. A diferencia de los algoritmos de diseño dirigidos por fuerza, más conservadores, el Diseño multipolar rápido multinivel es muy recomendable para redes de gran escala. Si bien sus diseños son de gran calidad, para ahorrar tiempo, es muy recomendable la estrategia de calcular primero el diseño de los nodos con Gephi o Pajek y luego importarlo a Tulip.

2.2.3. Análisis posterior a la visualización

Al tratar de cerrar la brecha entre el análisis y la visualización, Tulip viene con un amplio conjunto de algoritmos de análisis de topología de red y clústeres. Entre otros, Tulip actualmente implementa la codiciosa pero ampliamente codiciada Markov Clustering (MCL) [29] codiciosa, así como la veloz y eficiente memoria de Louvain Clustering [33] para gráficos no ponderados. Además, Tulip incorpora varios algoritmos tradicionales para la exploración de redes, como algoritmos, para encontrar componentes o algoritmos biconnectados o fuertemente conectados dedicados a buscar árboles o bucles de expansión. Al igual que antes, para el análisis de redes a gran escala, se recomienda ejecutar algoritmos de agrupación externamente.

Además, Tulip viene con una interfaz muy simple para hacer preguntas topológicas. La descomposición de K-core de un gráfico, centralidad de excentricidad, grado, rango de página y centralidad de intersección son algunas de las opciones ofrecidas y el tamaño o color de los nodos se puede ajustar de acuerdo con una característica topológica seleccionada.

2.2.4. Edición

Si bien Tulip no incluye una gran variedad de combinaciones de colores predefinidas, los usuarios pueden cambiar manualmente el color, el tamaño y la forma de cualquier nodo, etiqueta o borde y guardar y volver a cargar el estado de una red. Desafortunadamente, puede procesar una red por sesión y los usuarios deben tener cuidado ya que a veces la visualización y los paneles de edición no se coordinan. Desafortunadamente, las tareas simples como la selección interactiva de los bordes de entrada / salida de un nodo directamente desde la visualización pueden llevar una cantidad significativa de tiempo.

2.2.5. Agrupamiento de enlaces

Si bien el renderizador de Tulip no alcanza la resolución de Gephi o Cytoscape, viene con uno de los algoritmos de agrupamiento de enlaces más atractivos. Desafortunadamente, para el análisis de redes a gran escala, su algoritmo de agrupamiento de bordes a menudo puede convertirse en memoria y CPU codicioso, por lo que los usuarios deben ser pacientes. Finalmente, guardar el estado de una vista agrupada en comparación con una vista desagregada puede llevar a requisitos de almacenamiento significativamente mayores (ver el archivo suplementario para ver ejemplos).

2.2.6. Formatos de archivo

Acepta como entrada archivos delimitados por tabulaciones simples, Pajek, GEFX, GML, GraphViz, JSON, TLPB y UCINET y exporta a formatos TLP, SVG, JSON y GML. La forma más fácil de hablar con Pajek es a través de archivos NET, con Cytoscape a través de archivos GML o GraphML, y con Gephi a través de archivos GEFX. Finalmente, Tulip viene con un generador de gráficos muy poderoso de un tamaño y topología definidos por el usuario.

2.2.7. Disponibilidad

En general, Tulip es una herramienta genérica de visualización en red 2D con una interfaz de usuario que se explica por sí misma y es adecuada para el diseño y análisis de nodos y bordes a gran escala. Un ejemplo de red visualizado por Tulip se muestra en la Figura 2. Tulipán está disponible en: http://tulip.labri.fr/TulipDrupal/.

Figura 2: Visualización de Tulip de la misma red, como en la Figura 1. Los 7 hábitats se resaltan y cambian de tamaño según corresponda. Un ejemplo de la misma red después de aplicar bundling de bordes se presenta en el archivo suplementario. Las coordenadas de los nodos se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

2.3. Cytoscape (Versión 3.5.1)

La aplicación Java de código abierto Cytoscape es la herramienta de visualización en red 2D más utilizada en biología y ciencias de la salud. Es compatible con todo tipo de redes (p. Ej., Ponderado no ponderado, bipartito, dirigido, no dirigido y multienlace) y viene con una enorme biblioteca de complementos adicionales (> 250). Inicialmente se implementó para analizar redes de interacción molecular y vías biológicas y apuntaba a integrar estas redes con anotaciones, perfiles de expresión génica y otros datos de estado. Aunque Cytoscape se diseñó originalmente para la investigación biorelacionada, ahora sirve como una plataforma genérica para el análisis y la visualización de redes complejas al proporcionar un conjunto básico de características para la integración, el análisis y la visualización de datos.

2.3.1. Escalabilidad

Las implementaciones de Cytoscape posteriores a la versión 3.0.0 vienen con enormes mejoras en la representación, lo que permite a Cytoscape visualizar grandes redes de cientos de miles de nodos y bordes. A pesar de estas mejoras, Cytoscape no ocupa el primer lugar para el análisis de redes a gran escala, ya que no puede escalar significativamente cuando se trata de análisis. A menudo, las rutinas de agrupamiento y distribución de Cytoscape requieren una gran cantidad de memoria y tiempo. Por lo tanto, para el análisis de redes a gran escala, se sugiere ejecutar dichos procesos en línea de comando fuera de la plataforma Cytoscape y cargar los resultados como atributos de nodo / borde (grupos en el caso de clustering o coordenadas en el caso de un diseño). Además, Cytoscape está sujeto a las limitaciones de memoria y tiempo de ejecución de Java ya que la mayoría de sus rutinas se implementan en Java.

2.3.2. Diseños

Al igual que otras herramientas, viene con una gran variedad de algoritmos de diseño simples (cuadriculados, aleatorios y circulares) o más sofisticados (dirigidos por fuerza, jerárquicos). En particular, para el análisis de redes a gran escala, los usuarios deben tener cuidado y cambiar el algoritmo de diseño predeterminado antes de crear una vista. Se recomienda una cuadrícula simple o un diseño circular simple ya que los diseños dirigidos por fuerza de Cytoscape son codiciosos y la CPU puede "colgar". Otra alternativa podría ser OpenCL, uno de los algoritmos de diseños más rápidos en Cytoscape. Después de la versión 3.2.0, la versión basada en OpenCL se incorpora como una aplicación básica. Este diseño es hasta 100 veces más rápido que el diseño estándar de Prefuse y depende de la aplicación central de CyCL para el soporte de OpenCL. Sin embargo, calcular un primer diseño con Gephi o Pajek y luego importar sus resultados en Cytoscape puede ahorrar tiempo.

2.3.3. Análisis posterior a la visualización

Cytoscape es la herramienta más exitosa para cerrar la brecha entre el análisis y la visualización, y viene con una gran cantidad de algoritmos de diseño, clustering y análisis de redes topológicas. ClusterMaker plugin [34], por ejemplo, incluye algoritmos de clúster de atributos como AutoSOME Clustering [35] y Eisen's hierarchical y -Means clustering [36] así como algoritmos de agrupamiento basados ​​en topología como propagación de afinidad [37], agrupamiento de comunidades (GLay ) [38], MCODE [39], MCL, SCPS (Agrupación espectral de secuencias de proteínas) [40], y clústeres de transitividad [41]. La mayoría de los resultados de la agrupación se pueden visualizar como una red recién construida que conserva los bordes originales o como un mapa de calor. Al igual que antes, para el análisis de redes a gran escala, se anima a los usuarios a ejecutar dichos algoritmos externamente.

Además, Cytoscape incorpora uno de los perfiladores de red más avanzados para explorar las características topológicas de la red. Los usuarios pueden ver estadísticas simples como la conectividad promedio, la centralidad de intermediación, el coeficiente de agrupamiento y otros. Si bien estos cálculos son triviales para redes de gran escala, trazar una característica topológica contra cualquier otro podría ser lento.

Finalmente, las últimas versiones de Cytoscape incorporan un algoritmo de agrupamiento de bordes bastante útil pero lento y con memoria ineficiente, no recomendado para análisis a gran escala.

2.3.4. Edición

Cytoscape es un protagonista en la oferta de estilos visuales y combinaciones de colores predefinidos para crear visualizaciones de alta calidad y belleza estética. Sus capacidades de acercamiento y barrido son muy avanzadas y el visor satelital de Cytoscape hace que sea muy fácil para los usuarios navegar y orientarse cuando la red se dibuja fuera del lienzo principal, algo que no es trivial con Gephi. Finalmente, la elección de nodos y bordes adyacentes desde la interfaz de usuario es muy receptiva.

2.3.5. Formatos de archivo

Cytoscape acepta muchos formatos de archivos de entrada diferentes, como su propio formato CYS, delimitado por tabuladores, formato de archivo de interacción simple (SIF), formato de red anidado (NNF), lenguaje de marcado de gráficos (GML), lenguaje de marcado y lenguaje de modelado extensible (XGMML), SBML [42], BioPAX [43], PSI-MI [44], GraphML, excel libros de trabajo (.xls, .xlsx) y JSON. La forma más fácil de hablar con Tulip y Gephi es a través de un formato GML.

2.3.6. Disponibilidad

En general, Cytoscape es la mejor herramienta de visualización hoy en día para el análisis de redes biológicas. A pesar de su facilidad de uso, su rica documentación y la tremenda mejora de su interfaz de usuario después de la versión 3.0, la familiaridad con la herramienta y sus complementos disponibles aún requiere una curva de aprendizaje para tareas más avanzadas. Cytoscape store actualmente alberga más de 250 complementos, diseñados específicamente para abordar y automatizar complicados análisis biológicos. Complementos para el enriquecimiento funcional, anotaciones de Gene Ontology [45], mapeo de nombres de genes, integración con repositorios públicos biológicos, recuperación eficiente de datos en línea, análisis de rutas, comparaciones de redes directas, expresión diferencial y análisis estadístico hacen que Cytoscape sea único en su género y por eso hoy actualmente es y se espera que siga siendo el jugador número uno para el análisis de redes biológicas. Una red visualizada por Cytoscape se muestra en la Figura 3. Cytoscape está disponible en http://www.cytoscape.org/.


Figura 3: visualización de Cytoscape de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Los 7 hábitats están coloreados en consecuencia. Como en la Figura 2, las coordenadas se calcularon usando el algoritmo de diseño Yifan-Hu de la aplicación Gephi.

Finalmente, CytoscapeWeb [46] y Cytoscape.js son proyectos separados. Son dos esfuerzos muy fuertes que apuntan a incorporar las principales funcionalidades visuales de Cytoscape en aplicaciones basadas en navegador, algo que, por supuesto, no es adecuado para el análisis de redes a gran escala. Los usuarios pueden usar Cytoscape y exportar las redes en formato JSON para Cytoscape.js.

2.4. Pajek (Versión 5.01)

Pajek es una herramienta de visualización de redes genérica, con más de 20 años de antigüedad, basada en Microsoft Windows, inicialmente implementada para el análisis de redes sociales, pero una aplicación muy poderosa para el análisis y la visualización de redes masivas.

2.4.1. Escalabilidad

Pajek puede visualizar fácilmente millones de nodos con mil millones de conexiones en una computadora promedio superando a cualquier otra herramienta disponible en el campo. Pajek-XXL es una implementación especial de Pajek con énfasis en el análisis de redes a gran escala. Necesita al menos 2-3 veces menos memoria física que Pajek y la mayoría de las operaciones intensivas de memoria de Pajek están optimizadas para ser mucho más rápidas. La filosofía principal de Pajek-XXL es extraer partes más pequeñas pero más interesantes e informativas de una red más grande que se puede analizar y visualizar con más herramientas avanzadas. El mayor número posible de vértices que Pajek64-XXL puede manejar se ha aumentado a 2 mil millones, en cuanto al Pajek común, el límite es de 100 millones. Pajek-XXL usa enteros de 32 bits (4 bytes) para números de vértices. Por lo tanto, la mayor cantidad de vértices que Pajek-XXL puede manejar se establece en dos mil millones. Si la red contiene más vértices, se debe usar Pajek-3XL. Pajek-3XL utiliza enteros de 64 bits (8 bytes) para números de vértices. La mayor cantidad de vértices que puede manejar Pajek-3XL actualmente se establece en 10 mil millones, pero puede incrementarse fácilmente. En particular, el espacio necesario para almacenar una red en Pajek-3XL y Pajek-XXL es exactamente el mismo.

2.4.2. Diseños

Diseño de gráficos, fusión de nodos, detección de vecindarios, identificación de componentes fuertemente conectados, búsqueda de clics, manipulación de gráficos bipartitos, búsqueda de rutas más cortas o flujos máximos, agrupamiento (es decir, Louvain) y centralidades informáticas de vértices y centralizaciones de redes como grado , la cercanía, la proximidad, los centros y las autoridades, los coeficientes de agrupamiento y la centralidad laplaciana son algunas de las capacidades de Pajek. En particular, Pajek es eficiente en cuanto a la memoria y muy adecuado para una rápida multiplicación de red dispersa.

2.4.3. Formato de archivo

Pajek acepta formatos de entrada de archivos muy estrictos. La forma más fácil de hablar con Tulip y Gephi es a través de un archivo .net

La interfaz de usuario de Pajek es simple, fácil de familiarizar y muy receptiva cuando se trata de análisis de redes masivas. Nunca se pensó en ser el visualizador más avanzado, pero ofrece tremendas metodologías de análisis de gráficos, lo que lo convierte en un gran candidato para el análisis de redes masivas y un gran complemento de las herramientas existentes. Un ejemplo de red visualizado por Pajek se muestra en la Figura 4. Pajek se puede encontrar en http://mrvar.fdv.uni-lj.si/pajek/.

Figura 4: Visualización básica de Pajek de la misma red como en la Figura 1. La red consta de 202,424 nodos y 354,468 bordes. Al igual que en las Figuras 2 y 3, las coordenadas se calcularon utilizando el algoritmo de diseño Yifan-Hu de la aplicación Gephi. Notablemente para una red masiva, se recomienda encarecidamente usar primero el diseño de Pajek.


3. Discusión

A pesar de la gran cantidad de herramientas de visualización de red disponibles, debido al continuo aumento del volumen de datos en las ciencias de la salud, la visualización y la manipulación de redes a gran escala con millones de nodos y bordes siguen siendo un cuello de botella. Mientras que las bibliotecas no interactivas como el Stanford Network Analysis Project (SNAP) [47], se prefieren el Large Graph Layout (LGL) [48], NetworkX [49] o el GraphViz [50] para cálculos de back-end y static a gran escala. visualizaciones y visualizaciones de red alternativas como las ofrecidas por los Circos [51], HivePlots [52], o BioFabric [53] pueden resolver parcialmente el efecto bola de pelo, la implementación de herramientas interactivas fáciles de usar para manejar y visualizar gráficos tan grandes aún sigue siendo una tarea muy complicada. Por lo tanto, para los fines de este artículo de revisión, probamos varias aplicaciones independientes disponibles y concluimos que Pajek, Tulip Gephi y Cytoscape son los principales candidatos para la visualización y el análisis de redes a gran escala.

En conclusión, si bien Cytoscape es la mejor y la herramienta más preferida para los análisis biológicos, tiene problemas de escalabilidad y memoria y, por lo tanto, no es nuestra mejor opción para la visualización en red a gran escala. Por el contrario, lo clasificamos primero para análisis biológicos ya que está acompañado por una gran plétora de más de 200 complementos. Comparado con Tulip, Gephi y Pajek, tiene la paleta más rica de estilos de color predefinidos, la colección más eficiente de algoritmos de agrupamiento y el mejor perfil de red para la comparación intranet de las características topológicas.

Gephi claramente supera a Cytoscape en términos de escalabilidad y eficiencia de la memoria y, en nuestra opinión, es la mejor herramienta de visualización genérica para diseñar redes de gran escala. Si bien es bastante sencillo de usar, algunas veces las opciones de edición de nodos / bordes están bien escondidas en su interfaz de usuario, por lo que es un poco confuso para el usuario. Por otro lado, Gephi ofrece visualizaciones muy avanzadas al permitir a los usuarios realizar múltiples tareas simultáneamente, algo que no siempre es fácil con Cytoscape o Tulip. En general, clasificamos a Gephi como el primero en lo que respecta al equilibrio entre la visualización en red a gran escala y el análisis básico.

Tulip es nuestra tercera mejor opción para visualización de red a gran escala. Sus mejores características son (i) el diseño de agrupamiento de bordes y (ii) su simplicidad en la edición de colores, etiquetas y atributos del nodo / borde. Tulip es altamente recomendado para principiantes debido a su interfaz de usuario que se explica por sí misma.

Finalmente, Pajek y Pajek-XXL son las herramientas más escalables y altamente recomendadas para visualizaciones básicas de redes masivas con> 10 mil millones de nodos, tamaños de red que Cytoscape, Tulip y Gephi no pueden manejar en sus versiones actuales. Desafortunadamente, la falta de interoperabilidad de los sistemas operativos, así como la falta de flexibilidad de formatos de archivos de entrada y la falta de visualizaciones atractivas, impiden que Pajek sea la mejor herramienta para visualizaciones avanzadas.

Todas las observaciones mencionadas se resumen en la Tabla 1. Aunque pueden variar de un usuario a otro según la experiencia y el estudio de caso, en nuestra opinión, Cytoscape, Tulip, Pajek y Gephi siguen siendo la mejor visualización de red a gran escala y herramientas de análisis en sistemas y biología de redes.
Tabla 1: Evaluación empírica de nuestras cuatro herramientas interactivas de visualización de redes (Cytoscape, Gephi, Tulip y Pajek) para el análisis de redes biológicas a gran escala.

CytoscapeTulipGephiPajek

Escalibilidad
Facilidad de uso
Estilo visual
Manejo de enlaces
Relevancia para la Biología
Eficiencia de memoria
Agrupamiento
Edición manual nodo/enlace
Diseños
Perfiles de red
Formato de archivos
Complementos
Estabilidad
Velocidad
Documentación

 = más débil;  = medio;  = bueno;  = más fuerte.

4. Conclusión

Es injusto y no directo comparar directamente las herramientas de visualización entre sí a medida que se implementan para diferentes propósitos. Sin embargo, a medida que el tamaño de la red biológica aumenta con el tiempo, la combinación de las ventajas complementarias de diferentes herramientas es una buena estrategia. Si bien se han estandarizado varios formatos de archivo para describir la estructura de la red, nuestra experiencia demostró que muchos de ellos no se pueden exportar o importar correctamente en varias herramientas. Además, incluso en los mejores casos donde tal problema de importación / exportación está ausente, a menudo los atributos de nodo y borde no se pueden transferir. Por lo tanto, creemos que una red católica convertida para convertir con precisión un formato de archivo en cualquier otra manteniendo simultáneamente la máxima información sobre los componentes de la red es obligatoria. De esta manera, cambiar entre herramientas y varias visualizaciones será más fácil y más directo.


Referencias

  1. G. A. Pavlopoulos, M. Secrier, C. N. Moschopoulos et al., “Using graph theory to analyze biological networks,” BioData Mining, vol. 4, no. 1, article 10, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  2. G. A. Pavlopoulos, D. Malliarakis, N. Papanikolaou, T. Theodosiou, A. J. Enright, and I. Iliopoulos, “Visualizing genome and systems biology: Technologies, tools, implementation techniques and trends, past, present and future,” GigaScience, vol. 4, no. 1, article no. 38, 2015. View at Publisher · View at Google Scholar · View at Scopus
  3. N. Gehlenborg, S. I. O’Donoghue, N. S. Baliga et al., “Visualization of omics data for systems biology,” Nature Methods, vol. 7, no. 3, pp. S56–S68, 2010. View at Publisher · View at Google Scholar · View at Scopus
  4. S. I. O’Donoghue, A.-C. Gavin, N. Gehlenborg et al., “Visualizing biological data—now and in the future,” Nature Methods, vol. 7, no. 3, pp. S2–S4, 2010. View at Publisher · View at Google Scholar · View at Scopus
  5. G. A. Pavlopoulos, E. Iacucci, I. Iliopoulos, and P. Bagos, “Interpreting the Omics 'era' Data,” Smart Innovation, Systems and Technologies, vol. 25, pp. 79–100, 2013. View at Publisher · View at Google Scholar · View at Scopus
  6. G. A. Pavlopoulos, A. L. Wegener, and R. Schneider, “A survey of visualization tools for biological network analysis,” BioData Mining, vol. 1, 12 pages, 2008. View at Google Scholar
  7. N. Bikakis, J. Liagouris, M. Krommyda, G. Papastefanatos, and T. Sellis, “GraphVizdb: A scalable platform for interactive large graph visualization,” in Proceedings of the 32nd IEEE International Conference on Data Engineering, ICDE 2016, pp. 1342–1345, Helsinki, Finland, May 2016. View at Publisher · View at Google Scholar · View at Scopus
  8. J. Köhler, J. Baumbach, J. Taubert et al., “Graph-based analysis and visualization of experimental results with ONDEX,” Bioinformatics, vol. 22, no. 11, pp. 1383–1390, 2006. View at Publisher · View at Google Scholar · View at Scopus
  9. F. Iragne, M. Nikolski, B. Mathieu, D. Auber, and D. Sherman, “ProViz: Protein interaction visualization and exploration,” Bioinformatics, vol. 21, no. 2, pp. 272–274, 2005. View at Publisher · View at Google Scholar · View at Scopus
  10. Z. Hu, J.-H. Hung, Y. Wang et al., “VisANT 3.5: Multi-scale network visualization, analysis and inference based on the gene ontology,” Nucleic Acids Research, vol. 37, no. 2, pp. W115–W121, 2009. View at Publisher · View at Google Scholar · View at Scopus
  11. E. Adar, “GUESS: a language and interface for graph exploration,” in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pp. 791–800, Montreal, CA, USA, 2006.
  12. S. P. Borgatti, M. G. Everett, and L. C. Freeman, Ucinet for Windows: Software for Social Network Analysis, Analytic Technologies, Harvard, Mass, USA, 2002.
  13. O. Thimm, O. Bläsing, Y. Gibon et al., “MAPMAN: a user-driven tool to display genomics data sets onto diagrams of metabolic pathways and other biological processes,” Plant Journal, vol. 37, no. 6, pp. 914–939, 2004. View at Publisher · View at Google Scholar · View at Scopus
  14. E. Demir, O. Babur, U. Dogrusoz et al., “PATIKA: An integrated visual environment for collaborative construction and analysis of cellular pathways,” Bioinformatics, vol. 18, no. 7, pp. 996–1003, 2002. View at Publisher · View at Google Scholar · View at Scopus
  15. G. A. Pavlopoulos, S. D. Hooper, A. Sifrim, R. Schneider, and J. Aerts, “Medusa: A tool for exploring and clustering biological networks,” BMC Research Notes, vol. 4, article no. 384, 2011. View at Publisher ·View at Google Scholar · View at Scopus
  16. B. J. Breitkreutz, C. Stark, and M. Tyers, “Osprey: a network visualization system,” Genome Biology, vol. 4, article R22, no. 3, 2003. View at Google Scholar
  17. M. Secrier, G. A. Pavlopoulos, J. Aerts, and R. Schneider, “Arena3D: visualizing time-driven phenotypic differences in biological systems,” BMC Bioinformatics, vol. 13, no. 1, article 45, 2012. View at Publisher ·View at Google Scholar · View at Scopus
  18. G. A. Pavlopoulos, S. I. O'Donoghue, V. P. Satagopam, T. G. Soldatos, E. Pafilis, and R. Schneider, “Arena3D: visualization of biological networks in 3D,” BMC Systems Biology, vol. 2, article 104, 2008.View at Publisher · View at Google Scholar · View at Scopus
  19. A. Theocharidis, S. van Dongen, A. J. Enright, and T. C. Freeman, “Network visualization and analysis of gene expression data using BioLayout Express (3D),” Nature Protocols, vol. 4, no. 10, pp. 1535–1550, 2009. View at Google Scholar
  20. P. Shannon, A. Markiel, O. Ozier et al., “Cytoscape: a software Environment for integrated models of biomolecular interaction networks,” Genome Research, vol. 13, no. 11, pp. 2498–2504, 2003. View at Publisher · View at Google Scholar · View at Scopus
  21. D. Auber, “Tulip —a huge graph visualization framework,” in Graph Drawing Software, M. Jünger and P. Mutzel, Eds., Mathematics and Visualization, pp. 105–126, Springer, Berlin, Germany, 2004. View at Publisher · View at Google Scholar
  22. M. Jacomy, T. Venturini, S. Heymann, and M. Bastian, “ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software,” PLoS ONE, vol. 9, no. 6, Article ID e98679, 2014. View at Publisher · View at Google Scholar · View at Scopus
  23. A. Mrvar and V. Batagelj, “Analysis and visualization of large networks with program package Pajek,” Complex Adaptive Systems Modeling, vol. 4, no. 6, 2016. View at Google Scholar
  24. V. Batagelj and A. Mrvar, “Pajeka— program for large network analysis,” Connections, vol. 21, no. 2, pp. 47–57, 1998. View at Google Scholar
  25. I. A. Chen, V. M. Markowitz, K. Chu et al. et al., “IMG/M: integrated genome and metagenome comparative data analysis system,” Nucleic Acids Research, 2016. View at Google Scholar
  26. S. Martin, W. M. Brown, R. Klavans, and K. W. Boyack, “OpenOrd: An open-source toolbox for large graph layout,” in Proceedings of the Visualization and Data Analysis 2011, San Francisco Airport, Calif, USA, January 2011. View at Publisher · View at Google Scholar · View at Scopus
  27. H. Yifan, “Efficient, high-quality force-directed graph drawing,” The Mathematica Journal, vol. 10, no. 1, 2006. View at Google Scholar
  28. T. M. J. Fruchterman and E. M. Reingold, “Graph drawing by force-directed placement,” Software—Practice and Experience, vol. 21, no. 11, pp. 1129–1164, 1991. View at Publisher · View at Google Scholar· View at Scopus
  29. A. J. Enright, S. Van Dongen, and C. A. Ouzounis, “An efficient algorithm for large-scale detection of protein families,” Nucleic Acids Research, vol. 30, no. 7, pp. 1575–1584, 2002. View at Publisher · View at Google Scholar · View at Scopus
  30. U. Brandes, M. Eiglsperger, J. Lerner, and C. Pich, “Graph markup language (GraphML),” in Handbook of Graph Drawing and Visualization, pp. 517–541, 1999. View at Google Scholar
  31. T. Kamada and S. Kawai, “An algorithm for drawing general undirected graphs,” Information Processing Letters, vol. 31, no. 1, pp. 7–15, 1989. View at Publisher · View at Google Scholar · View at MathSciNet ·View at Scopus
  32. M. Chimani, C. Gutwenger, M. Jünger, G. W. Klau, and K. Klein, The Open Graph Drawing Framework (OGDF), Chapman & Hall, London, UK, 2014.
  33. V. D. Blondel, J. Guillaume, R. Lambiotte, and E. Lefebvre, “Fast unfolding of communities in large networks,” Journal of Statistical Mechanics: Theory and Experiment, vol. 2008, no. 10, Article ID P10008, 2008. View at Publisher · View at Google Scholar · View at Scopus
  34. J. H. Morris, L. Apeltsin, A. M. Newman et al., “ClusterMaker: a multi-algorithm clustering plugin for Cytoscape,” BMC Bioinformatics, vol. 12, article 436, 2011. View at Publisher · View at Google Scholar ·View at Scopus
  35. A. M. Newman and J. B. Cooper, “AutoSOME: A clustering method for identifying gene expression modules without prior knowledge of cluster number,” BMC Bioinformatics, vol. 11, article no. 117, 2010.View at Publisher · View at Google Scholar · View at Scopus
  36. M. B. Eisen, P. T. Spellman, P. O. Brown, and D. Botstein, “Cluster analysis and display of genome-wide expression patterns,” Proceedings of the National Academy of Sciences of the United States of America, vol. 95, no. 25, pp. 14863–14868, 1998. View at Publisher · View at Google Scholar · View at Scopus
  37. B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” American Association for the Advancement of Science. Science, vol. 315, no. 5814, pp. 972–976, 2007. View at Publisher · View at Google Scholar · View at MathSciNet · View at Scopus
  38. M. E. J. Newman and M. Girvan, “Finding and evaluating community structure in networks,” Physical Review E - Statistical, Nonlinear, and Soft Matter Physics, vol. 69, no. 2, Article ID 026113, pp. 1–26113, 2004. View at Publisher · View at Google Scholar · View at Scopus
  39. G. D. Bader and C. W. Hogue, “An automated method for finding molecular complexes in large protein interaction networks,” BMC Bioinformatics, vol. 4, no. 2, 2003. View at Google Scholar
  40. T. Nepusz, R. Sasidharan, and A. Paccanaro, “SCPS: A fast implementation of a spectral method for detecting protein families on a genome-wide scale,” BMC Bioinformatics, vol. 11, article no. 120, 2010.View at Publisher · View at Google Scholar · View at Scopus
  41. T. Wittkop, D. Emig, S. Lange et al., “Partitioning biological data with transitivity clustering,” Nature Methods, vol. 7, no. 6, pp. 419-420, 2010. View at Publisher · View at Google Scholar · View at Scopus
  42. M. Hucka, A. Finney, H. M. Sauro et al., “The systems biology markup language (SBML): a medium for representation and exchange of biochemical network models,” Bioinformatics, vol. 19, no. 4, pp. 524–531, 2003. View at Publisher · View at Google Scholar · View at Scopus
  43. J. S. Luciano and R. D. Stevens, “E-Science and biological pathway semantics,” BMC Bioinformatics, vol. 8, no. 3, article no. S3, 2007. View at Publisher · View at Google Scholar · View at Scopus
  44. H. Hermjakob, L. Montecchi-Palazzi, G. Bader et al., “The HUPO PSI's Molecular Interaction format—a community standard for the representation of protein interaction data,” Nature Biotechnology, vol. 22, no. 2, pp. 177–183, 2004. View at Publisher · View at Google Scholar · View at Scopus
  45. M. Ashburner, C. A. Ball, J. A. Blake et al., “Gene ontology: tool for the unification of biology,” Nature Genetics, vol. 25, no. 1, pp. 25–29, 2000. View at Publisher · View at Google Scholar · View at Scopus
  46. C. T. Lopes, M. Franz, F. Kazi, S. L. Donaldson, Q. Morris, and G. D. Bader, “Cytoscape web: An interactive web-based network browser,” Bioinformatics, vol. 26, no. 18, Article ID btq430, pp. 2347-2348, 2010. View at Publisher · View at Google Scholar · View at Scopus
  47. J. Leskovec and R. Sosi, “SNAP: a general-purpose network analysis and graph-mining library,” ACM Transactions on Intelligent Systems and Technology, vol. 8, no. 1, pp. 1–20, 2016. View at Google Scholar
  48. A. T. Adai, S. V. Date, S. Wieland, and E. M. Marcotte, “LGL: Creating a map of protein function with an algorithm for visualizing very large biological networks,” Journal of Molecular Biology, vol. 340, no. 1, pp. 179–190, 2004. View at Publisher · View at Google Scholar · View at Scopus
  49. A. Hagberg, D. Schult, and P. Swart, “Exploring Network Structure, Dynamics, and Function using Network,” in Proceedings of the 7th Python in Science Conference (SciPy 2008), pp. 11–15, 2008.
  50. E. R. Gansner and S. C. North, “An open graph visualization system and its applications to software engineering,” Software—Practice & Experience, vol. 30, no. 11, pp. 1203–1233, 2000. View at Google Scholar
  51. M. Krzywinski, J. Schein, I. Birol et al., “Circos: An information aesthetic for comparative genomics,” Genome Research, vol. 19, no. 9, pp. 1639–1645, 2009. View at Publisher · View at Google Scholar · View at Scopus
  52. M. Krzywinski, I. Birol, S. J. Jones, and M. A. Marra, “Hive plots-rational approach to visualizing networks,” Briefings in Bioinformatics, vol. 13, no. 5, pp. 627–644, 2012. View at Publisher · View at Google Scholar · View at Scopus
  53. W. J. R. Longabaugh, “Combing the hairball with BioFabric: A new approach for visualization of large networks,” BMC Bioinformatics, vol. 13, no. 1, article no. 275, 2012. View at Publisher · View at Google Scholar · View at Scopus

jueves, 4 de enero de 2018

Preguntas y respuestas sobre Humanidades digitales, incluyendo ARS

Lo último de Humanidades digitales. Preguntas y respuestas

The Chronicle of Higher Education



Lanzada en septiembre de 2010, Digital Humanities Questions & Answers es una empresa conjunta de la Asociación para Computadoras y Humanidades (ACH) y Prof Hacker. (Véase el anuncio de lanzamiento de Julie Meloni).

Preguntas y respuestas sobre Humanidades digitales (@DHAnswers en Twitter) está diseñado para ser un recurso gratuito en el que cualquier persona interesada en las humanidades digitales pueda plantear una pregunta a la comunidad de personas que trabajan en el campo.

Desde la última vez que nos registramos en el sitio, se han lanzado muchos hilos interesantes y se han proporcionado varias "mejores respuestas". A continuación, proporcioné enlaces a algunos de los hilos con mejores respuestas:
  • Análisis de redes de texto usando Gephi: "Tengo muchos textos ... para analizar, y las herramientas de Gephi parecen ser las mejores para alcanzar el resultado que quiero. Entonces, ¿cómo puedo importar texto a Gephi? "
  • Open Corpora para la tarea de historia digital: "Estoy preparando tareas para la clase de historia digital del próximo semestre, y quiero construir una lectura distante simple para mis alumnos, probablemente usando Voyant Tools ... ¿Puede alguien señalarme una buena colección de corpus históricos que los estudiantes pueden experimentar? "
  • ¿Qué herramienta de reconocimiento de entidades nombradas? : "Tengo una base de datos con más de un millón de tweets (sobre WW1). Lo que me gustaría hacer ahora es reconocer fechas y rastros de tiempo. ¿Alguien tiene una idea de cómo hacer esto?"
  • ¿Qué novelas asignar para el seminario de crítica algorítmica / lectura a distancia ?: "Estoy diseñando el seminario de postgrado que enseñaré en el Departamento de Inglés este otoño (2015) sobre el tema de" Crítica algorítmica ", un título que tomé de el subtítulo del libro de Stephen Ramsay de 2011, Reading Machines. Es una introducción al análisis de texto computacional para estudiantes de literatura, desde la frecuencia de las palabras hasta el modelado de temas ".
  • ¿Cómo extraer los datos etiquetados y el texto del archivo TEI ?: "He estado usando CATMA (http://www.catma.de/) para marcar un texto con algunas etiquetas analíticas que he creado. Luego exporté el archivo en TEI, y ahora estoy tratando de extraer los datos que he marcado para medir las frecuencias de las etiquetas, pero me resulta bastante difícil ".

Además de las preguntas anteriores con "mejores respuestas", revise las discusiones que tienen lugar en respuesta a estas preguntas:
  • Buenos escáneres 3D para usar junto con una impresora 3D? : "Tengo la oportunidad de obtener un escáner 3D junto con una impresora 3D para un futuro laboratorio DH, y aunque aquí hay muchas publicaciones útiles sobre impresoras 3D, no parece haber mucho acerca de los escáneres 3D. Si alguien tiene alguna recomendación o sugerencia, me gustaría escucharla.
  • ¿Cómo aprendiste a codificar ?: "Soy un estudiante de doctorado en inglés, y estoy interesado en (pero es muy nuevo) DH. Comenzaré a trabajar con TEI pronto a través de un proyecto de archivo digital en el que estoy trabajando, así que ahí está. ¿Qué otras avenidas debo explorar en mi búsqueda para aprender a programar por el bien de la investigación DH? "
  • ¿Qué utilizan las personas para gestionar grandes colecciones de imágenes ?: "A menudo me encuentro con eruditos que luchan por administrar grandes colecciones de imágenes, no es raro encontrar personas que administren colecciones de imágenes históricas con iPhoto, y me preguntan si hay bases de datos que tengan sentido. para colecciones visuales ".
  • ¿Cuál es el mejor paquete de software para el análisis de redes sociales? : "Estoy desarrollando un conjunto de datos que traza las relaciones entre los rabinos en la antigüedad. Ahora estoy guardando estos datos en forma tabular (rabbi x / term of relationship / rabbi y). ¿Alguien podría recomendar un paquete de software, preferiblemente de código abierto y no demasiado difícil de usar, que pueda ayudarme a visualizar y analizar esta información?

Si es un recién llegado al sitio y necesita un manual, consulte "¿Cómo puedo encontrar respuestas, obtener respuestas a mis preguntas y ayudar a DHanswers a crecer?

Si usted es simplemente "curioso de DH" o si alguien está trabajando en el campo con una pregunta o experiencia para prestar, ¡debe probar DHAnswers!

[Foto de Flickr con licencia CC de Martin Cathrae]

martes, 2 de enero de 2018

Sesgo de selección al trabajar con datos de Facebook

Cómo Facebook estila las ciencias sociales

Cuando las empresas privadas tienen datos que necesitan los estudiosos, ¿qué sucede con la investigación académica?

Por Henry Farrell || The Chronicle of Higher Education

Brian Taylor para The Chronicle Review

¿Cuál fue exactamente el alcance de la intromisión rusa en la campaña electoral de 2016? ¿Qué tan extendida fue su infiltración de las redes sociales? ¿Y cuánta influencia tuvo su propaganda en la opinión pública y el comportamiento de los votantes?

Los académicos solo ahora están empezando a abordar esas preguntas. Pero para responderlas, los académicos necesitan datos, y obtener esos datos ha sido un problema.

Tomemos un ejemplo reciente: Jonathan Albright, un investigador de la Universidad de Columbia, investigó varias páginas compradas en Rusia que Facebook había anotado. Concluyó que habían acumulado potencialmente cientos de millones de visitas. David Karpf, profesor asociado de medios y asuntos públicos en la Universidad George Washington, no estaba convencido, argumentando que la mayoría de las "personas" a las que les habían gustado estas páginas eran muy probablemente bots rusos. (Divulgación completa: encargué y edité la publicación de Karpf en el blog Monkey Cage de The Washington Post).

Por lo general, tales desacuerdos se resuelven a través de los datos. El problema al que se enfrentan académicos como Albright y Karpf es que hay pocos datos públicamente disponibles en Facebook. Para su estudio, Albright tuvo que usar una herramienta poco convencional propiedad de Facebook llamada CrowdTangle para encontrar cualquier cosa. Después de haber publicado sus hallazgos iniciales, Facebook anunció rápidamente que había "corregido un error" en el software utilizado por Albright, lo que hacía imposible que otros investigadores replicaran lo que hizo. Albright y Karpf se quedan en una situación muy desdichada: los datos que necesitan para comprender lo que sucedió simplemente ya no están disponibles.

Las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores y menos accesibles que el gobierno. Esto está remodelando la investigación en ciencias sociales.

Ese es un ejemplo de un cambio extraordinario en la política y la práctica de las ciencias sociales. Las empresas como Facebook tienen información crucial sobre el comportamiento social y político de las personas. Pero son extremadamente reacios a proporcionar esa información a personas ajenas, a menos que esas personas externas firmen acuerdos de confidencialidad (NDA, por sus siglas en inglés) que otorguen a Facebook el poder de demandar si la información se utiliza de manera que la empresa considere objetable.

Esto marca un cambio significativo para los investigadores. Solía ​​ser que los estados eran la fuente más importante de datos sobre sus ciudadanos, la economía y la sociedad. Tuvieron que recopilar y agregar grandes cantidades de información, por ejemplo, censos de personas y empresas, para sus propios fines. Además, las agencias estatales ayudaron a financiar proyectos de ciencias sociales en la recopilación de datos, como el apoyo de la National Science Foundation a los American National Election Studies durante décadas.

En consecuencia, la política de acceso a los datos solía estar más centrada en el estado. Algunas veces, el estado era reacio a proporcionar información, ya sea para proteger la privacidad, ocultar sus errores o mantener el control de la información confidencial. Pero en su mayor parte, normalmente proporcionaba acceso, y los académicos podían presionarlo cuando se estancaba. En ese mundo, los académicos podían recurrir a fuentes comunes, y generalmente (aunque no siempre) tenían un acceso más o menos igualitario.

Hubo un inconveniente: las preguntas de los académicos se formaron por los datos que podían obtener. Pero lo bueno fue que la investigación generalmente era reproducible. Los desacuerdos como ese entre Albright y Karpf podrían llevarse a cabo en igualdad de condiciones.

Ahora estamos entrando en una nueva era para las ciencias sociales. Para muchos propósitos académicos, las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores que el gobierno, y esos datos son mucho menos accesibles. Este nuevo universo de datos privados está remodelando la investigación en ciencias sociales de maneras que se comprenden mal.

En este nuevo mundo valiente, el acceso a los datos es una jungla. No existen reglas universales: las empresas tienen sus propias políticas individuales sobre cuándo proporcionan a los científicos sociales acceso común a los datos, o pueden hacerlo de forma ad hoc, o pueden negarse por completo. Cuando estas firmas construyen relaciones, generalmente es con investigadores individuales o pequeños grupos de investigadores, cuyo trabajo puede ser valioso para la empresa. Y esas relaciones generalmente están cubiertas por NDA u otras reglas contractuales que restringen cómo los investigadores pueden usar los datos y resumirlos en investigaciones publicadas.

Eso puede tener grandes consecuencias para las carreras académicas. Algunos académicos, aquellos con conexiones con las firmas adecuadas, pueden prosperar. Aquellos sin conexiones tienen que ser creativos para hacer su trabajo. A veces es posible que obtengan acceso directo a datos agregados sin cadenas, a través de herramientas como Google Trends. A veces pueden reutilizar las herramientas que Facebook y otras compañías ponen a disposición de los anunciantes u otros clientes comerciales (CrowdTangle es un ejemplo). Sin embargo, los datos recopilados de esa manera pueden no ser adecuados para fines específicos de investigación.

Eso no quiere decir que los datos que provienen directamente de las empresas sean perfectos, ni nada por el estilo. Detrás de cada gran conjunto de datos existe un gran crimen. Casi todos los datos de las ciencias sociales están sesgados por las suposiciones y las metodologías (a veces problemáticas) que se utilizaron para recopilarlas. Los conjuntos de datos construidos por el Estado en su apogeo fueron defectuosos en muchos sentidos y continúan siéndolo. Sin embargo, a medida que los estándares profesionales mejoraron, los defectos se entendieron mejor y fueron más transparentes.

Las nuevas formas de datos de compañías privadas son más problemáticas. Se recolectan principalmente con fines comerciales en lugar de investigación. A menudo se recolectan mediante técnicas de aprendizaje automático, que producen clasificaciones que son oscuras incluso para sus creadores. Los hallazgos basados ​​en estos datos se retroalimentan para remodelar los algoritmos con miras a cambiar el comportamiento humano, por ejemplo, hacer que los individuos sean más propensos a hacer clic en los anuncios, para que los datos a menudo no sean comparables con el tiempo.

En combinación, esos factores pueden significar que es realmente difícil interpretar los datos. Por ejemplo, ¿hasta qué punto los cambios en el comportamiento en Facebook pueden ser impulsados ​​por cambios subyacentes en la sociedad, y en qué medida por los cambios a los algoritmos de Facebook? Excepto bajo ciertas circunstancias, digamos, cuando Facebook ejecuta experimentos controlados, puede ser difícil de decir.

Las restricciones de acceso presentan desafíos adicionales. Las NDA y otros acuerdos pueden no solo evitar que los investigadores compartan datos con sus colegas, sino que también pueden evitar que brinden información valiosa sobre cómo se recopilaron y procesaron los datos.

Juntos, esos factores significan que podemos estar a punto de presenciar una colisión entre el movimiento de reproducibilidad, que está ganando terreno en las ciencias sociales, y el nuevo mundo de datos patentados, que socava la reproducibilidad porque la información es inaccesible para otros y susceptible de ser destruido si no conserva el valor comercial.

Si los académicos comienzan a confiar en las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección.

 Aún más preocupante, el control corporativo de los datos puede conducir a dos tipos de sesgo de selección. Más obviamente, los hallazgos poco favorecedores probablemente no se publicarán si las corporaciones tienen algo que decir. Por ejemplo, Uber financió a científicos sociales para llevar a cabo investigaciones sobre si su servicio era más barato o más rápido que los taxis estándar. La investigación sugirió que Uber era de hecho más barato y más rápido, pero Uber insistió en mantener el control sobre si los resultados se publicaron o no. No se necesita una mente especialmente sospechosa para adivinar que Uber habría retenido el permiso para la publicación si los resultados hubieran sugerido que su servicio era peor que los taxis. Cuando las empresas utilizan el acceso propietario a los datos y los acuerdos legales para mantener el control sobre la publicación, tienen fuertes incentivos para permitir la publicación de solo material que los favorece. Con el tiempo, esto llevará a sesgar la investigación públicamente disponible.

De manera más insidiosa, si los académicos comienzan a depender de las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección. Ciertos temas y métodos de investigación serán favorecidos, mientras que otros se quedan en el camino. Facebook es muy sensible a la sugerencia de que su servicio puede tener consecuencias políticas, salvo las más inocuas. Sus investigadores y politólogos colaboraron en un importante experimento que muestra que los mensajes de Facebook podrían hacer que la gente tenga más probabilidades de votar, pero fue especialmente sensible a nuevas consultas sobre cómo la ubicación de noticias de Facebook influye en el comportamiento político, eliminando un video de YouTube en el que un investigador de Facebook había descrito lo que habían hecho con un poco de detalle. Facebook bien puede tener grandes efectos en la política, no solo en las elecciones de los EE. UU., Sino en otros contextos (como la Primavera Árabe). Pero no tiene ningún incentivo para permitir que los expertos utilicen sus datos para llevar a cabo investigaciones sobre la mayoría de esos efectos, por lo que líneas de investigación completas pueden terminar muertas.

Luego está el aspecto ético de realizar investigaciones utilizando datos de empresas privadas. Las empresas como Facebook, que no están sujetas a normas académicas, pueden verse tentadas a tomar decisiones éticas dudosas, cuando, por ejemplo, tratan los ecosistemas de medios de países enteros como ratones en un experimento de laboratorio. Sin embargo, los académicos no pueden lidiar mejor con la tentación. El personaje de los Simpson, el Dr. Marvin Monroe, tiene la ambición de construir una "caja Monroe", en la que mantendrá a un bebé hasta la edad de 30 años, sometiéndolo a momentos aleatorios a electrocución y duchas de agua helada para probar la hipótesis de que resentir a su captor. Todos los científicos sociales tienen un poco de Marvin Monroe en sus corazones, y muchos podrían verse tentados, si tan solo tuvieran los medios, de enviar multitudes de seres humanos corriendo como ratas a través de laberintos de información social sutilmente sesgada para ver qué caminos toman. En un mundo dominado por datos de empresas privadas, es más fácil para los académicos llevar a cabo el trabajo fuera de las restricciones éticas habituales. Los autores de un estudio de 2014 sobre las redes sociales y el "contagio emocional" no tuvieron que someterse a la aprobación del IRB para su trabajo, ya que el experimento ya había sido llevado a cabo por Facebook. Espere que esta tendencia continúe a medida que crezca el uso de datos privados.

Como muestra la historia de Albright-Karpf, estos problemas ya no son meramente académicos. Facebook está sometido a un intenso escrutinio político debido a su aparente ceguera ante las operaciones de influencia rusa. Los investigadores del Congreso son más propensos que los académicos externos a tener éxito en insistir en el acceso a los datos. La política de los datos está cambiando, tal vez de manera significativa. Muchos miembros del Congreso consideran que ya no es apropiado que gran parte de la conversación nacional tenga lugar dentro de una caja negra. Otros servicios que también están bajo un mayor escrutinio, como Twitter, han sido más abiertos, aunque también ha sido caprichoso en su disposición a permitir que otros obtengan acceso a sus datos.

Esto probablemente terminará en frustración y confrontación mutua. Los miembros del Congreso no son especialmente expertos técnicamente y, a lo largo de las décadas, han despojado a muchas de las instituciones (como la Oficina de Evaluación Tecnológica) que podrían haberles proporcionado una guía autorizada.

Sin embargo, hay otro camino posible hacia adelante. Facebook y los otros grandes jugadores en el mundo de los datos sociales podrían aliviar parte de la presión política sobre ellos al rehacer su relación con la academia. Va a ser difícil para estas empresas mantener la postura de "mantener las manos fuera" que han tenido sobre sus datos en el pasado. Si van a tener que ser más responsables públicamente, probablemente estén mejor construyendo relaciones con académicos, que tengan un conocimiento técnico, que con personas designadas por razones políticas, que normalmente no lo hacen.

Facebook, Google y Twitter podrían acordar proporcionar datos a un observatorio académico independiente. Este acuerdo funcionaría bajo reglas éticas explícitas y ampliamente acordadas. El observatorio llevaría a cabo y publicaría investigaciones sobre problemas derivados del abuso de los servicios de medios sociales por parte de terceros (como ocurrió con Rusia), acreditaría a investigadores confiables que podrían tener acceso a datos tanto para fines de investigación original como de replicación, y coordinaría con gobierno y otras partes con un interés claro y legítimo en combatir el comportamiento abusivo.
En términos más generales, este observatorio podría proporcionar un ancla real para el debate sobre las consecuencias reales de los medios sociales para la sociedad y la política. Si bien a las compañías de tecnología a veces no les gustarían sus hallazgos, estarían mejor si los debates políticos se basasen en hechos y datos en lugar de en especulaciones de segunda mano mal informadas, a veces alarmistas.

Tal acuerdo podría proporcionar supervisión sin requerir que las compañías sacrifiquen por completo sus modelos comerciales. También podría ayudar a resolver los problemas de seguridad transversales mejor de lo que cualquier empresa podría hacerlo. Las empresas comerciales tienen pocos incentivos para compartir datos con sus competidores, ya que estos datos suelen estar en el corazón de sus modelos comerciales. Esto lleva a una fragmentación general del conocimiento, en la que las empresas competidoras tienen diferentes tipos de datos que podrían ilustrar un problema desde múltiples perspectivas. Las operaciones de influencia rusa han involucrado acciones combinadas en Facebook, YouTube, Twitter y Google. Un centro independiente podría rastrear esas relaciones a través de diferentes servicios sin comprometer las necesidades comerciales de las empresas individuales.

Todo esto implicaría una gran creatividad e ingenio por parte de los propios negocios, así como de los investigadores con quienes podrían trabajar. Tendrían que crear un nuevo tipo de acuerdo para dicho observatorio, que sería similar a algunas organizaciones existentes, como los equipos de preparación para emergencias informáticas, o CERT, que ya desempeñan un papel clave en la ciberseguridad. Tal organización requeriría un financiamiento independiente sustancial, probablemente canalizado a través de una fundación u otro acuerdo sin fines de lucro. Eso no solo resolvería algunos de los problemas más complicados de la relación entre la erudición y el comercio electrónico, sino que también integraría la investigación académica y las capacidades de los grandes datos en la búsqueda de objetivos sociales y políticos importantes.

No está claro que este resultado sea políticamente factible en este momento. Es muy probable que Facebook, Twitter y Google piensen en su situación como un problema de relaciones públicas a corto plazo en lugar de una crisis existencial que amenaza con convertirse. Eso es miope. Las crisis y los escándalos tienden a escalar, especialmente cuando la falta de datos significa que incluso los investigadores más sofisticados se ven obligados a adivinar lo que realmente está sucediendo. Si las empresas de medios sociales no se despiertan a los problemas del mundo que están construyendo, en el que la información más crucial sobre cómo el trabajo de la política y la sociedad está escondido detrás de los muros de propiedad y los acuerdos de confidencialidad, es probable que encuentren su negocio básico modelos bajo ataque después del próximo gran escándalo, o el siguiente después.