Mostrando entradas con la etiqueta base de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta base de datos. Mostrar todas las entradas

lunes, 13 de enero de 2020

11 consejos de cómo lidiar con grandes conjuntos de datos

Once consejos para trabajar con grandes conjuntos de datos

Los grandes datos son difíciles de manejar. Estos consejos y trucos pueden allanar el camino.
Anna Nowogrodzki



Ilustración de The Project Twins
Versión PDF
Nature


Los grandes datos están en todas partes en la investigación, y los conjuntos de datos son cada vez más grandes y más difíciles de trabajar. Desafortunadamente, dice Tracy Teal, es un tipo de trabajo que con demasiada frecuencia queda fuera de la capacitación científica.

"Es una mentalidad", dice Teal, "tratando los datos como un ciudadano de primera clase". Ella debe saber: Teal fue hasta el mes pasado el director ejecutivo de The Carpentries, una organización en Oakland, California, que enseña habilidades de codificación y datos a investigadores a nivel mundial. Ella dice que existe una tendencia en la comunidad de investigación a descartar el tiempo y el esfuerzo necesarios para administrar y compartir datos, y no considerarlos como una parte real de la ciencia. Pero, sugiere, "podemos cambiar nuestra mentalidad para valorar ese trabajo como parte del proceso de investigación", en lugar de tratarlo como una ocurrencia tardía.

Aquí hay 11 consejos para aprovechar al máximo sus grandes conjuntos de datos.

Aprecia tus datos


"Mantenga sus datos en bruto sin procesar: no los manipule sin tener una copia", dice Teal. Recomienda almacenar sus datos en algún lugar que cree copias de seguridad automáticas y que otros miembros del laboratorio puedan acceder, respetando las normas de su institución sobre consentimiento y privacidad de datos.

Debido a que no necesitará acceder a estos datos con frecuencia, dice Teal, "puede usar las opciones de almacenamiento donde puede costar más dinero acceder a los datos, pero los costos de almacenamiento son bajos", por ejemplo, el servicio Glacier de Amazon. Incluso podría almacenar los datos en bruto en discos duros duplicados guardados en diferentes ubicaciones. Los costos de almacenamiento para archivos de datos grandes pueden acumularse, por lo que debe presupuestar en consecuencia.

Visualiza la información

A medida que los conjuntos de datos se hacen más grandes, surgen nuevas arrugas, dice Titus Brown, un bioinformático de la Universidad de California, Davis. "En cada etapa, te encontrarás con un nuevo y emocionante comportamiento desordenado". Su consejo: "Haz muchos gráficos y busca valores atípicos". En abril pasado, uno de los estudiantes de Brown analizó los transcriptomes: el conjunto completo de Moléculas de ARN producidas por una célula u organismo: a partir de 678 microorganismos marinos como el plancton (LK Johnson et al. GigaScience 8, giy158; 2019). Cuando Brown y su alumno registraron los valores promedio de la duración de la transcripción, la cobertura y el contenido genético, notaron que algunos valores eran cero, lo que indica dónde había fallado el flujo de trabajo computacional y había que volver a ejecutarlo.

Muestra tu flujo de trabajo

Cuando el físico de partículas Peter Elmer ayuda a su hijo de 11 años con su tarea de matemáticas, tiene que recordarle que documente sus pasos. "Él solo quiere escribir la respuesta", dice Elmer, quien es director ejecutivo del Instituto de Investigación e Innovación en Software para Física de Alta Energía en la Universidad de Princeton en Nueva Jersey. Los investigadores que trabajan con grandes conjuntos de datos pueden beneficiarse del mismo consejo que Elmer le dio a su hijo: "Mostrar su trabajo es tan importante como llegar al final".

Esto significa registrar todo su flujo de trabajo de datos, qué versión de los datos que utilizó, los pasos de limpieza y control de calidad y cualquier código de procesamiento que ejecutó. Dicha información es invaluable para documentar y reproducir sus métodos. Eric Lyons, biólogo computacional de la Universidad de Arizona en Tucson, utiliza la herramienta de captura de video asciinema para registrar lo que escribe en la línea de comando, pero las soluciones de baja tecnología también pueden funcionar. Un grupo de sus colegas, recuerda, tomó fotos de la pantalla de su computadora y las publicó en el grupo del laboratorio en Slack, una plataforma de mensajería instantánea.

Usar control de versiones

Los sistemas de control de versiones permiten a los investigadores comprender con precisión cómo ha cambiado un archivo con el tiempo y quién realizó los cambios. Pero algunos sistemas limitan el tamaño de los archivos que puede usar. Harvard Dataverse (que está abierto a todos los investigadores) y Zenodo se pueden usar para el control de versiones de archivos grandes, dice Alyssa Goodman, astrofísica y especialista en visualización de datos en la Universidad de Harvard en Cambridge, Massachusetts. Otra opción es Dat, una red gratuita de igual a igual para compartir y versionar archivos de cualquier tamaño. El sistema mantiene un registro a prueba de manipulaciones que registra todas las operaciones que realiza en su archivo, dice Andrew Osheroff, desarrollador principal de software en Dat en Copenhague. Y los usuarios pueden ordenar al sistema que archive una copia de cada versión de un archivo, dice la gerente de producto de Dat, Karissa McKelvey, con sede en Oakland, California. Dat es actualmente una utilidad de línea de comandos, pero "hemos estado actualizando activamente", dice McKelvey; El equipo espera lanzar un front end más fácil de usar a finales de este año.

Grabar metadatos

"Sus datos no son útiles a menos que las personas, y" el futuro ", sepan cuáles son", dice Teal. Ese es el trabajo de los metadatos, que describen cómo se recopilaron, formatearon y organizaron las observaciones. Considere qué metadatos registrar antes de comenzar a recopilar, Lyons aconseja, y almacene esa información junto con los datos, ya sea en la herramienta de software utilizada para recopilar las observaciones o en un archivo README u otro archivo dedicado. El Proyecto Open Connectome, dirigido por Joshua Vogelstein, un neuroestadístico de la Universidad Johns Hopkins en Baltimore, Maryland, registra sus metadatos en un formato de texto plano estructurado llamado JSON. Cualquiera que sea su estrategia, trate de pensar a largo plazo, dice Lyons: algún día querrá integrar sus datos con los de otros laboratorios. Si eres proactivo con tus metadatos, esa integración será más fácil en el futuro.

Automatizar, automatizar, automatizar

Los grandes conjuntos de datos son demasiado grandes para peinarlos manualmente, por lo que la automatización es clave, dice Shoaib Mufti, director senior de datos y tecnología del Instituto Allen para la Ciencia del Cerebro en Seattle, Washington. El equipo de neuroinformática del instituto, por ejemplo, utiliza una plantilla para los datos de las células cerebrales y la genética que acepta información solo en el formato y tipo correctos, dice Mufti. Cuando llega el momento de integrar esos datos en una base de datos o colección más grande, los pasos de garantía de calidad de datos se automatizan usando Apache Spark y Apache Hbase, dos herramientas de código abierto, para validar y reparar datos en tiempo real. "Nuestro conjunto completo de herramientas de software para validar e ingerir datos se ejecuta en la nube, lo que nos permite escalar fácilmente", dice. El Proyecto Open Connectome también proporciona garantía de calidad automatizada, dice Vogelstein: esto genera visualizaciones de estadísticas resumidas que los usuarios pueden inspeccionar antes de continuar con sus análisis.

Haga que el tiempo de computación cuente

Grandes conjuntos de datos requieren informática de alto rendimiento (HPC), y muchos institutos de investigación ahora tienen sus propias instalaciones de HPC. La Fundación Nacional de Ciencias de EE. UU. mantiene la red nacional HPC XSEDE, que incluye la red de computación basada en la nube Jetstream y los centros HPC en todo el país. Los investigadores pueden solicitar asignaciones de recursos en xsede.org y crear cuentas de prueba en go.nature.com/36ufhgh. Otras opciones incluyen la red ACI-REF con sede en EE. UU., NCI Australia, la Asociación para la Computación Avanzada en Europa y las redes ELIXIR, así como proveedores comerciales como Amazon, Google y Microsoft.

Pero cuando se trata de computación, el tiempo es dinero. Para aprovechar al máximo su tiempo de computación en los clústeres GenomeDK y Computerome en Dinamarca, Guojie Zhang, investigador de genómica de la Universidad de Copenhague, dice que su grupo generalmente realiza pruebas a pequeña escala antes de migrar sus análisis a la red HPC. Zhang es miembro del Proyecto de Genomas de Vertebrados, que busca ensamblar los genomas de unas 70,000 especies de vertebrados. "Necesitamos millones o incluso miles de millones de horas informáticas", dice.

Captura tu entorno

Para replicar un análisis más tarde, no necesitará la misma versión de la herramienta que utilizó, dice Benjamin Haibe-Kains, farmacogenómico computacional en el Centro de Cáncer Princess Margaret en Toronto, Canadá. También necesitará el mismo sistema operativo y las mismas bibliotecas de software que requiere la herramienta. Por esta razón, recomienda trabajar en un entorno informático autónomo, un contenedor Docker, que se puede ensamblar en cualquier lugar. Haibe-Kains y su equipo utilizan la plataforma en línea Code Ocean (que se basa en Docker) para capturar y compartir sus entornos virtuales; Otras opciones incluyen Binder, Gigantum y Nextjournal. "Diez años a partir de ahora, aún podría ejecutar esa tubería exactamente de la misma manera si lo necesita", dice Haibe-Kains.

No descargue los datos.

Descargar y almacenar grandes conjuntos de datos no es práctico. Los investigadores deben ejecutar análisis de forma remota, cerca de donde se almacenan los datos, dice Brown. Muchos proyectos de big data usan Jupyter Notebook, que crea documentos que combinan código de software, texto y figuras. Los investigadores pueden "girar" dichos documentos en o cerca de los servidores de datos para realizar análisis remotos, explorar los datos y más, dice Brown. Brown dice que Jupyter Notebook no es particularmente accesible para los investigadores que podrían sentirse incómodos usando una línea de comando, pero hay plataformas más fáciles de usar que pueden cerrar la brecha, incluidas Terra y Seven Bridges Genomics.

Empezar temprano

La gestión de datos es crucial incluso para los investigadores jóvenes, así que comience su entrenamiento temprano. "Las personas sienten que nunca tienen tiempo para invertir", dice Elmer, pero "a la larga se ahorra tiempo". Comience con los conceptos básicos de la línea de comandos, más un lenguaje de programación como Python o R, lo que sea más importante para su campo, dice. Lyons está de acuerdo: "Paso uno: familiarizarse con los datos de la línea de comandos". En noviembre, algunos de sus colaboradores que no dominaban el uso de la línea de comandos tuvieron problemas con los datos genómicos porque los nombres de los cromosomas no coincidían en todos sus archivos, Dice Lyons. "Tener algunas habilidades básicas de línea de comandos y programación me permite corregir rápidamente los nombres de los cromosomas".

Consigue ayuda


La ayuda está disponible, en línea y fuera de ella. Comience con el foro en línea Stack Overflow. Consulte a los bibliotecarios de su institución sobre las habilidades que necesita y los recursos que tiene disponibles, aconseja Teal. Y no descarte la capacitación en el sitio, Lyons dice: "The Carpentries es un excelente lugar para comenzar".

martes, 10 de diciembre de 2019

Sistema interactivo de Código de Nomenclatura Zoológica basada en redes

Crean un sistema interactivo para acceder a las reglas de nomenclatura de todas las especies del reino animal

El investigador del CONICET Evangelos Vlachos desarrolló un nuevo método para navegar a través del Código de Nomenclatura Zoológica.

CONICET



Captura de pantalla del sistema creado por Vlachos.


El Código Internacional de Nomenclatura Zoológica es el texto que regula de forma estandarizada cómo nombrar a las especies del reino animal. Cada uno de los animales descubiertos y descritos, actuales y extintos, llevan un nombre que se encuentra en ese código: en total, hay 51 mil palabras agrupadas en 90 artículos principales, con 754 sub artículos, 129 recomendaciones, 129 ejemplos y 333 elementos del glosario. Pero, como toda legislación, su lectura es intrincada y difícil de leer, usar y enseñar: para simplificarlo y hacerlo legible, el investigador asistente del CONICET en el Museo Paleontológico Egido Feruglio, Evangelos Vlachos creó un sistema de red interactiva que agrupa la información disponible de modo más sencillo y fue publicado en la revista científica PeerJ. La herramienta está disponible de forma libre y gratuita en una versión en inglés.

“Científicamente hablando, cada especie tiene dos nombres: el nombre del género (por ejemplo, Homo) y el nombre de la especie (por ejemplo, sapiens). Juntos, forman un nombre de dos componentes: Homo sapiens, el primero escrito con mayúscula, el segundo con una letra minúscula y ambos en cursiva”, explica Vlachos. Para el científico, la idea de este sistema es que el nombre de cada especie sea único y estable. De esa manera, cualquier científico en el mundo que se encuentre usando ese nombre sabrá que se trata de una misma especie y de este modo podrá evitar confusiones por usos regionales o locales (como perro, dog, can, chucho). “Idealmente, cada nombre solo se forma una vez y se forma correctamente. Simple en teoría, pero mucho más difícil en la práctica”, agrega el científico.

Porque, ¿qué sucede si dos o más científicos forman nombres diferentes para la misma especie? ¿Si dos o más científicos crean el mismo nombre para diferentes especies? ¿Si algunos de los nombres están formados incorrectamente y contienen errores tipográficos y otros errores? ¿Si dos especies con dos nombres diferentes ahora se consideran la misma especie? ¿Cuál es el nombre correcto y válido para usar, y quién decide eso? Para regular este y otros tipos de conflictos potenciales que podrían suceder a la hora de crear un nombre, surgió el Código Internacional de Nomenclatura, pero terminó convirtiéndose en un texto complejo. Por eso, el científico se vio motivado a buscar la manera de hacerlo más simple.

Transformando el código en una red interactiva

El método que este científico desarrolló para lograr un acceso más dinámico al Código Internacional de Nomenclatura es en forma de red. “Para realizarlo, utilicé una metodología matemática conocida como análisis de redes, que generalmente se usa para describir y analizar redes sociales y otros tipos de estructuras conectadas”, explica. Y describe: “ Dividí el texto del Código en 1379 nodos de texto y luego conecté esos nodos con al menos 11276 conexiones o bordes: mediante el uso de potentes algoritmos de diseño, el texto del Código se transformó en una herramienta interactiva”.

Para Vlachos, este método podría ser útil en otras disciplinas que usan textos similares, como Historia, Leyes, Medicina y Lingüística. “Al transformar estos textos en redes, se abre una nueva línea de investigación en la que podemos manejar este tipo de documentos en forma interactiva y, además, ahora es posible describirlos total o parcialmente a través de métricas y otras estadísticas, permitiendo una comprensión profunda de los textos tanto por los usuarios profesionales como por el público”, finaliza.

martes, 27 de noviembre de 2018

Cómo visualizar redes gracias a las plataformas de datos abiertas vinculadas


Enriquecimiento y corte: cómo visualizar redes gracias a las plataformas de datos abiertas vinculadas


Lea Saint-Raymond, ENS / Université Paris Ouest Nanterre La Défense

Antoine Courtin, Instituto Nacional de Historia del Arte


Resumen
Las redes se desarrollan muy rápidamente en las ciencias sociales, y están comenzando a emerger en la historia del arte. Este documento explora la realización de visualizaciones de red, desde la construcción del conjunto de datos hasta el análisis de resultados. A partir de un corpus inicial sobre las ventas de subastas parisinas de pinturas modernas, desarrollamos una metodología para enriquecerlo, gracias a las plataformas de datos abiertos vinculados y las tecnologías para realinear conjuntos de datos. Entonces cuestionamos la visualización de las redes. Aunque proporciona una visión general del mercado y permite una lectura muy cercana, lo mejor es enemigo de lo bueno: demasiada información y demasiados nodos pueden representar una desventaja, de ahí la necesidad de cortar redes y combinarlas con otros modos de visualización.
 ARTLAS Bulletin


jueves, 1 de marzo de 2018

Entrevista a Aaron Clauset: Aprendizaje automático, economía y genes

Ciencia de redes: el campo oculto detrás del aprendizaje automático, la economía y la genética de la que nunca habrás oído hablar (probablemente): una entrevista con el Dr. Aaron Clauset [Parte 1]

Por Amy Hodler, Gerente del Programa de Analítica
Blog Neo4j


Recientemente tuve la oportunidad de combinar trabajo y placer y reunirme con el Dr. Aaron Clauset, un experto en ciencia de redes, ciencia de datos y sistemas complejos. En 2016, Clauset ganó el Premio Erdos-Renyi en Network Science, pero es posible que esté más familiarizado con su investigación anterior sobre leyes eléctricas, predicción de enlaces y modularidad.

El Dr. Clauset dirige el grupo de investigación que desarrolló la referencia del conjunto de datos ICON (si está buscando datos de red para evaluar, marque esto ahora) y ha publicado recientemente investigaciones que arrojan luz sobre posibles conceptos erróneos sobre estructuras de red. Cuando apareció un viaje de negocios de última hora a Denver, hice el viaje a Boulder, donde Clauset es profesor asistente de ciencias de la computación en la Universidad de Colorado en Boulder.



El Dr. Aaron Clauset es Profesor Asistente de Ciencias de la Computación en la Universidad de Colorado en Boulder y en el Instituto BioFrontiers. También es parte de la facultad externa en el Instituto Santa Fe (para estudios de complejidad).

Entre el almuerzo y la próxima clase de Clauset, hablamos sobre la investigación reciente de su grupo y la dirección general de la ciencia de la red, y me fui con una superposición de desilusión y entusiasmo. El Laboratorio Clauset ha estado trabajando para ampliar la diversidad y el rigor de estudiar sistemas complejos y, al hacerlo, pueden desmantelar algunas creencias que datan de los años 90. (Debería haber sabido que no sería simple, estamos hablando de sistemas complejos después de todo).

Esto le importa a la comunidad gráfica de Neo4j porque cualquier persona que analice las redes, especialmente si buscan atributos globales, necesita comprender la estructura y la dinámica subyacente. A continuación se encuentra un resumen de nuestra discusión.

¿En qué tipo de trabajo se enfoca su equipo?

Clauset: Mi grupo de investigación en CU Boulder actualmente incluye cinco Ph.D. estudiantes, junto con algunos maestros y varios estudiantes universitarios. Nuestra investigación se centra tanto en el desarrollo de nuevos métodos computacionales para la comprensión de conjuntos de datos complicados y desordenados, como en la aplicación de estos métodos para resolver problemas científicos reales, principalmente en entornos biológicos y sociales.

En el grupo, todos están involucrados en la investigación de alguna manera. Por ejemplo, el sitio web ICON (índice de redes complejas) fue construido por un par de estudiantes de licenciatura para aprender conceptos de redes y explorar herramientas.

Las redes son una de nuestras áreas de trabajo clave. Las redes son en realidad solo una representación, una herramienta para comprender sistemas complejos. Representamos cómo funciona un sistema social al pensar en las interacciones entre pares de personas. Al analizar la estructura de esta representación, podemos responder preguntas sobre cómo funciona el sistema o cómo se comportan las personas dentro de él. En este sentido, la ciencia de la red es un conjunto de herramientas técnicas que se pueden aplicar a casi cualquier dominio.

Las redes también actúan como un puente para comprender cómo las interacciones y dinámicas microscópicas pueden conducir a regularidades globales o macroscópicas. Pueden hacer un puente entre lo micro y lo macro porque representan exactamente qué cosas interactúan entre sí. Solía ​​ser común suponer que todo interactúa con todo, y sabemos que eso no es verdad; en genética, no todos los pares de personas y no todos los pares de genes interactúan entre sí.

Tomado de “Hierarchical structure and the prediction of missing links in networks
Un esfuerzo extremadamente importante en la ciencia de redes es descubrir cómo la estructura de una red da forma a la dinámica de todo el sistema. En los últimos 15 años hemos aprendido que para muchos sistemas complejos, la red es increíblemente importante para configurar lo que les sucede a los individuos dentro de la red y cómo evoluciona todo el sistema.

El trabajo de mi grupo se centra en caracterizar la estructura de estas redes para que podamos comprender mejor cómo la estructura finalmente da forma a la función.

¿Hay puntos en común entre los diferentes tipos de redes?

Clauset: A fines de la década de 1990 y principios de la década de 2000, mucha energía en la conducción de la ciencia de redes provino de los físicos, que aportaron nuevas herramientas matemáticas, modelos y muchos datos nuevos. Una idea que popularizaron fue la hipótesis de que los patrones "universales" ocurrieron en redes de todo tipo: redes sociales, biológicas, tecnológicas, de información e incluso económicas, y que fueron impulsadas por un pequeño número de procesos fundamentales.

Este tipo de idea era bastante normal en una parte de la física. Por ejemplo, hay un modelo matemático universal de cómo funciona un imán que hace predicciones notablemente precisas sobre imanes reales de todo tipo.

El sueño de las redes era mostrar que lo mismo se podía hacer por ellos: que todos los diferentes tipos de redes podían explicarse mediante un pequeño conjunto de principios o procesos matemáticos básicos, o que caían en un pequeño número de categorías estructurales generales. Es una idea bastante poderosa e inspiró tanto un trabajo multidisciplinario realmente bueno como varias afirmaciones altamente provocativas.



La validez de algunas de las afirmaciones más audaces ha sido difícil de evaluar empíricamente porque requirió el uso de un conjunto grande y diverso de redes del mundo real para probar la "universalidad" empírica del patrón. Reunir un conjunto de datos de este tipo es parte de lo que nos llevó a armar el índice de redes complejas, lo que llamamos el índice ICON.

Aunque todavía estamos expandiéndolo, mi grupo ya ha comenzado a revisar muchas de las afirmaciones iniciales sobre patrones universales en redes, incluida la idea de que "todas las redes están libres de escalas", o que solo las redes sociales tienen una alta densidad triangular, o que las redes se agrupan en "superfamilias" basadas en el patrón de su estructura local. Sorprendentemente, muchas afirmaciones sobre la estructura de las redes se han repetido una y otra vez en la literatura, pero no han sido escrutadas cuidadosamente con datos empíricos.

Resulta que muchos de estos patrones universales se desmoronan cuando se puede mirar a través de una gran variedad de redes. El reciente artículo de Kansuke Ikehara [Characterizing the structural diversity of complex networks across domains] plantea una pregunta simple: si etiqueto una gran cantidad de redes de dónde provienen (por ejemplo, una red de transporte / carretera, una red social / en línea o una red metabólica / biológica) ¿puede utilizar el aprendizaje automático para descubrir qué características distinguen a estas clases de redes?

La diversidad estructural de las redes complejas. Si hay algunas "familias" de estructuras de red, entonces ningún algoritmo debería ser capaz de aprender a distinguir las diferentes redes dentro de una familia. En cambio, lo que encontramos fue que prácticamente todas las clases de redes se distinguían fácilmente de las demás clases.


Las redes sociales se agrupan en una parte del espacio de características, las redes biológicas generalmente están bien separadas de aquellas, etc., y esto es cierto para cada clase de red que examinamos. El claro mensaje para llevar a casa es que hay mucha más diversidad en las estructuras de red de lo que pensamos hace 20 años, y por lo tanto, mucho más trabajo por hacer para comprender de dónde viene esta diversidad.

La investigación de Ikehara reveló la diversidad estructural oculta de las redes y sugiere que puede haber menos patrones universales de lo que alguna vez se pensó. Al mismo tiempo, algunos grupos de redes están más cerca unos de otros en términos de su estructura.

Por ejemplo, encontramos que las redes de distribución de agua exhiben firmas estructurales similares a las redes miceliales fúngicas, lo que sugiere que pueden estar formadas por procesos subyacentes similares o problemas de optimización. De esta forma, el aprendizaje automático puede ayudarnos a identificar semejanzas estructurales y, por lo tanto, a ayudarnos a descubrir, de una manera basada en datos, dónde es más probable que encontremos una explicación mecánica común.

¿Cómo está evolucionando la ciencia de la red?

Clauset: En muchos sentidos, la ciencia de redes hoy se está diversificando y expandiendo. Esta expansión permite una gran especialización, pero hay una compensación. Ahora las personas pueden tomar métodos de red y aplicarlos en preguntas realmente específicas sobre sistemas realmente específicos.

Esto es enormemente productivo y un logro emocionante para la ciencia de redes. Pero, el crecimiento del trabajo disciplinario alrededor de las redes también significa que hay relativamente menos trabajo que cruza los límites disciplinarios. Sin espacios compartidos donde personas de diferentes dominios se reúnan para hablar sobre sus avances, las personas que trabajan en un tipo de problema tienen menos probabilidades de exponerse a ideas potencialmente notables en un área diferente.

Claro, muchas ideas sobre economía no se aplicarán a las redes biológicas, pero algunas lo harán, y si los economistas y los biólogos nunca se comunican entre sí, nunca lo sabremos. Si no hay un terreno común, habrá una gran cantidad de reinvención y retrasos, incluso años para que los métodos en un dominio pasen a otro.

Es por eso que creo que es muy importante estudiar y reunirse para debatir sobre las redes en general. Este tipo de fervor interdisciplinario es otra cosa que los físicos y los informáticos ayudaron a poner en marcha hace unos 20 años; eran principalmente físicos y científicos informáticos que transmitían "también podemos hacer sociología, política y ecología".

Esa actitud ciertamente molestó a algunas personas, especialmente a los sociólogos que ya habían estado haciendo redes durante 80 años, pero también generó un enorme y amplio interés en las redes de prácticamente todas las ciencias. Ahora, las diferentes áreas disciplinarias de la ciencia de las redes crecen tan rápido que, de alguna manera, el centro -encrucijada donde las ideas pueden saltar entre los campos- se está reduciendo de manera efectiva.

¿Cómo puede la ciencia de redes fomentar una mayor colaboración entre dominios?

Clauset: Tener un evento real que sirva como una encrucijada entre dominios donde las personas pueden presentarse e interactuar es esencial. En muchos sentidos, la Conferencia Internacional sobre Ciencia de Redes está tratando de hacer eso, pero se esfuerza por sacar a los investigadores de sus dominios y colocarlos en el medio, ya que las diferentes disciplinas tienen diferentes preguntas generales. Creo que siempre que algunos expertos en dominios de diferentes campos lleguen a la encrucijada para hablar e interactuar, las buenas ideas eventualmente se extenderán.

Continuar con este esfuerzo interdisciplinario será una parte clave para continuar el avance de la ciencia de redes. Pero no todos los esfuerzos deben ser interdisciplinarios. De hecho, las disciplinas son esenciales para ayudar a enfocar nuestra atención colectiva.

No estoy seguro de cuál es el equilibrio correcto entre el trabajo disciplinario y el interdisciplinario, pero para mí las ideas interdisciplinarias son las más interesantes. Si el trabajo sobre estos no está financiado y respaldado a niveles decentes, seguramente no abordaremos muchas de las ideas más importantes de la sociedad porque son las que abarcan diferentes disciplinas.

Por ejemplo, la ciberseguridad no es solo un problema técnico, ya que los humanos tienen un terrible historial de escritura de software libre de errores. La seguridad real requiere componentes legales, componentes sociales, componentes éticos, componentes económicos y probablemente más para desarrollar una solución duradera.

De hecho, si elige cualquier problema que afecte a una porción decente de la población, entonces seguramente se trate de un problema interdisciplinario que requerirá un enfoque interdisciplinario para comprender y resolver.

Conclusión

Como puede ver, tuvimos una gran discusión sobre cómo están cambiando algunas de las ideas preconcebidas sobre las redes. La próxima semana, en la segunda parte de esta serie, resumiré nuestra inmersión más profunda en algunos de los avances y temas emergentes en la ciencia de redes.

domingo, 14 de enero de 2018

Base de datos de redes online Colorado Index of Complex Networks

Base de datos online Colorado Index of Complex Networks


Si necesitan conjuntos de redes para testeos, experimentación o enseñanza se puede recurrir a la Colorado Index of Complex Networks. Se puede buscar por domino, propiedades de los grafos, tamaño, y muchas condiciones más. Gracias a la Universidad de Colorado!


martes, 2 de enero de 2018

Sesgo de selección al trabajar con datos de Facebook

Cómo Facebook estila las ciencias sociales

Cuando las empresas privadas tienen datos que necesitan los estudiosos, ¿qué sucede con la investigación académica?

Por Henry Farrell || The Chronicle of Higher Education

Brian Taylor para The Chronicle Review

¿Cuál fue exactamente el alcance de la intromisión rusa en la campaña electoral de 2016? ¿Qué tan extendida fue su infiltración de las redes sociales? ¿Y cuánta influencia tuvo su propaganda en la opinión pública y el comportamiento de los votantes?

Los académicos solo ahora están empezando a abordar esas preguntas. Pero para responderlas, los académicos necesitan datos, y obtener esos datos ha sido un problema.

Tomemos un ejemplo reciente: Jonathan Albright, un investigador de la Universidad de Columbia, investigó varias páginas compradas en Rusia que Facebook había anotado. Concluyó que habían acumulado potencialmente cientos de millones de visitas. David Karpf, profesor asociado de medios y asuntos públicos en la Universidad George Washington, no estaba convencido, argumentando que la mayoría de las "personas" a las que les habían gustado estas páginas eran muy probablemente bots rusos. (Divulgación completa: encargué y edité la publicación de Karpf en el blog Monkey Cage de The Washington Post).

Por lo general, tales desacuerdos se resuelven a través de los datos. El problema al que se enfrentan académicos como Albright y Karpf es que hay pocos datos públicamente disponibles en Facebook. Para su estudio, Albright tuvo que usar una herramienta poco convencional propiedad de Facebook llamada CrowdTangle para encontrar cualquier cosa. Después de haber publicado sus hallazgos iniciales, Facebook anunció rápidamente que había "corregido un error" en el software utilizado por Albright, lo que hacía imposible que otros investigadores replicaran lo que hizo. Albright y Karpf se quedan en una situación muy desdichada: los datos que necesitan para comprender lo que sucedió simplemente ya no están disponibles.

Las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores y menos accesibles que el gobierno. Esto está remodelando la investigación en ciencias sociales.

Ese es un ejemplo de un cambio extraordinario en la política y la práctica de las ciencias sociales. Las empresas como Facebook tienen información crucial sobre el comportamiento social y político de las personas. Pero son extremadamente reacios a proporcionar esa información a personas ajenas, a menos que esas personas externas firmen acuerdos de confidencialidad (NDA, por sus siglas en inglés) que otorguen a Facebook el poder de demandar si la información se utiliza de manera que la empresa considere objetable.

Esto marca un cambio significativo para los investigadores. Solía ​​ser que los estados eran la fuente más importante de datos sobre sus ciudadanos, la economía y la sociedad. Tuvieron que recopilar y agregar grandes cantidades de información, por ejemplo, censos de personas y empresas, para sus propios fines. Además, las agencias estatales ayudaron a financiar proyectos de ciencias sociales en la recopilación de datos, como el apoyo de la National Science Foundation a los American National Election Studies durante décadas.

En consecuencia, la política de acceso a los datos solía estar más centrada en el estado. Algunas veces, el estado era reacio a proporcionar información, ya sea para proteger la privacidad, ocultar sus errores o mantener el control de la información confidencial. Pero en su mayor parte, normalmente proporcionaba acceso, y los académicos podían presionarlo cuando se estancaba. En ese mundo, los académicos podían recurrir a fuentes comunes, y generalmente (aunque no siempre) tenían un acceso más o menos igualitario.

Hubo un inconveniente: las preguntas de los académicos se formaron por los datos que podían obtener. Pero lo bueno fue que la investigación generalmente era reproducible. Los desacuerdos como ese entre Albright y Karpf podrían llevarse a cabo en igualdad de condiciones.

Ahora estamos entrando en una nueva era para las ciencias sociales. Para muchos propósitos académicos, las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores que el gobierno, y esos datos son mucho menos accesibles. Este nuevo universo de datos privados está remodelando la investigación en ciencias sociales de maneras que se comprenden mal.

En este nuevo mundo valiente, el acceso a los datos es una jungla. No existen reglas universales: las empresas tienen sus propias políticas individuales sobre cuándo proporcionan a los científicos sociales acceso común a los datos, o pueden hacerlo de forma ad hoc, o pueden negarse por completo. Cuando estas firmas construyen relaciones, generalmente es con investigadores individuales o pequeños grupos de investigadores, cuyo trabajo puede ser valioso para la empresa. Y esas relaciones generalmente están cubiertas por NDA u otras reglas contractuales que restringen cómo los investigadores pueden usar los datos y resumirlos en investigaciones publicadas.

Eso puede tener grandes consecuencias para las carreras académicas. Algunos académicos, aquellos con conexiones con las firmas adecuadas, pueden prosperar. Aquellos sin conexiones tienen que ser creativos para hacer su trabajo. A veces es posible que obtengan acceso directo a datos agregados sin cadenas, a través de herramientas como Google Trends. A veces pueden reutilizar las herramientas que Facebook y otras compañías ponen a disposición de los anunciantes u otros clientes comerciales (CrowdTangle es un ejemplo). Sin embargo, los datos recopilados de esa manera pueden no ser adecuados para fines específicos de investigación.

Eso no quiere decir que los datos que provienen directamente de las empresas sean perfectos, ni nada por el estilo. Detrás de cada gran conjunto de datos existe un gran crimen. Casi todos los datos de las ciencias sociales están sesgados por las suposiciones y las metodologías (a veces problemáticas) que se utilizaron para recopilarlas. Los conjuntos de datos construidos por el Estado en su apogeo fueron defectuosos en muchos sentidos y continúan siéndolo. Sin embargo, a medida que los estándares profesionales mejoraron, los defectos se entendieron mejor y fueron más transparentes.

Las nuevas formas de datos de compañías privadas son más problemáticas. Se recolectan principalmente con fines comerciales en lugar de investigación. A menudo se recolectan mediante técnicas de aprendizaje automático, que producen clasificaciones que son oscuras incluso para sus creadores. Los hallazgos basados ​​en estos datos se retroalimentan para remodelar los algoritmos con miras a cambiar el comportamiento humano, por ejemplo, hacer que los individuos sean más propensos a hacer clic en los anuncios, para que los datos a menudo no sean comparables con el tiempo.

En combinación, esos factores pueden significar que es realmente difícil interpretar los datos. Por ejemplo, ¿hasta qué punto los cambios en el comportamiento en Facebook pueden ser impulsados ​​por cambios subyacentes en la sociedad, y en qué medida por los cambios a los algoritmos de Facebook? Excepto bajo ciertas circunstancias, digamos, cuando Facebook ejecuta experimentos controlados, puede ser difícil de decir.

Las restricciones de acceso presentan desafíos adicionales. Las NDA y otros acuerdos pueden no solo evitar que los investigadores compartan datos con sus colegas, sino que también pueden evitar que brinden información valiosa sobre cómo se recopilaron y procesaron los datos.

Juntos, esos factores significan que podemos estar a punto de presenciar una colisión entre el movimiento de reproducibilidad, que está ganando terreno en las ciencias sociales, y el nuevo mundo de datos patentados, que socava la reproducibilidad porque la información es inaccesible para otros y susceptible de ser destruido si no conserva el valor comercial.

Si los académicos comienzan a confiar en las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección.

 Aún más preocupante, el control corporativo de los datos puede conducir a dos tipos de sesgo de selección. Más obviamente, los hallazgos poco favorecedores probablemente no se publicarán si las corporaciones tienen algo que decir. Por ejemplo, Uber financió a científicos sociales para llevar a cabo investigaciones sobre si su servicio era más barato o más rápido que los taxis estándar. La investigación sugirió que Uber era de hecho más barato y más rápido, pero Uber insistió en mantener el control sobre si los resultados se publicaron o no. No se necesita una mente especialmente sospechosa para adivinar que Uber habría retenido el permiso para la publicación si los resultados hubieran sugerido que su servicio era peor que los taxis. Cuando las empresas utilizan el acceso propietario a los datos y los acuerdos legales para mantener el control sobre la publicación, tienen fuertes incentivos para permitir la publicación de solo material que los favorece. Con el tiempo, esto llevará a sesgar la investigación públicamente disponible.

De manera más insidiosa, si los académicos comienzan a depender de las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección. Ciertos temas y métodos de investigación serán favorecidos, mientras que otros se quedan en el camino. Facebook es muy sensible a la sugerencia de que su servicio puede tener consecuencias políticas, salvo las más inocuas. Sus investigadores y politólogos colaboraron en un importante experimento que muestra que los mensajes de Facebook podrían hacer que la gente tenga más probabilidades de votar, pero fue especialmente sensible a nuevas consultas sobre cómo la ubicación de noticias de Facebook influye en el comportamiento político, eliminando un video de YouTube en el que un investigador de Facebook había descrito lo que habían hecho con un poco de detalle. Facebook bien puede tener grandes efectos en la política, no solo en las elecciones de los EE. UU., Sino en otros contextos (como la Primavera Árabe). Pero no tiene ningún incentivo para permitir que los expertos utilicen sus datos para llevar a cabo investigaciones sobre la mayoría de esos efectos, por lo que líneas de investigación completas pueden terminar muertas.

Luego está el aspecto ético de realizar investigaciones utilizando datos de empresas privadas. Las empresas como Facebook, que no están sujetas a normas académicas, pueden verse tentadas a tomar decisiones éticas dudosas, cuando, por ejemplo, tratan los ecosistemas de medios de países enteros como ratones en un experimento de laboratorio. Sin embargo, los académicos no pueden lidiar mejor con la tentación. El personaje de los Simpson, el Dr. Marvin Monroe, tiene la ambición de construir una "caja Monroe", en la que mantendrá a un bebé hasta la edad de 30 años, sometiéndolo a momentos aleatorios a electrocución y duchas de agua helada para probar la hipótesis de que resentir a su captor. Todos los científicos sociales tienen un poco de Marvin Monroe en sus corazones, y muchos podrían verse tentados, si tan solo tuvieran los medios, de enviar multitudes de seres humanos corriendo como ratas a través de laberintos de información social sutilmente sesgada para ver qué caminos toman. En un mundo dominado por datos de empresas privadas, es más fácil para los académicos llevar a cabo el trabajo fuera de las restricciones éticas habituales. Los autores de un estudio de 2014 sobre las redes sociales y el "contagio emocional" no tuvieron que someterse a la aprobación del IRB para su trabajo, ya que el experimento ya había sido llevado a cabo por Facebook. Espere que esta tendencia continúe a medida que crezca el uso de datos privados.

Como muestra la historia de Albright-Karpf, estos problemas ya no son meramente académicos. Facebook está sometido a un intenso escrutinio político debido a su aparente ceguera ante las operaciones de influencia rusa. Los investigadores del Congreso son más propensos que los académicos externos a tener éxito en insistir en el acceso a los datos. La política de los datos está cambiando, tal vez de manera significativa. Muchos miembros del Congreso consideran que ya no es apropiado que gran parte de la conversación nacional tenga lugar dentro de una caja negra. Otros servicios que también están bajo un mayor escrutinio, como Twitter, han sido más abiertos, aunque también ha sido caprichoso en su disposición a permitir que otros obtengan acceso a sus datos.

Esto probablemente terminará en frustración y confrontación mutua. Los miembros del Congreso no son especialmente expertos técnicamente y, a lo largo de las décadas, han despojado a muchas de las instituciones (como la Oficina de Evaluación Tecnológica) que podrían haberles proporcionado una guía autorizada.

Sin embargo, hay otro camino posible hacia adelante. Facebook y los otros grandes jugadores en el mundo de los datos sociales podrían aliviar parte de la presión política sobre ellos al rehacer su relación con la academia. Va a ser difícil para estas empresas mantener la postura de "mantener las manos fuera" que han tenido sobre sus datos en el pasado. Si van a tener que ser más responsables públicamente, probablemente estén mejor construyendo relaciones con académicos, que tengan un conocimiento técnico, que con personas designadas por razones políticas, que normalmente no lo hacen.

Facebook, Google y Twitter podrían acordar proporcionar datos a un observatorio académico independiente. Este acuerdo funcionaría bajo reglas éticas explícitas y ampliamente acordadas. El observatorio llevaría a cabo y publicaría investigaciones sobre problemas derivados del abuso de los servicios de medios sociales por parte de terceros (como ocurrió con Rusia), acreditaría a investigadores confiables que podrían tener acceso a datos tanto para fines de investigación original como de replicación, y coordinaría con gobierno y otras partes con un interés claro y legítimo en combatir el comportamiento abusivo.
En términos más generales, este observatorio podría proporcionar un ancla real para el debate sobre las consecuencias reales de los medios sociales para la sociedad y la política. Si bien a las compañías de tecnología a veces no les gustarían sus hallazgos, estarían mejor si los debates políticos se basasen en hechos y datos en lugar de en especulaciones de segunda mano mal informadas, a veces alarmistas.

Tal acuerdo podría proporcionar supervisión sin requerir que las compañías sacrifiquen por completo sus modelos comerciales. También podría ayudar a resolver los problemas de seguridad transversales mejor de lo que cualquier empresa podría hacerlo. Las empresas comerciales tienen pocos incentivos para compartir datos con sus competidores, ya que estos datos suelen estar en el corazón de sus modelos comerciales. Esto lleva a una fragmentación general del conocimiento, en la que las empresas competidoras tienen diferentes tipos de datos que podrían ilustrar un problema desde múltiples perspectivas. Las operaciones de influencia rusa han involucrado acciones combinadas en Facebook, YouTube, Twitter y Google. Un centro independiente podría rastrear esas relaciones a través de diferentes servicios sin comprometer las necesidades comerciales de las empresas individuales.

Todo esto implicaría una gran creatividad e ingenio por parte de los propios negocios, así como de los investigadores con quienes podrían trabajar. Tendrían que crear un nuevo tipo de acuerdo para dicho observatorio, que sería similar a algunas organizaciones existentes, como los equipos de preparación para emergencias informáticas, o CERT, que ya desempeñan un papel clave en la ciberseguridad. Tal organización requeriría un financiamiento independiente sustancial, probablemente canalizado a través de una fundación u otro acuerdo sin fines de lucro. Eso no solo resolvería algunos de los problemas más complicados de la relación entre la erudición y el comercio electrónico, sino que también integraría la investigación académica y las capacidades de los grandes datos en la búsqueda de objetivos sociales y políticos importantes.

No está claro que este resultado sea políticamente factible en este momento. Es muy probable que Facebook, Twitter y Google piensen en su situación como un problema de relaciones públicas a corto plazo en lugar de una crisis existencial que amenaza con convertirse. Eso es miope. Las crisis y los escándalos tienden a escalar, especialmente cuando la falta de datos significa que incluso los investigadores más sofisticados se ven obligados a adivinar lo que realmente está sucediendo. Si las empresas de medios sociales no se despiertan a los problemas del mundo que están construyendo, en el que la información más crucial sobre cómo el trabajo de la política y la sociedad está escondido detrás de los muros de propiedad y los acuerdos de confidencialidad, es probable que encuentren su negocio básico modelos bajo ataque después del próximo gran escándalo, o el siguiente después.

jueves, 2 de noviembre de 2017

Nueva versión de VOSviewer opera directamente con Crossref

Visualizando datos de citas disponibles de forma gratuita utilizando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Initiative for Open Citations (I4OC) logró convencer a un gran número de editoriales científicas para que las listas de referencias de publicaciones en sus revistas estuvieran disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Uso de datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API de Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada a VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API de Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargando datos usando la API Crossref

Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas por separado para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, los datos para el Journal of Informetrics se pueden obtener en una sola llamada API. Para realizar esta llamada API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro rows en la solicitud API indica que nos gustaría para recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref solicitando datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es el llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, debemos realizar tres llamadas a la API, cada una de las cuales da como resultado datos para un máximo de 1000 publicaciones. Utilizamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y la tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para más información, nos referimos a la documentación de la API.

Creando visualizaciones bibliométricas basadas en datos Crossref

Primero utilizamos los datos de Crossref descargados para visualizar una red de coautoría de investigadores en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las elecciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.



A continuación, usamos nuestros datos Crossref para visualizar una red de publicaciones de acoplamiento bibliográfico en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos la opción Create a map based on bibliographic data en el asistente Create Map . Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.



El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido todas en Scientometrics. La red no incluye publicaciones de Journal of Informetrics. Esto demuestra una importante limitación de los datos Crossref. Gracias a I4OC, muchos editores hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Informetrics no están disponibles a través de Crossref, las publicaciones de esta revista no se pueden incluir en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible utilizar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el preprocesamiento de los datos. Para ilustrar el uso a gran escala de datos Crossref, utilizamos los datos para visualizar una red de citas de 5000 revistas de todos los campos de la ciencia.

Usando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, era necesario preprocesar los datos para poder proporcionarlos como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, identificamos todas las revistas (así como las actas de congresos y las series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas fue ignorada, por lo que no se hizo distinción entre una cita del diario A y el diario B y una cita del diario B del diario A. La red de citas del diario se guardó en un archivo de red VOSviewer y se utilizó este archivo como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.



La visualización muestra una estructura de la ciencia que es bien conocida a partir de visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se ubican en el área derecha de la visualización, mientras que las revistas de ciencias biológicas y de vida se encuentran en el área superior. Finalmente, las revistas de ciencias sociales se ubican en el área inferior izquierda de la visualización. Algunas revistas importantes faltan en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no hace que las listas de referencias de publicaciones estén disponibles a través de Crossref.

Conclusión

Gracias a I4OC, Crossref se ha convertido en una fuente valiosa de datos de citas disponibles gratuitamente. Los datos de citas de Crossref se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para el uso de datos Crossref para visualizar redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles de manera gratuita.

viernes, 14 de abril de 2017

La importancia de los grafos de bases de datos en Big Data

Por qué los grafos de bases de datos son tan eficaces en el análisis de Big Data 
Cleverism

Vivimos en una era de datos. La información está en todas partes y se puede acceder de diferentes maneras. La información también se recoge en grandes cantidades. No se puede hacer mucho en el mundo moderno sin que se anote y se almacene en una base de datos.

El gran análisis de datos y las grafos de bases de datos son palabras de moda que más probablemente haya encontrado. Es probable que le hayan dicho que comience a usar grafos de bases de datos en su gran analítica de datos para aumentar su eficiencia organizativa.



Por qué los grafos de bases de datos son tan eficaces en Big Data Analytics
Wikimedia Commons I Hoshi Ludwig (CC BY-SA 4.0)

¿Pero por qué? Veamos los conceptos y las razones por las que los grafos de bases de datos son tan eficaces en grandes datos.

¿Qué son los grandes datos?

A menos que usted haya estado viviendo bajo una roca, usted debe haber oído el término "Big Data" arrojado alrededor. De hecho, es probable que haya escuchado que se menciona en tantos contextos diferentes, descritos de diferentes maneras en que podría ser difícil saber y entender lo que realmente significa el término y cuál es su significado.

Por lo tanto, voy a tratar de explicar el término de forma concisa y le dejo en las razones definitivas que importa.

La definición de grandes datos

Si busca la definición de grandes datos en Google, recibirá más de 10 millones de resultados. La definición del diccionario establece grandes datos como:

"Conjuntos de datos extremadamente grandes que pueden ser analizados computacionalmente para revelar patrones, tendencias y asociaciones, especialmente relacionadas con el comportamiento humano y las interacciones".

Muchas palabras de lujo, ¿verdad? La definición podría no abrir la idea y el propósito detrás del concepto. Podrías afirmar lo anterior de manera un poco más simplista y describir los grandes datos como una gran colección de datos, recopilados de fuentes tradicionales y digitales. Los datos pueden ser recogidos dentro de una organización específica y sus diferentes canales o fuera de la organización. Además, los datos grandes no sólo se recogen sino que se usan para descubrir cosas nuevas y para analizar patrones y procesos existentes.

El punto clave para entender con grandes datos es que los conjuntos de datos recogidos son enormes - no se trata de unos pocos números de teléfono aquí, sino grandes cantidades de diferentes tipos de datos. Además, los datos suelen estar en formato digital, aunque no se deben excluir los conjuntos de datos tradicionales. Los registros financieros, por ejemplo, también forman parte de grandes datos. Además, los grandes datos siempre mezclan datos multi-estructurados y no estructurados. Qué significa eso? Los datos grandes pueden utilizar:

  • Datos no estructurados, que son información que no puede ser fácilmente organizada o interpretada por bases de datos y modelos tradicionales.
  • Datos multi-estructurados, que son diferentes tipos y formatos de datos, derivados de las interacciones entre personas y máquinas.
    Entonces, ¿qué es lo que se ve en la realidad? Un ejemplo de grandes datos sería cómo Wal-Mart recogió datos de sus clientes y el clima. Al combinar estos diferentes conjuntos de datos y puntos de información, la empresa notó que a medida que las tormentas se dirigen hacia la ubicación, los clientes compran más linternas (comprensibles!) Y Pop-Tarts (interesante y algo sorprendente).

Para una rápida recapitulación de lo anterior y una visión del mundo de los grandes datos, debe ver el corto clip a continuación:



¿Por qué los datos importantes importan?

Pero, ¿qué significa lo anterior para una organización? ¿Por qué importa si recopilas y usas datos grandes? Bueno, el ejemplo de Wal-Mart muestra las dos razones principales para utilizar datos grandes:

Revela la información oculta - Usted no necesita saber los patrones del tiempo y el consumo del cliente de ciertas mercancías van de común acuerdo o tiene un acoplamiento. Los datos grandes ayudan a revelar esta información y por lo tanto, usted no necesita saber lo que usted está buscando para encontrar una conexión. Wal-Mart no sabía que está buscando para encontrar un alimento específico aumentar sus ventas antes de una tormenta, pero fue capaz de encontrar esta conexión interesante debido a la gran analítica de datos.
Extrae valor - La información que obtiene ayuda a comprender mejor las conexiones entre acciones y comportamientos. Esto a su vez, le ayudará a aumentar la extracción de valor, ya sea ayudándole a hacer o ahorrar más dinero, o mejorar la eficiencia. En el ejemplo de Wal-Mart, la compañía podría usar la información para promover Pop-Tarts cuando las tormentas se dirigen adentro o hacen las linternas más accesibles fácilmente.

¿Qué son los grafos de bases de datos?

Pero ¿qué pasa con el otro concepto que estamos conectando con el análisis de datos grandes? Con el fin de comprender los beneficios de utilizar grafos de bases de datos en relación con grandes datos, es necesario comprender el significado y la importancia de ellos.

La definición de un grafo de base de datos 

Las definiciones de un grafo de base de datos también vienen en complejidades diferentes. La definición informática del concepto dice que un grafo de base de datos es:

"Una base de datos que utiliza estructuras de grafos para consultas semánticas con nodos, aristas y propiedades para representar y almacenamiento de datos".

Si usted no es un experto en informática o se utiliza para la jerga de la tecnología, lo anterior probablemente fue muy por encima de su cabeza. No se preocupe, hay una manera más práctica de ver el concepto. Un grafo es una ilustración de la información y una base de datos es, naturalmente, un conjunto de información agrupada. Los grafos de bases de datos tienen dos elementos de definición:
  • Un nodo, que representa una entidad. Esto puede ser una persona, un lugar, una cosa y así sucesivamente.
  • Una relación, que es la conexión entre dos nodos separados.
Esencialmente, los grafos de bases de datos son conjuntos de datos que se centran en las conexiones entre diferentes partes de la información y representan estas conexiones de una manera simple y gráfica.

Se puede pensar en ello a través de un ejemplo, como Twitter, que es en sí mismo un enorme grafo de base de datos. Los usuarios serían los nodos y las conexiones o relaciones que los diferentes nodos tienen pueden ser variables y que se representan con 'sigue'. La conexión entre dos usuarios (nodos) podría ser la del nodo 1 después del nodo 2, con el nodo 2 no siguiendo el nodo 1. Tanto el nodo 1 como el 2 también podrían estar siguiendo uno al otro y así sucesivamente. Todos los diferentes usuarios (nodos) y las relaciones que tienen con otros nodos pueden representarse en un enorme grafo de base de datos.



¿Por qué son importantes los grafos de bases de datos?

Pero, ¿por qué un grafo de base de datos facilita el análisis y la comprensión de la información? ¿Cuál es el propósito de representar a los usuarios de Twitter y sus relaciones con un grafo de base de datos? Una organización puede beneficiarse del uso de grafos de bases de datos de tres maneras diferentes, con la base de datos ayudando a:
  • Aumentan el rendimiento - Cada organización tendrá datos y los conjuntos de datos siempre seguirán creciendo. El crecimiento de estos conjuntos de datos también conducirá al crecimiento en las conexiones que tienen los conjuntos de datos. Los grafos de bases de datos están específicamente diseñadas para entender las relaciones entre diferentes partes de datos, lo que significa que el crecimiento de las relaciones no dificultará el rendimiento.
  • Proporcionan flexibilidad: el uso de grafos de bases de datos también es flexible, ya que la base de datos puede cambiar a la misma velocidad que la de su organización. La estructura del modelo se adapta a todo tipo de necesidades y requerimientos.
  • Mejoran la agilidad - Los grafos de base de datos también admite agilidad, que es crucial en un entorno de desarrollo basado en pruebas. A medida que cambian los requisitos de su empresa, la base de datos puede cambiar con ella.

El mundo interconectado de hoy significa que diferentes piezas de información están conectadas entre sí en una serie de formas únicas. El uso de los grafos de bases de datos significa que no sólo entienden la importancia de la información y los datos, sino las relaciones entre ellos.

La comprensión adquirida de las relaciones puede impulsar a su organización en términos de eficiencia y creación de valor - tal como vimos con grandes datos. La información por excelencia conduce a un mejor servicio y un mayor valor, tanto para usted como para el cliente.

¿Por que los grafos de bases de datos funcionan en el análisis de Big Data?

Entonces, ¿qué obtienes cuando implementas grafos de bases de datos en análisis de datos grandes? Una herramienta eficaz y poderosa para crear conexiones y utilizar sus datos. Pero, ¿por qué?

Como se mencionó en la primera sección, los datos grandes generalmente se basan en el lenguaje de consulta estructurada (SQL) para comunicarse con una base de datos. Es el lenguaje de la gestión de bases de datos relacionales, que son bases de datos que se construyen alrededor de tablas y colecciones de filas de atributos.

La comunicación entre las diferentes tablas y filas puede ser lenta y difícil cuando se ponen en cuestión conjuntos de datos enormes e irregulares. Esencialmente, a medida que los datos continúan creciendo y evolucionando, el modelo tradicional de SQL puede llegar a ser insuficiente para comprender las relaciones entre estos diferentes conjuntos de datos.

¿Cómo se resuelven estos problemas? Bueno, los grafos de bases de datos son una parte de la solución. Pertenecen a un movimiento denominado No Only SQL o NoSQL. En lugar de estructurar los datos en el modelo tradicional de tablas y filas, NoSQL permite que el diseño de la base de datos se construya en torno a los requisitos a la mano. Esto puede significar que los datos están estructurados y definidos por:

  • Almacenes de valores clave
  • Documentos
  • Grafos de bases de datos 

El modelo de grafo de base de datos se centra en las relaciones de los diferentes nodos, o puntos de datos. Por lo tanto, en lugar de mirar el valor del punto de datos (que es lo que la base de datos SQL haría), el grafo de base de datos está organizando y analizando los puntos de datos desordenados de acuerdo a las relaciones. El grafo de base de datos agrega otra capa de estructuración y análisis de los datos, aumentando la eficacia de su gran análisis de datos. Simplemente abre más puertas para su organización.

Pero, ¿cuál es la importancia de la relación de nodos en los grandes datos? ¿Por qué es tan eficaz en la adición de la forma de analizar los datos. En pocas palabras, la respuesta es que puede aclarar los datos interconectados con mayor claridad. En lugar de simplemente entender cuál es el valor de los datos específicos, se entiende el valor de la relación entre los datos. Si piensa en el ejemplo de los hallazgos de Wal-Mart, el grafo de base de datos ayudaría a notar la relación entre la tormenta, las decisiones de compra y los clientes que compraron linternas y Pop-Tarts.

Una organización no sólo se basa en los datos cuando se trata de la toma de decisiones. Si desea aumentar las ventas en su librería, no sólo necesita datos sobre los libros que se están vendiendo con el fin de aumentar las ventas. Es necesario comprender cómo los clientes se conectan a los libros, por ejemplo, qué libros tienden a ser comprados por la misma persona y qué tienen en común los compradores de un libro específico. Si descubre estas relaciones, puede aumentar las ventas mucho más fácil. Tal vez encuentres una conexión donde la gente que lee J.K. Rowling también tiende a comprar libros de Terry Pratchett y puede utilizar la información en la comercialización o el posicionamiento de los libros. Por lo tanto, mejorar la forma de interpretar y utilizar los datos. No sólo se centran en el valor específico, pero el valor de la relación. Para cualquier organización, las relaciones entre los puntos de datos son importantes y seguirán creciendo en importancia.

Otro ejemplo de lo anterior podría ser entender por qué el transporte de libros desde el almacén lleva mucho tiempo. Con la ayuda de un grafo de base de datos, puede encontrar la relación entre el almacén, minorista, empresa de entrega y el cliente y encontrar qué conexiones tomar más tiempo o si podría obtener el producto más rápido mediante diferentes relaciones, es decir, los procesos de entrega. Puede solucionar los problemas de su empresa de diferentes maneras, ya que son capaces de ver los datos de una manera diferente al modelo tradicional y encontrar conexiones que no puede realizar con el modelo de SQL. Usted termina creando más valor para la organización y el cliente. Resuelve un problema que puede impedir que un cliente haga compras con usted de nuevo y cree un servicio más eficiente que podría aumentar el valor que puede obtener de los servicios que proporciona.

Además, el modelo de base de datos NoSQL puede ser mucho más eficiente en términos de encontrar estas conexiones de datos. Una base de datos SQL comenzaría su búsqueda comprobando puntos de datos individuales y comparándolos con otro uno por uno. Considere que tiene el punto de datos A y desea encontrar quién está conectado a él. Si utiliza sistemas de base de datos tradicionales, el A se verificará individualmente con B, C, D, E, etc. Por otro lado, con el grafo de base de datos, las conexiones entre A y los diferentes puntos de datos se crearían mucho más rápidamente. Las relaciones se capturan por sí solas y las propiedades de los puntos de datos se comprueban directamente. Esto reduce el tiempo de procesamiento y asegura que pueda acceder a la información más rápidamente. Todo esto asegura una mayor eficiencia. Ryan Boyd, director de relaciones con desarrolladores de Norteamérica para Neo4J, dio un ejemplo de la técnica y el modelo de procesamiento en una entrevista TechRepublic. Boyd dijo,

"Con un grafo de base de datos, encontrará un punto de partida lógico y se ramificará desde allí e identificará las relaciones. Por ejemplo, puede escribir una pregunta que le pregunte, 'Encuentra a todos los amigos de los amigos de John'. En lugar de tener que JOIN muchos índices diferentes, el grafo de base de datos utiliza aritmética de puntero que está en memoria o en caché y realiza la operación. "

Un ejemplo del uso efectivo de los grafos de base de datos en el análisis de grandes datos a la luz de lo anterior es eBay y cómo proporciona un servicio rápido y eficiente a sus clientes. La plataforma de compras utiliza grafos de base de datos para conectar a los compradores con los vendedores locales, creando conexiones localizadas de entrega puerta a puerta. La compañía ha observado cómo las consultas impulsadas por un grafo de base de datos toman 1 / 50th de un segundo para resolver, mientras que las consultas de base de datos tradicionales tomó alrededor de 15 minutos. El ejemplo destaca el poder de crear eficiencia en términos de ahorro de tiempo y recursos de la organización y proporcionar un mejor valor para los clientes.

Uso de grafos de bases de datos

Los grafos de base de datos ofrecen muchas oportunidades para las organizaciones. Los beneficios discutidos anteriormente ya han sido señalados por una serie de industrias, incluyendo:

  • Servicios financieros - Ejemplos de usos incluyen monitorear y prevenir el fraude interno y externo y sus riesgos.
  • Venta al por menor - se puede utilizar para entender las decisiones de compra y para proporcionar recomendaciones a los clientes sobre la base de cómo los diferentes productos se vinculan entre sí.
  • Logística - un ejemplo en la industria sería el uso del grafo de base de datos para la planificación de rutas.
  • Redes y TI - identificación y comprensión del análisis de la causa raíz.

Al comenzar a implementar los grafos de base de datos en su organización, debe tener en cuenta algunas cosas. En primer lugar, hay dos propiedades clave que utilizan las tecnologías de grafos de base de datos:

  • Almacenamiento de grafos: algunas opciones de almacenamiento están diseñadas específicamente para almacenar y administrar grafos, mientras que otras utilizan bases de datos relacionales u orientadas a objetos. Las últimas opciones tienden a ser más lentas.
  • Motor de procesamiento de grafos: el procesamiento nativo o grafo es la forma más eficiente de procesar datos dentro de un grafo. Los motores de procesamiento no nativos tienden a utilizar otros medios de procesamiento, como "crear", "leer" o "borrar".

Encontrar la tecnología adecuada para usar dependerá de sus necesidades y requerimientos específicos. Hay bastantes diferentes tecnologías de grafo de base de datos disponibles, siendo el grafo de base de datos más utilizada Neo4J. El sistema de código abierto es un grafo de base de datos nativa, tanto en términos de almacenamiento como de procesamiento. La base de datos comenzó en desarrollo en 2003, convirtiéndose en sistema disponible públicamente en 2007.

El grafo de base de datos es utilizada por varias organizaciones y empresas de todo el mundo, que representan un gran número de industrias. El sistema se utiliza en la investigación científica, gestión de proyectos y matchmaking. Sus usuarios incluyen organizaciones establecidas como Wal-Mart y Lufthansa, así como start-ups como FiftyThree y CrunchBase.