lunes, 9 de diciembre de 2019

Centralidad de grado y variación en los pesos de los enlaces

Centralidad de grado y variación en los pesos de los enlaces

Tore Opsahl




La centralidad de los nodos, o la detección e identificación de los nodos centrales en una red, ha sido un tema clave en los estudios de redes. La medida básica de centralidad del nodo es el grado, que se define como el número de conexiones o vínculos que tiene un nodo focal (Freeman, 1978). El grado es un indicador básico y a menudo se usa como primer paso cuando se estudian redes (Wasserman y Faust, 1994). Para describir formalmente esta medida y facilitar la comparación entre las diferentes medidas introducidas en esta publicación, esta medida se puede formalizar para un nodo focal i como:

donde j representa todos los demás nodos, N es el número total de nodos, y x es la matriz de adyacencia, en la que la celda se define como 1 si el nodo i está conectado al nodo j, y 0 en caso contrario.

El grado generalmente se ha extendido a la suma de pesos cuando se analizan redes ponderadas y la fuerza del nodo etiquetado (Barrat et al., 2004). Esta medida se puede formalizar de la siguiente manera:

donde w es la matriz de adyacencia ponderada, en la que es mayor que 0 si el nodo i está conectado al nodo j, y el valor representa el peso del lazo. Esto es igual a la definición de grado si la red es binaria, es decir, cada vínculo tiene un peso de 1. Por el contrario, en redes ponderadas, los resultados de estas dos medidas son diferentes. Dado que la fuerza del nodo tiene en cuenta los pesos de los lazos, esta ha sido la medida preferida para analizar redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008).





Grado y fortaleza: dos nodos con la misma fuerza de nodo, pero diferente número de enlaces.


Sin embargo, la fuerza del nodo es una medida contundente, ya que solo tiene en cuenta el nivel total de participación de un nodo en la red, y no el número de otros nodos a los que se conectó. Para ejemplificar esto, el nodo A y el nodo B tienen la misma fuerza, pero el nodo A está conectado a tres veces más nodos que el nodo A y, por lo tanto, está involucrado en más partes de la red. Como el grado y la fuerza pueden ser indicadores del nivel de participación de un nodo en la red circundante, Opsahl et al propusieron una segunda generalización. (2010) que incorporaron tanto el número de empates como la suma de los pesos de empate. Su medida puede formalizarse como:
donde es un parámetro de ajuste positivo que controla la importancia relativa del número de lazos y la suma de los lazos. Específicamente, hay dos valores de referencia (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproduce la medida existente. Si el parámetro se establece en el valor de referencia de 0, los resultados de la medida se basan únicamente en el número de vínculos, y son iguales a los encontrados al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todos los lazos con un peso mayor que 0 están configurados para presentar. Por el contrario, si el valor del parámetro es 1, los resultados de la medida se basan solo en ponderaciones de enlaces y son idénticos a la generalización de grado ya propuesta (Barrat et al., 2004). Para otros valores de , se obtienen resultados alternativos, que se basan tanto en el número de lazos como en los pesos de los lazos. En particular, se pueden distinguir dos rangos de valores. Primero, un conjunto de parámetros entre 0 y 1 valoraría positivamente tanto el número de enlaces  como los ponderadores de enlace. Esto implica que ambos incrementos en el grado y la fuerza del nodo aumentarán el resultado. En segundo lugar, si el valor del parámetro está por encima de 1, las medidas valorarían positivamente la resistencia del enlace y negativamente el número de lazos. Los nodos con un promedio de lazos más fuertes obtendrán una puntuación más alta.


Variación en los pesos de lazos: dos nodos con los mismos puntajes utilizando las medidas de grado de Freeman (1978), Barrat et al. (2004) y Opsahl et al. (2010).

Todas las medidas anteriores son insensibles a la variación en los pesos de corbata. Por ejemplo, los dos nodos, A y B, en este diagrama tienen el mismo número de conexiones, la misma fuerza de nodo y logran el mismo puntaje usando la segunda generalización, ya que es un producto del grado y la fuerza de nodo. Mientras que las medidas de cercanía e intermediación propuestas en Opsahl et al. (2010) son sensibles a la variación en los pesos de lazos, la medida del grado fue diseñada para no ser. Sin embargo, una medida estrechamente relacionada con las medidas de cercanía y entremedio que es sensible a las diferencias de peso puede definirse de la siguiente manera:

Al exponer el peso de la corbata en lugar del peso promedio de la corbata, la medida se vuelve sensible a la variación en los pesos de la corbata. Por ejemplo, el nodo A y el nodo B obtendrían el siguiente puntaje utilizando las diversas medidas:
Medida Nodo
A B
Freeman’s 2 2
Barrat et al.’s 4 4
Opsahl et al.’s, alpha=0.5 2.83 2.83
Opsahl et al.’s, alpha=1.5 5.66 5.66
New measure, alpha=0.5 2.83 2.73
New measure, alpha=1.5 5.66 6.20

Como se puede ver en la tabla anterior, la nueva medida está estrechamente vinculada a la generalización propuesta por Opsahl et al. (2010); sin embargo, cuando los pesos de lazos son diferentes, la medida varía entre los dos nodos. Del mismo modo que las otras medidas de centralidad que utilizan un parámetro de ajuste, el parámetro de ajuste en estas medidas controla la importancia relativa del número de lazos y la suma de los lazos. Además, también controla si la variación en los pesos de lazo debe descontarse o considerarse favorable. Un parámetro entre 0 y 1 descuentos, mientras que un parámetro superior a 1, aumenta el resultado de la medida cuando los pesos de lazo son diferentes.

¿Quiere probarlo con tus datos?

A continuación se muestra el código para calcular la medida de grado propuesta. Debe tener el paquete tnet instalado antes de ejecutar el código.

.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# Load tnet
library(tnet)
# Load a function to calculate the new measures
degree2_w <- function (net, type="out", alpha = 1) {
    net <- as.tnet(net, type="weighted one-mode tnet")
    if (type == "in") {
        net <- data.frame(i = net[, 2], j = net[, 1], w = net[,3])
        net <- net[order(net[, "i"], net[, "j"]), ]
    }
    index <- cumsum(!duplicated(net[, 1]))
    k.list <- cbind(unique(net[, 1]), NaN, NaN, NaN)
    dimnames(k.list)[[2]] <- c("node", "degree", "output", "alpha")
    k.list[, "degree"] <- tapply(net[, "w"], index, length)
    k.list[, "output"] <- tapply(net[, "w"], index, sum)
    net[,"w"] <- net[,"w"]^alpha
    k.list[, "alpha"] <- tapply(net[, "w"], index, sum)
    if (max(net[, c("i", "j")]) != nrow(k.list)) {
        k.list <- rbind(k.list, cbind(1:max(net[, c("i", "j")]), 0, 0, 0))
        k.list <- k.list[order(k.list[, "node"]), ]
        k.list <- k.list[!duplicated(k.list[, "node"]), ]
    }
    return(k.list)
}
# Load a sample network
net <- cbind(
i=c(1,1,2,2),
j=c(2,3,1,3),
w=c(2,2,1,3))
# Calculate the measures
degree_w(net, measure=c("degree","output","alpha"), alpha=1.5)
degree_w(net, measure=c("degree","output","alpha"), alpha=0.5)
degree2_w(net, alpha=0.5)
degree2_w(net, alpha=1.5)

Referencias


Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752.

Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.

Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251.

Opsahl, T., Colizza, V., Panzarasa, P., Ramasco, J. J., 2008. Prominence and control: The weighted rich-club effect. Physical Review Letters 101 (168702).

Wasserman, S., Faust, K., 1994. Social Network Analysis: Methods and Applications. Cambridge University Press, New York, NY.

miércoles, 4 de diciembre de 2019

Hashtags que hacen dudar de las noticias

#MeToo, #BlackLivesMatter y otros hashtags hacen que la gente dude de las noticias

Por Eugenia Ha Rim Rho ||  Quartz



Los hashtags conectan a las personas. ¿También se dividen?

Si eres conservador o liberal, lo más probable es que hayas encontrado un hashtag político en un artículo, un tweet o una historia personal compartida en Facebook.

Un hashtag es una etiqueta funcional ampliamente utilizada en motores de búsqueda y servicios de redes sociales que permiten a las personas buscar contenido que se encuentra bajo la palabra o frase, seguido del signo #.

Primero popularizado por Twitter en 2009, el uso de hashtags se ha generalizado. Casi todo lo político con la intención de atraer a una gran audiencia ahora está marcado con un hashtag pegadizo. Tomemos, por ejemplo, campañas electorales (#MAGA), movimientos sociales (#FreeHongKong), o llamados a leyes de apoyo u oposición (#LoveWins).

Junto con activistas y políticos, las compañías de noticias también están usando hashtags políticos para aumentar el número de lectores y contextualizar los informes en publicaciones breves y digeribles en las redes sociales. De acuerdo con Columbia Journalism Review, dicha práctica es una "buena forma de introducir una historia o perspectiva en el ciclo de noticias" y "una forma de descubrir qué quiere discutir el público y aprender más".

¿Es esto realmente cierto?

Nuestro experimento

Para averiguarlo, realizamos un experimento controlado en línea con 1.979 personas.

Probamos si las personas respondían de manera diferente a la presencia o ausencia de hashtags políticos, particularmente los #MeToo y # BlackLivesMatter más utilizados, en artículos de noticias publicados en Facebook por los principales medios de comunicación, como The New York Times y NPR.

Le mostramos al azar a cada persona una publicación de noticias que contenía o excluía el hashtag político. Luego les pedimos que comentaran el artículo y respondieran algunas preguntas al respecto.




La publicación de noticias original era idéntica a la de la derecha, excepto por el #MeToo en negrita seguido de la descripción del texto. Para la condición de control (izquierda), excluimos el hashtag en el texto de la publicación, así como la frase "#MeToo Prompts" en el título.

Descubrimos que los hashtags políticos no son una buena manera para que los medios de comunicación involucren a los lectores.

De hecho, cuando la historia incluía un hashtag, las personas percibían que el tema de las noticias era menos importante y estaban menos motivados para saber más sobre temas relacionados.

Algunos lectores también se inclinaron a ver las noticias con hashtags como más sesgadas políticamente. Esto fue especialmente cierto para los lectores más conservadores, que tenían más probabilidades de decir que una publicación de noticias era extremadamente partidaria cuando incluía un hashtag.

Del mismo modo, los hashtags también afectaron negativamente a los lectores liberales. Sin embargo, los lectores que se identificaron a sí mismos como "extremadamente liberales" no percibieron el contenido de las noticias de las redes sociales sobre cuestiones de género y raciales como partidistas, independientemente de la presencia del hashtag.



La publicación de noticias de la derecha es idéntica a la publicación de noticias original publicada en Facebook, excepto por el hashtag #MeToo en negrita en el texto de la publicación, que no se incluyó en la versión original.

Moderados politicos


Lo que realmente me interesó fue la reacción de la gente en el medio. Las personas que se identificaron como publicaciones políticamente moderadas percibieron que las publicaciones eran significativamente más partidistas cuando las publicaciones incluían hashtags.

De hecho, en sus comentarios, los encuestados políticamente moderados que vieron publicaciones de noticias con hashtags tenían más sospechas sobre la credibilidad de las noticias y se centraron más en la política del hashtag.


Tabla: La conversación, CC-BY-ND

Por ejemplo, en el grupo de hashtag, las personas políticamente moderadas mencionan repetidamente el hashtag sin comprometerse sustancialmente con cuestiones sociales relevantes:

“El tema #MeToo se está convirtiendo en algo así como los Kardashians. No puedes mirar las noticias sin que ambos encabecen las cosas. Es un tema importante, pero me estoy cansando de verlo una y otra vez ”.

Por el contrario, cuando los hashtags estaban ausentes, era más probable que los lectores discutieran las ideas y los valores centrales que el hashtag debía representar originalmente.

"Dar una plataforma y una voz a las víctimas a través de las redes sociales es una excelente manera de compartir la experiencia de uno cuando es incómodo hacerlo públicamente. Algunas personas tienen demasiado miedo de denunciar cualquier acoso o asalto debido a ser etiquetados como mentirosos, por lo que me alegro de que haya una manera de hacer un seguimiento de estas instancias sin que pasen desapercibidas ".

El lenguaje utilizado por los participantes del grupo hashtag en sus comentarios fue más emocionalmente extremo. Incluso aquellos que parecían estar a favor del movimiento hashtag usaron un lenguaje agresivo para transmitir apoyo al movimiento y se refirieron a aquellos en contra de él como "ustedes idiotas", alegando, "hay una razón por la cual [#MeToo] f **** - ¡¡¡ing existe, imbéciles !! ”

Fomentar un mejor discurso en línea

Estos hallazgos muestran que los políticos, activistas, organizaciones de noticias y compañías tecnológicas no pueden dar por sentado las prácticas comunes de las redes sociales.

Incluso una práctica simple, como marcar un tema social con un hashtag pegadizo, puede dar la impresión al público de que el contenido etiquetado, incluso el contenido de noticias publicado por las principales compañías de noticias, es hiperpartidista o falso.

Si queremos construir y mantener debates saludables en línea, entonces debemos comenzar a cuestionarnos cómo tales prácticas influyen en la salud democrática de Internet.

El uso de un hashtag puede atraer rápidamente la atención de la audiencia hacia problemas sociales apremiantes. Sin embargo, como muestra nuestro estudio, tal impulso viral puede ser perjudicial para la discusión en línea sobre temas sociales urgentes a largo plazo.

jueves, 28 de noviembre de 2019

Importando redes de coautoría y bibliográficas con VOSviewer

Visualizar datos de citas disponibles gratuitamente usando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS



Crossref, I4OC, datos abiertos, software, visualización, VOSviewer

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Iniciativa para Citas Abiertas (I4OC) (Initiative for Open Citations (I4OC)) logró convencer a un gran número de editores científicos para que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Usando datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada para VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargar datos utilizando la API Crossref


Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienciométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada a la API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas separadas para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, la fecha del Journal of Informetrics se puede obtener en una sola llamada API. Para realizar esta llamada a la API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro de filas en la API de solicitud indica que nos gustaría recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref para solicitar datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es un llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, necesitamos hacer tres llamadas API, cada una de las cuales genera datos para la mayoría de las 1000 publicaciones. Usamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas a la API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para obtener más información, consulte la documentación de la API.



Crear visualizaciones bibliométricas basadas en datos Crossref


Primero usamos los datos descargados de Crossref para ver la red de investigadores de coautoría en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las opciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.


Red de coautoría Crossref de investigadores cienciométricos

A continuación, utilizamos nuestros datos Crossref para ver la red de acoplamiento bibliográfico de publicaciones en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos Crear un mapa basado en datos bibliográficos en el asistente Crear mapa. Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.


Red de acoplamiento bibliográfico cruzado de publicaciones cienciométricas

El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido en Scientometrics. La red no incluye publicaciones del Journal of Informetrics. Esto demuestra una limitación importante de los datos de Crossref. Gracias a I4OC, muchas editoriales hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores de no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Information no están disponibles a través de Crossref, las publicaciones de esta revista no pueden incluirse en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible usar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el procesamiento previo de los datos. Para ilustrar el uso a gran escala de los datos de Crossref, utilizamos los datos para ver la red de citas de 5000 revistas de todos los campos de la ciencia.

Utilizando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, la fecha debía procesarse previamente para poder proporcionarse como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, hemos identificado todas las revistas (así como las actas de conferencias y series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas se ignoró, por lo que no se hizo distinción entre una cita del diario A al diario B y una cita del diario B al diario A. La red de citas del diario se guardó en un archivo de red VOSviewer, y este archivo se utilizó como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.


Red de citas de referencias cruzadas

La visualización muestra una estructura de la ciencia que es bien conocida de las visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se encuentran en el área correcta de la visualización, mientras que las revistas de ciencias de la vida y médicas se pueden encontrar en el área superior. Finalmente, las revistas de ciencias sociales se encuentran en el área inferior izquierda de la visualización. Faltan algunas revistas importantes en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no pone a disposición las listas de referencias de publicaciones a través de Crossref.


Conclusión

Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos de citas disponibles gratuitamente. Los datos de citas cruzadas se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para usar datos Crossref para ver redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente.

martes, 26 de noviembre de 2019

La estructura de k-núcleo de redes múltiples

La estructura k-core de redes múltiples reales

Saeed Osat, Filippo Radicchi, Fragkiskos Papadopoulos
https://arxiv.org/abs/1911.10743





Las redes multiplex son representaciones matemáticas convenientes para muchos sistemas del mundo real (biológicos, sociales y tecnológicos) de elementos que interactúan, donde las interacciones entre los elementos tienen diferentes sabores. Estudios anteriores señalaron que las redes multiplex del mundo real muestran correlaciones significativas entre capas (correlación de grado-grado, superposición de bordes, similitudes de nodos) capaces de hacerlas robustas frente a fallas aleatorias y específicas de sus componentes individuales. Aquí, mostramos que las correlaciones entre capas son importantes también en la caracterización de su estructura k-core, es decir, la organización en capas de nodos con un grado cada vez más alto. Comprender las estructuras k-core es importante en el estudio de los procesos de difusión que tienen lugar en las redes, como por ejemplo en la identificación de spreaders influyentes y la aparición de fenómenos de localización. Encontramos que, si la distribución de grados de la red es heterogénea, entonces una fuerte estructura de k-core está bien predicha por correlaciones de grado-grado significativamente positivas. Sin embargo, si la distribución de grados de la red es homogénea, entonces la estructura de núcleo k fuerte se debe a correlaciones positivas a nivel de similitudes de nodos. Llegamos a nuestras conclusiones analizando diferentes redes multiplex del mundo real, introduciendo técnicas novedosas para controlar las correlaciones entre capas de redes sin cambiar su estructura, y aprovechando los modelos de redes sintéticas con niveles ajustables de correlaciones entre capas.




jueves, 21 de noviembre de 2019

Comunidades: El algoritmo de Leiden supera al de Louvain

Usando el algoritmo de Leiden para encontrar grupos bien conectados en redes

Vincent Traag, Ludo Waltman, Nees Jan van Eck
CWTS


Introducción

Un desarrollo emocionante en el campo de los estudios cuantitativos de ciencias es el uso de enfoques de agrupación algorítmica para construir clasificaciones a nivel de artículo basadas en redes de citas. Hasta hace poco, la mayoría de las clasificaciones se basaban en categorizar revistas en lugar de artículos individuales. Esto es comprensible dados los desafíos sustanciales de clasificar millones de artículos. En CWTS, ahora trabajamos rutinariamente con clasificaciones a nivel de artículo. Hemos dedicado bastante tiempo a desarrollar algoritmos de agrupamiento para crear estas clasificaciones. Estos algoritmos tienen un impacto más allá de nuestro propio campo de investigación y son de interés para muchos científicos de redes.

Te sorprenderá saber que uno de los algoritmos de agrupamiento más famosos, comúnmente conocido como el algoritmo de Lovaina, en realidad tiene un defecto importante: los grupos que encuentra pueden estar arbitrariamente mal conectados. Por ejemplo, el algoritmo de Lovaina puede agrupar artículos en un grupo, aunque algunos de los artículos no tienen enlaces de citas con los otros artículos en el grupo. Aquí informamos brevemente sobre un nuevo algoritmo que hemos desarrollado, que llamamos algoritmo de Leiden. Este algoritmo garantiza encontrar clústeres bien conectados. ¡Aún mejor, lo hace mucho más rápido que el algoritmo de Louvain!




Algoritmo de Louvain

El algoritmo de Louvain es un algoritmo simple y elegante que es más eficiente que muchos otros algoritmos de agrupación en red. Cuando se introdujo en 2008, se aplicó a una gran red de más de cien millones de nodos y mil millones de enlaces. Se clasificó entre los mejores algoritmos de agrupación en estudios comparativos en 2009 y 2016. El algoritmo de Lovaina busca agrupaciones de alta calidad moviendo nodos individuales, por ejemplo, artículos individuales en una red de citas, de una agrupación a otra de tal manera que La calidad de los grupos se mejora tanto como sea posible. Cuando los grupos no pueden mejorarse más moviendo nodos individuales, el algoritmo de Lovaina hace algo ingenioso: agrega la red, de modo que cada grupo en la red original se convierte en un nodo en la red agregada. En la red agregada, el algoritmo comienza a mover nodos individuales de un clúster a otro. Al repetir el movimiento y la agregación de nodos, el algoritmo de Lovaina puede encontrar grupos de alta calidad en poco tiempo. Desafortunadamente, sin embargo, este enfoque también conduce a una falla importante, que parece haber pasado desapercibida durante la última década.



A veces, un nodo funciona como intermediario o puente para el resto de su clúster. Sin ese nodo crucial, el clúster ya no estaría conectado. Dado que el algoritmo de Lovaina sigue moviendo nodos de un grupo a otro, en algún momento puede mover el nodo crucial a un grupo diferente, rompiendo así la conectividad del grupo original. Quizás sorprendentemente, el algoritmo de Lovaina no puede arreglar esta conectividad rota. La ruptura completa de la conectividad es lo peor que le puede pasar a un clúster. Es el ejemplo más extremo de un problema más general del algoritmo de Lovaina: el algoritmo puede producir grupos que están mal conectados y que deberían haberse dividido en varios grupos.

Algoritmo de Leiden


Solucionamos este problema del algoritmo de Lovaina en nuestro nuevo algoritmo de Leiden. De manera similar al algoritmo de movimiento local inteligente que se desarrolló previamente en CWTS, el algoritmo de Leiden puede dividir grupos en lugar de solo fusionarlos, como lo hace el algoritmo de Lovaina. Al dividir los clústeres de una manera específica, el algoritmo de Leiden garantiza que los clústeres estén bien conectados. Además, el algoritmo garantiza más que esto: si ejecutamos el algoritmo repetidamente, eventualmente obtenemos grupos que son subconjuntos óptimos. Esto significa que es imposible mejorar la calidad de los clústeres moviendo uno o más nodos de un clúster a otro. Esta es una propiedad fuerte del algoritmo de Leiden. Establece que los grupos que encuentra no están muy lejos de ser óptimos. Finalmente, en lugar de verificar continuamente para todos los nodos en una red si se pueden mover a un clúster diferente, como se hace en el algoritmo de Lovaina, el algoritmo de Leiden realiza esta verificación solo para los llamados nodos inestables. Como resultado, el algoritmo de Leiden no solo encuentra clústeres de mayor calidad que el algoritmo de Lovaina, sino que también lo hace en mucho menos tiempo.

En CWTS, utilizamos el algoritmo de Leiden para agrupar grandes redes de citas. El algoritmo de Lovaina necesita más de media hora para encontrar grupos en una red de aproximadamente 10 millones de artículos y 200 millones de enlaces de citas. El algoritmo de Leiden necesita solo un poco más de tres minutos para agrupar esta red. Además, cuando se ejecuta repetidamente, el algoritmo de Leiden encuentra fácilmente grupos de mayor calidad que el algoritmo de Lovaina.



¡Inténtalo tú mismo!

Esperamos que el algoritmo de Leiden resulte útil no solo para nosotros en CWTS, sino también para muchos otros investigadores tanto en estudios de ciencias cuantitativos como en ciencias de redes. Durante la última década, miles de investigadores han publicado artículos en los que utilizan el algoritmo de Lovaina. En el futuro, estos investigadores podrían emplear el algoritmo de Leiden.

Junto con el documento que presenta el algoritmo de Leiden, también hemos lanzado el código fuente Java del algoritmo en GitHub. Hemos hecho un gran esfuerzo para garantizar que el algoritmo sea fácil de usar para todos. Para los más inclinados técnicamente, hemos creado documentación técnica y comentarios de código. ¡Tome el código fuente, ejecútelo en sus propios datos de red y díganos qué piensa de él!

Nota del administrador: Ahora también está disponible como complemente de Gephi.

miércoles, 20 de noviembre de 2019

Uso de ARS para clasificar impacto de extinciones

Aplicación del análisis de red a la historia natural: la técnica popularizada a través de las redes sociales clasifica el impacto de las extinciones

Phys.org
por el Instituto Politécnico Rensselaer



El análisis de la red de registros fósiles marinos en los últimos 541 millones de años reveló el impacto ecológico de las extinciones en masa y puede ayudarnos a anticipar las consecuencias de una 'sexta extinción en masa'. Crédito: Instituto Politécnico Rensselaer

Un equipo de investigadores está utilizando técnicas de análisis de redes, popularizadas a través de aplicaciones de redes sociales, para encontrar patrones en la historia natural de la Tierra, como se detalla en un documento publicado hoy en las Proceedings of the National Academy of Sciences (PNAS). Al utilizar el análisis de red para buscar comunidades de vida marina en los registros fósiles de la Base de datos de Paleobiología, el equipo, incluidos los investigadores del Instituto Politécnico Rensselaer, pudo cuantificar los impactos ecológicos de eventos importantes como las extinciones en masa y puede ayudarnos a anticipar las consecuencias de una "sexta extinción masiva".

"El análisis de red puede transformarse en una base de datos de forma digerible tan grande que es imposible ver porciones sustanciales de los datos por completo", dijo Peter Fox, presidente de Tetherless World Constellation y profesor de ciencias de la tierra y el medio ambiente, ciencias de la computación y ciencias cognitivas en Rensselaer.

"El poder de nuestro enfoque es que los datos multidimensionales integrados en la red pueden informar y descubrir tendencias en los datos, convirtiendo una cuadrícula interminable de números en una imagen que revela múltiples relaciones de un vistazo".

El enfoque del equipo ofrece una nueva perspectiva sobre los impactos ecológicos de las extinciones de especies actuales, dijo Drew Muscente, investigador postdoctoral en la Universidad de Harvard y autor principal del artículo. Dada la tasa de desapariciones de especies en los últimos siglos, muchos científicos sospechan que la Tierra está en medio de la sexta extinción masiva.

"El registro fósil contiene evidencia de extinciones masivas repetidas. Los datos sobre cómo las antiguas comunidades de organismos cambiaron durante estos eventos pueden ayudarnos a comprender las posibles consecuencias de la actual crisis de biodiversidad", dijo Muscente. "Nuestro trabajo muestra que esta crisis, independientemente de cómo la llames, puede alterar irreparablemente las comunidades de organismos y sus ecosistemas de maneras sorprendentes, que no se pueden predecir con otros métodos".

Una imagen que emerge del análisis es una clasificación del impacto ecológico de los principales eventos, con el Gran Evento de Biodiversificación Ordovícico que tiene el mayor efecto en la ecología, seguido en orden descendente por el Pérmico-Triásico, el Cretáceo-Paleógeno, el Devónico y el Triásico. Jurassic extinciones masivas. El análisis muestra que la extinción masiva de Ordovícico puede haber tenido menos impacto ecológico que lo estimado previamente, y de la misma manera, la importancia de la extinción del Devónico puede ser subestimada.

Los investigadores de Fox y Rensselaer, Anirudh Prabhu, Hao Zhong y Ahmed Eleish, se unieron al autor principal, Muscente y Andrew Knoll, de la Universidad de Harvard, y a Michael B. Meyer y Robert Hazen, de la Carnegie Institution for Science, sobre la investigación, que amplía una serie de trabajos anteriores. aplicando análisis de red a datos de mineralogía. Su trabajo está financiado con una subvención de tres años de W.M. Fundación Keck.

"El trabajo innovador informado en este artículo ilustra cómo el análisis de datos de próxima generación creado para un dominio puede transformar otros campos de estudio", dijo el profesor Curt M. Breneman, decano de la Rensselaer School of Science. "Esto proporciona una mirada hacia el impacto de la ciencia basada en datos en el siglo XXI".

El análisis de redes sociales se puede utilizar para identificar grupos de amigos, transmisión de enfermedades y grupos extremistas mediante la identificación de comunidades de personas, cuyos atributos comunes como ubicación, intereses o género revelan su asociación en ausencia de una declaración directa, en las redes sociales. Así como el análisis de redes revela comunidades de personas, los investigadores pueden usar el análisis de redes de bases de datos de ciencias de la Tierra y de la vida para descubrir asociaciones de organismos antiguos (por ejemplo, especies y géneros) que vivieron en el pasado y aprender algo sobre cómo esas "paleocomunidades" cambiaron con el tiempo , dijo Fox.

En trabajos anteriores, el equipo aplicó el análisis de red a una base de datos mineralógica. Cada mineral registrado se definió con hasta 17 atributos (aspectos como composición química, modo de formación, ubicación) y los resultados, según lo publicado en American Mineralogist, predijeron la existencia de 1,500 minerales aún no descubiertos, de los cuales al menos 14 han ha sido encontrado El trabajo reciente sobre el análisis de redes de datos mineralógicos también se ha publicado en American Mineralogist y el International Journal of Geo-Information.

En el documento de PNAS, titulado "Cuantificación del impacto ecológico de las extinciones masivas con análisis de redes de comunidades fósiles", el equipo abordó la Base de datos de Paleobiología, un "recurso público no gubernamental, sin fines de lucro de datos paleontológicos". La base de datos contiene datos sobre las ubicaciones, edades, entornos y afinidades de los fósiles, que representan más de 350,000 taxones antiguos preservados en más de 190,000 puntos de muestreo de recolección de fósiles en todo el mundo durante los últimos 600 millones de años de la historia de la Tierra. El equipo restringió su conjunto de datos a las ocurrencias de fósiles de animales marinos que vivieron en el Eón Fanerozoico, el intervalo de tiempo que comenzó con la explosión de la vida animal hace 541 millones de años y continúa hasta nuestros días.

En las redes de los autores, cada taxón fósil (por ejemplo, orden, familia o género) se convierte en un "nodo", que se puede visualizar en los gráficos de red como un punto. Los nodos están conectados entre sí si esos organismos vivieron juntos y fueron fosilizados en los mismos sitios en el pasado. Este enfoque da como resultado la organización de nodos en grupos, que representan comunidades antiguas de animales marinos y pueden identificarse utilizando métodos computacionales y estadísticos. Debido a que los taxones (y las comunidades) se originan y se extinguen con el tiempo, la edad geológica se manifiesta como un aspecto implícito de la estructura de la red. En los gráficos, los taxones y las comunidades que vivieron en diferentes momentos de la historia de la Tierra se distribuyen a través de las redes, y las distancias entre los nodos están directamente relacionadas con el intervalo de tiempo que separa sus edades. En general, el diagrama de red resultante muestra aspectos como la densidad de la red en diferentes períodos de tiempo, el grado de centralidad de los nodos y grupos de nodos, el número de conexiones entre nodos y más. Para representar aún más atributos, el equipo se está moviendo hacia la representación en tres dimensiones y realidad virtual. El resultado, dijo Fox, es "una fracción muy sustancial de la Base de datos de Paleobiología en un solo gráfico".

El enfoque se presta a nuevos descubrimientos, no solo sobre los fósiles en sí, sino "sobre la correspondencia entre los fósiles y el medio ambiente en el que vivían", dijo Fox. En el resultado del PNAS, los investigadores usan el registro fósil para cuantificar los impactos de las extinciones, pero al combinar datos del registro fósil con información del registro mineral, los investigadores esperan que el análisis de la red pueda conducir a otras ideas sobre la evolución del sistema de la Tierra , por ejemplo, cómo cambiaron la vida y los ambientes en respuesta a la oxigenación atmosférica o el cambio de condiciones ricas en nitrógeno a pobres en nitrógeno.

"Cuando combinemos este trabajo, tendremos una red de múltiples capas donde podremos ver la correspondencia entre la red fósil y la red mineral", dijo Fox. "Y eso nunca se había hecho antes".

La investigación sobre análisis de redes de bases de datos de ciencias de la Tierra y de la vida cumple con The New Polytechnic, un paradigma emergente para la educación superior que reconoce que los desafíos y oportunidades globales son tan grandes que ni siquiera la persona más talentosa que trabaja sola. Rensselaer sirve como una encrucijada para la colaboración, trabajando con socios en disciplinas, sectores y regiones geográficas, para abordar desafíos globales complejos, utilizando las herramientas y tecnologías más avanzadas, muchas de las cuales se desarrollan en Rensselaer. La investigación en Rensselaer aborda algunos de los desafíos tecnológicos más apremiantes del mundo, desde la seguridad energética y el desarrollo sostenible hasta la biotecnología y la salud humana. El Nuevo Politécnico es transformador en el impacto global de la investigación, en su pedagogía innovadora y en la vida de los estudiantes de Rensselaer.