martes, 10 de diciembre de 2019

Sistema interactivo de Código de Nomenclatura Zoológica basada en redes

Crean un sistema interactivo para acceder a las reglas de nomenclatura de todas las especies del reino animal

El investigador del CONICET Evangelos Vlachos desarrolló un nuevo método para navegar a través del Código de Nomenclatura Zoológica.

CONICET



Captura de pantalla del sistema creado por Vlachos.


El Código Internacional de Nomenclatura Zoológica es el texto que regula de forma estandarizada cómo nombrar a las especies del reino animal. Cada uno de los animales descubiertos y descritos, actuales y extintos, llevan un nombre que se encuentra en ese código: en total, hay 51 mil palabras agrupadas en 90 artículos principales, con 754 sub artículos, 129 recomendaciones, 129 ejemplos y 333 elementos del glosario. Pero, como toda legislación, su lectura es intrincada y difícil de leer, usar y enseñar: para simplificarlo y hacerlo legible, el investigador asistente del CONICET en el Museo Paleontológico Egido Feruglio, Evangelos Vlachos creó un sistema de red interactiva que agrupa la información disponible de modo más sencillo y fue publicado en la revista científica PeerJ. La herramienta está disponible de forma libre y gratuita en una versión en inglés.

“Científicamente hablando, cada especie tiene dos nombres: el nombre del género (por ejemplo, Homo) y el nombre de la especie (por ejemplo, sapiens). Juntos, forman un nombre de dos componentes: Homo sapiens, el primero escrito con mayúscula, el segundo con una letra minúscula y ambos en cursiva”, explica Vlachos. Para el científico, la idea de este sistema es que el nombre de cada especie sea único y estable. De esa manera, cualquier científico en el mundo que se encuentre usando ese nombre sabrá que se trata de una misma especie y de este modo podrá evitar confusiones por usos regionales o locales (como perro, dog, can, chucho). “Idealmente, cada nombre solo se forma una vez y se forma correctamente. Simple en teoría, pero mucho más difícil en la práctica”, agrega el científico.

Porque, ¿qué sucede si dos o más científicos forman nombres diferentes para la misma especie? ¿Si dos o más científicos crean el mismo nombre para diferentes especies? ¿Si algunos de los nombres están formados incorrectamente y contienen errores tipográficos y otros errores? ¿Si dos especies con dos nombres diferentes ahora se consideran la misma especie? ¿Cuál es el nombre correcto y válido para usar, y quién decide eso? Para regular este y otros tipos de conflictos potenciales que podrían suceder a la hora de crear un nombre, surgió el Código Internacional de Nomenclatura, pero terminó convirtiéndose en un texto complejo. Por eso, el científico se vio motivado a buscar la manera de hacerlo más simple.

Transformando el código en una red interactiva

El método que este científico desarrolló para lograr un acceso más dinámico al Código Internacional de Nomenclatura es en forma de red. “Para realizarlo, utilicé una metodología matemática conocida como análisis de redes, que generalmente se usa para describir y analizar redes sociales y otros tipos de estructuras conectadas”, explica. Y describe: “ Dividí el texto del Código en 1379 nodos de texto y luego conecté esos nodos con al menos 11276 conexiones o bordes: mediante el uso de potentes algoritmos de diseño, el texto del Código se transformó en una herramienta interactiva”.

Para Vlachos, este método podría ser útil en otras disciplinas que usan textos similares, como Historia, Leyes, Medicina y Lingüística. “Al transformar estos textos en redes, se abre una nueva línea de investigación en la que podemos manejar este tipo de documentos en forma interactiva y, además, ahora es posible describirlos total o parcialmente a través de métricas y otras estadísticas, permitiendo una comprensión profunda de los textos tanto por los usuarios profesionales como por el público”, finaliza.

lunes, 9 de diciembre de 2019

Centralidad de grado y variación en los pesos de los enlaces

Centralidad de grado y variación en los pesos de los enlaces

Tore Opsahl




La centralidad de los nodos, o la detección e identificación de los nodos centrales en una red, ha sido un tema clave en los estudios de redes. La medida básica de centralidad del nodo es el grado, que se define como el número de conexiones o vínculos que tiene un nodo focal (Freeman, 1978). El grado es un indicador básico y a menudo se usa como primer paso cuando se estudian redes (Wasserman y Faust, 1994). Para describir formalmente esta medida y facilitar la comparación entre las diferentes medidas introducidas en esta publicación, esta medida se puede formalizar para un nodo focal i como:

donde j representa todos los demás nodos, N es el número total de nodos, y x es la matriz de adyacencia, en la que la celda se define como 1 si el nodo i está conectado al nodo j, y 0 en caso contrario.

El grado generalmente se ha extendido a la suma de pesos cuando se analizan redes ponderadas y la fuerza del nodo etiquetado (Barrat et al., 2004). Esta medida se puede formalizar de la siguiente manera:

donde w es la matriz de adyacencia ponderada, en la que es mayor que 0 si el nodo i está conectado al nodo j, y el valor representa el peso del lazo. Esto es igual a la definición de grado si la red es binaria, es decir, cada vínculo tiene un peso de 1. Por el contrario, en redes ponderadas, los resultados de estas dos medidas son diferentes. Dado que la fuerza del nodo tiene en cuenta los pesos de los lazos, esta ha sido la medida preferida para analizar redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008).





Grado y fortaleza: dos nodos con la misma fuerza de nodo, pero diferente número de enlaces.


Sin embargo, la fuerza del nodo es una medida contundente, ya que solo tiene en cuenta el nivel total de participación de un nodo en la red, y no el número de otros nodos a los que se conectó. Para ejemplificar esto, el nodo A y el nodo B tienen la misma fuerza, pero el nodo A está conectado a tres veces más nodos que el nodo A y, por lo tanto, está involucrado en más partes de la red. Como el grado y la fuerza pueden ser indicadores del nivel de participación de un nodo en la red circundante, Opsahl et al propusieron una segunda generalización. (2010) que incorporaron tanto el número de empates como la suma de los pesos de empate. Su medida puede formalizarse como:
donde es un parámetro de ajuste positivo que controla la importancia relativa del número de lazos y la suma de los lazos. Específicamente, hay dos valores de referencia (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproduce la medida existente. Si el parámetro se establece en el valor de referencia de 0, los resultados de la medida se basan únicamente en el número de vínculos, y son iguales a los encontrados al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todos los lazos con un peso mayor que 0 están configurados para presentar. Por el contrario, si el valor del parámetro es 1, los resultados de la medida se basan solo en ponderaciones de enlaces y son idénticos a la generalización de grado ya propuesta (Barrat et al., 2004). Para otros valores de , se obtienen resultados alternativos, que se basan tanto en el número de lazos como en los pesos de los lazos. En particular, se pueden distinguir dos rangos de valores. Primero, un conjunto de parámetros entre 0 y 1 valoraría positivamente tanto el número de enlaces  como los ponderadores de enlace. Esto implica que ambos incrementos en el grado y la fuerza del nodo aumentarán el resultado. En segundo lugar, si el valor del parámetro está por encima de 1, las medidas valorarían positivamente la resistencia del enlace y negativamente el número de lazos. Los nodos con un promedio de lazos más fuertes obtendrán una puntuación más alta.


Variación en los pesos de lazos: dos nodos con los mismos puntajes utilizando las medidas de grado de Freeman (1978), Barrat et al. (2004) y Opsahl et al. (2010).

Todas las medidas anteriores son insensibles a la variación en los pesos de corbata. Por ejemplo, los dos nodos, A y B, en este diagrama tienen el mismo número de conexiones, la misma fuerza de nodo y logran el mismo puntaje usando la segunda generalización, ya que es un producto del grado y la fuerza de nodo. Mientras que las medidas de cercanía e intermediación propuestas en Opsahl et al. (2010) son sensibles a la variación en los pesos de lazos, la medida del grado fue diseñada para no ser. Sin embargo, una medida estrechamente relacionada con las medidas de cercanía y entremedio que es sensible a las diferencias de peso puede definirse de la siguiente manera:

Al exponer el peso de la corbata en lugar del peso promedio de la corbata, la medida se vuelve sensible a la variación en los pesos de la corbata. Por ejemplo, el nodo A y el nodo B obtendrían el siguiente puntaje utilizando las diversas medidas:
Medida Nodo
A B
Freeman’s 2 2
Barrat et al.’s 4 4
Opsahl et al.’s, alpha=0.5 2.83 2.83
Opsahl et al.’s, alpha=1.5 5.66 5.66
New measure, alpha=0.5 2.83 2.73
New measure, alpha=1.5 5.66 6.20

Como se puede ver en la tabla anterior, la nueva medida está estrechamente vinculada a la generalización propuesta por Opsahl et al. (2010); sin embargo, cuando los pesos de lazos son diferentes, la medida varía entre los dos nodos. Del mismo modo que las otras medidas de centralidad que utilizan un parámetro de ajuste, el parámetro de ajuste en estas medidas controla la importancia relativa del número de lazos y la suma de los lazos. Además, también controla si la variación en los pesos de lazo debe descontarse o considerarse favorable. Un parámetro entre 0 y 1 descuentos, mientras que un parámetro superior a 1, aumenta el resultado de la medida cuando los pesos de lazo son diferentes.

¿Quiere probarlo con tus datos?

A continuación se muestra el código para calcular la medida de grado propuesta. Debe tener el paquete tnet instalado antes de ejecutar el código.

.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
# Load tnet
library(tnet)
# Load a function to calculate the new measures
degree2_w <- function (net, type="out", alpha = 1) {
    net <- as.tnet(net, type="weighted one-mode tnet")
    if (type == "in") {
        net <- data.frame(i = net[, 2], j = net[, 1], w = net[,3])
        net <- net[order(net[, "i"], net[, "j"]), ]
    }
    index <- cumsum(!duplicated(net[, 1]))
    k.list <- cbind(unique(net[, 1]), NaN, NaN, NaN)
    dimnames(k.list)[[2]] <- c("node", "degree", "output", "alpha")
    k.list[, "degree"] <- tapply(net[, "w"], index, length)
    k.list[, "output"] <- tapply(net[, "w"], index, sum)
    net[,"w"] <- net[,"w"]^alpha
    k.list[, "alpha"] <- tapply(net[, "w"], index, sum)
    if (max(net[, c("i", "j")]) != nrow(k.list)) {
        k.list <- rbind(k.list, cbind(1:max(net[, c("i", "j")]), 0, 0, 0))
        k.list <- k.list[order(k.list[, "node"]), ]
        k.list <- k.list[!duplicated(k.list[, "node"]), ]
    }
    return(k.list)
}
# Load a sample network
net <- cbind(
i=c(1,1,2,2),
j=c(2,3,1,3),
w=c(2,2,1,3))
# Calculate the measures
degree_w(net, measure=c("degree","output","alpha"), alpha=1.5)
degree_w(net, measure=c("degree","output","alpha"), alpha=0.5)
degree2_w(net, alpha=0.5)
degree2_w(net, alpha=1.5)

Referencias


Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752.

Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.

Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251.

Opsahl, T., Colizza, V., Panzarasa, P., Ramasco, J. J., 2008. Prominence and control: The weighted rich-club effect. Physical Review Letters 101 (168702).

Wasserman, S., Faust, K., 1994. Social Network Analysis: Methods and Applications. Cambridge University Press, New York, NY.

miércoles, 4 de diciembre de 2019

Hashtags que hacen dudar de las noticias

#MeToo, #BlackLivesMatter y otros hashtags hacen que la gente dude de las noticias

Por Eugenia Ha Rim Rho ||  Quartz



Los hashtags conectan a las personas. ¿También se dividen?

Si eres conservador o liberal, lo más probable es que hayas encontrado un hashtag político en un artículo, un tweet o una historia personal compartida en Facebook.

Un hashtag es una etiqueta funcional ampliamente utilizada en motores de búsqueda y servicios de redes sociales que permiten a las personas buscar contenido que se encuentra bajo la palabra o frase, seguido del signo #.

Primero popularizado por Twitter en 2009, el uso de hashtags se ha generalizado. Casi todo lo político con la intención de atraer a una gran audiencia ahora está marcado con un hashtag pegadizo. Tomemos, por ejemplo, campañas electorales (#MAGA), movimientos sociales (#FreeHongKong), o llamados a leyes de apoyo u oposición (#LoveWins).

Junto con activistas y políticos, las compañías de noticias también están usando hashtags políticos para aumentar el número de lectores y contextualizar los informes en publicaciones breves y digeribles en las redes sociales. De acuerdo con Columbia Journalism Review, dicha práctica es una "buena forma de introducir una historia o perspectiva en el ciclo de noticias" y "una forma de descubrir qué quiere discutir el público y aprender más".

¿Es esto realmente cierto?

Nuestro experimento

Para averiguarlo, realizamos un experimento controlado en línea con 1.979 personas.

Probamos si las personas respondían de manera diferente a la presencia o ausencia de hashtags políticos, particularmente los #MeToo y # BlackLivesMatter más utilizados, en artículos de noticias publicados en Facebook por los principales medios de comunicación, como The New York Times y NPR.

Le mostramos al azar a cada persona una publicación de noticias que contenía o excluía el hashtag político. Luego les pedimos que comentaran el artículo y respondieran algunas preguntas al respecto.




La publicación de noticias original era idéntica a la de la derecha, excepto por el #MeToo en negrita seguido de la descripción del texto. Para la condición de control (izquierda), excluimos el hashtag en el texto de la publicación, así como la frase "#MeToo Prompts" en el título.

Descubrimos que los hashtags políticos no son una buena manera para que los medios de comunicación involucren a los lectores.

De hecho, cuando la historia incluía un hashtag, las personas percibían que el tema de las noticias era menos importante y estaban menos motivados para saber más sobre temas relacionados.

Algunos lectores también se inclinaron a ver las noticias con hashtags como más sesgadas políticamente. Esto fue especialmente cierto para los lectores más conservadores, que tenían más probabilidades de decir que una publicación de noticias era extremadamente partidaria cuando incluía un hashtag.

Del mismo modo, los hashtags también afectaron negativamente a los lectores liberales. Sin embargo, los lectores que se identificaron a sí mismos como "extremadamente liberales" no percibieron el contenido de las noticias de las redes sociales sobre cuestiones de género y raciales como partidistas, independientemente de la presencia del hashtag.



La publicación de noticias de la derecha es idéntica a la publicación de noticias original publicada en Facebook, excepto por el hashtag #MeToo en negrita en el texto de la publicación, que no se incluyó en la versión original.

Moderados politicos


Lo que realmente me interesó fue la reacción de la gente en el medio. Las personas que se identificaron como publicaciones políticamente moderadas percibieron que las publicaciones eran significativamente más partidistas cuando las publicaciones incluían hashtags.

De hecho, en sus comentarios, los encuestados políticamente moderados que vieron publicaciones de noticias con hashtags tenían más sospechas sobre la credibilidad de las noticias y se centraron más en la política del hashtag.


Tabla: La conversación, CC-BY-ND

Por ejemplo, en el grupo de hashtag, las personas políticamente moderadas mencionan repetidamente el hashtag sin comprometerse sustancialmente con cuestiones sociales relevantes:

“El tema #MeToo se está convirtiendo en algo así como los Kardashians. No puedes mirar las noticias sin que ambos encabecen las cosas. Es un tema importante, pero me estoy cansando de verlo una y otra vez ”.

Por el contrario, cuando los hashtags estaban ausentes, era más probable que los lectores discutieran las ideas y los valores centrales que el hashtag debía representar originalmente.

"Dar una plataforma y una voz a las víctimas a través de las redes sociales es una excelente manera de compartir la experiencia de uno cuando es incómodo hacerlo públicamente. Algunas personas tienen demasiado miedo de denunciar cualquier acoso o asalto debido a ser etiquetados como mentirosos, por lo que me alegro de que haya una manera de hacer un seguimiento de estas instancias sin que pasen desapercibidas ".

El lenguaje utilizado por los participantes del grupo hashtag en sus comentarios fue más emocionalmente extremo. Incluso aquellos que parecían estar a favor del movimiento hashtag usaron un lenguaje agresivo para transmitir apoyo al movimiento y se refirieron a aquellos en contra de él como "ustedes idiotas", alegando, "hay una razón por la cual [#MeToo] f **** - ¡¡¡ing existe, imbéciles !! ”

Fomentar un mejor discurso en línea

Estos hallazgos muestran que los políticos, activistas, organizaciones de noticias y compañías tecnológicas no pueden dar por sentado las prácticas comunes de las redes sociales.

Incluso una práctica simple, como marcar un tema social con un hashtag pegadizo, puede dar la impresión al público de que el contenido etiquetado, incluso el contenido de noticias publicado por las principales compañías de noticias, es hiperpartidista o falso.

Si queremos construir y mantener debates saludables en línea, entonces debemos comenzar a cuestionarnos cómo tales prácticas influyen en la salud democrática de Internet.

El uso de un hashtag puede atraer rápidamente la atención de la audiencia hacia problemas sociales apremiantes. Sin embargo, como muestra nuestro estudio, tal impulso viral puede ser perjudicial para la discusión en línea sobre temas sociales urgentes a largo plazo.

jueves, 28 de noviembre de 2019

Importando redes de coautoría y bibliográficas con VOSviewer

Visualizar datos de citas disponibles gratuitamente usando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS



Crossref, I4OC, datos abiertos, software, visualización, VOSviewer

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Iniciativa para Citas Abiertas (I4OC) (Initiative for Open Citations (I4OC)) logró convencer a un gran número de editores científicos para que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Usando datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada para VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargar datos utilizando la API Crossref


Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienciométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada a la API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas separadas para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, la fecha del Journal of Informetrics se puede obtener en una sola llamada API. Para realizar esta llamada a la API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro de filas en la API de solicitud indica que nos gustaría recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref para solicitar datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es un llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, necesitamos hacer tres llamadas API, cada una de las cuales genera datos para la mayoría de las 1000 publicaciones. Usamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas a la API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para obtener más información, consulte la documentación de la API.



Crear visualizaciones bibliométricas basadas en datos Crossref


Primero usamos los datos descargados de Crossref para ver la red de investigadores de coautoría en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las opciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.


Red de coautoría Crossref de investigadores cienciométricos

A continuación, utilizamos nuestros datos Crossref para ver la red de acoplamiento bibliográfico de publicaciones en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos Crear un mapa basado en datos bibliográficos en el asistente Crear mapa. Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.


Red de acoplamiento bibliográfico cruzado de publicaciones cienciométricas

El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido en Scientometrics. La red no incluye publicaciones del Journal of Informetrics. Esto demuestra una limitación importante de los datos de Crossref. Gracias a I4OC, muchas editoriales hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores de no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Information no están disponibles a través de Crossref, las publicaciones de esta revista no pueden incluirse en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible usar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el procesamiento previo de los datos. Para ilustrar el uso a gran escala de los datos de Crossref, utilizamos los datos para ver la red de citas de 5000 revistas de todos los campos de la ciencia.

Utilizando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, la fecha debía procesarse previamente para poder proporcionarse como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, hemos identificado todas las revistas (así como las actas de conferencias y series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas se ignoró, por lo que no se hizo distinción entre una cita del diario A al diario B y una cita del diario B al diario A. La red de citas del diario se guardó en un archivo de red VOSviewer, y este archivo se utilizó como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.


Red de citas de referencias cruzadas

La visualización muestra una estructura de la ciencia que es bien conocida de las visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se encuentran en el área correcta de la visualización, mientras que las revistas de ciencias de la vida y médicas se pueden encontrar en el área superior. Finalmente, las revistas de ciencias sociales se encuentran en el área inferior izquierda de la visualización. Faltan algunas revistas importantes en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no pone a disposición las listas de referencias de publicaciones a través de Crossref.


Conclusión

Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos de citas disponibles gratuitamente. Los datos de citas cruzadas se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para usar datos Crossref para ver redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente.

martes, 26 de noviembre de 2019

La estructura de k-núcleo de redes múltiples

La estructura k-core de redes múltiples reales

Saeed Osat, Filippo Radicchi, Fragkiskos Papadopoulos
https://arxiv.org/abs/1911.10743





Las redes multiplex son representaciones matemáticas convenientes para muchos sistemas del mundo real (biológicos, sociales y tecnológicos) de elementos que interactúan, donde las interacciones entre los elementos tienen diferentes sabores. Estudios anteriores señalaron que las redes multiplex del mundo real muestran correlaciones significativas entre capas (correlación de grado-grado, superposición de bordes, similitudes de nodos) capaces de hacerlas robustas frente a fallas aleatorias y específicas de sus componentes individuales. Aquí, mostramos que las correlaciones entre capas son importantes también en la caracterización de su estructura k-core, es decir, la organización en capas de nodos con un grado cada vez más alto. Comprender las estructuras k-core es importante en el estudio de los procesos de difusión que tienen lugar en las redes, como por ejemplo en la identificación de spreaders influyentes y la aparición de fenómenos de localización. Encontramos que, si la distribución de grados de la red es heterogénea, entonces una fuerte estructura de k-core está bien predicha por correlaciones de grado-grado significativamente positivas. Sin embargo, si la distribución de grados de la red es homogénea, entonces la estructura de núcleo k fuerte se debe a correlaciones positivas a nivel de similitudes de nodos. Llegamos a nuestras conclusiones analizando diferentes redes multiplex del mundo real, introduciendo técnicas novedosas para controlar las correlaciones entre capas de redes sin cambiar su estructura, y aprovechando los modelos de redes sintéticas con niveles ajustables de correlaciones entre capas.




jueves, 21 de noviembre de 2019

Comunidades: El algoritmo de Leiden supera al de Louvain

Usando el algoritmo de Leiden para encontrar grupos bien conectados en redes

Vincent Traag, Ludo Waltman, Nees Jan van Eck
CWTS


Introducción

Un desarrollo emocionante en el campo de los estudios cuantitativos de ciencias es el uso de enfoques de agrupación algorítmica para construir clasificaciones a nivel de artículo basadas en redes de citas. Hasta hace poco, la mayoría de las clasificaciones se basaban en categorizar revistas en lugar de artículos individuales. Esto es comprensible dados los desafíos sustanciales de clasificar millones de artículos. En CWTS, ahora trabajamos rutinariamente con clasificaciones a nivel de artículo. Hemos dedicado bastante tiempo a desarrollar algoritmos de agrupamiento para crear estas clasificaciones. Estos algoritmos tienen un impacto más allá de nuestro propio campo de investigación y son de interés para muchos científicos de redes.

Te sorprenderá saber que uno de los algoritmos de agrupamiento más famosos, comúnmente conocido como el algoritmo de Lovaina, en realidad tiene un defecto importante: los grupos que encuentra pueden estar arbitrariamente mal conectados. Por ejemplo, el algoritmo de Lovaina puede agrupar artículos en un grupo, aunque algunos de los artículos no tienen enlaces de citas con los otros artículos en el grupo. Aquí informamos brevemente sobre un nuevo algoritmo que hemos desarrollado, que llamamos algoritmo de Leiden. Este algoritmo garantiza encontrar clústeres bien conectados. ¡Aún mejor, lo hace mucho más rápido que el algoritmo de Louvain!




Algoritmo de Louvain

El algoritmo de Louvain es un algoritmo simple y elegante que es más eficiente que muchos otros algoritmos de agrupación en red. Cuando se introdujo en 2008, se aplicó a una gran red de más de cien millones de nodos y mil millones de enlaces. Se clasificó entre los mejores algoritmos de agrupación en estudios comparativos en 2009 y 2016. El algoritmo de Lovaina busca agrupaciones de alta calidad moviendo nodos individuales, por ejemplo, artículos individuales en una red de citas, de una agrupación a otra de tal manera que La calidad de los grupos se mejora tanto como sea posible. Cuando los grupos no pueden mejorarse más moviendo nodos individuales, el algoritmo de Lovaina hace algo ingenioso: agrega la red, de modo que cada grupo en la red original se convierte en un nodo en la red agregada. En la red agregada, el algoritmo comienza a mover nodos individuales de un clúster a otro. Al repetir el movimiento y la agregación de nodos, el algoritmo de Lovaina puede encontrar grupos de alta calidad en poco tiempo. Desafortunadamente, sin embargo, este enfoque también conduce a una falla importante, que parece haber pasado desapercibida durante la última década.



A veces, un nodo funciona como intermediario o puente para el resto de su clúster. Sin ese nodo crucial, el clúster ya no estaría conectado. Dado que el algoritmo de Lovaina sigue moviendo nodos de un grupo a otro, en algún momento puede mover el nodo crucial a un grupo diferente, rompiendo así la conectividad del grupo original. Quizás sorprendentemente, el algoritmo de Lovaina no puede arreglar esta conectividad rota. La ruptura completa de la conectividad es lo peor que le puede pasar a un clúster. Es el ejemplo más extremo de un problema más general del algoritmo de Lovaina: el algoritmo puede producir grupos que están mal conectados y que deberían haberse dividido en varios grupos.

Algoritmo de Leiden


Solucionamos este problema del algoritmo de Lovaina en nuestro nuevo algoritmo de Leiden. De manera similar al algoritmo de movimiento local inteligente que se desarrolló previamente en CWTS, el algoritmo de Leiden puede dividir grupos en lugar de solo fusionarlos, como lo hace el algoritmo de Lovaina. Al dividir los clústeres de una manera específica, el algoritmo de Leiden garantiza que los clústeres estén bien conectados. Además, el algoritmo garantiza más que esto: si ejecutamos el algoritmo repetidamente, eventualmente obtenemos grupos que son subconjuntos óptimos. Esto significa que es imposible mejorar la calidad de los clústeres moviendo uno o más nodos de un clúster a otro. Esta es una propiedad fuerte del algoritmo de Leiden. Establece que los grupos que encuentra no están muy lejos de ser óptimos. Finalmente, en lugar de verificar continuamente para todos los nodos en una red si se pueden mover a un clúster diferente, como se hace en el algoritmo de Lovaina, el algoritmo de Leiden realiza esta verificación solo para los llamados nodos inestables. Como resultado, el algoritmo de Leiden no solo encuentra clústeres de mayor calidad que el algoritmo de Lovaina, sino que también lo hace en mucho menos tiempo.

En CWTS, utilizamos el algoritmo de Leiden para agrupar grandes redes de citas. El algoritmo de Lovaina necesita más de media hora para encontrar grupos en una red de aproximadamente 10 millones de artículos y 200 millones de enlaces de citas. El algoritmo de Leiden necesita solo un poco más de tres minutos para agrupar esta red. Además, cuando se ejecuta repetidamente, el algoritmo de Leiden encuentra fácilmente grupos de mayor calidad que el algoritmo de Lovaina.



¡Inténtalo tú mismo!

Esperamos que el algoritmo de Leiden resulte útil no solo para nosotros en CWTS, sino también para muchos otros investigadores tanto en estudios de ciencias cuantitativos como en ciencias de redes. Durante la última década, miles de investigadores han publicado artículos en los que utilizan el algoritmo de Lovaina. En el futuro, estos investigadores podrían emplear el algoritmo de Leiden.

Junto con el documento que presenta el algoritmo de Leiden, también hemos lanzado el código fuente Java del algoritmo en GitHub. Hemos hecho un gran esfuerzo para garantizar que el algoritmo sea fácil de usar para todos. Para los más inclinados técnicamente, hemos creado documentación técnica y comentarios de código. ¡Tome el código fuente, ejecútelo en sus propios datos de red y díganos qué piensa de él!

Nota del administrador: Ahora también está disponible como complemente de Gephi.