Mostrando entradas con la etiqueta VOS. Mostrar todas las entradas
Mostrando entradas con la etiqueta VOS. Mostrar todas las entradas

domingo, 20 de diciembre de 2020

ARS: Usando mapeos de revistas para conocer sus contenidos a través de la visualización

Cómo generar conocimientos de revistas utilizando técnicas de visualización

Generación de conocimientos sobre el rendimiento de la revista
Por la Dra. Daphne van Weijen y Matthew Richardson || Elsevier




Los editores y editores siempre sienten curiosidad por saber cómo se está desempeñando su revista en comparación con otras en el campo. También están ansiosos por descubrir si el contenido que están publicando está atrayendo citas. En este artículo, nos gustaría compartir con usted una serie de técnicas de visualización que pueden ayudar a generar conocimientos sobre el rendimiento de la revista.

Mapeo de términos

¿Cómo puede determinar cuáles son los temas "candentes" en una revista, grupo de revistas o área temática específica? O, más específicamente, ¿qué temas han mostrado un crecimiento activo y un fuerte impacto en la producción de investigación (artículos publicados) en los últimos años? Para responder a esta pregunta, desarrollamos una nueva herramienta de visualización en colaboración con el grupo de investigación CWTS, que se especializa en bibliometría en la Universidad de Leiden. La herramienta tiene acceso a todas las revistas y actas de congresos indexados en Scopus. A partir de esta información, puede generar mapas que revelen las relaciones entre los términos utilizados en los títulos y los resúmenes de los artículos publicados en una o más revistas seleccionadas. Lo hace con la ayuda de un programa de computadora llamado VOSviewer (1).
¿Cómo se crea un mapa de términos?

Hay una serie de pasos involucrados en la producción de un mapa de términos.

  • Primero debemos determinar qué revista o revistas deben incluirse. Si un grupo de revistas o un área temática es el foco del análisis, una búsqueda de palabras clave en Scopus puede ayudar con esto.
  • Una vez elegidas las revistas, la herramienta realiza un análisis de las palabras y frases encontradas en los títulos y resúmenes de los artículos durante un período de tiempo específico (por ejemplo, en los últimos dos, cinco o diez años). Las ventanas de publicación y cita pueden tener valores separados, por lo que también es posible determinar qué tan bien se ha citado el contenido publicado en un año específico en los años posteriores a la publicación.
  • Después de que se genera un mapa, se puede verificar si hay términos no informativos, como nombres de editoriales o sociedades, y términos genéricos como "literatura", "presentación" o "característica". Estos se pueden eliminar y, si es necesario, se puede crear una nueva versión del mapa.

Grupos de términos concurrentes

El mapa que se muestra en la Figura 1 se conoce como mapa de conglomerados de co-ocurrencia. Cada término que aparece al menos cinco veces en los títulos y resúmenes de los artículos de las revistas seleccionadas está representado por un nodo individual en el mapa. Cuanto más grande es el nodo, más artículos contienen el término y cuanto más pequeño es el espacio entre los términos, más a menudo tienden a coexistir. Sin embargo, es importante señalar que esta es una representación 2D de una red multidimensional, por lo que la proximidad de los términos no puede reflejar perfectamente la relación en todos los casos. Finalmente, los términos están coloreados en grupos de términos que tienden a coexistir.

  • Verde (centro y arriba a la izquierda) relacionado con estadísticas y experimentos;
  • grupo rojo (lado derecho) relacionado con la educación en enfermería;
  • grupo azul (abajo a la izquierda) relacionado con la cirugía; y
  • grupo amarillo (izquierda) relacionado con ensayos clínicos y revisiones de la literatura.

La experiencia en el campo puede ayudar a verificar y nombrar adecuadamente los clústeres, así como a predecir qué clústeres es probable que contengan el contenido más citado y por qué.


Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus. Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus.

Términos muy citados

El siguiente paso para determinar los temas candentes en el campo es verificar qué términos se citan relativamente bien en comparación con el resto del contenido publicado en la (s) revista (s). Esto se puede hacer cambiando el color en el mapa de conglomerados para mostrar el impacto medio de las citas de los artículos que contienen ese término, en relación con el impacto medio de las citas (1,00) de todos los artículos incluidos en el mapa (Figura 2). Como las publicaciones más antiguas han tenido más tiempo para ser citadas, las citas se normalizan por año de publicación para hacer posible una comparación justa. En la Figura 2, los términos con un impacto de citas por encima del promedio están coloreados en rojo, los términos con un impacto de citas promedio son verdes y los términos con un impacto de citas por debajo del promedio se muestran en azul.


Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus

Podemos ver claramente que los términos relativamente citados tienden a aparecer a la izquierda del mapa. Estos son términos que se encuentran principalmente en los grupos amarillo y verde de la Figura 1, relacionados con experimentos (verde) y ensayos clínicos (amarillo). Los términos muy citados en estas áreas incluyen:

  • Nurse staffing, self-esteem y statistical terms (Dotación de personal de enfermería, autoestima y términos estadísticos) (grupo verde, arriba a la izquierda).
  • Depressive symptoms, meta-analysis, pregnancy y controlled trials (Síntomas depresivos, metaanálisis, embarazo y ensayos controlados) (grupo amarillo, lado izquierdo).

¿Temas de actualidad?

Finalmente, se puede realizar una búsqueda de palabras clave de Scopus para los términos en el mapa con el mayor impacto relativo de citas, para determinar si se trataba de ocurrencias aisladas. El resultado de esta búsqueda de palabras clave, restringida al campo de enfermería, confirmó que había al menos cuatro áreas en este análisis que tenían una tasa de crecimiento anual compuesta (CAGR) de más del 5 por ciento, lo que indica que hubo un aumento por encima del promedio en el número de artículos publicados en estas áreas durante los últimos cinco años, ya que el CAGR promedio es del 3 al 5 por ciento (ver Tabla 1).


Tabla 1 - En la Figura 2, se identificaron términos relativamente citados. En esta tabla, enumeramos la cantidad de artículos que presentan esos términos junto con sus tasas de crecimiento anual compuestas. Fuente: Scopus
 

La búsqueda de palabras clave de Scopus confirmó que los temas sugeridos por el mapa eran de hecho temas que han estado llamando la atención en el campo. Aunque este mapa específico a nivel de campo es algo genérico, proporciona una idea general de dónde buscar temas candentes con más detalle.

Experiencias de un editor
El Dr. Paul H. Gobster es un científico social investigador del Servicio Forestal del Departamento de Agricultura de los Estados Unidos (USDA). Acaba de dimitir después de cuatro años como coeditor en jefe de Landscape and Urban Planning de Elsevier, permaneciendo en la junta de la revista como editor asociado. Él y sus colegas utilizaron mapas de términos para ayudar en el desarrollo de un editorial para el 40 aniversario de la revista (2).

El Dr. Gobster dijo: “Identificamos conceptos y temas importantes representados en su contenido publicado y desarrollamos una serie de tiempo de cuatro mapas para describir cualitativamente los cambios en cada década sucesiva.

El término mapas fue relativamente fácil de interpretar y produjo visualizaciones adecuadas para presentarlas a los lectores dentro de nuestra editorial. Creo que el término mapas tiene un valor adicional para las funciones de planificación estratégica y administrativa de la revista; la agrupación puede ayudar a aclarar el contenido temático para la clasificación de manuscritos y la asignación de presentaciones a los editores asociados, y los grupos y términos específicos (su presencia, posiciones y cualquier cambio). con el tiempo) puede ayudar a identificar subtemas de trabajo emergentes y duraderos ".

Los beneficios del mapeo de revistas

Mientras que los mapas de términos se utilizan para resaltar los temas publicados dentro de una revista o disciplina, el mapeo de revistas se puede utilizar para examinar la posición y el alcance de una revista y sus interacciones con otras revistas en el campo. Al igual que con los mapas de términos, Scopus puede proporcionar los datos de origen, lo que garantiza que el análisis se base en todas las revistas indexadas.

Estos mapas de revistas se crean mediante enlaces de citas. Una cita de un artículo publicado en una revista a un artículo publicado en otra establece que sus respectivos contenidos son relevantes entre sí y sugiere un nivel de similitud entre los dos. En un período de tiempo dado, una revista tiende a contener citas de muchas otras revistas, y las que más cita deben ser las revistas con las que está más estrechamente relacionada. Por ejemplo, si la Revista A proporciona muchas citas a la Revista B y solo unas pocas a la Revista C, esto es una señal de que tiene una conexión más fuerte con la Revista B. Si con el tiempo el saldo cambia de modo que comienza a proporcionar más citas a la Revista. C, esto indica que el alcance de las revistas o la estructura del campo está cambiando y se está volviendo progresivamente más relacionado con la Revista C. Cuando los enlaces de citas se construyen en muchas más revistas que en este ejemplo simplificado, un mapa es una opción conveniente. forma de mostrar los enlaces y ver cómo interactúan las revistas para formar grupos más grandes.

Consulte la Figura 3 para ver un ejemplo de un mapa de revistas basado en las mismas seis revistas de enfermería utilizadas en los ejemplos de mapas de términos anteriores.


Figura 3 - Mapa de revistas basado en un grupo de seis revistas de enfermería seleccionadas de 2009-2012 


Cada revista en el mapa se muestra como un nodo (círculo), con el tamaño determinado por el promedio de citas a los artículos de esa revista en el período de tiempo. Puede ver en la Figura 3 que las revistas de medicina general incluidas en el mapa tienen un impacto promedio de citas mucho más alto que las otras revistas. Las revistas seleccionadas están en azul y todas pertenecen a la región de las revistas principales de enfermería, mientras que otras revistas están en gris y se incluyen debido a sus enlaces de citas a estas revistas semilla. Las relaciones de citas se muestran como bordes (líneas) de grosor variable. Estas relaciones de citas se normalizan por el número de citas recibidas por la revista citada y por el número de citas dadas por la revista que cita. Cuanto más gruesa sea la línea, mayor será la proporción de citas representadas.

En este ejemplo de mapeo, las áreas clave de las diferentes especialidades de las ciencias de la salud se han etiquetado en función de los grupos de revistas. Esto le permite ver los vínculos entre especialidades más amplias, así como revistas individuales. Estas agrupaciones tenderán a ser bastante estables, pero comparar mapas basados ​​en diferentes períodos de tiempo le permite identificar revistas emergentes en un área determinada o las relaciones de investigación cambiantes que hacen que un área temática se vuelva más relevante para otra con el tiempo.

El entorno de citas en el que se encuentra una revista es único y dinámico, y el análisis de este puede utilizarse como un medio objetivo para determinar la posición competitiva de una revista establecida en un campo de investigación.


Usar los mapas para respaldar su trabajo

Tanto el mapeo de términos como el mapeo de revistas pueden ayudar a comparar la revista con la competencia y proporcionar información útil para las reuniones del consejo editorial. Si bien en el texto anterior se han sugerido algunas razones estratégicas para usar estas herramientas analíticas, su ventaja real radica en cuán adaptables son a diferentes preguntas de investigación. Si desea saber más acerca de cómo estas herramientas pueden ayudarlo, u otras herramientas analíticas para proporcionar información sobre la posición de su revista, comuníquese con su editor.

Referencias

(1) Van Eck, N.J., & Waltman, L. (2010) “Software survey: VOSviewer, a computer program for bibliometric mapping”, Scientometrics, Vol 84, No. 2, pp. 523–538.

(2) Gobster, P.H. (2014) “(Text) Mining the LANDscape: Themes and trends over 40 years of Landscape and Urban Planning”, Landscape and Urban Planning, Vol 126, pp. 21–30.

jueves, 28 de noviembre de 2019

Importando redes de coautoría y bibliográficas con VOSviewer

Visualizar datos de citas disponibles gratuitamente usando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS



Crossref, I4OC, datos abiertos, software, visualización, VOSviewer

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Iniciativa para Citas Abiertas (I4OC) (Initiative for Open Citations (I4OC)) logró convencer a un gran número de editores científicos para que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Usando datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada para VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargar datos utilizando la API Crossref


Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienciométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada a la API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas separadas para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, la fecha del Journal of Informetrics se puede obtener en una sola llamada API. Para realizar esta llamada a la API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro de filas en la API de solicitud indica que nos gustaría recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref para solicitar datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es un llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, necesitamos hacer tres llamadas API, cada una de las cuales genera datos para la mayoría de las 1000 publicaciones. Usamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas a la API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para obtener más información, consulte la documentación de la API.



Crear visualizaciones bibliométricas basadas en datos Crossref


Primero usamos los datos descargados de Crossref para ver la red de investigadores de coautoría en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las opciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.


Red de coautoría Crossref de investigadores cienciométricos

A continuación, utilizamos nuestros datos Crossref para ver la red de acoplamiento bibliográfico de publicaciones en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos Crear un mapa basado en datos bibliográficos en el asistente Crear mapa. Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.


Red de acoplamiento bibliográfico cruzado de publicaciones cienciométricas

El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido en Scientometrics. La red no incluye publicaciones del Journal of Informetrics. Esto demuestra una limitación importante de los datos de Crossref. Gracias a I4OC, muchas editoriales hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores de no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Information no están disponibles a través de Crossref, las publicaciones de esta revista no pueden incluirse en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible usar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el procesamiento previo de los datos. Para ilustrar el uso a gran escala de los datos de Crossref, utilizamos los datos para ver la red de citas de 5000 revistas de todos los campos de la ciencia.

Utilizando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, la fecha debía procesarse previamente para poder proporcionarse como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, hemos identificado todas las revistas (así como las actas de conferencias y series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas se ignoró, por lo que no se hizo distinción entre una cita del diario A al diario B y una cita del diario B al diario A. La red de citas del diario se guardó en un archivo de red VOSviewer, y este archivo se utilizó como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.


Red de citas de referencias cruzadas

La visualización muestra una estructura de la ciencia que es bien conocida de las visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se encuentran en el área correcta de la visualización, mientras que las revistas de ciencias de la vida y médicas se pueden encontrar en el área superior. Finalmente, las revistas de ciencias sociales se encuentran en el área inferior izquierda de la visualización. Faltan algunas revistas importantes en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no pone a disposición las listas de referencias de publicaciones a través de Crossref.


Conclusión

Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos de citas disponibles gratuitamente. Los datos de citas cruzadas se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para usar datos Crossref para ver redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente.

viernes, 20 de septiembre de 2019

VOSviewer ahora puede mapear la base de Microsoft Research

Mapeo de la ciencia usando datos académicos de Microsoft

Nees Jan van Eck, Ludo Waltman || CWTS






Uno de los desarrollos más emocionantes en los últimos años en el campo de la bibliometría es la aparición de una serie de nuevas fuentes de datos importantes. Dimensiones, creado por Digital Science y puesto a disposición abierta para fines de investigación, es un ejemplo destacado. Otros ejemplos son Crossref y OpenCitations, que proporcionan datos que están completamente abiertos. El lanzamiento de Microsoft Academic en 2016 también representa un desarrollo significativo. En esta publicación de blog, discutimos los datos disponibles por Microsoft Academic y mostramos cómo la versión más reciente de nuestro software VOSviewer puede usarse para crear mapas científicos basados en estos datos.


Microsoft Academic

Al igual que Google Scholar, Microsoft Academic combina datos obtenidos de editores académicos con datos recuperados al indexar páginas web. Sin embargo, a diferencia de Google Scholar, Microsoft Academic hace que sus datos estén disponibles a gran escala, tanto a través de una API como a través de la plataforma Microsoft Azure. Además, los datos se publican bajo una licencia de datos abiertos ODC-BY, que permite que los datos se utilicen bajo restricciones mínimas. Los datos académicos de Microsoft son, por ejemplo, utilizados por Lens, un sitio web cada vez más popular para buscar y analizar literatura y patentes académicas.

Por el momento, la comunidad bibliométrica solo tiene un conocimiento limitado de la cobertura de Microsoft Academic y de la integridad y precisión de sus datos. Un estudio de Anne-Wil Harzing publicado a principios de este año informa que en el campo de los negocios y la economía, Microsoft Academic tiene una cobertura mayor que Web of Science, Scopus y Dimensions. Del mismo modo, un estudio reciente realizado por un equipo de investigación en la Universidad de Curtin encuentra que Microsoft Academic supera a Web of Science y Scopus en términos de cobertura. Sin embargo, este estudio también informa que Microsoft Academic tiene datos de afiliación menos completos. También se han informado otros problemas con la calidad de los datos académicos de Microsoft, por ejemplo, relacionados con años de publicación incorrectos o nombres de revistas incorrectos (por ejemplo, vea esta presentación reciente de uno de nosotros).

En CWTS, actualmente estamos trabajando en una comparación a gran escala de la cobertura de las fuentes de datos bibliométricos, incluido también Microsoft Academic. Nuestro colega Martijn Visser ha desarrollado un algoritmo para hacer coincidir publicaciones en Microsoft Academic con las publicaciones correspondientes en Scopus. Los resultados provisionales para el período 2014–2017 muestran que Microsoft Academic cubre un número mucho mayor de publicaciones que Scopus (consulte la figura a continuación). Sin embargo, Scopus también cubre un número considerable de publicaciones que parecen faltar en Microsoft Academic. También descubrimos que para algunos contenidos cubiertos por Microsoft Academic y no por Scopus, la naturaleza académica puede ser cuestionada. Microsoft Academic, por ejemplo, cubre informes de bodas como este.


Mapeo de la ciencia

Debido a que vemos a Microsoft Academic como una fuente de datos prometedora para el análisis bibliométrico, ahora ofrecemos soporte para datos académicos de Microsoft en nuestro software VOSviewer para crear y visualizar mapas bibliométricos de la ciencia. En la versión más reciente del software, se pueden crear mapas de ciencia basados ​​en datos de Microsoft Academic. Después de obtener una clave API, los usuarios de VOSviewer pueden consultar Microsoft Academic. Los datos se recuperan a través de la API académica de Microsoft. Una característica importante de esta API es su velocidad. La API de Microsoft Academic es mucho más rápida que las API de muchas otras fuentes de datos.

El soporte de VOSviewer para los datos académicos de Microsoft se utilizó en un tutorial reciente de VOSviewer organizado como parte del Open Citations: Opportunities and Ongoing Developments en curso en la conferencia ISSI2019 en Roma. En este tutorial, los participantes, por ejemplo, utilizaron datos académicos de Microsoft para crear el siguiente mapa de coincidencia de términos basado en títulos y resúmenes de publicaciones en Journal of Informetrics.



Los participantes también crearon un mapa de la red de citas de publicaciones en Journal of Informetrics.



Curiosamente, los dos mapas anteriores no se pueden crear en función de los datos de Crossref, otra fuente de datos abierta compatible con VOSviewer. Elsevier, el editor de Journal of Informetrics, no pone resúmenes disponibles en Crossref, mientras que los resúmenes de publicaciones en revistas Elsevier están disponibles en Microsoft Academic. Del mismo modo, Elsevier no está dispuesto a apoyar la Iniciativa para Citas Abiertas, y las listas de referencias de publicaciones en revistas de Elsevier no están disponibles abiertamente en Crossref. Microsoft Academic pone a disposición estas listas de referencias. Esto ilustra algunas de las ventajas de Microsoft Academic sobre otras fuentes de datos abiertas.

Para obtener más ilustraciones de mapas científicos creados con VOSviewer basados ​​en datos de Microsoft Academic, nos remitimos a una reciente publicación de blog de Aaron Tay.

Próximos pasos

En los últimos años, hemos invertido un esfuerzo considerable en ampliar el rango de fuentes de datos bibliométricos compatibles con VOSviewer. El software ahora ofrece soporte para todas las principales fuentes de datos. Los próximos pasos en el desarrollo de VOSviewer incluyen abrir el código fuente del software y lanzar una edición del software basada en la web.

jueves, 30 de noviembre de 2017

Pajek: Análisis y visualización de comunidades (1/2)

Detectando comunidades con el método de agrupamiento de Louvain y VOS


Pajek

Detectando comunidades (Pajek y PajekXXL)


El algoritmo de detección de la comunidad de Louvain está disponible en Pajek y PajekXXL 3.02 o posterior.
A partir de la versión 3.04, la implementación ofrece el parámetro de resolución. De esta forma, los usuarios tienen control sobre el tamaño y la cantidad de comunidades encontradas (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
En esta versión, el algoritmo estándar de Louvain fue reemplazado por el algoritmo Multi-Level Coarsening + Multi-Level Refinement.

A partir de la versión 3.05 activada, se incluye el número de parámetro de reinicios. Eso permite ejecutar la optimización varias veces y seleccionar la mejor partición en todas las ejecuciones.

A partir de la versión 3.05, está disponible otro algoritmo de detección de comunidad (VOS Clustering). El uso es muy similar al uso del método de Louvain, por lo tanto, explicaremos el uso solo del método de Louvain. En Louvain, la modularidad del método se optimiza en VOS Clustering VOS quality. La comparación de los resultados obtenidos por ambos métodos se puede encontrar aquí.

Ambos algoritmos son muy rápidos y se pueden aplicar a enormes redes dispersas que contienen cientos de millones de vértices. Los valores de las líneas (si los hay) también se tienen en cuenta en ambos algoritmos.
Hay dos algoritmos disponibles (para más información, consulte: Algoritmos de búsqueda local multinivel para clústeres de modularidad):

  1. Multi-Level Coarsening + Single Refinement: realiza solo el refinamiento de la partición obtenida en el último nivel (la partición más grosera).
  2. Multi-Level Coarsening + Multi-Level Refinement - realiza iterativamente la fase de engrosamiento y refinamiento para cada nivel obtenido.

Secuencia de pasos en Pajek


  1. Descargue el archivo de red de muestra (25069 vértices, 62608 bordes) y cárguelo en Pajek / PajekXXL.
  2. Comience la búsqueda en la comunidad:  Network/Create Partition/Communities/Louvain Method
  3. Por lo general, se necesitan varios niveles. Pajek devuelve la mejor partición de acuerdo a todos los niveles.
    El número de conglomerados (NC) en niveles disminuye (los conglomerados más pequeños se fusionan con los más grandes en niveles posteriores).
    Por otro lado, aumenta la modularidad (Q) (o calidad VOS) de la partición (que se informa junto con la cantidad de clústeres).
    Pruebe el algoritmo con diferentes valores de parámetro de resolución (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
    Para encontrar soluciones tan buenas (y tantas) como sea posible en los vértices del algoritmo se tienen en cuenta de forma aleatoria. Debido a eso, el algoritmo generalmente arroja resultados diferentes en cada ejecución. Por lo tanto, se recomienda ejecutar el algoritmo con varios reinicios que seleccionan la mejor partición de todos los reinicios.
  4. Recomendación: Compare las particiones obtenidas en dos ejecuciones con el mismo parámetro de resolución (usando Partitions / Info / Cramer's V, Rajski, Adjusted Rand Index). Si la correlación de las dos particiones es pequeña, es probable que el número de comunidades no sea el correcto, por lo tanto, sugerimos probar el algoritmo con otro valor (más grande o más pequeño) de parámetro de resolución.
    En nuestro caso obtenemos los siguientes resultados para los valores del parámetro de resolución 1.00, 0.50 y 40.00 respectivamente:
    Resolution: 1.00. Modularity: 0.935506. Number of Communities: 166.
    Resolution: 0.50. Modularity: 0.938871. Number of Communities: 105.
    Resolution: 40.00. Modularity: 0.852442. Number of Communities: 500.

    La correlación entre las particiones obtenidas con el mismo valor de parámetro de resolución es la más alta para resolución = 40.00 (Cramer's V = 0.998) por lo tanto usaremos estas comunidades como las correctas (aunque la modularidad es la más pequeña para este valor de parámetro de resolución).
    Importante: la modularidad se puede usar solo para comparaciones de particiones obtenidas con el mismo valor de parámetro de resolución.
  5. Podemos ajustar el Maximum Number of Iterations in each Restart, Maximum Number of Levels in each Iteration (Número Máximo de Iteraciones en cada Reinicio, el Número Máximo de Niveles en cada iteración) permitida y el Maximum Number of Repetitions in each Level (Número Máximo de Repeticiones en cada Nivel) permitido. Los valores predeterminados (20, 20 y 50 respectivamente) funcionan bien para la mayoría de las redes.
    Tenga en cuenta que el primer nivel lleva la mayor parte del tiempo, los niveles posteriores se realizan muy rápidamente, especialmente si el número de clústeres identificados en el primer nivel ya es bajo según el número de vértices (el algoritmo se ejecuta en redes reducidas en niveles posteriores).
  6. Podemos usar Operations/Network+Partition/Info para calcular la modularidad de la red según la partición o la calidad de VOS de la partición. Se puede usar en cualquier partición (no solo en particiones obtenidas por el método de Louvain o VOS Clustering).
  7. En el caso de una red firmada (al menos un valor de línea es negativo) se llama una versión especial del algoritmo de Louvain (maximizando la suma de las líneas positivas positivas y minimizando las negativas dentro de las comunidades).
    Por otro lado, en VOS Clustring, todos los valores de línea se consideran positivos (se tienen en cuenta los valores de línea absolutos).

Visualizando Comunidades


1. Visualizar comunidades usando VOS Mapping y Spring Embedders

Si el número de comunidades y el tamaño de la comunidad más grande no son demasiado altos, podemos utilizar las comunidades obtenidas para obtener una imagen aproximada de toda la red.
Estimación: las redes con hasta 100.000 vértices se pueden visualizar si el número de comunidades no es mayor que 10000, y el tamaño de la comunidad más grande no es mayor que 1000 al mismo tiempo. Esta es solo una estimación aproximada que depende de la memoria de la computadora disponible y su velocidad también. Y, por supuesto, cuánto tiempo estamos listos para esperar;)
En nuestro caso tenemos aprox. 25,000 vértices, 500 comunidades y el tamaño de la comunidad más grande está por debajo de 80.
Para ver el tamaño de la comunidad más grande, podemos ordenar la partición obtenida en orden decreciente (Partition/Canonical Partition/with Decreasing Frequencies) y aplicar Partition/Info a la partición resultante (la primera comunidad es ahora la más grande).

Secuencia de pasos en Pajek

  1. Reducir las comunidades (Operations/Network+Partition/Shrink Network) y dejar respuestas predeterminadas cuando se solicite una entrada. Como resultado, obtenemos una red reducida donde los vértices representan a las comunidades y el valor entre dos comunidades representa el valor total de las líneas que conectan los vértices pertenecientes a las dos comunidades. También obtenemos un bucle para cada comunidad, el valor significa la suma de valores de línea dentro de la comunidad.
  2. Primero visualizaremos la red contraída obtenida. En esta red, los valores de las líneas son muy importantes (queremos que las comunidades que son más similares se acerquen entre sí). Por lo tanto, debemos usar algún algoritmo de diseño que tenga en cuenta los valores de las líneas como similitudes. El mapeo de VOS y el dibujo de energía son adecuados para este propósito:
    1. Corra VOS Mapping en el que los valores son line siempre se tienen en cuenta (como similitudes).
    2. Si queremos aplicar el dibujo de energía, primero debemos verificar las Options/Values of Lines/Similarities (en la ventana Draw). Luego ejecuta cualquier dibujo de energía, p. Fruchterman-Reingold (recomendado) o Kamada-Kawai.
Como resultado, obtenemos un diseño de conexiones entre las comunidades.

Red encogida (500 comunidades)


3. Ahora aplicamos las coordenadas de la red contraída a toda la red. Para hacer eso:
- seleccione la red encogida (500 vértices) como la primera red,
- seleccione la red original (25069 vértices) como segunda red,
- seleccione la partición utilizada para la reducción (con dimensión igual a la red original, 25069 en nuestro caso).
Luego ejecute: Networks/Shrink Coordinates (First to Second)/Partition.
En el diseño resultante, los vértices que pertenecen a la misma comunidad se dibujan distribuidos aleatoriamente cerca de su vértice reducido.
Antes de dibujar una red de tal tamaño, es posible que primero necesite aumentar la red más grande que Pajek está dispuesto a dibujar utilizando: Options/Read-Write/Max Vertices to draw

Disposición obtenida (25069 vértices)


4. Puede dibujar vértices dentro de las comunidades también en círculos (Layout/Circular/UsingPartition). Si los círculos son demasiado grandes o demasiado pequeños, puede cambiar su tamaño usando Options/Transform/Resize Cluster Area.

5. Ahora permitamos optimizar vértices y líneas dentro de clusters solamente.
Nuestra red original no está ponderada (todos los valores de línea son 1), por lo tanto, primero le ordenamos a Pajek que no tenga en cuenta los valores de las líneas durante la optimización: Options/Values of lines/Forget 
(La optimización sin tener en cuenta los valores de línea es mucho más rápida, especialmente Kamada-Kawai).
Para optimizar los vértices y las líneas dentro de los clusters solamente, use Layout/Energy/Kamada-Kawai/Optimize Inside Clusters only
Ahora debemos esperar hasta que el contador en la esquina superior derecha de la ventana Dibujar alcance la cantidad total de comunidades.
En la imagen obtenida puede acercar seleccionando un rectángulo con el botón derecho del mouse.
Si los vértices dentro de los conglomerados están demasiado cerca o muy lejos ('nubes' demasiado pequeñas o demasiado grandes) puede cambiar el tamaño del área de los conglomerados utilizando Options/Transform/Resize Cluster Area.

Diseño final (25069 vértices)


6. En el caso de redes grandes, es mejor eliminar líneas y mostrar solo vértices para ver 'nubes'.
Para hacerlo, desmarque Options/Lines/Draw Lines/Edges.

Diseño final sin líneas (25069 vértices)


Diseño final sin líneas (25069 vértices, ampliado):




Diseños finales en EPS o SVG sin líneas (25069 vértices)

jueves, 2 de noviembre de 2017

Nueva versión de VOSviewer opera directamente con Crossref

Visualizando datos de citas disponibles de forma gratuita utilizando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Initiative for Open Citations (I4OC) logró convencer a un gran número de editoriales científicas para que las listas de referencias de publicaciones en sus revistas estuvieran disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Uso de datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API de Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada a VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API de Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargando datos usando la API Crossref

Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas por separado para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, los datos para el Journal of Informetrics se pueden obtener en una sola llamada API. Para realizar esta llamada API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro rows en la solicitud API indica que nos gustaría para recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref solicitando datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es el llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, debemos realizar tres llamadas a la API, cada una de las cuales da como resultado datos para un máximo de 1000 publicaciones. Utilizamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y la tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para más información, nos referimos a la documentación de la API.

Creando visualizaciones bibliométricas basadas en datos Crossref

Primero utilizamos los datos de Crossref descargados para visualizar una red de coautoría de investigadores en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las elecciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.



A continuación, usamos nuestros datos Crossref para visualizar una red de publicaciones de acoplamiento bibliográfico en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos la opción Create a map based on bibliographic data en el asistente Create Map . Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.



El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido todas en Scientometrics. La red no incluye publicaciones de Journal of Informetrics. Esto demuestra una importante limitación de los datos Crossref. Gracias a I4OC, muchos editores hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Informetrics no están disponibles a través de Crossref, las publicaciones de esta revista no se pueden incluir en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible utilizar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el preprocesamiento de los datos. Para ilustrar el uso a gran escala de datos Crossref, utilizamos los datos para visualizar una red de citas de 5000 revistas de todos los campos de la ciencia.

Usando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, era necesario preprocesar los datos para poder proporcionarlos como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, identificamos todas las revistas (así como las actas de congresos y las series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas fue ignorada, por lo que no se hizo distinción entre una cita del diario A y el diario B y una cita del diario B del diario A. La red de citas del diario se guardó en un archivo de red VOSviewer y se utilizó este archivo como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.



La visualización muestra una estructura de la ciencia que es bien conocida a partir de visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se ubican en el área derecha de la visualización, mientras que las revistas de ciencias biológicas y de vida se encuentran en el área superior. Finalmente, las revistas de ciencias sociales se ubican en el área inferior izquierda de la visualización. Algunas revistas importantes faltan en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no hace que las listas de referencias de publicaciones estén disponibles a través de Crossref.

Conclusión

Gracias a I4OC, Crossref se ha convertido en una fuente valiosa de datos de citas disponibles gratuitamente. Los datos de citas de Crossref se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para el uso de datos Crossref para visualizar redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles de manera gratuita.

sábado, 28 de octubre de 2017

Análisis bibliográfico de las publicaciones de Northampton Computing

Actualización sobre el análisis bibliográfico de la informática

Computing in Northampton

He tenido curiosidad sobre las herramientas para analizar las conexiones sociales por un tiempo.

En este post, estoy buscando un par de maneras de analizar las relaciones bibliográficas. Comenzando con las nubes de palabras más simples, pero luego con una herramienta interesante que VosViewer discutió previamente. Todos los datos son tomados del Depósito de Investigación de la Universidad de Northampton - Nectar, para miembros del equipo académico de Computación.


Nubes de palabras




La imagen anterior se basa en datos de todas las publicaciones enumeradas para el equipo informático desde 2011. Incluye los autores, el título, la conferencia, etc. pero no abstracto Se necesita bastante edición y realmente todo lo que se muestra es el nombre de los autores para la mayoría de los autores publicados y algunos términos clave. Proporciona una buena instantánea, pero es difícil de interpretar.

Análisis del coautor




Aquí están los mismos datos, pero se procesaron utilizando un software que solo mira a los autores y muestra cuántas veces se ha publicado un par en particular. Se pueden ver algunas interconexiones entre los autores. Ahora hay conexiones entre todos los autores principales (miembros del equipo de computación).



Las publicaciones en coautoría con estudiantes de maestría están generando mayores oportunidades para unir investigaciones.


Análisis de texto

Esta es la misma herramienta que la anterior, pero esta vez mirando el texto dentro del título y los resúmenes. Todas las palabras en el título y resumen de los trabajos; pero usando el recuento binario (por lo que un término solo se cuenta una vez por publicación) y permitiendo solo los términos con un 60% de relevancia más alta hasta; puedes obtener un gráfico como el siguiente. Personalmente, creo que el grafo es hermoso, da la sensación de que están sucediendo muchas cosas.





Un área temática interesante que sale; por ejemplo, redes inalámbricas y comunicación de máquina a máquina; junto con investigación pedagógica, cultural y sensores para animales.


Vamos a aplicar este último enfoque a algunos casos individuales

Estudio de caso 1: Carrera académica de Investigación media




Caso de estudio 2: Carrera académica de mitad de carrera 




En ambos casos de estudio 1 y 2, hay varias agrupaciones. Estudio de caso 1 los sujetos en las agrupaciones son más diversos que en el caso de estudio 2, que tiene una mayor especialización.

Caso de estudio 3: Investigador de carrera temprana

Mayor separación en los grupos (aunque tres grupos están relacionados en términos de tema) que en los dos primeros casos. Esto se debe en parte a la menor cantidad de documentos en comparación con los dos primeros estudios de casos (entre cuatro y ocho veces menos).



Caso de estudio 4: Doctor por Candidato a la Publicación



Hay una mayor interrelación entre los grupos, que en otros estudios de casos. Esto, yo diría, es una característica positiva para alguien que busca un doctorado por publicación; sugiriendo una "historia" coherente a sus publicaciones.


Trazando las citas de los trabajos de un autor

Usando GEPHI (https://gephi.org/), se puede visualizar una herramienta gratuita de visibilización de Open Graph y datos de citación de Google Scholar e interconexiones.




El enfoque adoptado aquí fue tomar un documento individual (los blogs más grandes) y hacer una conexión con todos los documentos que lo citaron (los blogs más pequeños donde los documentos no produjeron el autor). Los grupos pueden comenzar a verse, y pueden investigarse más a fondo.

viernes, 15 de septiembre de 2017

Detección de comunidades con Pajek (1)

Detección de comunidades con Pajek 3.6

por Marion Maisonobe | groupe fmr


La nueva versión de Pajek ofrece buenas sorpresas para los exploradores de grafos complejos.

Las nuevas características discutidas aquí se agregaron al software entre mayo de 2012 y septiembre de 2012.

Se han implementado dos algoritmos de detección de comunidades:

Network/Create Partition/Communities


-Louvain method



El primer algoritmo se basa en el método de Louvain [1]. Este método se adapta bien a los grafos ponderados, incluso si están firmados (signed graphs). Al igual que con muchos algoritmos de agrupación, la calidad de la partición se optimiza mediante la maximización de la función de modularidad [2]. El índice de modularidad mide la diferencia entre la densidad de un grafo (o subgrafo) dado y la densidad de un grafo aleatorio que tiene las mismas características (número y peso de los enlaces).


Principio

Maximizar la función de modularidad para particionar un grafo es como asegurarse de que el número y el peso de los enlaces sean mayores dentro de las particiones que entre las particiones. Para expresarlo de manera diferente, la densidad intra-comunitaria debe exceder la densidad intercomunitaria.

El método de Louvain es "de abajo hacia arriba" y multi-nivel. Al inicio del algoritmo, todos los vértices pertenecen a una partición diferente. Se agrupan, por iteración, en particiones de modularidad óptima. En la primera situación óptima, el proceso continúa en el nivel superior: cada partición se trata como un vértice y así sucesivamente. La operación continúa hasta que no hay más ganancia de modularidad posible.

Ventaja

Este enfoque evita la falta de modularidad conocida como el "límite de resolución" [3]. Si asociar una partición del primer nivel con otro resultaría en una pérdida de modularidad, esta asociación no se realizaría por el método de Louvain. Como resultado, no es probable que estructuras pequeñas con buena modularidad estén incrustadas en estructuras mayores y menos significativas. Esto es lo que sucedería con un algoritmo "top-down" aplicado a un grafo grande.

Desventaja

El defecto conocido del método proviene de la sensibilidad del resultado al orden de tratamiento de los vértices. El orden en que los vértices son considerados tiene una influencia sobre la partición. Por lo tanto, puede ser útil realizar permutaciones para asegurar la robustez del resultado [4]. La otra forma es imponer un orden que tenga en cuenta las características de la red [5].

Además del algoritmo convencional de Louvain, Pajek ofrece una variante (con el refinamiento de niveles múltiples) que tiende a dar mejores resultados para grandes grafos. [6] El método de Louvain también está disponible en los software Gephi y NetworkX, así como en la biblioteca de software de I igraph, el algoritmo es más rápido en Pajek que en Gephi.

-VOS Clustering


El método de detección de la comunidad VOS optimiza otra función de calidad que la función de modularidad: la denominada función de agrupación VOS [7]. Esta es una variante ponderada de la modularidad que se ha pensado para el procesamiento de datos bibliométricos. Esta técnica da menos peso que un método clásico con un grado muy alto. A diferencia del método de Louvain, depende de un algoritmo "de arriba hacia abajo". Por esta razón, la única manera de escapar al problema de limitar la resolución es variar el parámetro de resolución.

Este método es adecuado para grafos para los cuales el valor de los enlaces explica la importancia de la similitud entre los vértices. Sus diseñadores querían ser asociados con el algoritmo de agrupación un algoritmo de visualización usando el mismo principio matemático. Este enfoque unificado hace posible evitar inconsistencias entre el resultado del proceso de agrupación y la representación gráfica de este resultado.

Naturalmente, Pajek también ofrece el algoritmo de visualización VOS. Funciona sobre el principio de la optimización de la función de calidad denominada mapeo VOS. Dada la proximidad de los dos métodos de detección, no es ciertamente impensable utilizar la asignación VOS para representar un grafo particionado de acuerdo con el método de Louvain.

Ir más lejos

Se puede encontrar una comparación de los dos métodos de detección en:
http://mrvar.fdv.uni-lj.si/pajek/community/LouvainVOS.htm

Los detalles sobre el uso de estos métodos con Pajek también se pueden encontrar en el sitio: parametrización, evaluación de la calidad de la partición, representación gráfica del resultado.

Desde la interfaz gráfica de Pajek, un acceso directo al software VOSviewer ofrece la posibilidad de obtener rápidamente una representación elegante de la partición.

A continuación se muestra un ejemplo de los datos de colaboración científica holandesa (Fuente: Web of Science 2006-2008):




Referencias


  1. V. Blondel, J.-L. Guillaume, R. Lambiotte, et E. Lefebvre, « Fast unfolding of communities in large networks », Journal of Statistical Mechanics, vol. 2008, no 10, sept. 2008.
  2. Hay muchos otros métodos para detectar comunidades. Para obtener una visión general de las: S. Fortunato, « Community detections in graphs », Physics and Society, vol. 2010, no 486, p. 75-174.
  3. S. Fortunato et M. Barthélemy, « Resolution limit in community detection », Proceedings of the National Academy of Sciences of the United States of America, vol. 104, no 1, p. 36-41, janv. 2007.
  4. V. Blondel, G. Krings, et I. Thomas, « Régions et frontières de téléphonie mobile en Belgique et dans l’aire métropolitaine bruxelloise », Brussels studies, no 42, oct. 2010.
  5. P. De Meo, E. Ferrara, G. Fiumara, et A. Provetti, « Generalized Louvain method for community detection in large networks », under review, 2011. URL: http://www.emilio.ferrara.name/wp-content/uploads/2011/07/isda2011-k-path.pdf}
  6. R. Rotta et A. Noack, « Multilevel local search algorithms for modularity clustering », Journal of Experimental Algorithmics, vol. 16, no 2.3, 2011.
  7. L. Waltman, N. J. van Eck, et E. C. M. Noyons, « A unified approach to mapping and clustering of bibliometric networks », Journal of Infometrics, vol. 4, no 4, p. 629-635, oct. 2010.


viernes, 12 de febrero de 2016

La brecha bibliográfica en sociología en redes de citas

Revelando la brecha cuantitativa-cualitativa en sociología con el uso de la visualización bibliométrica
Vicente Traag, Thomas Franssen

CWTS - Universidad de Leiden

La elección entre los enfoques cuantitativos y cualitativos es una división larga data en la sociología. Vicente Traag y Thomas Franssen, sociólogos afiliados a CWTS, utilizan el análisis bibliométrico para estudiar esta brecha y para ver lo que queda de ella hoy.

Desde los albores de la sociología ha sido un tema de división: cuantitativa frente cualitativa. La misma palabra sociología (de sociología francesa) fue sugerido por uno de los académicos fundadores, Auguste Comte, como alternativa a la física social (de nuevo desde sociale físico francés) un término apropiado por Adolphe Quetelet, que lo utilizó para describir su investigación estadística. Hasta la década de 1920, los objetos, se consideró que ya sea de un cuantitativa o carácter cualitativo. Esta dicotomía cambió después de la década de 1920 debido a un aumento constante de los métodos estadísticos en la sociología. En la sociología contemporánea, ambos enfoques se utilizan cada vez más para estudiar los mismos temas generales. Sin embargo, como se verá más adelante, la brecha no se calmó por completo. Por otra parte, nos encontramos con que los temas de investigación están íntimamente ligadas a sus métodos. El universo de la sociología cuantitativa consta de términos como "encuesta", "datos" y "escala" sino también de "clase social", "mujeres", "hombres" y "carrera". El universo de la sociología cualitativa consiste en términos tales como "discurso", "práctica" y "significado", sino también de la "identidad" de "energía" y "masculinidad".

En la cienciometría, la brecha entre los enfoques cualitativos y cuantitativos es igualmente evidente. Las citas se pueden contar (aunque no sin un esfuerzo considerable). Estos número de citas en la alimentación a su vez indicadores más complejos, por ejemplo, para corregir las diferencias de campo en cultivos de citas. La dinámica del número de citas se pueden analizar, ver el flujo y reflujo de atención académica. En resumen, la parte cuantitativa está bien representada. Pero lo que dicen las citas sobre la calidad científica, la calidad de la forma en que una presunción de parcialidad, y cómo el análisis de citas a su vez afecta a las prácticas académicas, no puede ser respondida por cifras por sí solas. Además, la interpretación de las estadísticas de citas sin conocer el contexto más amplio de fondo puede llevar a conclusiones distorsionadas. Lo que se analizan las publicaciones? ¿Cuál es su tema, y ​​cómo los diferentes temas se relacionan entre sí?

Curiosamente, esto se presta a un análisis que es una combinación de tanto cuantitativo como un enfoque cualitativo. En CWTS, una de las herramientas a nuestra disposición para tratar de dar sentido a las grandes series de publicaciones es un mapa plazo. La idea es que extraemos los términos más relevantes de los títulos y los resúmenes de las publicaciones que estamos estudiando. Esos términos surgen de los títulos y resúmenes a sí mismos, no cubierto por las técnicas de minería de texto sofisticados, y no son de ninguna manera predeterminada. Visualizamos y agrupar estos términos en una forma tal que con frecuencia términos concurrentes están colocados relativamente cerca unos de otros, y forman parte del mismo grupo. Estas técnicas se implementan en el VOSviewer de libre disposición, proporcionamos algunos detalles más (técnicas) de abajo. Aunque una visualización de este tipo se basa en la minería de textos de grandes cantidades de datos en un enfoque textual-los mapas resultantes requieren un conocimiento experto de dominio, sustantiva para entender e interpretar ellos, en lugar de un enfoque cuantitativo cualitativo.



Figura 1. Mapa de campos de la sociología 2010-2015. Los términos son de color de acuerdo a la agrupación. El mapa revela la brecha cuantitativa-cualitativa. Haga clic aquí para abrir un mapa interactivo en el VOSviewer.

Cuando aplicamos estas técnicas para todos los artículos publicados en revistas clasificadas como sociología en la Web of Science in 2010-2015, vemos aparecer un patrón interesante. Es de esperar que un campo de la ciencia que se subdivide en los temas: las palabras que a menudo co-ocurren al mismo tiempo tienden a referirse a algún tema común. En sociología, el mapa revela una división bastante diferente, es decir, entre los enfoques cuantitativos y cualitativos. Es bastante sorprendente ver este fenómeno dominan la división, en lugar de decir, temas como la desigualdad, movimientos u organizaciones sociales. Por supuesto, estos temas también están incluidos en el mapa, pero que parecen ser parte de la brecha más amplia entre cuantitativo y cualitativo. Por ejemplo, muchas publicaciones sobre movimientos sociales tienden a ser caso basado e implicar el análisis del discurso. Del mismo modo, las cuestiones de identidad tienden a ser estudiado usando métodos cualitativos, etnográficos. Por otra parte, los temas relacionados con el empleo, el ingreso y la educación (presumiblemente se trata de la desigualdad) emplean con mayor frecuencia una metodología cuantitativa. Podría ser interesante ver estos temas estudiados desde el otro método: la identidad desde un punto de vista cuantitativo y el empleo, el ingreso y la educación desde una perspectiva cualitativa.

Hay algunos cruces interesantes cuantitativo al cualitativo que muestran cómo el mismo tema general se aborda de manera diferente en los dos métodos. Las diferencias entre "macho" y "hembra" parecen ser estudiado más en un entorno cuantitativa. Pero el tema también se estudió cualitativamente, en torno a temas como la identidad y la sexualidad, donde vemos términos tales como "masculinidad" emergente. Los asuntos religiosos se estudian de manera similar desde ambas perspectivas. Por un lado, se trata de una variable de control típico en los estudios cuantitativos (ir a la iglesia, por ejemplo). Pero la religiosidad es, por supuesto, también está profundamente arraigado en cuestiones de identidad y significado. En temas de desarrollo, la globalización y el cambio climático, el enfoque cualitativo no está en la identidad y significado, pero en las comunidades y pueblos, especialmente en el mundo en desarrollo. El enfoque cuantitativo se centra más en la redistribución, el crecimiento económico y la comparación nacional de cruz. Por último, algunas otras metodologías como el análisis de redes sociales y la teoría de la elección racional también se sitúan en el límite cuantitativo-cualitativo. Para la teoría de la elección racional, esto parece contrario a la intuición, pero tal vez la teoría de la elección racional es tan frecuentemente criticado por los papeles cualitativos, ya que es empleado por los documentos cuantitativos. En términos más generales, mapas plazo proporcionan sólo una visión muy de un campo basado en la co-ocurrencia, y el contexto de co-ocurrencia no se considera. Si un término co-produce porque es criticado o empleado, por tanto, no está claro. por tanto, debemos evitar darle demasiada importancia a este tipo de mapas.

Tal vez podemos concluir de esta pequeña incursión en la brecha cuantitativa-cualitativa que determinados temas de investigación a menudo se limitan a un solo método. Un enfoque cualitativo se obtiene una descripción más grueso más rica, e incrusta un análisis en un contexto más amplio. Al mismo tiempo, puede desencadenar preguntas que requieren una respuesta más cuantitativa, que a su vez puede requerir de nuevo un análisis más cualitativo. Así, podemos cambiar continuamente entre los métodos cualitativos y cuantitativos. En lugar de tratar de integrar los dos, que está promovida por ejemplo, bajo la denominación de métodos mixtos, deberíamos quizá sobre todo seguir desafiando ambas vistas desde otro punto de vista. No debemos cerrar los ojos ante los desafíos planteados por la otra perspectiva, pero aceptar que la otra perspectiva puede completar y matizar nuestras conclusiones, en lugar de los invalida. Afortunadamente, cuando se mira en la distribución de publicaciones en revistas, algunas de las revistas más generales, tales como la American Sociological Review and American Journal of Sociology sí incluyen las publicaciones de ambas perspectivas (aunque parece más presente el punto de vista cuantitativo). revistas más especializadas, como la sociología de la cultura y de las fuerzas sociales, se centran principalmente en la investigación cualitativa y cuantitativa, respectivamente. Por lo menos, hay algunos foros común para la discusión, pero hay margen de mejora.



Figura 2. Mapa que muestra la frecuencia relativa de los términos en revistas. El azul representa pocas ocurrencias mientras que el rojo representa las apariciones más frecuentes. Haga clic aquí para abrir mapas interactivos en el VOSviewer.

Métodos y Referencias

Métodos


Recogimos todos los artículos publicados en revistas que pertenecen a la categoría de materias de Sociología en la Web of Science, publicada entre 2010-2015. En total, hay 14.613 artículos publicados en ese período, de 146 revistas diferentes. Nos entrada los títulos y los resúmenes en el VOSviewer, que identifican los términos del texto (técnicamente conocida como frases nominales) usando un algoritmo de procesamiento de lenguaje natural. A continuación, excluir términos que se producen menos de 20 veces en este corpus, lo que resulta en 2450 términos. El uso de estos términos, el VOSviewer calcula una denominada puntuación de relevancia para excluir términos genéricos. Por ejemplo, un término como "conclusión" aparece con frecuencia, pero co-ocurre con casi cualquier otro término. Tales términos genéricos están excluidos de esta manera sobre la base de una puntuación baja relevancia. Seleccionamos los 60% términos más relevantes que quedan, lo que se traduce en términos 1470. Ver Van Eck et al. (2011) para más detalles técnicos sobre cómo estos términos se extraen y cómo los resultados de relevancia se calculan, y ver Van Eck y Waltman (2010) para una descripción general de la VOSviewer. La brecha cuantitativa-cualitativa en general parece bastante robusto con respecto a las diferentes opciones de parámetros ligeramente. Por ejemplo, utilizando un punto de corte de 15 apariciones y la selección de los 1500 términos más relevantes revela un mapa casi idénticos, y lo mismo ocurre con un punto de corte de 25 apariciones y la selección de las 1000 términos más relevantes.


Los términos se visualizaron utilizando un método que intenta posicionar con frecuencia términos cercanos unos de otros concurrentes. Para aquellos con un poco de formación técnica, la técnica se asemeja a una variante ponderada de escalamiento multidimensional. Más información se puede encontrar en Van Eck et al. (2010). Por último, los términos se agruparon utilizando el mismo marco matemático que se utiliza para la visualización, como se explica en Waltman, Van Eck y Noyons (2010). La técnica de agrupación se asemeja a la modularidad, un método bien conocido para la detección de las comunidades en las redes, pero hay algunas diferencias sutiles. En particular, los diferentes niveles de detalle de la agrupación se pueden encontrar, y tenemos que configurar algunos parámetros resolución. La configuración por defecto en el VOSviewer es 1, que sigue identifica algunos subtemas en el campo de la sociología, tales como las cuestiones de género. La división más grueso entre cuantitativa-cualitativa se revela a una resolución en algún lugar en el intervalo de aproximadamente 0,55 hasta 0,85. Por último, se normaliza la frecuencia de un término en un diario de manera que la media es igual a 1, para llegar a escalas comparables para los colores (visualizamos en una escala común de 0-2).


Referencias


Van Eck, N. J., & Waltman, L. (2010). Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics, 84(2), 523–538.

Van Eck, N.J., Waltman, L., Dekker, R., & Van den Berg, J. (2010). A comparison of two techniques for bibliometric mapping: Multidimensional scaling and VOS. Journal of the American Society for Information Science and Technology, 61(12), 2405-2416.

Van Eck, N.J., & Waltman, L. (2011). Text mining and visualization using VOSviewer. ISSI Newsletter, 7(3), 50-54.

Waltman, L., van Eck, N. J., & Noyons, E. C. M. (2010). A unified approach to mapping and clustering of bibliometric networks. Journal of Informetrics, 4(4), 629–635.