Mostrando entradas con la etiqueta red de citas bibliográficas. Mostrar todas las entradas
Mostrando entradas con la etiqueta red de citas bibliográficas. Mostrar todas las entradas

lunes, 3 de febrero de 2020

Redes de co-citas y política en el libro 1984 de Orwell

Rastreando las redes de 1984




Varios amigos y colegas me preguntaron si publicaría mi charla de MLA 2016 en redes en 1984 de George Orwell, y estoy feliz de hacerlo. Es una especie de post-script orientado a las humanidades digitales para mi primer libro recientemente completado, y es un intento de describir cómo la teoría de la red de actores, en lugar de un paradigma crítico de Foucault, terminó informando el método para ese proyecto de libro. El panel, "Redes literarias y científicas", organizado por John Savarese, también ofreció una buena oportunidad para intentar adaptar las redes de citas generadas computacionalmente que he adaptado muy ligeramente de Neal Caren y Kieran Healy a través de Jonathan Goodwin. (Los detalles técnicos sobre esa adaptación siguen al final. Este es también, para el registro, un documento que trunqué sustancialmente en la entrega).

Biopolítica y redes de actores

En mi próximo libro, “Human Programming: Brainwashing, Automatons, and American Unfreedom,” ("Programación humana: lavado de cerebro, autómatas y falta de libertad estadounidense"), estaba mirando la red literaria, científica y política de discursos asociados con el control mental y la falta de libertad. ¿Cómo el cambio científico, comencé preguntando, afecta cómo pensamos acerca de lo que son la libertad y la falta de libertad en el siglo XX? ¿Qué papeles han jugado la literatura y la ciencia en la producción de las imágenes de "falta de libertad" que hemos asociado con el totalitarismo, el fundamentalismo y otros enemigos de la democracia? Rápidamente descubrí que la imagen de lo que Erich Fromm llamaba el "autómata humano", el sujeto totalitario como humano reducido a una máquina, flotaba entre discursos literarios y científicos de una manera que me pareció sorprendentemente omnidireccional.

Parece que vale la pena enfatizar esa omnidireccionalidad, como muchos de 20th-C. La investigación en literatura y ciencia con la que estoy familiarizado enfatiza cómo el texto literario procesa internamente paradigmas y enfoques científicos. A menudo, el texto y el autor juntos hacen una crítica de una práctica o mentalidad científica (esta o aquella comprensión del entorno, de la mente, del cuerpo discapacitado, del gen, etc.) o el texto se involucra en una ciencia ficción. extrapolación de esta o aquella trayectoria de ciencia ficción, que el crítico rellena, para ampliar su dimensión crítica.

Al leer los debates recientes sobre métodos de lectura y crítica (incluidos Los límites de la crítica de Rita Felski y varios trabajos de Bruno Latour) me he estado preguntando hasta qué punto la crítica en una vena foucaultiana ha sido una presencia dominante en el subcampo de literatura y ciencia en el siglo veinte. Particularmente cuando enfatizamos la ciencia como disciplina, en el sentido de gobernar, normalizar, o del conocimiento científico como biopoder, nos ponemos en peligro de reproducir una división de dos culturas, en la que encontramos a la ciencia como algo deshumanizante e instrumental, y crítico o el propio texto literario como resistiendo esa fuerza a través de gestos de desenmascaramiento. (Tal división entre lo humano y lo inhumano, figurada en la postura del crítico fuera de un régimen biopolítico que de otro modo sería total, a menudo es prestada de segunda o tercera mano, encontré en mi investigación, desde la retórica de la era de la Guerra Fría sobre la democracia humana y el totalitarismo autómata .)

Si bien no creo que la crítica se haya "agotado", y aunque creo que todavía hay ejemplos útiles y necesarios de tal crítica en este subcampo y en otros, también me he encontrado en busca de alternativas y nuevas modos de hablar sobre el impacto político y científico de los textos literarios, aparte de su poder para criticar diversas formas de biopoder científicamente habilitado. El último enfoque parecía particularmente inadecuado para mi propio objeto de estudio, que trataré de describir a través del ejemplo de 1984.

La teoría de la red de actores de Bruno Latour, para mí como para muchos otros, ha sido útil para señalar nuevas direcciones. Un buen estudio sociológico, escribe, es uno que "traza una red", y ha sido interesante pensar en lo que eso podría significar para los estudios literarios y para estudiar literatura y ciencia en el siglo XX. Felski sugiere de manera interesante, basándose en el trabajo de Latour sobre actores no humanos, que entendemos las obras literarias como tales "actantes": mediadores dentro de nuestras redes de intercambio de ideas, imágenes y estilos de pensamiento.

Al tratar de sentir este enfoque, aprendemos algo sobre las redes y sobre la agencia de los textos literarios, es decir, si y cómo pasar de un paradigma foucaultiano, o mejor, polo o fin de un espectro de prácticas, a un El polo de Latourian (una teoría biopolítica de una teoría de la red de actores de las culturas de la ciencia) realmente marca la diferencia en lo que hacemos y cómo. (Y de nuevo, creo que hay trabajos fabulosos que ya hacen esto: Contagious: Cultures, Carriers, and the Outbreak Narrative de Priscilla Wald (Duke, 2008) es un excelente ejemplo de un trabajo de rastreo de redes que ha servido como modelo metodológico para yo.) Esa es la gran pregunta que motiva esta charla; mi respuesta provisional es que cambia sutilmente cómo hablamos sobre el impacto político de los textos literarios.

Redes de 1984

El 1984 de Orwell tiene dos fuentes científicas bien conocidas: una en el experimento "Little Albert" de B.F. Skinner que Orwell adapta y adorna fuertemente en la escena climática de tortura de la novela que involucra ratas. El segundo es, como lo han señalado los biógrafos de Orwell, lingüístico, en el entusiasmo de Orwell por un lenguaje similar al esperanto y en su adopción, a través del concepto de "NewSpeak", de la hipótesis de Sapir-Whorf en donde el lenguaje da forma y limita la visión o ideología del hablante. . Con respecto a ambos, Orwell escribe con un espíritu opositor contra la tecnocracia de mediados del siglo XX, de una manera que creo que ha sido influyente. Pero mucho más interesante para mí es la red de literatura y ciencia que llega a la estela de la novela. Sabía algo de la "huella" de las ideas e imágenes de 1984 antes de entrar en mi proyecto más amplio, pero seguía apareciendo y su adaptabilidad parecía no tener fin. Es el plano completo para textos que incluyen THX 1138 de George Lucas, Diamond Dogs de David Bowie y el anuncio más famoso y más absurdo de Apple, del Superbowl de 1984.


Anuncio de "1984" de Apple para Macintosh

Más sustancialmente, la novela de Orwell también participó en la cultura política de Estados Unidos. Merece la mención de George Kennan, el arquitecto principal de la Guerra Fría, quien dijo en 1953: "Cuando trato de imaginarme el totalitarismo como un fenómeno general, lo que me viene a la mente de manera más destacada no es ni la imagen soviética ni la imagen nazi como Los he conocido en carne y hueso, sino más bien las imágenes ficticias y simbólicas creadas por personas como Orwell o Kafka o Koestler o los primeros satíricos soviéticos ". 1984 fue una inspiración para Edward Hunter, el hombre de la CIA que acuñó el término" lavado de cerebro " para describir la reforma del pensamiento chino y la psicología de los prisioneros de guerra de Corea. ("Lavado de cerebro" también, como lo trazo en mi libro, ha flotado entre discursos científicos y narraciones populares y legales desde entonces). Y el lenguaje introducido en 1984, en palabras como "Gran Hermano" y "Crimen de pensamiento", ha sido infinitamente adaptado en retórica a la izquierda y derecha políticas con sorprendente consistencia. Los académicos de extrema derecha David Horowitz y David Spencer fueron coautores de un libro titulado Islamophobia: Thought Crime of a Totalitarian Future (David Horowitz Freedom Center, 2011) que imagina, como hacen muchos expertos de derecha, que la corrección política es en sí misma un totalitario. o imposición tecnocrática de limitaciones en el lenguaje y el pensamiento.


Retórica de la novela de Orwell adaptada por la extrema derecha estadounidense.

Cuando se piensa en este tipo de huella para una obra, es un momento en el que la lectura atenta para encontrar (lo que presumo que es) su "significado real" y su "política real" dentro de sus profundidades, para mostrar el trabajo autónomo y completo de El arte tiene su propia voz crítica: parece ser precisamente la estrategia equivocada. 1984 está más vivo como una colección de imágenes poderosas y estrategias retóricas que deambulan libremente por el mundo, a través de una red de archivos adjuntos a menudo flojos para los lectores. (Así es como la noción del texto como "actante" tiene sentido para mí).

Para mi sorpresa, mientras continuaba con esta investigación descubrí que 1984 también es un texto que se abrió paso en el discurso científico y académico, y ofreció estrategias científicas para comunicar ideas y hacer que sus consecuencias políticas sean vívidas. En mi investigación sobre las ideas de libertad y no libertad, Orwell y 1984 siguieron apareciendo, a veces como shorthands o por puntos de analogía, pero aún así, de manera bastante consistente, e incluso entonces, el trabajo en sí parecía sorprendentemente presente en los trabajos sobre totalitarismo y control del pensamiento. que estaba leyendo, no solo en sociología y ciencias políticas, sino también en psiquiatría y psicología: La reforma del pensamiento de Robert Jay Lifton y Thought Reform and the Psychology of Totalism, la violación de la mente de Joost Meerloo, el testimonio de expertos en cultos y las discusiones populares sobre fundamentalismo, también, tenía referencias a Orwell y 1984.

Si bien mi libro no pasa mucho tiempo con Orwell, comencé a preguntarme cómo se podría estudiar esta huella o red de Orwell en las ciencias de manera más sistemática, que es lo que pensaré para el resto del artículo de hoy.

Como anécdota, 1984 no parece ser un texto que se lea o enseñe terriblemente a nivel universitario, a pesar de haber sido un libro muy popular. Permanece (de nuevo anecdóticamente) en los planes de estudio de inglés de la escuela secundaria en los EE. UU., Y fue un libro del Club del Libro del Mes en su lanzamiento. Tengo la sensación de que el libro es casi demasiado sencillo, o demasiado simple en su mensaje antitotalitario, como para justificar una gran explicación por parte de los críticos literarios, una serie de ensayos y volúmenes interesantes y un Cambridge Companion a pesar de ello. (Los casos en los que un libro claramente influyente no se estudia mucho, creo que puede ser esclarecedor, sobre qué tipos de diferenciación o distinción circunscriben en silencio nuestras elecciones de lo que funciona estudiar y lo que vale la pena estudiar sobre ellos).

A pesar de tener este sentido, nada podría haberme preparado para ver una lista de los artículos más citados con "Orwell" en su título o resumen, de la base de datos de citas estándar de la industria de Web of Science. Aunque no es del todo exhaustivo en sus listas de revistas de humanidades, todavía fue una sorpresa que los 5 artículos más citados sobre Orwell no fueran de estudios literarios en absoluto: eran de The British Journal of Sociology (321 citas), Stanford Law Review (71), Language (32), American Scientist (12) y Computers and the Humanities (11). El Cambridge Companion to George Orwell fue el número 6, y Web of Science encontró 9 citas de él. Le siguieron otros artículos de estudios literarios, estudios de gestión, geografía, psicoanálisis, ciencias políticas y políticas públicas entre los 20 primeros.

Luego decidí buscar solo artículos en Web of Science que citan 1984, y luego los ordené por la frecuencia con la que fueron citados. Mi resultado principal allí, al que volveré, fue de The Journal of Management Studies, erróneamente faltante en la tabla anterior, pero citado 388 veces (incluyendo ser citado por uno de los mejores resultados en la otra tabla). Es de Hugh Willmott, titulado "La fuerza es la ignorancia, la esclavitud es la libertad: gestionar la cultura en las organizaciones modernas". Volveremos a ello.

Quería obtener una imagen más sistemática y completa, basada en los datos encontrados en Web of Science, de cómo era la huella de Orwell. Terminé decidiendo adaptar una estrategia digital indirecta para hacerlo. Las redes de citas son un método que he tomado prestado aquí de Dan Wang, Neal Caren, Kieran Healy y Jonathan Goodwin. (También me han inspirado las estrategias relacionadas en el trabajo de Andrew Goldstone, Ted Underwood, Hoyt Long, Richard So y Ed Finn). Han estado utilizando estas visualizaciones para dar instantáneas empíricas de diferentes revistas y campos, según lo que pensadores u obras se citan juntas con mayor frecuencia y en qué grupos. Así es como se ve, y puede hacer clic para ver la versión dinámica y arrastrable:


Una red de cocitación para obras que citan 1984

Decidí adaptar su modelo de alguna manera para mirar todos los textos que citan 1984. Debido a que está usando la cita de otros de una amplia variedad de otras obras, concebiblemente de cualquier período de tiempo, esta imagen enfáticamente no muestra un estudio de influencia. En cambio, lo que obtenemos es una especie de cuadro lúdico de lo que estoy llamando (porque lo hago a mediados de siglo en EE. UU.) "Compañeros de viaje" de Orwell: vemos aquí regiones con otros pensadores cuyo trabajo se utiliza junto con el de Orwell en diferentes campos y en diferentes temas Puede permitirnos explorar los diferentes tipos de usos académicos de 1984, desde la lingüística hasta la filosofía, la ciencia política y la sociología, la psicología y otros pequeños grupos, como la antropología, que amenazan con flotar fuera de la pantalla aquí. Esto resultó ser menos directamente informativo de lo que esperaba, porque los trabajos más citados y más centrales aquí tienden a ser de gran importancia interdisciplinaria. Entonces vemos menos separación por disciplina de lo que esperaba. No obstante, sigue siendo una herramienta o enfoque potencialmente útil para otras ficciones literarias, para observar las diferentes cohortes de pensadores con los que los académicos los ponen en conversación. (Esto podría complementar el interesante trabajo de Ed Finn en una línea similar sobre las formas en que los autores se citan juntos en las reseñas de libros). Los estudios de otros autores con esto podrían variar desde lo potencialmente fascinante (¿Toni Morrison?) Hasta lo más ciertamente deprimente (Ayn Rand).

Si bien la red de co-citas puede servir en el futuro (y para otros textos) como una especie de dispositivo de descubrimiento, en realidad fue solo el artículo más citado lo que más me fascinó, "La fuerza es la ignorancia, la esclavitud es la libertad: gestión de la cultura" de Willmott en organizaciones modernas. El artículo describe críticamente lo que llama "culturismo corporativo": el poder blando de promover la "cultura", desde la jerga del logro hasta el valor del retiro corporativo, en RRHH y teoría de la gestión. El artículo cita a Foucault, Marx, Weber, David Harvey, el filósofo Alisdair Macintyre y muchos otros, además de figuras de su propia disciplina de la escuela de negocios. Pero lo más interesante para mí obviamente es el papel central de 1984: las citas frecuentes de Orwell ofrecen una forma de estructurar el argumento durante toda la primera mitad del artículo. Sostengo que la función principal de Orwell es como una especie de puente retórico: Orwell se despliega hacia lo que imagino que es un lector de revisión por pares en una disciplina que bien podría haber sido resistente a Marx o Foucault. La acusación de Willmott de que sus pares de la teoría de la gestión están utilizando doble discurso, en mi hipótesis, alentaría a los lectores que podrían ser resistentes a las estrategias de lectura sintomáticas a participar en ellos. La táctica de acusar a estos culturistas corporativos de ser como el Partido es asombrosamente exitosa, especialmente dada la frecuencia con que se ha citado el artículo. ¿Y hay algo en lo que los estadounidenses puedan estar de acuerdo más que nuestro deseo de no ser el Partido de Orwell y el deseo de no gustar a quien se les parezca? El consenso que he visto en mi investigación ha sido sorprendente.

Y así, aunque termina siendo sutil, para mí el impacto político de 1984 reside en la forma en que ha moldeado, y continúa formando debates populares y, a veces, científicos sobre el poder. (Y, como observó Katie Fitzpatrick en una conversación después del panel, la literatura es la fuente de una cantidad sorprendente de nuestro vocabulario para hablar sobre estructuras sociales, desde el dickensiano hasta el kafkaesco y el orwelliano).

Detalles digitales:

Primero encontré grafos de cocitas como una herramienta de descubrimiento en esta publicación de Jonathan Goodwin en su blog personal. Vincula a varios ejemplos de su uso y las diferentes adaptaciones que Goodwin hizo, y al código original de Caren para generar el diagrama de diseño de fuerza d3.js. Puede encontrar un ejemplo completamente elaborado del trabajo de Goodwin en una sola revista en el sitio de Signs @ 40 para la revista Signs.

Caren, Healy y Goodwin hicieron una búsqueda en la Web of Science a través de revistas completas; en cambio, mis búsquedas fueron "Orwell" en las entradas bibliográficas de los artículos. Aunque inicialmente pensé que podría modificar sustancialmente el código, solo hice un cambio en el código de Caren, que consistía en extraer solo los nombres de las entradas seleccionadas, en lugar del nombre y el año, y luego bajar los umbrales para que las entradas solo tuvieran que ser citados juntos dos veces para aparecer juntos. (Esto fue necesario porque tenía un conjunto de datos más difuso con menos citas compartidas). Terminé simplemente usando sed (la línea de comando "buscar y reemplazar") para eliminar todas las entradas creadas por Orwell (cuya presencia haría que el grafo sea adecuado) , si no es informativo, tipo panóptico) directamente dentro del archivo de texto, que luego lee el script de Python. Web of Science extrae una gran cantidad de datos, por lo que sería posible colorear entradas por disciplina compartida en lugar de por algoritmo de detección de la comunidad, para dimensionar los nodos de acuerdo con varios criterios. Una vez más, pretendía que este grafo de cocitación fuera más una prueba de concepto lúdica que mostrar algo concluyente, y estaría emocionado de ver a otros llevar este tipo de trabajo en nuevas direcciones.

lunes, 27 de enero de 2020

20 años de redes de coautorías y bibliográficas sobre ciencia de redes

Veinte años de ciencia de redes: un análisis de red bibliográfico y de coautoría

Roland Molontay, Marcell Nagy
arXiv.org > physics > arXiv:2001.09006
PDF



Hace dos décadas, tres artículos pioneros dirigieron la atención a redes complejas e iniciaron una nueva era de investigación, estableciendo un campo interdisciplinario llamado ciencia de redes. Es decir, estos documentos fundamentales altamente citados fueron escritos por Watts & Strogatz, Barabási & Albert y Girvan & Newman en redes de mundo pequeño, en redes sin escala y en la estructura comunitaria de redes complejas, respectivamente. En los últimos 20 años, debido a la naturaleza multidisciplinaria del campo, ha surgido una comunidad científica de redes diversa pero no dividida. En este artículo, investigamos cómo esta comunidad ha evolucionado con el tiempo con respecto a la velocidad, la diversidad y la naturaleza interdisciplinaria como se ve a través de la creciente red de coautoría de científicos de la red (aquí la noción se refiere a un académico con al menos un artículo que cita al menos uno de los tres documentos de hitos mencionados anteriormente). Después de proporcionar un análisis bibliográfico de 31,763 documentos científicos de redes, construimos la red de coautoría de 56,646 científicos de redes y analizamos su topología y dinámica. Explicamos los patrones de colaboración de los últimos 20 años de ciencia de redes al investigar numerosas propiedades estructurales de la red de coautoría y al usar técnicas mejoradas de visualización de datos. También identificamos los autores más centrales, las comunidades más grandes, investigamos los cambios espacio-temporales y comparamos las propiedades de la red con los indicadores cienciométricos.


jueves, 28 de noviembre de 2019

Importando redes de coautoría y bibliográficas con VOSviewer

Visualizar datos de citas disponibles gratuitamente usando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS



Crossref, I4OC, datos abiertos, software, visualización, VOSviewer

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Iniciativa para Citas Abiertas (I4OC) (Initiative for Open Citations (I4OC)) logró convencer a un gran número de editores científicos para que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Usando datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada para VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargar datos utilizando la API Crossref


Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienciométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada a la API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas separadas para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, la fecha del Journal of Informetrics se puede obtener en una sola llamada API. Para realizar esta llamada a la API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro de filas en la API de solicitud indica que nos gustaría recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref para solicitar datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es un llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, necesitamos hacer tres llamadas API, cada una de las cuales genera datos para la mayoría de las 1000 publicaciones. Usamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas a la API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para obtener más información, consulte la documentación de la API.



Crear visualizaciones bibliométricas basadas en datos Crossref


Primero usamos los datos descargados de Crossref para ver la red de investigadores de coautoría en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las opciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.


Red de coautoría Crossref de investigadores cienciométricos

A continuación, utilizamos nuestros datos Crossref para ver la red de acoplamiento bibliográfico de publicaciones en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos Crear un mapa basado en datos bibliográficos en el asistente Crear mapa. Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.


Red de acoplamiento bibliográfico cruzado de publicaciones cienciométricas

El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido en Scientometrics. La red no incluye publicaciones del Journal of Informetrics. Esto demuestra una limitación importante de los datos de Crossref. Gracias a I4OC, muchas editoriales hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores de no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Information no están disponibles a través de Crossref, las publicaciones de esta revista no pueden incluirse en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible usar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el procesamiento previo de los datos. Para ilustrar el uso a gran escala de los datos de Crossref, utilizamos los datos para ver la red de citas de 5000 revistas de todos los campos de la ciencia.

Utilizando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, la fecha debía procesarse previamente para poder proporcionarse como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, hemos identificado todas las revistas (así como las actas de conferencias y series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas se ignoró, por lo que no se hizo distinción entre una cita del diario A al diario B y una cita del diario B al diario A. La red de citas del diario se guardó en un archivo de red VOSviewer, y este archivo se utilizó como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.


Red de citas de referencias cruzadas

La visualización muestra una estructura de la ciencia que es bien conocida de las visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se encuentran en el área correcta de la visualización, mientras que las revistas de ciencias de la vida y médicas se pueden encontrar en el área superior. Finalmente, las revistas de ciencias sociales se encuentran en el área inferior izquierda de la visualización. Faltan algunas revistas importantes en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no pone a disposición las listas de referencias de publicaciones a través de Crossref.


Conclusión

Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos de citas disponibles gratuitamente. Los datos de citas cruzadas se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para usar datos Crossref para ver redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente.

viernes, 20 de septiembre de 2019

VOSviewer ahora puede mapear la base de Microsoft Research

Mapeo de la ciencia usando datos académicos de Microsoft

Nees Jan van Eck, Ludo Waltman || CWTS






Uno de los desarrollos más emocionantes en los últimos años en el campo de la bibliometría es la aparición de una serie de nuevas fuentes de datos importantes. Dimensiones, creado por Digital Science y puesto a disposición abierta para fines de investigación, es un ejemplo destacado. Otros ejemplos son Crossref y OpenCitations, que proporcionan datos que están completamente abiertos. El lanzamiento de Microsoft Academic en 2016 también representa un desarrollo significativo. En esta publicación de blog, discutimos los datos disponibles por Microsoft Academic y mostramos cómo la versión más reciente de nuestro software VOSviewer puede usarse para crear mapas científicos basados en estos datos.


Microsoft Academic

Al igual que Google Scholar, Microsoft Academic combina datos obtenidos de editores académicos con datos recuperados al indexar páginas web. Sin embargo, a diferencia de Google Scholar, Microsoft Academic hace que sus datos estén disponibles a gran escala, tanto a través de una API como a través de la plataforma Microsoft Azure. Además, los datos se publican bajo una licencia de datos abiertos ODC-BY, que permite que los datos se utilicen bajo restricciones mínimas. Los datos académicos de Microsoft son, por ejemplo, utilizados por Lens, un sitio web cada vez más popular para buscar y analizar literatura y patentes académicas.

Por el momento, la comunidad bibliométrica solo tiene un conocimiento limitado de la cobertura de Microsoft Academic y de la integridad y precisión de sus datos. Un estudio de Anne-Wil Harzing publicado a principios de este año informa que en el campo de los negocios y la economía, Microsoft Academic tiene una cobertura mayor que Web of Science, Scopus y Dimensions. Del mismo modo, un estudio reciente realizado por un equipo de investigación en la Universidad de Curtin encuentra que Microsoft Academic supera a Web of Science y Scopus en términos de cobertura. Sin embargo, este estudio también informa que Microsoft Academic tiene datos de afiliación menos completos. También se han informado otros problemas con la calidad de los datos académicos de Microsoft, por ejemplo, relacionados con años de publicación incorrectos o nombres de revistas incorrectos (por ejemplo, vea esta presentación reciente de uno de nosotros).

En CWTS, actualmente estamos trabajando en una comparación a gran escala de la cobertura de las fuentes de datos bibliométricos, incluido también Microsoft Academic. Nuestro colega Martijn Visser ha desarrollado un algoritmo para hacer coincidir publicaciones en Microsoft Academic con las publicaciones correspondientes en Scopus. Los resultados provisionales para el período 2014–2017 muestran que Microsoft Academic cubre un número mucho mayor de publicaciones que Scopus (consulte la figura a continuación). Sin embargo, Scopus también cubre un número considerable de publicaciones que parecen faltar en Microsoft Academic. También descubrimos que para algunos contenidos cubiertos por Microsoft Academic y no por Scopus, la naturaleza académica puede ser cuestionada. Microsoft Academic, por ejemplo, cubre informes de bodas como este.


Mapeo de la ciencia

Debido a que vemos a Microsoft Academic como una fuente de datos prometedora para el análisis bibliométrico, ahora ofrecemos soporte para datos académicos de Microsoft en nuestro software VOSviewer para crear y visualizar mapas bibliométricos de la ciencia. En la versión más reciente del software, se pueden crear mapas de ciencia basados ​​en datos de Microsoft Academic. Después de obtener una clave API, los usuarios de VOSviewer pueden consultar Microsoft Academic. Los datos se recuperan a través de la API académica de Microsoft. Una característica importante de esta API es su velocidad. La API de Microsoft Academic es mucho más rápida que las API de muchas otras fuentes de datos.

El soporte de VOSviewer para los datos académicos de Microsoft se utilizó en un tutorial reciente de VOSviewer organizado como parte del Open Citations: Opportunities and Ongoing Developments en curso en la conferencia ISSI2019 en Roma. En este tutorial, los participantes, por ejemplo, utilizaron datos académicos de Microsoft para crear el siguiente mapa de coincidencia de términos basado en títulos y resúmenes de publicaciones en Journal of Informetrics.



Los participantes también crearon un mapa de la red de citas de publicaciones en Journal of Informetrics.



Curiosamente, los dos mapas anteriores no se pueden crear en función de los datos de Crossref, otra fuente de datos abierta compatible con VOSviewer. Elsevier, el editor de Journal of Informetrics, no pone resúmenes disponibles en Crossref, mientras que los resúmenes de publicaciones en revistas Elsevier están disponibles en Microsoft Academic. Del mismo modo, Elsevier no está dispuesto a apoyar la Iniciativa para Citas Abiertas, y las listas de referencias de publicaciones en revistas de Elsevier no están disponibles abiertamente en Crossref. Microsoft Academic pone a disposición estas listas de referencias. Esto ilustra algunas de las ventajas de Microsoft Academic sobre otras fuentes de datos abiertas.

Para obtener más ilustraciones de mapas científicos creados con VOSviewer basados ​​en datos de Microsoft Academic, nos remitimos a una reciente publicación de blog de Aaron Tay.

Próximos pasos

En los últimos años, hemos invertido un esfuerzo considerable en ampliar el rango de fuentes de datos bibliométricos compatibles con VOSviewer. El software ahora ofrece soporte para todas las principales fuentes de datos. Los próximos pasos en el desarrollo de VOSviewer incluyen abrir el código fuente del software y lanzar una edición del software basada en la web.

domingo, 11 de agosto de 2019

Redes de coautorias: Coautores cambian de tema

Tendencia creciente de los científicos a cambiar de tema

An Zeng, Zhesi Shen, Jianlin Zhou, Ying Fan, Zengru Di, Yougui Wang, H. Eugene Stanley y Shlomo Havlin
Nature Communications
volume 10, Número de artículo: 3439 (2019)

Resumen

A pesar de los esfuerzos persistentes para comprender la creatividad de los científicos durante las diferentes etapas de la carrera, se sabe poco sobre la dinámica subyacente del cambio de tema de investigación que impulsa la innovación. Aquí, analizamos los registros de publicación de científicos individuales, con el objetivo de cuantificar su dinámica de cambio de tema y su influencia. Encontramos que la red conjunta de documentos de un científico exhibe una estructura comunitaria clara donde cada comunidad principal representa un tema de investigación. Nuestro análisis sugiere que los científicos tienen una distribución limitada del número de temas. Sin embargo, los investigadores hoy en día cambian más frecuentemente entre temas que los de los primeros días. También encontramos que la alta probabilidad de cambio al inicio de la carrera se asocia con una baja productividad general, pero con una alta productividad general en la última carrera. Curiosamente, la cita promedio por trabajo, sin embargo, está correlacionada negativamente en todas las etapas de la carrera con la probabilidad de cambio. Proponemos un modelo que puede explicar las principales características observadas.


Introducción

Descubrir los mecanismos que rigen las actividades de investigación de los científicos individuales y su evolución con el tiempo es fundamental para comprender y gestionar una amplia gama de cuestiones en la ciencia, desde la formación de científicos hasta el descubrimiento colectivo de nuevos conocimientos1,2,3,4,5. La mayor disponibilidad de grandes conjuntos de datos que capturan actividades de investigación crea una oportunidad sin precedentes para explorar los patrones dinámicos de producción científica y recompensas utilizando herramientas matemáticas y computacionales de vanguardia6,7,8. Además de los primeros trabajos destinados a evaluar el impacto científico con citas de científicos9, índice h10 y variantes relacionadas11, hay una ola reciente de estudios centrados en cuantificar y modelar la evolución de la creatividad investigadora a lo largo de las carreras de los científicos12,13,14,15. 16,17,18,19. Se ha demostrado que la producción acumulada de los científicos medida por el número de artículos exhibe un crecimiento persistente con el tiempo12, que está asociado con el conocido efecto Matthew20. Al asociar cada publicación con sus citas, se ha revelado que el trabajo más influyente de un científico aparece al azar dentro de la secuencia de sus publicaciones13. Un trabajo de seguimiento revela que la carrera de los científicos puede involucrar un período de rachas calientes durante el cual el desempeño de un individuo es sustancialmente más alto que su desempeño típico14. También se han investigado otras cuestiones, como la evolución de la creatividad de los científicos15, la reputación16, los lazos sociales17 y la movilidad18,19 a lo largo de sus carreras.

Una fuerza impulsora fundamental de la investigación científica es la evolución del interés de investigación de los científicos5, que se refleja en el cambio de los científicos entre diferentes temas de investigación a lo largo del tiempo. Los sociólogos de la ciencia han hecho un esfuerzo persistente en la comprensión cualitativa de los principios que rigen la selección de temas de los científicos, y señalaron que puede ser el resultado de una compensación entre la producción conservadora y la innovación arriesgada21. También hay modelos ilustrativos ricos propuestos por sociólogos para clasificar las estrategias de investigación adoptadas por los científicos22. Con la creciente disponibilidad de los datos de la publicación científica, el tema de la selección de temas comenzó a analizarse cuantitativamente en los últimos años. Específicamente, se han propuesto varios modelos de temas basados ​​en el lenguaje para detectar campos de investigación de científicos23,24. También se ha revelado empíricamente que la financiación científica puede aumentar el interés en las áreas apoyadas25. Un trabajo reciente señaló que el interés de investigación de los físicos individuales podría cambiar significativamente desde el principio hasta el final de la carrera, con la distancia entre los intereses que se mide en función de los códigos de clasificación de campo en física26. Sin embargo, la variación del cambio de tema durante la carrera individual no se ha estudiado hasta ahora. Aquí preguntamos: ¿cómo identificar los temas en los que está involucrado un científico individual? ¿Con qué frecuencia un científico cambia entre diferentes temas de investigación? ¿Mejora el impacto de los científicos si cambian más frecuentemente entre temas? ¿Cambia el tema el cambio de comportamiento de los científicos durante el siglo pasado?

Para abordar estas preguntas, construimos una red para cada científico que caracteriza las relaciones entre sus documentos. La estructura de esta red revelará de inmediato cómo se encarnan los intereses de investigación de un científico individual. Este marco nos permite, aplicando el análisis de la comunidad, especificar los diversos intereses de investigación y, en consecuencia, investigar la dinámica detallada del cambio de interés de investigación de un científico, así como la evolución de la tendencia de cambio durante el siglo pasado y su relación con el impacto de la investigación. El análisis en este artículo se basa principalmente en físicos e informáticos. Sin embargo, nuestro método es general y no está restringido a la disponibilidad de códigos de clasificación de campo, por lo que puede aplicarse al análisis de científicos de cualquier disciplina.

Resultados

Redes de científicos individuales y sus propiedades estructurales.

En este documento, analizamos los datos de publicación científica de las revistas de la American Physical Society (APS). Datos de nombre de autor desambigados proporcionados en la ref. 13 se utiliza para asignar cada artículo a sus autores, lo que da como resultado los registros de publicación de 236,884 científicos distintos (para estadísticas básicas de estos datos, ver la Figura complementaria 1). Para investigar cómo se relacionan los documentos de un científico individual, construimos para cada científico una red de co-cita (CCN), en la que cada nodo es un documento escrito por este científico y dos documentos están vinculados si comparten al menos uno referencia. Este enfoque de construir enlaces entre nodos (documentos) basados ​​en sus vecinos comunes se llama acoplamiento bibliográfico en Scientometrics27,28 y también se ha utilizado ampliamente en el análisis de otros sistemas reales, como los sistemas de comercio internacional29 y los sistemas sociales en línea30. Las comunidades de cada red co-citadora de un científico se identifican con el algoritmo de despliegue rápido, que detecta comunidades maximizando la función de modularidad31. Por lo general, una red contiene varias comunidades de gran tamaño, así como algunos grupos pequeños y nodos aislados. Las principales comunidades representan los principales temas de investigación de este científico. Como el tamaño de la red debe ser lo suficientemente grande como para garantizar resultados significativos de detección de la comunidad, consideramos en este estudio a todos los científicos que han publicado al menos 50 artículos en las revistas APS (3420 científicos, para la distribución de sus años de carrera iniciados, ver Fig. Suplementaria. 2) Los resultados para los científicos con menos artículos (al menos 20 artículos, 15.373 científicos) son similares y se informan en las Figs suplementarias. 17 y 18. Además, hemos estudiado las comunidades detectadas en la red de citación ponderada, donde los enlaces se ponderan de acuerdo con el número de referencias compartidas. La estructura de la comunidad no se altera significativamente, ya que los pesos grandes tienden a ubicarse en los enlaces dentro de las comunidades (ver Figura 3 complementaria). Nuestro análisis de la comunidad también se ha examinado utilizando una función de modularidad modificada con un parámetro de resolución ajustable (ver Figuras suplementarias 19, 20) y en otro conjunto de datos de la informática (ver Figuras suplementarias 23-25) y para todas las pruebas, las conclusiones principales Se ha encontrado que son similares.

La ilustración del CCN de un científico típico altamente citado se da en la Fig. 1. La matriz de conectividad de la comunidad en la Fig. 1c muestra que los nodos dentro de cada comunidad están bien conectados, sin embargo, los nodos entre comunidades están mucho menos conectados. La serie de tiempo presentada en la figura 1d describe la historia de crecimiento de la red y revela cómo este científico se mueve de un tema de investigación a otro durante su carrera. En la serie de tiempo, cada punto es un papel, y los diferentes colores representan diferentes comunidades en la red de co-cita. La altura del punto es el número de enlaces que tiene el papel en la red.

Figura 1.


Ilustración de la red de citas compartidas (CCN) de un científico típico altamente citado y su historia de crecimiento. a Los datos y el método utilizados para construir la red de conexión. Los documentos escritos por el científico están marcados en verde, y las referencias de estos documentos están marcadas en rojo. b La red de citas consta de todos los artículos publicados por este científico. Cada documento está representado por un nodo, y dos documentos están conectados si comparten al menos una referencia. Las comunidades de esta red se identifican con el algoritmo de despliegue rápido, que detecta comunidades maximizando la función de modularidad. La red contiene varias comunidades de gran tamaño, así como algunos grupos pequeños y nodos aislados. Cada comunidad importante representa un tema de investigación principal de este científico. c La matriz de conectividad de la comunidad muestra que los nodos dentro de cada comunidad están bien conectados, sin embargo, los nodos de diferentes comunidades están mucho menos conectados. Aquí, la conectividad entre dos comunidades se calcula como el número real de enlaces entre ellas sobre el número máximo posible de enlaces entre ellas. d La serie de tiempo presentada en la parte inferior describe la historia de crecimiento de la red y, mientras tanto, revela cómo esta científica se mueve de un tema de investigación a otro durante su carrera. En la subfigura de series de tiempo, cada punto es un papel, y el color corresponde a la comunidad en la red de co-cita. La altura del punto es el número de enlaces (es decir, conectividad) que tiene el papel en la red


Primero nos centramos en las propiedades estructurales de las redes de co-cita (CCN). Para el CCN de cada científico, calculamos el tamaño de su componente gigante (GC) y estudiamos su correlación con el tamaño de la red, como se muestra en el diagrama de dispersión presentado en la Fig. 2a. Se ve que la mayoría de los puntos están ubicados cerca de la línea diagonal, lo que indica que los CCN generalmente están bien conectados y tienen GC relativamente grandes (consulte la Figura complementaria 4 para ver los resultados con las redes, incluidas las relaciones también citadas). Esto también se ve en el recuadro donde se observa una distribución significativa sesgada a la derecha del tamaño relativo de GC. La Figura 1c sugiere que un CCN tiene una estructura comunitaria. Como soporte estadístico para este fenómeno, graficamos en la Fig. 2b la modularidad maximizada, Qreal, en CCN reales y la modularidad maximizada, Qrand, en sus contrapartes reorganizadas conservadas en grados. Para cada CCN de cada científico, generamos 100 contrapartes aleatorias, y Qrand se obtiene promediando la modularidad maximizada de estas contrapartes. Todos los puntos en la Fig. 2b se encuentran debajo de la línea diagonal, lo que indica que Qrand es más pequeño que Qreal. Para medir la importancia de la diferencia entre Qreal y Qrand, realizamos la prueba t de una muestra de la modularidad de la CCN de cada científico y sus contrapartes aleatorias. Todos los valores p obtenidos son significativamente más pequeños que 0.01, lo que indica que la modularidad de los CCN es significativamente más grande que sus contrapartes aleatorias (ver una ilustración de la diferencia significativa entre Qreal y Qrand en la figura complementaria 5).

Figura 2



Propiedades estructurales de redes de citación. a El tamaño de la red de co-cita (CCN) versus el tamaño del componente gigante (GC) de CCN. Cada punto representa un científico. La mayoría de los puntos se encuentran debajo pero cerca de la línea diagonal, lo que indica que los CCN están en general conectados y tienen GC relativamente grandes. Esto está respaldado por el recuadro donde se presenta la distribución del tamaño relativo de GC. b La modularidad maximizada en CCN reales (Qreal) y la modularidad maximizada en sus contrapartes reorganizadas conservadas en grado (Qrand). Todos los puntos se encuentran debajo de la línea diagonal, lo que indica que la estructura de la comunidad en las redes reales es realmente significativa. c La distribución del número de comunidades (nc) para todos los científicos. Se presentan tres curvas donde se tienen en cuenta todas las comunidades (leyenda como todas las comunidades), se eliminan las comunidades pequeñas con menos de 3 nodos (leyenda como tamaño> 2) y se eliminan las comunidades pequeñas con menos de 6 nodos (leyenda como tamaño> 5) d Fracción de papeles en diferentes comunidades. e Probabilidad acumulada inversa de fracción de nodos en la comunidad más grande (la leyenda como la principal), las dos comunidades más grandes (la leyenda como las dos principales) y las tres comunidades más grandes (la leyenda como las tres principales), respectivamente. f El coeficiente de Gini de la distribución de códigos PACS en diferentes comunidades. Las comunidades se clasifican por tamaño en orden descendente. Un coeficiente de Gini más grande corresponde a una distribución más heterogénea, lo que sugiere que una mayor fracción de documentos en una comunidad comparte los mismos códigos PACS. Los datos reales se comparan con una contraparte aleatoria, donde los códigos PACS se reorganizan entre los documentos de cada científico individual mientras se preserva la estructura de la comunidad. Las barras de error en esta figura representan desviaciones estándar

Dado que los documentos tienden a agruparse en comunidades en CCN, una pregunta interesante es cuál es el número típico de comunidades que tiene un científico. Mostramos en la figura 2c, la distribución del número de comunidades para todos los científicos. El número de comunidades aparentemente está ampliamente distribuido. Sin embargo, como los CCN pueden consistir en nodos aislados o grupos muy pequeños, usamos un umbral para eliminar comunidades que son demasiado pequeñas para ser consideradas como un campo de investigación de un investigador. Después de filtrar, las distribuciones del número de comunidades que un científico se ha vuelto muy estrecho, alcanzan un máximo de 4 y 3 si solo se consideran comunidades con tamaños mayores que 2 y 5, respectivamente. En el siguiente análisis, definimos las comunidades principales como tales de más de dos nodos. Para comprender mejor el tamaño de la comunidad en las CCN, mostramos en la figura 2d la fracción de documentos en cada comunidad ordenados por tamaño en orden descendente. La fuerte disminución de la curva indica que varias comunidades principales comprenden la mayoría de los nodos. Una investigación adicional de la probabilidad acumulada inversa de fracción de nodos en varias comunidades más grandes indica que para la mitad de los científicos, las tres comunidades más grandes incluyen más del 70% de sus documentos, como se ve en la figura 2e.

En cada CCN, una comunidad importante contiene documentos que están topológicamente cerca uno del otro. Para validar si los documentos de una comunidad están realmente en temas de investigación similares32,33, analizamos el código PACS (un código de clasificación de campo en física) de los documentos que pertenecen a la misma comunidad. Mostramos en la Fig. 2f, el coeficiente de Gini34 de la distribución de códigos PACS en diferentes comunidades. Un coeficiente de Gini mayor corresponde a una distribución más heterogénea de los códigos PACS en una comunidad. Los datos reales se comparan con una contraparte aleatoria, donde los códigos PACS se reorganizan entre los documentos de cada científico individual mientras se preserva la estructura de la comunidad. Encontramos que el coeficiente de Gini promedio en datos reales es mayor que el de la contraparte aleatoria, con un valor de p menor que 0.01 en la prueba de Kolmogorov-Smirnov de las distribuciones de coeficientes de Gini correspondientes. Por lo tanto, nuestros resultados sugieren que los documentos en una comunidad tienden a compartir los mismos códigos PACS, y las comunidades detectadas reflejan distintos campos de investigación de un científico.
Evolución de la probabilidad de cambio y su influencia.

Una vez que las comunidades detectadas están marcadas en la serie de tiempo (Fig. 1d), se puede investigar la dinámica del interés de los científicos en diferentes temas de investigación. Con este fin, mostramos primero en la Fig. 3a, el número medio de comunidades principales involucradas anualmente para cada científico. Se puede ver que los científicos tienden a involucrarse en un pequeño número de comunidades durante sus primeros años de carrera. Luego, el número de comunidades involucradas anualmente aumenta hasta alcanzar su punto máximo alrededor del vigésimo año de la carrera, y luego disminuye gradualmente. Sin embargo, cuando un científico publica más artículos en un año, podría tener un mayor número de comunidades involucradas anualmente por pura casualidad. Para eliminar este efecto (ver la figura complementaria 6), proponemos otra métrica llamada probabilidad de cambio que calcula la probabilidad de que un científico cambie de una comunidad principal a otra comunidad principal entre dos publicaciones adyacentes. La Figura 3b muestra la evolución de la probabilidad de cambio promedio en diferentes años de carrera. El pico de probabilidad de cambio también es alrededor del vigésimo año de carrera, lo que indica que los científicos tienden a cambiar menos durante su carrera inicial, mientras que cambian más en la etapa posterior de su carrera. Para eliminar aún más la variada intensidad de productividad a lo largo de una carrera, mostramos en el recuadro de la Fig. 3b la probabilidad media de cambio en función del número de artículos publicados en una carrera. Se ve que la decadencia de la probabilidad de cambio en la carrera posterior se vuelve aún menos obvia, formando un patrón de aumento y nivelación de la probabilidad de cambio. Estos resultados sugieren que los científicos no están siguiendo el comportamiento óptimo de alimentación35, es decir, explorar al principio y luego volverse significativamente más explotadores al final. El cambio de comportamiento de los científicos probablemente se deba a otros factores. Específicamente, los científicos probablemente apuntan a minimizar la probabilidad de fracaso al comienzo de la carrera, por lo que cambian menos en este período. Luego se vuelven más riesgosos al cambiar con más frecuencia en su carrera posterior.

Figura 3



Evolución de las comunidades involucradas anualmente y probabilidad de cambio. a El número medio de comunidades principales involucradas anualmente para científicos individuales en diferentes años de carrera. b La probabilidad de cambio entre dos publicaciones adyacentes de una comunidad principal a otra comunidad importante de científicos en diferentes años de carrera. El recuadro muestra la probabilidad de cambio en función del número de artículos publicados en una carrera. c Comparación de la probabilidad de cambio general (todos los científicos) con la probabilidad de cambio del 10% de los científicos más productivos en diferentes años de carrera. Los resultados sugieren que la alta productividad está asociada con una baja probabilidad de cambio en la carrera inicial, pero con una alta probabilidad de cambio en la carrera posterior. d Comparación de la probabilidad de cambio general (todos los científicos) con la probabilidad de cambio del 10% de científicos que tiene la cita media más alta por artículo. Para cada artículo, solo consideramos el número de citas 10 años después de su publicación (c10) 13. Los resultados sugieren que el alto promedio de citas por trabajo en todos los períodos de carrera se correlaciona con una baja probabilidad de cambio. En los recuadros de (c, d), presentamos el valor p de la prueba de Kolmogorov-Smirnov que distingue entre las dos distribuciones de probabilidad de cambio en cada año de carrera


Además preguntamos, ¿aumentar la conmutación ayuda o no al rendimiento de la investigación? Con este fin, investigamos la correlación entre la probabilidad de cambio y el rendimiento de la investigación. Aquí, medimos el rendimiento de la investigación de un científico utilizando dos métricas casi sin correlación (ver la figura complementaria 7), es decir, el número de artículos publicados y la cita media por artículo. De acuerdo con la ref. 13, solo consideramos el número de citas 10 años después de la publicación de un artículo, es decir, c10. Primero comparamos en la figura 3c, la probabilidad de cambio general con la probabilidad de cambio del 10% de los científicos más productivos en diferentes años de carrera. Encontramos sorprendentemente dos comportamientos opuestos. En la etapa inicial de la carrera (<12 años), la alta productividad general se asocia con una baja probabilidad de cambio, pero en la etapa posterior de la carrera, la alta productividad se asocia con una alta probabilidad de cambio. El patrón todavía existe si eliminamos a aquellos con bajas citas de los científicos productivos (ver la figura complementaria 8). Puede haber múltiples razones que conducen a este patrón. Una posible causa de la correlación negativa entre la productividad y la probabilidad de cambio al comienzo de la carrera es que un científico frecuentemente cambia los temas porque el área de investigación no es interesante o es demasiado difícil hacer algo productivo en ella. Además, comparamos en la Fig. 3d, la probabilidad de cambio general con la probabilidad de cambio del 10% de los científicos que tienen la cita media más alta por papel. La figura muestra que el alto promedio de citas por trabajo en todos los períodos de carrera está asociado con una baja probabilidad de cambio. Este hallazgo interesante podría deberse al hecho de que una mayor probabilidad de cambio reduce la impresión de liderazgo en un campo específico, produciendo menos citas. Este resultado está respaldado por una prueba adicional en la que se encuentra que la probabilidad de cambio está correlacionada negativamente con la cita media por papel, especialmente para los científicos productivos (ver la figura complementaria 9). Para examinar la importancia de estos hallazgos, realizamos la prueba de Kolmogorov-Smirnov de la distribución de probabilidad de cambio en cada año de carrera. El pequeño valor p que se muestra en los recuadros de la Fig. 3c, d (en su mayoría <0.05) sugiere que la probabilidad de cambio general (población total) sigue una distribución distinta de cada uno de los dos subgrupos de científicos (es decir, 10% más productivo y 10% más citado por trabajo) en cada año profesional. También examinamos los resultados de 2% y 5% de científicos con la mayoría de los trabajos más productivos y mejor citados por artículo (ver la Figura 10 complementaria), y controlamos las áreas temáticas de acuerdo con los códigos PACS al calcular los percentiles (ver Figura 11 complementaria). Los patrones observados son consistentes con los presentados en la Fig. 3c, d. Además, calculamos la correlación de Pearson entre la probabilidad de cambio de los científicos en diferentes años de carrera y su rendimiento general (productividad o citación media por artículo). Las correlaciones presentadas en la Fig. Suplementaria 12 también respaldan los hallazgos revelados en la Fig. 3c, d.

A continuación, estudiamos cómo evolucionan las propiedades estructurales y dinámicas de los CCN a medida que se desarrolla la ciencia en los últimos 100 años. A medida que nuestros datos terminan en 2010, las carreras de algunos científicos no se completan. Por lo tanto, tenemos que fijar la duración de la carrera de los científicos de diferentes años para garantizar una comparación equitativa entre sus CCN. Específicamente, solo consideramos los primeros años de carrera de los científicos y eliminamos (i) a todos los científicos que aún no alcanzaron sus años de carrera y (ii) aquellos que publicaron menos de 30 artículos en sus primeros años de carrera. En nuestro análisis, presentamos resultados de y = 10, 20, 30. Primero seleccionamos a los científicos que comenzaron sus carreras en un año determinado, y promediamos el número de comunidades principales en las que estos científicos han participado en sus carreras. Mostramos en la Fig. 4a, el número medio de comunidades para los científicos que comenzaron su carrera en diferentes años. Los resultados indican que a medida que la ciencia evoluciona, el número de comunidades principales de científicos individuales se mantiene casi sin cambios. La evolución de otras propiedades estructurales de los CCN se presenta en la figura complementaria 13. Calculamos además la probabilidad de cambio promedio de cada científico a lo largo de su carrera, y en consecuencia calculamos la probabilidad de cambio promedio por año promediando la probabilidad de cambio de todos los científicos que comenzaron su carrera en este año. Los resultados en la figura 4b indican sorprendentemente que, aunque el número de comunidades es estable durante años, los científicos tienden a aumentar el cambio entre comunidades, es decir, temas, durante el siglo pasado. Más específicamente, los científicos en los primeros días tienden a trabajar en un tema durante un período más largo antes de cambiar a otro tema. Por el contrario, los científicos hoy en día tienden a trabajar en múltiples temas casi simultáneamente, lo que resulta en un cambio más frecuente entre comunidades en publicaciones adyacentes. Las barras de error en la Fig. 4b representan desviaciones estándar. Las grandes barras de error en la figura 4a, b se deben a la heterogeneidad de los científicos en la probabilidad de cambio. Para respaldar aún más la tendencia creciente de la probabilidad de cambio, calculamos en la Fig. 14 suplementaria el error estándar de la probabilidad de cambio, que estima la desviación estándar del error en la media muestral con respecto a la media real. Se ha encontrado un pequeño error estándar de la media en la Fig. 14 suplementaria, lo que indica una incertidumbre muy pequeña en estos valores medios.


Figura 4.


Evolución de la tendencia del número de comunidades y probabilidad de cambio como el desarrollo de la ciencia. a El número medio de comunidades de científicos que comenzaron su carrera en diferentes años. b La probabilidad de cambio promedio de los científicos que comenzaron su carrera en diferentes años. Las barras de error aquí representan desviaciones estándar. A medida que nuestros datos finalizan en 2010, no pueden capturar la carrera completa de los científicos que comenzaron sus carreras en los últimos años. Filtramos así a algunos científicos cuando estudiamos la evolución de la ciencia aquí. Solo consideramos los primeros años de carrera de los científicos y eliminamos (i) todos los científicos que aún no alcanzaron sus años de carrera (para una comparación temporal justa), y (ii) aquellos que publicaron menos de 30 artículos en su primera carrera años (para una detección significativa de la comunidad). Los resultados de y = 10,20,30 se presentan en esta figura. A medida que la ciencia evoluciona (durante los años), el número de comunidades principales que tiene cada científico permanece casi sin cambios, mientras que la frecuencia con que los científicos cambian entre comunidades aumenta durante los años. c Distribuciones del número de comunidades (para y = 30) para los científicos que comenzaron su carrera entre 1940 y 1950, y para aquellos que comenzaron su carrera entre 1970 y 1980. El valor p de la prueba de Kolmogorov-Smirnov es 0.961, lo que sugiere Una similitud significativa entre estas dos distribuciones. d Distribuciones de la probabilidad de cambio (para y = 30) de los científicos que comenzaron su carrera entre 1940 y 1950, y de aquellos que comenzaron su carrera entre 1970 y 1980. El valor p de la prueba de Kolmogorov-Smirnov es 2.34 × 10− 8, lo que sugiere una diferencia significativa entre estas dos distribuciones (es decir, aumento de la probabilidad de cambio)


Luego probamos la importancia de nuestras tendencias observadas mediante el estudio directo de las distribuciones del número de comunidades y la probabilidad de cambio para dos grupos de científicos. El primer grupo incluye a los científicos que comenzaron sus carreras entre 1950 y 1960, mientras que el segundo grupo contiene los científicos que comenzaron sus carreras entre 1970 y 1980. La Figura 4c muestra que las distribuciones del número de comunidades para estos dos grupos de científicos se superponen en gran medida . Sin embargo, las distribuciones de la probabilidad de cambio para estos dos grupos de científicos en la figura 4d muestran una diferencia significativa. Además, consideramos a los científicos que comenzaron sus carreras en cada 10 años adyacentes, por ejemplo, 1940–1950, 1950–1960, 1960–1970 y 1970–1980. Realizamos la prueba de Kolmogorov-Smirnov de la distribución del número de comunidad de científicos, así como la distribución de la probabilidad de cambio de los científicos. Como se muestra en la Tabla 1 suplementaria, los valores p son todos mayores que 0.2 cuando se compara la distribución del número de comunidad de científicos en diferentes períodos de año, lo que respalda el supuesto de que estos datos siguen distribuciones similares. Sin embargo, los valores p son todos menores que 0.04 cuando se comparan las distribuciones de la probabilidad de cambio de los científicos en diferentes períodos del año, lo que sugiere diferencias significativas entre estas distribuciones.

Para respaldar los hallazgos empíricos anteriores, realizamos varias pruebas adicionales. Primero, para eliminar el efecto de aumentar el número de artículos y científicos durante los años, construimos un modelo nulo en el que conservamos los documentos publicados para cada científico, pero reorganizamos el orden de tiempo de estos documentos. Por lo tanto, las comunidades detectadas en el CCN de cada científico se mantienen sin cambios, mientras que la probabilidad de cambio a lo largo de su carrera se verá alterada. Encontramos que la probabilidad de cambio promedio en este modelo nulo es estable a lo largo de los años (ver Figura 15 suplementaria), lo que sugiere que la tendencia creciente de probabilidad de cambio en datos reales no es causada por el aumento del número de artículos y científicos. En segundo lugar, probamos si nuestros resultados se ven afectados por los efectos de colaboración y en qué medida. Asignamos un impacto en el papel entre los autores en el caso de los documentos de varios autores, utilizando el enfoque de asignación de crédito colectivo36. Filtramos los documentos de un científico, en los cuales la participación crediticia del científico es inferior a un cierto valor. Después de filtrar estos documentos, no encontramos diferencias cualitativas en los patrones de cambio individuales y colectivos resultantes de los científicos (ver la Figura complementaria 16), lo que sugiere que nuestros hallazgos son sólidos para los efectos de coautoría. Además, examinamos los datos de APS utilizando dos métodos adicionales. El primero es un algoritmo de detección de la comunidad llamado Infomap37, que es independiente de la maximización de la modularidad. Elegimos este método porque se ha encontrado que su límite de resolución son órdenes de magnitud más pequeños que la maximización de la modularidad38. El segundo método se basa en los códigos PACS, que son códigos de clasificación archivados aplicados por APS de 1985 a 2015. Elegimos este método porque es completamente independiente de la detección comunitaria. Por lo general, un documento puede tener varios códigos PACS (generalmente 3). Aquí, seleccionamos los primeros cuatro dígitos de los códigos PACS primarios (el primer código PACS en un documento) para identificar el campo (tema) de un documento. Si bien el primer método es aplicable a todos los científicos considerados anteriormente, el segundo método está restringido a los científicos que publicaron su primer artículo en APS después de 1985. Los resultados detallados basados ​​en los códigos Infomap y PACS se resumen, respectivamente, en las Figs complementarias. 21 y 22, que exhiben los mismos patrones que los revelados por la maximización de la modularidad.
El modelo de explotación-exploración

Finalmente, proponemos un modelo que podría ayudar a comprender los principales mecanismos que conducen a los patrones observados de la dinámica de investigación de los científicos. Las actividades de investigación de los científicos pueden modelarse como un proceso de descubrimiento en el espacio de conocimiento (es decir, una red que caracteriza las conexiones entre diferentes conocimientos) 4,39. Cuando un científico publica un artículo, activa un nodo (es decir, un nuevo conocimiento) en el espacio de conocimiento. La subred activada por este científico durante su carrera forma una red personal que registra todos sus documentos, así como los enlaces, es decir, las relaciones entre ellos. El modelo más simple para el proceso de activación del nodo es el modelo de caminata aleatoria estándar (RWM), suponiendo que un científico activa aleatoriamente un nodo vecino del antiguo nodo activado. Aquí, proponemos un modelo de explotación-exploración (EEM) mediante la introducción de un proceso de explotación (controlado por una probabilidad p) y un proceso de exploración (controlado por una probabilidad q) al modelo de caminata aleatoria. Se ha señalado que ambos procesos son fundamentales para la innovación en varios sistemas adaptativos40. En nuestro modelo, estos dos procesos se realizan de forma secuencial. En lugar de comenzar siempre desde el último nodo activado en cada paso, el científico tiene la probabilidad p de reiniciar aleatoriamente desde (volver a explotar) uno de los nodos activados previamente. Una vez que se determina el nodo reexplotado, el científico tiene la probabilidad q de explorar nodos más allá de los vecinos más cercanos (un vecino más cercano por simplicidad). Tenga en cuenta que la EEM se reduce a la RWM cuando p = 0 y q = 0. Para una demostración ilustrativa de la RWM y la EEM, consulte la Fig. 5a. En nuestra simulación, el espacio de conocimiento se representa como una red que consta de todos los documentos APS, con dos nodos (documentos) vinculados si comparten al menos una referencia. El primer nodo activado para cada científico está configurado para ser su primer artículo. El resto de los documentos de cada científico se generan siguiendo el EEM en la red APS hasta que el número de nodos activados sea igual al número real de documentos de cada científico.


Figura 5.

Desempeño del modelo de explotación-exploración (EEM). Una ilustración del EEM. La actividad de investigación se modela como un proceso de activación de nodos en el espacio de conocimiento. Cuando un científico publica un artículo, activa un nodo (es decir, un nuevo conocimiento) en el espacio de conocimiento. La red activada por este científico al final forma su red personal registrando todos sus documentos y las relaciones entre ellos. La red de juguetes subyacente es una demostración del espacio de conocimiento, y los nodos rojos son los nodos ya activados por un científico, con un número que registra el paso en el que se activa el nodo. El modelo más simple para el proceso de activación del nodo es la caminata aleatoria estándar, suponiendo que un científico activa aleatoriamente un nodo vecino del último nodo activado. Por lo tanto, uno de los nodos vecinos (marcado en verde con un tamaño más grande) del nodo rojo 4 se seleccionará y activará aleatoriamente. En el EEM, presentamos un proceso de explotación y un proceso de exploración. Con probabilidad p, el científico vuelve a explotar aleatoriamente la vecindad de uno de los nodos activados previamente. En la figura, el científico explota saltando de regreso al nodo rojo 1 y activando aleatoriamente a uno de sus vecinos. Con probabilidad q, el científico explora los nodos más allá de los vecinos más cercanos del nodo 4. Por simplicidad, suponemos que el científico activa aleatoriamente en el paso de exploración al próximo vecino más cercano. b Comparación de las redes de citas compartidas (CCN), así como las series de tiempo de publicación en papel generadas por el modelo de caminata aleatoria y por el EEM. Los parámetros que incluyen el trabajo inicial y el número de trabajos en cada año se establecen de la misma manera que en la Fig. 1. En (c, d), estos parámetros son de todos los autores analizados. c El número de comunidades involucradas anualmente para diferentes p, mientras q = 0. d La distribución del número de comunidades en las que cada científico participa durante su carrera para diferentes q. e, f Estimación de la probabilidad pyq de cada científico basada en los datos reales, graficados como sus funciones de densidad de probabilidad

Primero probamos el EEM simulando la dinámica de investigación del científico representativo altamente citado presentado en la Fig. 1. Específicamente, comparamos en la Fig. 5b la red de citas (CCN), así como la serie temporal de artículos publicados generados por ambos , el RWM y el EEM. Se puede ver de inmediato que la red generada aplicando el RWM es muy diferente de la típica real en la Fig. 1b, ya que contiene muchas cadenas largas y carece de comunidades distintas. Además, la serie temporal obtenida de la RWM también es muy diferente de la de un investigador real típico que se muestra en la figura 1d en el sentido de que no se puede observar el cambio entre comunidades en cada año. Por el contrario, tanto la red como las series de tiempo generadas por el EEM reproducen cualitativamente propiedades similares a las que se muestran en la Fig. 1. Además, respaldamos cuantitativamente el EEM al examinar algunas cantidades estadísticas generadas por este modelo. El primero se refiere al número de comunidades involucradas anualmente bajo diferentes p, como se presenta en la Fig. 5c. Cuando p = 0, cada científico trabaja aproximadamente en una sola comunidad cada año. A medida que aumenta p, el número de comunidades involucradas anualmente aumenta, con p = 0.6 alcanzando un máximo de 1.8, que es el valor observado en datos reales. Aquí, q se establece en 0, ya que tiene poco efecto en las comunidades involucradas anualmente. Otra cantidad estadística es el número de comunidades en las que cada científico participa durante su carrera. Cuando q = 0, la subred generada no tiene comunidades distintas y, por lo tanto, el número de comunidades está muy estrechamente distribuido (incluso para el caso de tamaño> 0 donde todos los grupos detectados se consideran comunidades), como se muestra en la figura 5d. A medida que aumenta q, comienzan a surgir pequeñas comunidades, lo que resulta en la separación de las distribuciones de los casos tamaño> 0, tamaño> 2 y tamaño> 5. Cuando q = 0.2, las distribuciones de tamaño> 0, tamaño> 2 y tamaño> 5 casos, respectivamente, alcanzan su punto máximo alrededor de 11, 8 y 5, similar al de los datos reales, ver Fig. 2c. Aquí, el otro parámetro p se establece en 0, ya que tiene poco efecto en la distribución de los números de la comunidad. Además, estimamos la probabilidad pyq para cada científico con base en datos reales (vea la sección Métodos). Las distribuciones de la p y q estimada a partir de datos reales se muestran en la Fig. 5e, f, respectivamente. Se puede ver que las distribuciones de p y q alcanzan picos alrededor de 0.6 y 0.2, respectivamente, que son los valores en la Fig. 5c, d que generan propiedades estadísticas consistentes con datos reales.

Finalmente, estudiamos en la Fig. 6 otras estadísticas estructurales de los CCN de los científicos generados basados ​​en el EEM con los parámetros p = 0.6 y q = 0.2. A pesar de algunas diferencias cuantitativas, encontramos que estas cantidades estructurales medidas en la Fig. 2 son cualitativamente similares en los datos reales y los datos del modelo. En particular, los CCN generados por EEM están bien conectados y tienen una estructura comunitaria, con documentos en una comunidad que comparten los mismos códigos PACS. También se encuentra una gran heterogeneidad de tamaño entre las comunidades, lo que indica que los científicos se involucran desproporcionadamente en diferentes temas. Estos resultados son realmente predecibles a partir del mecanismo de EEM. Modelamos las actividades de investigación de los científicos como un proceso de descubrimiento en el espacio de conocimiento que se representa como la red de citas de todos los documentos de APS. La red subyacente ya tiene una estructura comunitaria con un tamaño heterogéneo y una representación significativa de los temas. La subred muestreada por el EEM de esta red completa tendrá naturalmente estas propiedades. La principal contribución del EEM es que captura los mecanismos principales (es decir, reinicio y salto de longitud) que conducen al comportamiento de cambio de tema observado en datos reales, incluida la alta probabilidad de cambio (cambio a temas antiguos), así como pequeños aislados comunidades (cambiando a temas muy diferentes).

Figura 6.


Propiedades estructurales de los CCN de los científicos generados basados ​​en el EEM. a El tamaño de la red modelada de co-cita (CCN) versus el tamaño del componente gigante (GC) de CCN. Cada punto representa un científico modelado. b La modularidad maximizada en los CCN modelados (Qmodel) y la modularidad maximizada en sus contrapartes reorganizadas conservadas en grado (Qrand). c El coeficiente de Gini de la distribución de códigos PACS en diferentes comunidades. Las comunidades se clasifican por tamaño en orden descendente. Los datos del modelo se comparan con una contraparte aleatoria, donde se reorganizan los códigos PACS. d La fracción de documentos en diferentes comunidades de datos reales y datos modelo. e La probabilidad acumulada inversa de fracción de nodos en las tres comunidades más grandes para datos reales y datos de modelo. f La distribución del grado máximo en CCN reales de los científicos y CCN modelados. En esta figura, los parámetros de EEM se eligen como p = 0.6 y q = 0.2, y las barras de error representan desviaciones estándar

Discusión

Para resumir, estudiamos la dinámica de investigación de los científicos mediante la construcción de una red de publicaciones de cada científico individual que caracteriza sus relaciones de co-cita. Encontramos que típicamente cada red parece tener una estructura comunitaria clara. Los documentos en una comunidad tienden a compartir el mismo código PACS, lo que indica que cada comunidad representa un área de investigación. Al filtrar las pequeñas comunidades de <3 nodos, obtenemos las principales comunidades de científicos. Encontramos que el número de comunidades importantes de científicos está distribuido de manera limitada. Además, las tres comunidades más grandes ya comprenden más del 70% de los documentos de un científico. Comparamos las propiedades estadísticas de los CCN de los científicos que comenzaron su carrera en diferentes años. Encontramos que aunque el número total de comunidades se mantiene casi sin cambios, el cambio entre comunidades tiende a aumentar y se vuelve más frecuente durante los años. Además, encontramos que el alto promedio de citas por trabajo en todas las etapas de la carrera se correlaciona con una baja probabilidad de cambio. En marcado contraste, la alta probabilidad de cambio en la primera carrera se correlaciona con una baja productividad general, mientras que la alta probabilidad de cambio en la última carrera se asocia con una alta productividad general. Finalmente, proponemos un modelo que capture las características principales de la dinámica de investigación de los científicos individuales.

Entre la literatura existente, ref. 26 dieron un paso importante hacia la comprensión de los patrones macroscópicos que subyacen a la evolución del interés de la investigación a lo largo de las carreras de los científicos. El hallazgo clave en la ref. 26 es que la distancia de interés de la investigación medida en base a los códigos PACS entre la primera y la última etapa de la carrera de los científicos sigue una distribución exponencial. Se propuso un modelo de paseo marítimo para reproducir esta observación empírica. Algunos de nuestros hallazgos empíricos son consistentes con los presentados en la ref. 26. Sin embargo, como el análisis en la ref. 26 se centra en el cambio general de los intereses de investigación sobre las carreras completas de los científicos, aún se sabe muy poco sobre la dinámica microscópica del cambio de tema de poco tiempo (papel por papel) dentro de la carrera individual. Las principales contribuciones de nuestro trabajo son (i) proponer una metodología general basada en el método de detección comunitaria para analizar esta dinámica de cambio de tema microscópico, (ii) revelar empíricamente las tendencias de evolución de esta dinámica microscópica en las carreras de los científicos en los últimos 100 años año de desarrollo de la física, y (iii) modelar el dramático comportamiento de cambio de tema en esta dinámica microscópica.

Uno de los principales hallazgos en este documento es que el cambio frecuente de temas al principio de la carrera puede ser adverso al éxito de la carrera de un científico. Por lo tanto, nuestros resultados sugieren que quienes financian y toman decisiones deben alentar a los jóvenes científicos a concentrarse en sus temas actuales. Por ejemplo, se pueden otorgar más subvenciones de seguimiento a jóvenes científicos para estudiar temas que ya han estudiado. Otra posibilidad es introducir una evaluación del desempeño a largo plazo para los jóvenes científicos para que puedan dedicarse más tiempo a un tema. Nuestro trabajo proporciona un marco general para incorporar herramientas de red en el análisis temporal de registros de publicación de individuos. Se pueden construir varias extensiones prometedoras sobre este trabajo. Una sencilla es aplicar nuestro marco para analizar las dinámicas de investigación en el nivel superior (por ejemplo, en departamentos o institutos), lo que profundizará sustancialmente nuestra comprensión de cómo se organizan colectivamente las actividades de investigación. Además, se pueden construir CCN de artículos publicados bajo el apoyo de becas de investigación cooperativas o individuales. Por lo tanto, el resultado de una subvención de investigación puede evaluarse en función no solo de la productividad sino también de las direcciones de investigación reales y la cooperación entre los científicos. Finalmente, observamos que la actividad de investigación es un comportamiento complejo, impulsado por múltiples factores. A pesar de la simplicidad de nuestro modelo, captura muchas propiedades básicas. Sin embargo, observamos que podría capturar características más reales de la investigación científica al incorporar otros mecanismos, como las señales de recompensa o refuerzo después del cambio de tema41.

Datos

En este documento, analizamos los datos de publicación de todas las revistas de APS. Los datos contienen 482.566 artículos, que van desde el año 1893 hasta el año 2010. En aras de la desambiguación del nombre del autor, utilizamos el conjunto de datos del nombre del autor proporcionado por Sinatra et al. que se obtiene con un proceso integral de desambiguación en los datos de APS13. Finalmente, se compara un número total de 236.884 autores distintos. Encontramos y analizamos 3420 autores con al menos 50 artículos y 15,373 autores con al menos 20 artículos. Otro conjunto de datos que analizamos en los Materiales complementarios son los datos informáticos obtenidos al extraer los perfiles de los científicos de las bases de datos web en línea42. Los datos contienen 1.712.433 autores y 2.092.356 artículos, que van desde el año 1948 hasta el año 2014. Los nombres de los autores en estos datos ya están desambigados. Encontramos y analizamos 9818 autores en estos datos con al menos 50 artículos.

Detección de comunidades

La red de co-cita de un científico se construye uniendo dos documentos si comparten al menos una referencia. Para simplificar, no consideramos los enlaces y solo consideramos la topología de la red. La estructura comunitaria de la red se detecta con el algoritmo de despliegue rápido31, que es un método heurístico basado en la optimización de la modularidad. La función de modularidad considerada en este documento se define como



(1)


donde Aij es un elemento de la matriz de adyacencia de la red de conexión, ki es el grado del nodo i, m es el número total de enlaces en la red, ci es la comunidad a la que está asignado el nodo i, la función δ del tipo δ(ci, cj) es 1 si ci = cj, y 0 en caso contrario. Las comunidades se obtienen cuando la función Q se maximiza. Tenga en cuenta que γ es un parámetro de resolución en Q, con γ = 1 en la función de modularidad estándar. Un γ más grande resulta en la detección de comunidades pequeñas pero más, mientras que un γ más pequeño produce comunidades más grandes pero menos. Los resultados con γ ≠ 1 se presentan en los Materiales suplementarios. Aunque la distribución del número de comunidades está influenciada por el parámetro γ (véase la figura complementaria 19), se muestra que las propiedades dinámicas son casi independientes de la resolución de las comunidades (véase la figura complementaria 20). Por esta razón, consideramos la función de modularidad estándar, es decir, γ = 1, en este documento.

Estimación de p y q a partir de datos reales.

Podemos estimar la probabilidad pyq en el EMM para cada científico con base en los datos reales. Denotamos el número de artículos publicados por un científico i como ni. En la secuencia de los trabajos de i, si un trabajo no comparte ninguna referencia con ninguno de los trabajos publicados antes, se considera una exploración. Denotamos ui como el número total de tales documentos de i. Entonces qi puede estimarse fácilmente como  qi = ui/ni. En la secuencia de los documentos de i, si un documento comparte al menos una referencia con el documento justo antes, se considera como no explotación. Denotamos vi como el número total de tales documentos de i. De esta manera, podemos estimar pi como  pi = (ni − ui − vi)/(ni − ui)..