Mostrando entradas con la etiqueta redes temáticas. Mostrar todas las entradas
Mostrando entradas con la etiqueta redes temáticas. Mostrar todas las entradas

domingo, 20 de diciembre de 2020

ARS: Usando mapeos de revistas para conocer sus contenidos a través de la visualización

Cómo generar conocimientos de revistas utilizando técnicas de visualización

Generación de conocimientos sobre el rendimiento de la revista
Por la Dra. Daphne van Weijen y Matthew Richardson || Elsevier




Los editores y editores siempre sienten curiosidad por saber cómo se está desempeñando su revista en comparación con otras en el campo. También están ansiosos por descubrir si el contenido que están publicando está atrayendo citas. En este artículo, nos gustaría compartir con usted una serie de técnicas de visualización que pueden ayudar a generar conocimientos sobre el rendimiento de la revista.

Mapeo de términos

¿Cómo puede determinar cuáles son los temas "candentes" en una revista, grupo de revistas o área temática específica? O, más específicamente, ¿qué temas han mostrado un crecimiento activo y un fuerte impacto en la producción de investigación (artículos publicados) en los últimos años? Para responder a esta pregunta, desarrollamos una nueva herramienta de visualización en colaboración con el grupo de investigación CWTS, que se especializa en bibliometría en la Universidad de Leiden. La herramienta tiene acceso a todas las revistas y actas de congresos indexados en Scopus. A partir de esta información, puede generar mapas que revelen las relaciones entre los términos utilizados en los títulos y los resúmenes de los artículos publicados en una o más revistas seleccionadas. Lo hace con la ayuda de un programa de computadora llamado VOSviewer (1).
¿Cómo se crea un mapa de términos?

Hay una serie de pasos involucrados en la producción de un mapa de términos.

  • Primero debemos determinar qué revista o revistas deben incluirse. Si un grupo de revistas o un área temática es el foco del análisis, una búsqueda de palabras clave en Scopus puede ayudar con esto.
  • Una vez elegidas las revistas, la herramienta realiza un análisis de las palabras y frases encontradas en los títulos y resúmenes de los artículos durante un período de tiempo específico (por ejemplo, en los últimos dos, cinco o diez años). Las ventanas de publicación y cita pueden tener valores separados, por lo que también es posible determinar qué tan bien se ha citado el contenido publicado en un año específico en los años posteriores a la publicación.
  • Después de que se genera un mapa, se puede verificar si hay términos no informativos, como nombres de editoriales o sociedades, y términos genéricos como "literatura", "presentación" o "característica". Estos se pueden eliminar y, si es necesario, se puede crear una nueva versión del mapa.

Grupos de términos concurrentes

El mapa que se muestra en la Figura 1 se conoce como mapa de conglomerados de co-ocurrencia. Cada término que aparece al menos cinco veces en los títulos y resúmenes de los artículos de las revistas seleccionadas está representado por un nodo individual en el mapa. Cuanto más grande es el nodo, más artículos contienen el término y cuanto más pequeño es el espacio entre los términos, más a menudo tienden a coexistir. Sin embargo, es importante señalar que esta es una representación 2D de una red multidimensional, por lo que la proximidad de los términos no puede reflejar perfectamente la relación en todos los casos. Finalmente, los términos están coloreados en grupos de términos que tienden a coexistir.

  • Verde (centro y arriba a la izquierda) relacionado con estadísticas y experimentos;
  • grupo rojo (lado derecho) relacionado con la educación en enfermería;
  • grupo azul (abajo a la izquierda) relacionado con la cirugía; y
  • grupo amarillo (izquierda) relacionado con ensayos clínicos y revisiones de la literatura.

La experiencia en el campo puede ayudar a verificar y nombrar adecuadamente los clústeres, así como a predecir qué clústeres es probable que contengan el contenido más citado y por qué.


Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus. Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus.

Términos muy citados

El siguiente paso para determinar los temas candentes en el campo es verificar qué términos se citan relativamente bien en comparación con el resto del contenido publicado en la (s) revista (s). Esto se puede hacer cambiando el color en el mapa de conglomerados para mostrar el impacto medio de las citas de los artículos que contienen ese término, en relación con el impacto medio de las citas (1,00) de todos los artículos incluidos en el mapa (Figura 2). Como las publicaciones más antiguas han tenido más tiempo para ser citadas, las citas se normalizan por año de publicación para hacer posible una comparación justa. En la Figura 2, los términos con un impacto de citas por encima del promedio están coloreados en rojo, los términos con un impacto de citas promedio son verdes y los términos con un impacto de citas por debajo del promedio se muestran en azul.


Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus

Podemos ver claramente que los términos relativamente citados tienden a aparecer a la izquierda del mapa. Estos son términos que se encuentran principalmente en los grupos amarillo y verde de la Figura 1, relacionados con experimentos (verde) y ensayos clínicos (amarillo). Los términos muy citados en estas áreas incluyen:

  • Nurse staffing, self-esteem y statistical terms (Dotación de personal de enfermería, autoestima y términos estadísticos) (grupo verde, arriba a la izquierda).
  • Depressive symptoms, meta-analysis, pregnancy y controlled trials (Síntomas depresivos, metaanálisis, embarazo y ensayos controlados) (grupo amarillo, lado izquierdo).

¿Temas de actualidad?

Finalmente, se puede realizar una búsqueda de palabras clave de Scopus para los términos en el mapa con el mayor impacto relativo de citas, para determinar si se trataba de ocurrencias aisladas. El resultado de esta búsqueda de palabras clave, restringida al campo de enfermería, confirmó que había al menos cuatro áreas en este análisis que tenían una tasa de crecimiento anual compuesta (CAGR) de más del 5 por ciento, lo que indica que hubo un aumento por encima del promedio en el número de artículos publicados en estas áreas durante los últimos cinco años, ya que el CAGR promedio es del 3 al 5 por ciento (ver Tabla 1).


Tabla 1 - En la Figura 2, se identificaron términos relativamente citados. En esta tabla, enumeramos la cantidad de artículos que presentan esos términos junto con sus tasas de crecimiento anual compuestas. Fuente: Scopus
 

La búsqueda de palabras clave de Scopus confirmó que los temas sugeridos por el mapa eran de hecho temas que han estado llamando la atención en el campo. Aunque este mapa específico a nivel de campo es algo genérico, proporciona una idea general de dónde buscar temas candentes con más detalle.

Experiencias de un editor
El Dr. Paul H. Gobster es un científico social investigador del Servicio Forestal del Departamento de Agricultura de los Estados Unidos (USDA). Acaba de dimitir después de cuatro años como coeditor en jefe de Landscape and Urban Planning de Elsevier, permaneciendo en la junta de la revista como editor asociado. Él y sus colegas utilizaron mapas de términos para ayudar en el desarrollo de un editorial para el 40 aniversario de la revista (2).

El Dr. Gobster dijo: “Identificamos conceptos y temas importantes representados en su contenido publicado y desarrollamos una serie de tiempo de cuatro mapas para describir cualitativamente los cambios en cada década sucesiva.

El término mapas fue relativamente fácil de interpretar y produjo visualizaciones adecuadas para presentarlas a los lectores dentro de nuestra editorial. Creo que el término mapas tiene un valor adicional para las funciones de planificación estratégica y administrativa de la revista; la agrupación puede ayudar a aclarar el contenido temático para la clasificación de manuscritos y la asignación de presentaciones a los editores asociados, y los grupos y términos específicos (su presencia, posiciones y cualquier cambio). con el tiempo) puede ayudar a identificar subtemas de trabajo emergentes y duraderos ".

Los beneficios del mapeo de revistas

Mientras que los mapas de términos se utilizan para resaltar los temas publicados dentro de una revista o disciplina, el mapeo de revistas se puede utilizar para examinar la posición y el alcance de una revista y sus interacciones con otras revistas en el campo. Al igual que con los mapas de términos, Scopus puede proporcionar los datos de origen, lo que garantiza que el análisis se base en todas las revistas indexadas.

Estos mapas de revistas se crean mediante enlaces de citas. Una cita de un artículo publicado en una revista a un artículo publicado en otra establece que sus respectivos contenidos son relevantes entre sí y sugiere un nivel de similitud entre los dos. En un período de tiempo dado, una revista tiende a contener citas de muchas otras revistas, y las que más cita deben ser las revistas con las que está más estrechamente relacionada. Por ejemplo, si la Revista A proporciona muchas citas a la Revista B y solo unas pocas a la Revista C, esto es una señal de que tiene una conexión más fuerte con la Revista B. Si con el tiempo el saldo cambia de modo que comienza a proporcionar más citas a la Revista. C, esto indica que el alcance de las revistas o la estructura del campo está cambiando y se está volviendo progresivamente más relacionado con la Revista C. Cuando los enlaces de citas se construyen en muchas más revistas que en este ejemplo simplificado, un mapa es una opción conveniente. forma de mostrar los enlaces y ver cómo interactúan las revistas para formar grupos más grandes.

Consulte la Figura 3 para ver un ejemplo de un mapa de revistas basado en las mismas seis revistas de enfermería utilizadas en los ejemplos de mapas de términos anteriores.


Figura 3 - Mapa de revistas basado en un grupo de seis revistas de enfermería seleccionadas de 2009-2012 


Cada revista en el mapa se muestra como un nodo (círculo), con el tamaño determinado por el promedio de citas a los artículos de esa revista en el período de tiempo. Puede ver en la Figura 3 que las revistas de medicina general incluidas en el mapa tienen un impacto promedio de citas mucho más alto que las otras revistas. Las revistas seleccionadas están en azul y todas pertenecen a la región de las revistas principales de enfermería, mientras que otras revistas están en gris y se incluyen debido a sus enlaces de citas a estas revistas semilla. Las relaciones de citas se muestran como bordes (líneas) de grosor variable. Estas relaciones de citas se normalizan por el número de citas recibidas por la revista citada y por el número de citas dadas por la revista que cita. Cuanto más gruesa sea la línea, mayor será la proporción de citas representadas.

En este ejemplo de mapeo, las áreas clave de las diferentes especialidades de las ciencias de la salud se han etiquetado en función de los grupos de revistas. Esto le permite ver los vínculos entre especialidades más amplias, así como revistas individuales. Estas agrupaciones tenderán a ser bastante estables, pero comparar mapas basados ​​en diferentes períodos de tiempo le permite identificar revistas emergentes en un área determinada o las relaciones de investigación cambiantes que hacen que un área temática se vuelva más relevante para otra con el tiempo.

El entorno de citas en el que se encuentra una revista es único y dinámico, y el análisis de este puede utilizarse como un medio objetivo para determinar la posición competitiva de una revista establecida en un campo de investigación.


Usar los mapas para respaldar su trabajo

Tanto el mapeo de términos como el mapeo de revistas pueden ayudar a comparar la revista con la competencia y proporcionar información útil para las reuniones del consejo editorial. Si bien en el texto anterior se han sugerido algunas razones estratégicas para usar estas herramientas analíticas, su ventaja real radica en cuán adaptables son a diferentes preguntas de investigación. Si desea saber más acerca de cómo estas herramientas pueden ayudarlo, u otras herramientas analíticas para proporcionar información sobre la posición de su revista, comuníquese con su editor.

Referencias

(1) Van Eck, N.J., & Waltman, L. (2010) “Software survey: VOSviewer, a computer program for bibliometric mapping”, Scientometrics, Vol 84, No. 2, pp. 523–538.

(2) Gobster, P.H. (2014) “(Text) Mining the LANDscape: Themes and trends over 40 years of Landscape and Urban Planning”, Landscape and Urban Planning, Vol 126, pp. 21–30.

jueves, 28 de noviembre de 2019

Importando redes de coautoría y bibliográficas con VOSviewer

Visualizar datos de citas disponibles gratuitamente usando VOSviewer

Nees Jan van Eck, Ludo Waltman
CWTS



Crossref, I4OC, datos abiertos, software, visualización, VOSviewer

Hoy lanzamos la versión 1.6.6 de nuestro software VOSviewer para construir y visualizar redes bibliométricas. La nueva característica más importante en esta versión es el soporte para trabajar con datos Crossref. Recientemente, la Iniciativa para Citas Abiertas (I4OC) (Initiative for Open Citations (I4OC)) logró convencer a un gran número de editores científicos para que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente a través de Crossref. Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos para los usuarios de VOSviewer. En esta publicación de blog, discutimos cómo los usuarios de la nueva versión 1.6.6 de VOSviewer pueden beneficiarse de los datos de Crossref.

Usando datos Crossref en VOSviewer


Hay dos formas en que VOSviewer admite el uso de datos Crossref:

  1. Un usuario de VOSviewer puede proporcionar un conjunto de DOI a VOSviewer. Usando la interfaz de programación de aplicaciones (API) de Crossref, VOSviewer descargará datos para las publicaciones correspondientes.
  2. Un usuario de VOSviewer puede trabajar directamente con la API Crossref para descargar datos y luego puede proporcionar los datos descargados como entrada para VOSviewer.

El primer enfoque es el más fácil, ya que no requiere que los usuarios trabajen directamente con la API Crossref. Cuando los usuarios ya tienen DOI de las publicaciones que les gustaría analizar (por ejemplo, publicaciones incluidas en el sistema de información de investigación de su universidad), recomendamos utilizar el primer enfoque. El segundo enfoque es un poco más complejo, pero tiene la ventaja de ofrecer mucha más flexibilidad. Ahora exploraremos el segundo enfoque con más detalle.

Descargar datos utilizando la API Crossref


Para demostrar el uso de la API Crossref, recopilamos datos sobre publicaciones en dos revistas cienciométricas, Journal of Informetrics y Scientometrics, en el período 2007-2016. En cada llamada a la API, se pueden obtener datos para un máximo de 1000 publicaciones. Por lo tanto, necesitamos hacer múltiples llamadas a la API. Elegimos hacer llamadas separadas para cada una de las dos revistas.

El número de publicaciones en el Journal of Informetrics en el período 2007-2016 es inferior a 1000. Por lo tanto, la fecha del Journal of Informetrics se puede obtener en una sola llamada API. Para realizar esta llamada a la API, ingresamos la siguiente URL en un navegador web:

http://api.crossref.org/works?filter=issn:1751-1577,from-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

La URL especifica una solicitud para la API Crossref. La solicitud API incluye el número ISSN de Journal of Informetrics (es decir, 1751-1577), así como la fecha de inicio y la fecha de finalización del período de tiempo que nos interesa. El parámetro de filas en la API de solicitud indica que nos gustaría recibir datos de hasta 1000 publicaciones. Al ingresar la URL anterior en un navegador web, hacemos una llamada a la API de Crossref para solicitar datos sobre todas las publicaciones en Journal of Informetrics en el período 2007-2016. Después de esperar un tiempo, el navegador web presentará el resultado de la llamada API. Guardamos este resultado en un archivo llamado JOI.json. Este es un llamado archivo JSON.

Seguimos el mismo enfoque para Scientometrics. Sin embargo, Scientometrics es una revista más grande y, por lo tanto, necesitamos hacer tres llamadas API, cada una de las cuales genera datos para la mayoría de las 1000 publicaciones. Usamos las siguientes URL:

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=1000

http://api.crossref.org/works?filter=issn:0138-9130,desde-pub-date:2007-01-01,until-pub-date:2016-12-31&rows=1000&offset=2000

Las tres llamadas API son idénticas, excepto que en la segunda y tercera llamada usamos el parámetro offset para especificar que queremos obtener datos para un segundo y un tercer lote de publicaciones. Guardamos los resultados de las llamadas a la API en tres archivos JSON.

Ahora hemos dado una demostración simple del uso de la API Crossref. La API Crossref ofrece muchas más opciones. Para obtener más información, consulte la documentación de la API.



Crear visualizaciones bibliométricas basadas en datos Crossref


Primero usamos los datos descargados de Crossref para ver la red de investigadores de coautoría en el campo de la cienciometría. En el asistente Crear mapa en VOSviewer, elegimos la opción Crear un mapa basado en datos bibliográficos. En el segundo paso del asistente, vamos a la pestaña Crossref JSON, donde seleccionamos los cuatro archivos JSON descargados. Después de elegir realizar un análisis de coautoría, simplemente usamos las opciones predeterminadas en los pasos restantes del asistente. La visualización de la red de coautoría resultante se presenta a continuación.


Red de coautoría Crossref de investigadores cienciométricos

A continuación, utilizamos nuestros datos Crossref para ver la red de acoplamiento bibliográfico de publicaciones en el campo de la cienciometría. Dos publicaciones tienen un enlace de acoplamiento bibliográfico si tienen una o más referencias en común. Nuevamente elegimos Crear un mapa basado en datos bibliográficos en el asistente Crear mapa. Después de seleccionar nuestros cuatro archivos JSON, elegimos realizar un análisis de acoplamiento bibliográfico a nivel de documento. Utilizamos las opciones predeterminadas en los pasos restantes del asistente, lo que significa que nuestra red de acoplamiento bibliográfico incluye las 500 publicaciones con el mayor número de enlaces de acoplamiento bibliográfico. La visualización de la red se muestra a continuación.


Red de acoplamiento bibliográfico cruzado de publicaciones cienciométricas

El examen de la red de acoplamiento bibliográfico puede revelar algo inesperado. Las 500 publicaciones incluidas en la red de acoplamiento bibliográfico han aparecido en Scientometrics. La red no incluye publicaciones del Journal of Informetrics. Esto demuestra una limitación importante de los datos de Crossref. Gracias a I4OC, muchas editoriales hoy en día hacen que las listas de referencias de publicaciones en sus revistas estén disponibles a través de Crossref. Sin embargo, algunos editores de no (¿todavía?) Participan en I4OC. Este es también el caso de Elsevier, el editor de Journal of Informetrics. Debido a que las listas de referencias de publicaciones en Journal of Information no están disponibles a través de Crossref, las publicaciones de esta revista no pueden incluirse en un análisis de acoplamiento bibliográfico basado en datos de Crossref.

Ejemplo a gran escala

Ahora hemos proporcionado ejemplos relativamente pequeños del uso de datos Crossref en VOSviewer. También es posible usar datos Crossref a una escala mucho mayor en VOSviewer, pero esto requiere un esfuerzo significativo en el procesamiento previo de los datos. Para ilustrar el uso a gran escala de los datos de Crossref, utilizamos los datos para ver la red de citas de 5000 revistas de todos los campos de la ciencia.

Utilizando la API Crossref, descargamos datos para todas las publicaciones en el período 1980-2016. La cantidad de datos era muy grande y, por lo tanto, la fecha debía procesarse previamente para poder proporcionarse como entrada a VOSviewer. Los datos se almacenaron en una base de datos relacional. Usando esta base de datos, hemos identificado todas las revistas (así como las actas de conferencias y series de libros) que tienen al menos 100 publicaciones para las cuales hay una lista de referencias disponible. Luego construimos la red de enlaces de citas entre las revistas identificadas. La dirección de un enlace de citas se ignoró, por lo que no se hizo distinción entre una cita del diario A al diario B y una cita del diario B al diario A. La red de citas del diario se guardó en un archivo de red VOSviewer, y este archivo se utilizó como entrada para VOSviewer. En VOSviewer, se seleccionaron las 5000 revistas con el mayor número de enlaces de citas con otras revistas y se visualizó la red de citas de estas 5000 revistas. La visualización resultante se presenta a continuación. Se puede abrir una visualización interactiva en VOSviewer haciendo clic aquí.


Red de citas de referencias cruzadas

La visualización muestra una estructura de la ciencia que es bien conocida de las visualizaciones bibliométricas a gran escala anteriores, que se basaron en datos de Web of Science o Scopus. Las revistas de matemática, informática e ingeniería se pueden encontrar en el centro del área inferior de la visualización. Las revistas de ciencias físicas se encuentran en el área correcta de la visualización, mientras que las revistas de ciencias de la vida y médicas se pueden encontrar en el área superior. Finalmente, las revistas de ciencias sociales se encuentran en el área inferior izquierda de la visualización. Faltan algunas revistas importantes en la visualización. Estas revistas tienen un editor que no participa en I4OC y que no pone a disposición las listas de referencias de publicaciones a través de Crossref.


Conclusión

Gracias a I4OC, Crossref se ha convertido en una valiosa fuente de datos de citas disponibles gratuitamente. Los datos de citas cruzadas se pueden utilizar para muchos propósitos, incluido el análisis y la visualización de redes de citas de revistas, investigadores y publicaciones individuales. La versión 1.6.6 de VOSviewer proporciona soporte directo para usar datos Crossref para ver redes de citas. Esperamos que esta nueva funcionalidad de VOSviewer ofrezca una demostración convincente del valor de los datos de citas disponibles gratuitamente. Alentamos a los editores que aún no participan en I4OC a unirse a la iniciativa y a que las listas de referencias de publicaciones en sus revistas estén disponibles gratuitamente.

lunes, 5 de agosto de 2019

Redes entre citas bibliográficas en Scopus

Mapeo de Scopus

MSU



Esta visualización representa las revistas más frecuentemente citadas por los profesores de MSU Broad en los últimos diez años. Cuanto mayor es la burbuja del diario, mayor es el número de trabajos citados de ese diario. En general, cuanto menor es la distancia entre dos revistas, mayor es la relación de las revistas, según lo medido por las publicaciones citadas. Los colores indican grupos de disciplinas de revistas muy relacionadas (es decir, gestión, marketing).

martes, 23 de julio de 2019

Redes temáticas de currículas universitarias muestran cómo ha evolucionado la academia

Este mapa histórico de 6 millones de planes de estudio revela cómo la universidad está cambiando

Los investigadores de la Universidad de Columbia pasaron los últimos tres años recolectando programas del curso. Esto es lo que el proyecto sin precedentes descubrió sobre la evolución de la educación.




Este mapa histórico de 6 millones de planes de estudio revela cómo la universidad está cambiando
[Fotos: UpperCut Images / Getty Images, Picsfive / iStock]

Por Katharine Schwab -- Fast Company

Durante décadas, el programa de estudios ha sido la hoja de ruta para las clases universitarias, con una lista de tareas, tareas y, lo que es más importante, textos para que los alumnos lean y hagan referencia. Pero si bien un programa de estudios podría enseñar a los alumnos en qué se desempeñan durante el semestre, los académicos han carecido de una herramienta para analizar grandes masas de programas de estudio para comprender mejor lo que los maestros están enseñando en diferentes disciplinas. Eso significa que no hay tanta información empírica sobre el contenido que se enseña en las universidades.

El proyecto Open Syllabus Project tiene como objetivo solucionar este problema. Investigadores de la Asamblea Americana, una organización sin fines de lucro ubicada en la Universidad de Columbia, han recopilado un archivo de más de seis millones de programas de estudios universitarios de todo el mundo que podrían ayudar a los maestros a crear nuevos programas de estudio e investigadores para obtener una comprensión intercultural de los niveles superiores. educación.

El proyecto se lanzó por primera vez hace tres años, pero esta nueva actualización tiene seis veces más programas de estudio y herramientas de búsqueda y visualizaciones diseñadas para mostrar cómo funciona la academia en este momento. Estas son algunas de las cosas que los investigadores han aprendido hasta ahora.







La economía más enseñada es conservadora, no marxista.

El Manifiesto Comunista es uno de los libros más enseñados en todo el conjunto de datos del programa de estudios, un hecho que desencadenó un ciclo de noticias virales de derecha cuando se lanzó por primera vez el Proyecto de Programa Abierto. Pero a pesar de los temores de que las universidades estén enseñando economía socialista a los estudiantes, el libro no suele enseñarse en las clases de economía, sino sobre todo en historia, ciencias políticas, sociología y literatura en inglés, como lo muestra la nueva versión del OSP.

En contraste, como señala el director de proyecto y vicepresidente de un instituto de políticas públicas en la Universidad de Columbia, Joe Karaganis, los libros de economía más enseñados fueron escritos por Greg Mankiw, quien fue asesor de Bush y Romney. Sus libros de texto tienen cuatro de los seis primeros puestos en los programas de estudios de economía.


La literatura canónica se ha diversificado notablemente.

Karaganis dice que era un estudiante graduado durante las "guerras del canon" en los años ochenta y noventa cuando las personas debatían acaloradamente qué libros merecían ser parte del "canon" que todos los estudiantes de literatura deberían leer. "La idea de que lo valioso para estudiar debe incluir un trabajo que sea representativo de una amplia gama de perspectivas fue ganadora pero aún cuestionada", dice.

Los datos muestran que esta idea triunfó, pero en lugar de crear un nuevo y diverso canon, la idea de un canon se ha fragmentado por completo. Los libros de Toni Morrison, Chinua Achebe, Sandra Cisneros y Alice Walker, que Karaganis cita como parte de la ola de diversificación del canon, no se han agregado a un nuevo canon. En cambio, los números de programas que asignan estos libros ya han alcanzado su punto máximo, y ahora están en declive.

Karaganis cree que esto está a favor de otros libros con diversos puntos de vista; En lugar de que los profesores decidan qué puntos de vista deberían incluirse siempre, eligen constantemente libros nuevos para que los estudiantes los lean. "Parece probable que la idea de un canon en sí se debilitó", dice. "Hay muy pocos indicios de nuevos títulos de literatura dominantes de los últimos 10 a 15 años".




El proyecto Open Syllabus le da a los nuevos campos una estructura coherente.

Las universidades se construyen alrededor de diferentes campos, algunos de los cuales son más nuevos que otros. Pero los campos más jóvenes que son más interdisciplinarios y menos tradicionales no tienen una definición única y universalmente reconocida: la misma disciplina podría ni siquiera tener el mismo nombre en diferentes instituciones. Karaganis cree que el Proyecto de programa de estudios abierto, que incluye un mapa de todas las disciplinas académicas visualizadas por el estudiante graduado del MIT Media Lab, David McClure, puede ayudar a estos campos a definirse a sí mismos por los textos que los educadores enseñan. El mapa de McClure incluye aproximadamente 150,000 de los libros asignados con mayor frecuencia en cualquier programa; estos libros se organizan más juntos según la similitud de los programas en los que aparecen.

"Se supera la arbitrariedad de las formas en que los sujetos se organizan de acuerdo con las historias institucionales en las que están incrustados", dice Karaganis. Él apunta a la ciencia ambiental, que a veces también se llama ecología, o incluso silvicultura. Al mirar el mapa de libros de McClure que se imparten en clases relacionadas con el medio ambiente, comienza a surgir un único campo coherente, independientemente de lo que las universidades hayan decidido llamar.

Eso proporciona una aplicación potencial para el Proyecto de plan de estudios abierto: más de un tercio de los estudiantes se transfieren en algún momento durante la universidad, y buscarán formas de transferir créditos de cursos. Los planes de estudio de sus cursos pueden ser referenciados utilizando el sitio web para ver cómo encajan los programas de sus clases en cada campo de manera más general en términos de los libros que han leído. Examinar el mapa también muestra cuánta superposición tienen algunos campos en términos de qué libros se asignan, como economía, política e historia. Otros, como la música y la teología, casi no tienen libros en común con ninguna otra disciplina.


Las materias se enseñan de manera diferente en diferentes países.

Por supuesto, una clase de historia en los Estados Unidos es diferente de una en España. Pero Karaganis aún tiene que desentrañar exactamente cuáles son las diferencias entre las disciplinas en diferentes países, ya que espera que otros académicos que son especialistas en sus campos utilicen los datos del Proyecto de Plan de Estudios Abierto para hacer exactamente eso. "Nadie ha podido ver los planes de estudios internacionalmente antes", dice Karaganis. "La gente va a encontrar algunas cosas realmente interesantes en contextos donde hay grandes colecciones que no son de los Estados Unidos".

Si bien la mayoría de los datos del proyecto provienen de los EE. UU., también tiene grandes conjuntos de datos para Canadá, Australia y los EE. UU. Gran parte de Europa también tiene programas de estudio representados. Sin embargo, Karaganis tomó la decisión deliberada de no incluir programas de estudio de países en los que enseñar un libro determinado podría suponer un problema para un profesor o una universidad. Citó partes de América Latina, Rusia y China como lugares donde los maestros podrían ser castigados si enseñaran ciertos textos. Incluso en Europa y América del Norte, el proyecto Open Syllabus Project no adjunta ningún nombre de profesor específico a los datos, solo a las universidades donde están enseñando, como una forma de proteger sus identidades.

Sin embargo, el conjunto de datos podría ayudar a los maestros de otra manera. Karaganis dice que la mayoría de las instituciones académicas juzgan a sus profesores basándose en una estadística que pretende representar la frecuencia con la que publican artículos de revistas, el prestigio de las revistas en las que están publicando y la frecuencia con que otros académicos citan sus artículos de revistas. Eso significa que los profesores que escriben textos que a menudo se enseñan pero no se citan están en desventaja; por ejemplo, si un profesor pasa su tiempo investigando y escribiendo libros de texto en lugar de artículos de revistas, se los penaliza en este sistema actual. Para intentar solucionar esto, el proyecto Open Syllabus Project otorga a cada autor de texto una puntuación de 100 para indicar con qué frecuencia se enseña su texto, en comparación con el resto del conjunto de datos. Karaganis admite que no es un sistema perfecto, pero al menos proporciona otra manera de evaluar a los profesores centrados en la enseñanza.

En última instancia, el proyecto Open Syllabus es una herramienta fácil de usar que podría ayudar a los académicos a comprender mejor sus propios campos.

"Abrimos una ventana al aula de una manera que no existía antes", dice Karaganis.

martes, 18 de junio de 2019

Cómo, con qué, para qué: Herramientas para investigar datos de Twitter

Uso de Twitter como fuente de datos: una visión general de las herramientas de investigación en redes sociales (2019)

LSE Impact Blog




Twitter y otras plataformas de redes sociales representan un recurso grande y en gran parte sin explotar para datos y pruebas sociales. En esta publicación, Wasim Ahmed actualiza su serie recurrente en el Blog de Impacto, para ofrecerle los últimos desarrollos en métodos y metodologías digitales para investigar Twitter y otras plataformas de medios sociales.

Esta publicación se basa en las ediciones de 2015 y 2017 de esta publicación, captura tendencias y eventos clave que están configurando la investigación en redes sociales para los científicos sociales y proporciona una colección de métodos y herramientas de investigación para el análisis de datos de redes sociales.

Desde la edición de 2017 de esta publicación de blog, he visto usos aún más únicos e interesantes de los datos de las redes sociales en una amplia variedad de disciplinas de investigación, como sociología, informática, medios y comunicación, ciencia política e ingeniería, solo por mencionar pocos. Las plataformas de medios sociales generan una gran cantidad de datos diariamente sobre una variedad de temas y, en consecuencia, representan una fuente clave de información para cualquiera que busque estudiar la sociedad del siglo XXI.

Twitter sigue siendo la plataforma más popular para la investigación académica, ya que aún proporciona sus datos a través de una serie de interfaces de programación de aplicaciones (API). En contraste, las consecuencias de la "violación de datos" de Cambridge analytica han llevado a ciertas plataformas de redes sociales a limitar los datos proporcionados a través de sus interfaces de programación de aplicaciones. Sin embargo, aunque puede que no sea posible obtener datos de todas las plataformas de redes sociales, aún es posible realizar una investigación cualitativa y cuantitativa, como entrevistas y encuestas, con miembros de comunidades en línea.

Los estudios en redes sociales se pueden encuadrar a partir de una amplia variedad de teorías, construcciones y marcos conceptuales de una amplia variedad de disciplinas y recomendaría echar un vistazo a este documento: Social media research: Theories, constructs, and conceptual frameworks, que resume muy bien algunos de estos enfoques.

También hay una serie de enfoques de investigación que se pueden utilizar como Netnography y Digital Ethnography, que proporcionan marcos para realizar investigaciones en el mundo en línea. La netnografía, por ejemplo, puede basarse en la descarga de datos directamente desde una plataforma de redes sociales, anotando observaciones personales de una comunidad en línea y entrevistando a usuarios de redes sociales. Además, también hay una serie de métodos específicos para el análisis de datos de redes sociales que se resumen en la Tabla 1 a continuación.



Tabla 1: Resumen de los métodos de investigación

La Tabla 2 a continuación proporciona una descripción general de las herramientas para recuperar datos de redes sociales


Tabla 2: Una revisión de las herramientas para 2019
*Algunas herramientas pueden permitir el acceso a otras plataformas y la capacidad de importar sus propios datos.

Recientemente, también se ha vuelto cada vez más difícil para los académicos acceder a datos históricos de Twitter con una serie de servicios para académicos que están llegando a su fin. Esto ha dado lugar a servicios como los proporcionados por ScrapeHero, que permiten a los usuarios obtener datos históricos de Twitter de forma gratuita mediante el uso de web scraping. Sin embargo, esta forma de recuperar Twitter no es recomendable.

Para investigar otras plataformas en Internet, como foros web, blogs y otras plataformas de medios sociales, existen herramientas como Scrape Storm, que es un raspador de web visual basado en la inteligencia artificial y pretende poder recuperar datos de casi cualquier plataforma.

También hay una serie de aplicaciones avanzadas de análisis de datos y estadísticas que se pueden usar para analizar datos de redes sociales, como:

Estos paquetes deben investigarse al decidir qué aplicación se utilizará para un proyecto. También me gustaría mencionar la lista de herramientas de Iniciativas de Métodos Digitales, y la lista de herramientas de la Universidad Ryerson de su Laboratorio de Medios Sociales. Para recuperar datos de Twitter también vale la pena revisar el DMI-TCAT (gratis). SAGE Ocean publicó recientemente una revisión adicional de 100 herramientas de redes sociales.

Para el análisis de imágenes, recomendaría revisar la visión de Google Cloud AI y también existen herramientas como Instaloader que le permiten descargar fotos de Instagram de cuentas públicas. Se realizó un estudio realmente interesante en Instagram y se analizó el hashtag #CheatMeal utilizando el análisis de contenido temático y se puede acceder aquí.

Otro campo en rápido desarrollo de la investigación en redes sociales se centra en la ética. Es importante realizar una investigación ética en redes sociales y recientemente publiqué un capítulo de libro de acceso abierto, que examina el uso de Twitter como fuente de datos y brinda una descripción general de los desafíos éticos, legales y metodológicos. Se puede acceder al capítulo aquí.

Debido a una serie de solicitudes, también he empezado a realizar eventos de capacitación regulares (consulte la lista aquí) con la posibilidad de asistencia virtual. El primero de estos eventos se llevó a cabo en la Escuela de Economía y Ciencias Políticas de Londres el 17 de mayo de 2019 y nuestro hashtag # SMRM19 contiene una gran cantidad de material informativo, ya que el evento fue tweeteado en vivo.

lunes, 2 de julio de 2018

Cómo fue la difusión científica de la hipótesis de la fortaleza de los lazos débiles


Cómo las comunidades median la difusión de nuevas ideas: el caso de la hipótesis de los lazos débiles de Granovetter


Anna Keuchenius, Petter Tornberg y Justus Uitermark

Universidad de Amsterdam




Resumen

Una gran cantidad de estudios empíricos examinan la difusión de nuevas ideas científicas. Si bien esos estudios generalmente se enfocan en el bajo nivel de adopción individual o en el nivel superior de patrones agregados, examinamos cómo las comunidades en el nivel intermedio median la difusión. Como estudio de caso, analizamos la difusión de una idea científica específica, a saber, la hipótesis de la "Fortaleza de los lazos débiles", presentada por Granovetter en su artículo de 1973. Usando datos de Web of Science, construimos una red de académicos que hicieron referencia al artículo de Granovetter. Al combinar el modelado de temas, el análisis de redes y la lectura cercana, mostramos que la red de difusión presenta comunidades de académicos que interpretan y usan la hipótesis de Granovetter de distintas maneras. Tales comunidades colaborativamente interpretan la hipótesis de Granovetter para enmendarla a sus perspectivas e intereses específicos. Nuestro análisis muestra además que las comunidades están agrupadas alrededor de testaferros, es decir, académicos que son centrales dentro de sus comunidades y desempeñan un papel fundamental en la traducción de la hipótesis general en su campo específico. La mayor implicación de nuestro estudio es que las ideas científicas cambian a medida que se expanden. Argumentamos que la metodología presentada en este documento tiene un potencial más allá del dominio científico, particularmente en el estudio de la difusión de opiniones, símbolos e ideas.


domingo, 19 de junio de 2016

Redes de normas y temas en Wikipedia

La evolución de la red de normas de Wikipedia
Bradi Heaberlin y Simon DeDeo
Future Internet


Resumen: Las normas sociales han sido tradicionalmente difíciles de cuantificar. En cualquier sociedad en particular, su cantidad y las interdependencias complejas a menudo limitan un análisis a nivel de sistema. Una excepción es la de la red de normas que sustentan la comunidad de Wikipedia en línea. Estudiamos la evolución de quince años de esta red con el conjunto interconectado de páginas que se establecen, describiendo e interpretando las normas de la comunidad. A pesar de la reputación de Wikipedia de gobernabilidad ad hoc, nos encontramos con que su evolución normativa es muy conservadora. Los primeros usuarios crean normas que tanto dominan la red y persisten en el tiempo. Estas normas básicas rigen tanto el contenido como las interacciones interpersonales utilizando principios abstractos como la neutralidad, verificabilidad, y asumen de buena fe. A medida que la red crece, vecindarios de normas se desacoplan topológicamente el uno del otro, mientras que el aumento en la coherencia semántica. Tomados en conjunto, estos resultados sugieren que la evolución de la red de Wikipedia norma es similar a los sistemas burocráticos que son anteriores a la era de la información.
Palabras clave: normas sociales; redes de normas; Wikipedia; oligarquía; burocracia; gobernancia; conocimiento común


1. Introducción

Las ideas comunes de la sociedad sobre cómo se "debe" gobernar comportan características esenciales de la vida económica y política [1,2,3,4,5,6]. Fuera de ambientes idealizados de teoría de juegos, por ejemplo, los incentivos económicos se complementan con las normas sobre la honestidad y un salario más alto es posible cuando los trabajadores creen que no deberían engañar a su empleador [7]. Y, si bien la estructura racional de las normas y leyes es una parte importante de las acciones de coordinación y deseos [8], las personas a determinar la legitimidad de estas soluciones basadas en las creencias acerca de la imparcialidad y la autoridad. Una fuerza policial sin legitimidad no puede hacer cumplir la ley [9,10].
Las normas también están en desarrollo continuo. La norma moderna contra la violencia física, por ejemplo, tiene raíces inesperados y sigue evolucionando [11,12,13]. Sin embargo, entendemos mucho menos acerca de la historia y el desarrollo de las normas que sobre la economía o la ley [14]. A menudo carecen de los datos que nos permita hacer el seguimiento de la coevolución de las ideas complejas, interrelacionadas e interpretativos, tales como la honestidad, la justicia, y la autoridad, la forma en que podemos realizar un seguimiento de los precios y los flujos monetarios o la creación y el cumplimiento de los estatutos.
Los sistemas en línea, tales como Wikipedia, proporcionan nuevas oportunidades para estudiar el desarrollo de normas en el tiempo. Junto con los repositorios de información y de códigos en el centro de la economía mundial moderna, tales como GNU / Linux, Wikipedia es un ejemplo canónico de un conocimiento común [15,16,17,18]. conocimientos comunes se basan en las normas, en lugar de los mercados o leyes, para la mayor parte de su gobierno [19,20]. En Wikipedia, editores colaboran para escribir artículos enciclopédicos en un entorno de código abierto gestionado por la comunidad [21,22], y que se basan en las normas sociales para estandarizar y gobiernan sus decisiones de edición [23]. los registros del servidor minuto a minuto de Wikipedia cubren más de quince años de creación de normas y la evolución de una población de editores que se contaban por decenas de miles. Las normas son importantes en la Wikipedia en formas que hacen que sea imposible para que los participantes pasan por alto: es el sistema de normas, en lugar de leyes justas, que dicta lo que el contenido está o no está incluido, que participa, y lo que hacen.
Paralelamente a los hallazgos en el estudio de la evolución regla en grandes instituciones académicas [24], esperamos que las normas de Wikipedia que juegan un papel en la preservación de la memoria institucional, para ser una fuente de estabilidad institucional y el cambio, y que tienen una relación compleja con el circunstancias que llevaron a su creación. páginas norma desempeñan un papel clave en la coordinación de comportamiento entre los editores de la Enciclopedia [25]. Editores citan habitualmente las normas sobre las páginas de discusión de artículos en un intento de coordinar [26], crear consenso y resolver conflictos [23,27].
Este estudio se centra en un subespacio de la enciclopedia dedicada a la información y discusión acerca de las normas de la propia enciclopedia. Las comunidades asociadas a cada uno de 291 idiomas y ediciones tienen una gran independencia para definir y modificar las normas que utilizan de Wikipedia; o sea, se puede seguir una trayectoria evolutiva diferente. Aquí, nos centramos únicamente en las normas de la Wikipedia en idioma Inglés. Se estudia la evolución de estas normas utilizando un subconjunto de las páginas enlazadas estrechamente que establecen, describir e interpretar ellos. Estas páginas, junto con las relaciones entre ellos, nos permiten cuantificar cómo los editores describen las expectativas de comportamiento y, en consecuencia, la forma de crear y volver a interpretar las normas de su comunidad.
Nos centramos en los enlaces entre páginas norma. la formación en línea de enlace se produce por una variedad de razones [28], incluyendo la asociación estratégica por la persona que hace la cita [29]. En el caso de Wikipedia, enlaces entre páginas en la enciclopedia "mainspace" codifican información acerca de las relaciones semánticas [30,31] y la importancia relativa de las páginas [32,33]. La extensión de estos análisis a las páginas de la enciclopedia norma nos permite ver cómo se describen las normas, justificados y explicados por referencia a otras normas. Nuestro uso de esta red es paralela a los estudios de citaciones en los sistemas jurídicos; los investigadores utilizan citas legales para realizar un seguimiento a través de la influencia de precedencia [34] y la legitimación [35], así como el prestigio de la citada [35,36]. El paralelo a las citaciones legales no es exacta: las páginas de la red norma de Wikipedia no (por lo general), creado en respuesta a un evento en particular, como en un caso judicial, sino más bien en respuesta a una necesidad percibida son; páginas pueden ser creados por cualquier usuario, en lugar de un juez o tribunal en particular; y las páginas pueden ser editadas de forma retrospectiva (que conduce, por ejemplo, a la posibilidad de ciclos de gráfico cuando se introducen nuevos enlaces).
Esta perspectiva de la red nos permite ir más allá del seguimiento de un solo comportamiento a través del tiempo (un enfoque común en los estudios de la evolución cultural [37]) para examinar la evolución de las relaciones entre cientos, e incluso miles, de ideas distintas. Utilizamos estos datos para formular tres preguntas críticas. En un sistema en el que constantemente se están discutiendo y crean normas, cómo y cuándo algunas normas llegan a dominar sobre los demás? ¿Qué tipo de comportamiento es lo que gobiernan? Además, ¿cómo esas normas básicas evolucionan con el tiempo?
Las respuestas son sorprendentes. Mientras que algunas cuentas de Wikipedia subrayan su flexibilidad y la naturaleza ad hoc de su gobierno [38,39,40], nos encontramos con que la evolución normativa de la Wikipedia es muy conservadora. Normas que dominan el sistema en los últimos años de la Wikipedia se crearon temprano, cuando la población era mucho menor. Estas normas básicas dicen los editores de la forma de escribir y artículos de formato; también describen cómo colaborar con los demás cuando se enfrentan a los desacuerdos e incluso acaloradas discusiones. Para ello, las normas básicas de referencia, principios racionalizadas universales, como la neutralidad, verificabilidad, la cortesía, y el consenso. Con el tiempo, los barrios de la red de estas normas se desacoplan topológicamente. Mientras lo hacen, su coherencia semántica interna aumenta, tal como se mide utilizando un modelo tema del texto de la página. normas básicas abstractas de Wikipedia y proceso de desacoplamiento muestran que adopta una estructura "organización institucionalizada" similar a los sistemas burocráticos que son anteriores a la era de la información [41].

2. Métodos

Para recopilar datos sobre la red de normas en la Wikipedia, que SPIDER enlaces dentro del "espacio de nombres" reservado para (entre otras cosas) las políticas, lineamientos, procesos y discusión. Estas páginas pueden ser identificados debido a que llevan el prefijo "Wikipedia:" o "WP:". Los nodos de red son páginas. aristas dirigidas entre páginas se producen cuando una página enlaza a otra a través de al menos un hipervínculo que cumple con nuestros criterios de filtrado; estos enlaces se encuentran analizando el código HTML en bruto de cada página y con exclusión de las plantillas de navegación estándar y listas. Nuestra red es, pues, ambos dirigidos y no ponderado. Comenzamos nuestro rastreo en la (seleccionado arbitrariamente) página norma "Asumir la buena fe". Los detalles del proceso de rastreo, los filtros de hipervínculo y el post-tratamiento de los enlaces entre páginas aparecen en el Apéndice A; tanto los datos sin procesar y procesada nuestra red están libremente disponibles en línea [42].
Editores clasifican las páginas del espacio de nombres mediante la adición de etiquetas; estas etiquetas incluyen, sobre todo, "la política", "guía", y "ensayo", entre otros. Cuando descargamos texto de la página, también registrar estas categorizaciones. Estas categorizaciones describen los niveles de gradated expectativas para la adhesión [43]. En el texto "plantilla" que se incluye de forma automática-, las políticas se describen como "normas ampliamente aceptadas" que "todos los editores debe seguir normalmente" [44], las directrices como "normas de aceptación general" que "los editores deben intentar seguir" y para el que "de vez en cuando excepciones pueden ocurrir "[45], mientras que los ensayos proporcionan" apoyo y opinión ":" [s] ome ensayos representan normas generalizadas ", mientras que" otros sólo representan puntos de vista minoritarios "[46]. Una cuarta categoría es la "propuesta", que describe las posibles políticas y directrices "Sin embargo ... en el desarrollo, en discusión, o en el proceso de reunir consenso para la adopción" [47].
Los análisis previos de entorno de políticas de Wikipedia ha hecho hincapié en los muchos, a menudo se superponen, las funciones que las normas de juego en la enciclopedia, como las políticas que tanto intento de controlar el uso no-autorizado de material con derechos de autor y para establecer la legitimidad a través del uso de la dicción legal y la gramática [ 25]. En el estudio actual, consideramos un sistema de clasificación complementaria que se centra en los tipos de interacciones de las normas regulan, en lugar de sus funciones. Proponemos tres categorías distintas normativas en base a, y la clasificación se extiende, preexistente de las normas que rigen [19] y conocimientos comunes naturales [20].
Las normas pueden intentar regular la creación de contenido (normas "-Contenido de Usuario") e interacciones entre los usuarios (normas "usuario-usuario"). Además, las normas pueden intentar definir una estructura administrativa más formal con distintas funciones, deberes y las expectativas de los administradores (normas "usuario-admin"). Los dos autores de este trabajo clasifican de forma independiente una muestra aleatoria de cuarenta páginas que utilizan este esquema, y ​​se calculó la confiabilidad entre codificadores utilizando kappa de Cohen [48].
Para nuestro análisis semántico, incluimos todos los textos, excepto que se encuentra en cajas especiales cuyo texto es reproducido por la plantilla a través de múltiples páginas. Para construir nuestra distribución a través de uno-gramas, se normaliza todo el texto a minúsculas, combinar palabras con guiones ( "corrección de errores" a "errorcorrection"), y soltar puntuación ( "no" a "don't"). Hacemos ninguna corrección derivada ni de ortografía.
Una variable externa crítico es el número de usuarios activos en la enciclopedia en cualquier punto en el tiempo. Tras [49], definimos un usuario activo como uno que ha hecho cinco o más ediciones dentro de un mes; estas estadísticas se mantienen públicamente en [50].

2.1. Medidas de centralidad y atención 

Las páginas de nuestro corpus se crean para explicar las normas de Wikipedia para editores e influir en sus interacciones con la comunidad de edición de la enciclopedia y el contenido. Los usuarios navegar por el sistema de normas como una estructura de red y por lo tanto se encuentran con algunas de las páginas más que otros.
Lo medimos utilizando centralidad del vector propio (CE), que cuantifica la importancia de una página en función de su accesibilidad global dentro de la red. La CE de una página es la probabilidad de que ocurra a través de una página durante una caminata al azar; equivalente al algoritmo PageRank, que se utiliza en las ciencias del comportamiento para identificar a un consenso sobre el dominio y el poder [51]. Hemos establecido ε, la probabilidad de un salto al azar, a 0,15.
Esperamos que algunas de las páginas que se convierten en ideal para acceder a la red, mientras que otros permanecen en gran parte periférica. Estamos cuantificar la desigualdad del sistema utilizando el coeficiente de Gini (GC). GC varía entre cero (igualdad perfecta, todas las páginas tienen la misma CE) y uno (una página tiene un alto CE; todas las demás páginas tienen el mismo valor bajo). GC es ampliamente utilizado en economía para medir la desigualdad en los ingresos. A continuación, se proporciona una medida global de la medida en que un sistema está dominado por unas pocas normas. Como una cantidad sin dimensiones, que permite a los investigadores comparar este sistema con otras que pueden ser objeto de una investigación posterior.
Debido a que estamos interesados ​​en la forma en que evoluciona la red norma citación y el papel que juegan las normas en el contexto de esta estructura, la CE es una medida ideal de la importancia de una norma. Además de cuantificar importancia estructural, sin embargo, se espera que la CE para correlacionar con, y para predecir, medidas de comportamiento de la atención que recibe una página. Para medir la relación entre centralidad y de comportamiento medidas de atención, hacemos un seguimiento de visitas de página de datos (a partir de los registros del servidor de Wikipedia puestos a disposición por StatsGrok [52], véase el Apéndice B), el número total de ediciones de una página ha recibido, el número de ediciones en diversas su página de discusión asociada, y el número de editores que han editado la página. Llevamos a cabo una regresión lineal multivariable sobre estas medidas de atención, junto con la edad y el tamaño de página de la página (en bytes) como predictores de la página de un CE (véase el Apéndice C).

2.2. Influencia y superposición

Una característica importante de la red de norma es la esfera de influencia: las páginas que se basan en cualquier página en particular para el contexto.
Consideremos, por ejemplo, la página norma "Punto de vista neutral" (PVN), una página instando a los editores para describir los sujetos de artículos sin tomar partido. Una página que enlaza con PVN se refiere a su propio sujeto NPOV de alguna manera. Por ejemplo, entre muchas páginas que enlazan con PVN es "Propaganda", un ensayo instando a los editores que tener cuidado con el uso de medios de propaganda de los gobiernos autoritarios. La página de enlaces a la página de la propaganda de PVN el fin de definir la noción de "peso indebido"; El contenido de PVN por lo tanto se puede decir de influir en la interpretación de lo que se encuentra en la propaganda.
La influencia es distinta de centralidad; medidas de centralidad en la medida en que páginas enlazan a la página en cuestión. Por el contrario, la influencia mide el grado en que el contenido de esa página influencias otras páginas. En nuestro formalismo, un nodo p puede ser entendida para influir en un nodo q cuando Q enlaces a p. Influencia no necesita ser directa, sin embargo: p puede influir q si q enlaces a R y R enlaces a p. Para medir la influencia no local, consideramos paseos aleatorios en la red la dirección invertida.
Más formalmente, la colocación de un caminante aleatorio en el nodo p, permitimos que ella tome n pasos de este punto de partida a lo largo de la red de orientación invertida; escribimos la distribución de probabilidad resultante sobre la posición final como pi, la probabilidad de que el caminante terminando en el nodo i. El pi de distribución define la influencia que tiene en p i.
Para cuantificar la distancia entre dos nodos, se considera además la superposición influencia entre dos nodos arbitrarias p y q. Solapamiento cuantifica el grado en que dos caminantes al azar, a partir de estos nodos, tenderán a visitar las mismas páginas. Si pi y qi son las distribuciones de probabilidad asociados con la influencia de nodo p y q, a continuación, se superponen, se define como:


     (1)

Por varias páginas, podemos calcular la media de superposición de par en par simplemente promediando la superposición entre todos los pares posibles dentro del conjunto.
Alta superposición entre p y q indica que dos páginas influyen en un gran número de nodos comunes. Cuando n tiende a infinito, los caminantes al azar convergen a la distribución estacionaria, y la superposición es uno; A la inversa, cuando n es pequeño, caminantes aleatorios tienen menos tiempo para encontrar uno al otro. Tomamos n igual a cinco, más grande que el camino más corto promedio (aproximadamente tres, en nuestra red), de manera que los nodos son potencialmente alcanzable, pero mucho menos que el tiempo de convergencia a la distribución estacionaria.
La superposición puede ser pensado como una medida de la separación de las esferas de influencia. Se invoca únicos mecanismos locales: los usuarios que viajan de una página a otra mediante los enlaces que los conectan. Esto es en contraste a una medida, tal como los caminos más cortos, lo que es computacionalmente caro y requiere un conocimiento detallado, global del enlace-estructura de la red. En general, por ejemplo, el número de nodos de un algoritmo necesita visitar el fin de determinar el camino más corto entre dos nodos por lo general será mucho mayor que la longitud de la trayectoria final.
Tanto la influencia y la superposición requieren que especifique los nodos particulares de interés; nos centramos en este trabajo sobre pares de páginas de alta CE, o normas básicas.

2.3. La coherencia semántica

Consideramos que las relaciones semánticas entre las páginas. Esto proporciona una noción de relación que es distinta de cómo las normas se conectan a través de hipervínculos. Para ello, hacemos (asignación de Dirichlet latente [53]) El modelado de tema en los uno-gramos del, texto legible aparece en cada página. Tema modelos nos permiten representar textos cortos, incluso cuando se obtienen de un rico vocabulario: temas de grano grueso de las distribuciones subyacentes más palabras.
Con el modelo resultante tema, entonces podemos calcular la distancia semántica entre todos los pares de páginas utilizando la distancia Jensen-Shannon (JSD), una medida que cuantifica la posibilidad de distinguir de las dos distribuciones [54]. Esto nos da una red semántica con peso que se puede comparar a la red de enlaces entre páginas. En particular, podemos calcular la coherencia semántica: la correlación de Pearson entre pi (la influencia del nodo p en el nodo i) y el JSD negativo desde el nodo P al nodo i, Ji. Cuando los nodos que están estrechamente relacionadas topológicamente también están estrechamente relacionadas semánticamente (JSD baja), la coherencia es alta.

2.4. La detección de la comunidad

Esperamos que los enlaces que los editores hacen a nivel local para dar lugar a grupos distintos, o haces norma, a nivel mundial. Usamos el algoritmo de detección de Lovaina comunidad [55] para detectar la agrupación entre los nodos de la red. El algoritmo de Lovaina maximiza la modularidad en cada partición local de la red. El primer algoritmo asigna a cada nodo i al otro clúster, a continuación, calcula la ganancia potencial de la modularidad i para unirse al grupo de su nodo vecino j. Cada voy a unirse al grupo de j cuando la combinación de la ganancia ofrece modularidad positiva más alta. Si no hay un posible aumento de la modularidad, que permanece en su grupo inicial.

jueves, 30 de julio de 2015

Análisis de texto de charlas de una conferencia

Perfiles de contenido en charlas de una conferencia usando análisis de redes de texto

Nodus Lab



Cualquier conferencia consiste en múltiples conversaciones. A veces es difícil hacer un seguimiento de todos los temas tratados como la mayoría de las conferencias sólo ofrecen una breve descripción de cada sesión separada. Además, la mayoría de las conversaciones se clasifican en hilos temáticos, pero rara vez es un intento de mostrar cómo las diferentes conversaciones se relacionan entre sí, ¿cuáles son los temas más destacados que unifican todos ellos, ¿cuáles son las diferencias entre ellos.

Análisis de redes texto puede ser muy útil para resolver estos problemas.
Ofrece una forma de mostrar las palabras clave más importantes de cada sesión a través de enfatizar los conc Central <pts y sus relaciones (por lo que no sólo las palabras clave más importantes, sino también la forma en que se relacionan entre sí - es decir, el contexto).
Además, también se puede utilizar para mostrar las relaciones entre las diferentes sesiones y charlas, lo que demuestra la forma en que se relacionan entre sí.

Hicimos un estudio de caso en la Conferencia duracional que tuvo lugar en Berlín en junio de 2015.


1. Identificando los principales temas de las conversaciones de las conferencias

Durante la conferencia les pedimos a los participantes que escriban las palabras clave relevantes para cada charla usando un betabook pizarra portátil de colaboración. Luego hicimos una captura de pantalla de cada resumen de conversación y ponemos en InfraNodus software de visualización de la red de texto para obtener una imagen general de cómo se conectan las conversaciones y cuáles fueron los principales clusters de actualidad percibidos por la audiencia.

Un proceso similar se podría hacer uso de los canales establecidos de Twitter con un hashtag para cada charla o conferencia - los Tweets también podrían ser importados en InfraNodus para visualizar la imagen más grande.

A los efectos del análisis de redes texto, las palabras (hashtags, palabras clave) presentados están representados como nodos y sus co-ocurrencias se representan como las conexiones entre ellos. Las palabras que tienden a co-ocurrir con más frecuencia en conjunto están organizados en grupos, las palabras clave que aparecen más a menudo se muestran más grande en el gráfico. Cuanto más central de los nodos están colocados, más integrada que están en relación con el resto de la red (ver más en técnicas de interpretación gráfica).
Como resultado, el texto visualización de la red de todos los discursos de la conferencia es la siguiente:

Sesiones de la conferencia de visualización de la red texto

Como se puede ver en la visualización anterior, según los participantes los principales temas tratados durante la conferencia tuvieron que ver con

- Pública
- mecanismos de exclusión / inclusión de poder
- Régimen

Estos fueron los temas que eran la más céntrica de la conferencia, lo que significaba que varias sesiones tratados con ellos)

- El dinero
- Máscara y la fama
- La saturación, el espacio, la reflexión
- Representación y memoria
- la política
- Exceso

Los anteriores son los temas que son más específicos para determinadas sesiones.

También es interesante observar que la estructura gráfica es significado muy interconectado que la mayoría de las conversaciones se relacionaban a través de los temas principales. Sin embargo, esta estructura gráfico también tiene grupos tópicos distintos, lo que significa que algunas conversaciones estaban tratando con diferentes problemas que el resto, con lo que la diversidad en la conferencia, lo que es más interdisciplinaria.



2. Encontrando que habla de conferencias están relacionados

Análisis de redes texto no sólo ayuda a descubrir los principales temas de los discursos de la conferencia. También se puede demostrar que las conversaciones están estrechamente relacionados entre sí.

La naturaleza del algoritmo de diseño gráfico que se alinea nodos que están estrechamente relacionadas o que están conectados a través de otros nodos cerca uno del otro. Por lo tanto, si sumamos las sesiones reales de conferencias en el gráfico anterior, podemos ver que eran de las sesiones fueron más estrechamente relacionados y - también - que temas esas sesiones se trataba de:


El análisis de redes de temas de la conferencia

Como se puede ver arriba, las dos sesiones sobre la "culpa" y "financiación pública" estaban estrechamente relacionados (principalmente porque suscitó pensamientos similares en la audiencia, probablemente porque uno ocurrió después de la otra,).

Además, las sesiones sobre "adivinanzas" y "régimen arte" se conectan a través de su interés común en los procesos de inclusión / exclusión en relación con el poder (a pesar de que tratan diferentes temas).

La sesión sobre "enigmas" también estaba conectado a la sesión sobre "oficina sin pantalla" a través de las nociones de memoria y la representación.

Las sesiones de "cinismo" y "blancura" se encuentran en la periferia de la gráfica lo que significa que propusieron algunos temas que eran únicas al discurso general de esa conferencia. Un hecho interesante es que esas dos conversaciones también están conectados a través de la noción de "exceso", lo que sugiere un punto potencialmente interesante de mayor discusión entre los dos altavoces.

La sesión sobre el "colonialismo" era bastante central para todo el discurso sobre todo porque se refirió a diferentes temas presentes en otras conversaciones.

La sesión sobre "conflicto" pertenece a su propio grupo y no está muy bien integrado en el resto del discurso de la conferencia.

Usted puede navegar a través de la gráfica interactiva de la conferencia utilizando el widget de abajo. Al hacer clic en nodos mostrará las partes de los discursos de la conferencia que mencionan esos conceptos. Al hacer clic en nodos "contexto" se mostrará la visualización gráfica de la charla real:









3. Colaboraciones sugeridos

Visualización de la red El texto también puede mostrar que los hablantes podrían beneficiarse de la colaboración.

La estrategia más obvia sería la de conectar las sesiones en función de su proximidad tópica y similitud. Las sesiones sobre "culpabilidad" y "financiación pública" parecen estar muy relacionados anteriormente. Tanto los ponentes y los participantes podrían encontrar interesante explorar esos dos temas juntos.

Una estrategia menos obvia sería identificar las conversaciones que tienen el mayor centralidad de intermediación - que conecta los diferentes grupos juntos. Por ejemplo, la charla sobre "enigmas" se relaciona con las charlas sobre "régimen arte" y en "la oficina sin pantalla", pero los dos no están relacionados directamente. Así que posiblemente la persona que entregó la charla sobre "enigmas" podría ser un enlace interesante para conectar "régimen arte" y "oficina sin pantalla" (estrategia de resistencia?).

Por último, una estrategia menos común, pero muy ingenioso es identificar las brechas estructurales en el gráfico - las áreas entre las agrupaciones que están escasamente conectados o no conectados en absoluto. Aquellos indican un alto potencial de nuevas ideas y descubrimientos (leer más en nuestro artículo sobre el uso de las brechas estructurales para generar ideas).
En el gráfico anterior es claramente el área entre la "blancura" y "cinismo". Esas dos sesiones solamente se conectan a través de la noción de exceso pero potencialmente podrían conectarse a través de muchos más conceptos - tales como la profesionalidad, el cinismo, el contexto del arte, galerías, etc.
Otra la sesión sobre "conflicto" no está muy bien integrado con el resto de las sesiones de la conferencia, lo que significa que hay un encuentro potencialmente interesante con cada uno de ellos.