Mostrando entradas con la etiqueta agrupamiento. Mostrar todas las entradas
Mostrando entradas con la etiqueta agrupamiento. Mostrar todas las entradas

domingo, 20 de diciembre de 2020

ARS: Usando mapeos de revistas para conocer sus contenidos a través de la visualización

Cómo generar conocimientos de revistas utilizando técnicas de visualización

Generación de conocimientos sobre el rendimiento de la revista
Por la Dra. Daphne van Weijen y Matthew Richardson || Elsevier




Los editores y editores siempre sienten curiosidad por saber cómo se está desempeñando su revista en comparación con otras en el campo. También están ansiosos por descubrir si el contenido que están publicando está atrayendo citas. En este artículo, nos gustaría compartir con usted una serie de técnicas de visualización que pueden ayudar a generar conocimientos sobre el rendimiento de la revista.

Mapeo de términos

¿Cómo puede determinar cuáles son los temas "candentes" en una revista, grupo de revistas o área temática específica? O, más específicamente, ¿qué temas han mostrado un crecimiento activo y un fuerte impacto en la producción de investigación (artículos publicados) en los últimos años? Para responder a esta pregunta, desarrollamos una nueva herramienta de visualización en colaboración con el grupo de investigación CWTS, que se especializa en bibliometría en la Universidad de Leiden. La herramienta tiene acceso a todas las revistas y actas de congresos indexados en Scopus. A partir de esta información, puede generar mapas que revelen las relaciones entre los términos utilizados en los títulos y los resúmenes de los artículos publicados en una o más revistas seleccionadas. Lo hace con la ayuda de un programa de computadora llamado VOSviewer (1).
¿Cómo se crea un mapa de términos?

Hay una serie de pasos involucrados en la producción de un mapa de términos.

  • Primero debemos determinar qué revista o revistas deben incluirse. Si un grupo de revistas o un área temática es el foco del análisis, una búsqueda de palabras clave en Scopus puede ayudar con esto.
  • Una vez elegidas las revistas, la herramienta realiza un análisis de las palabras y frases encontradas en los títulos y resúmenes de los artículos durante un período de tiempo específico (por ejemplo, en los últimos dos, cinco o diez años). Las ventanas de publicación y cita pueden tener valores separados, por lo que también es posible determinar qué tan bien se ha citado el contenido publicado en un año específico en los años posteriores a la publicación.
  • Después de que se genera un mapa, se puede verificar si hay términos no informativos, como nombres de editoriales o sociedades, y términos genéricos como "literatura", "presentación" o "característica". Estos se pueden eliminar y, si es necesario, se puede crear una nueva versión del mapa.

Grupos de términos concurrentes

El mapa que se muestra en la Figura 1 se conoce como mapa de conglomerados de co-ocurrencia. Cada término que aparece al menos cinco veces en los títulos y resúmenes de los artículos de las revistas seleccionadas está representado por un nodo individual en el mapa. Cuanto más grande es el nodo, más artículos contienen el término y cuanto más pequeño es el espacio entre los términos, más a menudo tienden a coexistir. Sin embargo, es importante señalar que esta es una representación 2D de una red multidimensional, por lo que la proximidad de los términos no puede reflejar perfectamente la relación en todos los casos. Finalmente, los términos están coloreados en grupos de términos que tienden a coexistir.

  • Verde (centro y arriba a la izquierda) relacionado con estadísticas y experimentos;
  • grupo rojo (lado derecho) relacionado con la educación en enfermería;
  • grupo azul (abajo a la izquierda) relacionado con la cirugía; y
  • grupo amarillo (izquierda) relacionado con ensayos clínicos y revisiones de la literatura.

La experiencia en el campo puede ayudar a verificar y nombrar adecuadamente los clústeres, así como a predecir qué clústeres es probable que contengan el contenido más citado y por qué.


Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus. Figura 1 - Mapa de similitud de clústeres de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus.

Términos muy citados

El siguiente paso para determinar los temas candentes en el campo es verificar qué términos se citan relativamente bien en comparación con el resto del contenido publicado en la (s) revista (s). Esto se puede hacer cambiando el color en el mapa de conglomerados para mostrar el impacto medio de las citas de los artículos que contienen ese término, en relación con el impacto medio de las citas (1,00) de todos los artículos incluidos en el mapa (Figura 2). Como las publicaciones más antiguas han tenido más tiempo para ser citadas, las citas se normalizan por año de publicación para hacer posible una comparación justa. En la Figura 2, los términos con un impacto de citas por encima del promedio están coloreados en rojo, los términos con un impacto de citas promedio son verdes y los términos con un impacto de citas por debajo del promedio se muestran en azul.


Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus Figura 2 - Mapa de impacto de citas de co-ocurrencia de términos de revistas para un grupo de seis revistas de enfermería seleccionadas de 2009-2012. Fuente: Scopus

Podemos ver claramente que los términos relativamente citados tienden a aparecer a la izquierda del mapa. Estos son términos que se encuentran principalmente en los grupos amarillo y verde de la Figura 1, relacionados con experimentos (verde) y ensayos clínicos (amarillo). Los términos muy citados en estas áreas incluyen:

  • Nurse staffing, self-esteem y statistical terms (Dotación de personal de enfermería, autoestima y términos estadísticos) (grupo verde, arriba a la izquierda).
  • Depressive symptoms, meta-analysis, pregnancy y controlled trials (Síntomas depresivos, metaanálisis, embarazo y ensayos controlados) (grupo amarillo, lado izquierdo).

¿Temas de actualidad?

Finalmente, se puede realizar una búsqueda de palabras clave de Scopus para los términos en el mapa con el mayor impacto relativo de citas, para determinar si se trataba de ocurrencias aisladas. El resultado de esta búsqueda de palabras clave, restringida al campo de enfermería, confirmó que había al menos cuatro áreas en este análisis que tenían una tasa de crecimiento anual compuesta (CAGR) de más del 5 por ciento, lo que indica que hubo un aumento por encima del promedio en el número de artículos publicados en estas áreas durante los últimos cinco años, ya que el CAGR promedio es del 3 al 5 por ciento (ver Tabla 1).


Tabla 1 - En la Figura 2, se identificaron términos relativamente citados. En esta tabla, enumeramos la cantidad de artículos que presentan esos términos junto con sus tasas de crecimiento anual compuestas. Fuente: Scopus
 

La búsqueda de palabras clave de Scopus confirmó que los temas sugeridos por el mapa eran de hecho temas que han estado llamando la atención en el campo. Aunque este mapa específico a nivel de campo es algo genérico, proporciona una idea general de dónde buscar temas candentes con más detalle.

Experiencias de un editor
El Dr. Paul H. Gobster es un científico social investigador del Servicio Forestal del Departamento de Agricultura de los Estados Unidos (USDA). Acaba de dimitir después de cuatro años como coeditor en jefe de Landscape and Urban Planning de Elsevier, permaneciendo en la junta de la revista como editor asociado. Él y sus colegas utilizaron mapas de términos para ayudar en el desarrollo de un editorial para el 40 aniversario de la revista (2).

El Dr. Gobster dijo: “Identificamos conceptos y temas importantes representados en su contenido publicado y desarrollamos una serie de tiempo de cuatro mapas para describir cualitativamente los cambios en cada década sucesiva.

El término mapas fue relativamente fácil de interpretar y produjo visualizaciones adecuadas para presentarlas a los lectores dentro de nuestra editorial. Creo que el término mapas tiene un valor adicional para las funciones de planificación estratégica y administrativa de la revista; la agrupación puede ayudar a aclarar el contenido temático para la clasificación de manuscritos y la asignación de presentaciones a los editores asociados, y los grupos y términos específicos (su presencia, posiciones y cualquier cambio). con el tiempo) puede ayudar a identificar subtemas de trabajo emergentes y duraderos ".

Los beneficios del mapeo de revistas

Mientras que los mapas de términos se utilizan para resaltar los temas publicados dentro de una revista o disciplina, el mapeo de revistas se puede utilizar para examinar la posición y el alcance de una revista y sus interacciones con otras revistas en el campo. Al igual que con los mapas de términos, Scopus puede proporcionar los datos de origen, lo que garantiza que el análisis se base en todas las revistas indexadas.

Estos mapas de revistas se crean mediante enlaces de citas. Una cita de un artículo publicado en una revista a un artículo publicado en otra establece que sus respectivos contenidos son relevantes entre sí y sugiere un nivel de similitud entre los dos. En un período de tiempo dado, una revista tiende a contener citas de muchas otras revistas, y las que más cita deben ser las revistas con las que está más estrechamente relacionada. Por ejemplo, si la Revista A proporciona muchas citas a la Revista B y solo unas pocas a la Revista C, esto es una señal de que tiene una conexión más fuerte con la Revista B. Si con el tiempo el saldo cambia de modo que comienza a proporcionar más citas a la Revista. C, esto indica que el alcance de las revistas o la estructura del campo está cambiando y se está volviendo progresivamente más relacionado con la Revista C. Cuando los enlaces de citas se construyen en muchas más revistas que en este ejemplo simplificado, un mapa es una opción conveniente. forma de mostrar los enlaces y ver cómo interactúan las revistas para formar grupos más grandes.

Consulte la Figura 3 para ver un ejemplo de un mapa de revistas basado en las mismas seis revistas de enfermería utilizadas en los ejemplos de mapas de términos anteriores.


Figura 3 - Mapa de revistas basado en un grupo de seis revistas de enfermería seleccionadas de 2009-2012 


Cada revista en el mapa se muestra como un nodo (círculo), con el tamaño determinado por el promedio de citas a los artículos de esa revista en el período de tiempo. Puede ver en la Figura 3 que las revistas de medicina general incluidas en el mapa tienen un impacto promedio de citas mucho más alto que las otras revistas. Las revistas seleccionadas están en azul y todas pertenecen a la región de las revistas principales de enfermería, mientras que otras revistas están en gris y se incluyen debido a sus enlaces de citas a estas revistas semilla. Las relaciones de citas se muestran como bordes (líneas) de grosor variable. Estas relaciones de citas se normalizan por el número de citas recibidas por la revista citada y por el número de citas dadas por la revista que cita. Cuanto más gruesa sea la línea, mayor será la proporción de citas representadas.

En este ejemplo de mapeo, las áreas clave de las diferentes especialidades de las ciencias de la salud se han etiquetado en función de los grupos de revistas. Esto le permite ver los vínculos entre especialidades más amplias, así como revistas individuales. Estas agrupaciones tenderán a ser bastante estables, pero comparar mapas basados ​​en diferentes períodos de tiempo le permite identificar revistas emergentes en un área determinada o las relaciones de investigación cambiantes que hacen que un área temática se vuelva más relevante para otra con el tiempo.

El entorno de citas en el que se encuentra una revista es único y dinámico, y el análisis de este puede utilizarse como un medio objetivo para determinar la posición competitiva de una revista establecida en un campo de investigación.


Usar los mapas para respaldar su trabajo

Tanto el mapeo de términos como el mapeo de revistas pueden ayudar a comparar la revista con la competencia y proporcionar información útil para las reuniones del consejo editorial. Si bien en el texto anterior se han sugerido algunas razones estratégicas para usar estas herramientas analíticas, su ventaja real radica en cuán adaptables son a diferentes preguntas de investigación. Si desea saber más acerca de cómo estas herramientas pueden ayudarlo, u otras herramientas analíticas para proporcionar información sobre la posición de su revista, comuníquese con su editor.

Referencias

(1) Van Eck, N.J., & Waltman, L. (2010) “Software survey: VOSviewer, a computer program for bibliometric mapping”, Scientometrics, Vol 84, No. 2, pp. 523–538.

(2) Gobster, P.H. (2014) “(Text) Mining the LANDscape: Themes and trends over 40 years of Landscape and Urban Planning”, Landscape and Urban Planning, Vol 126, pp. 21–30.

jueves, 21 de noviembre de 2019

Comunidades: El algoritmo de Leiden supera al de Louvain

Usando el algoritmo de Leiden para encontrar grupos bien conectados en redes

Vincent Traag, Ludo Waltman, Nees Jan van Eck
CWTS


Introducción

Un desarrollo emocionante en el campo de los estudios cuantitativos de ciencias es el uso de enfoques de agrupación algorítmica para construir clasificaciones a nivel de artículo basadas en redes de citas. Hasta hace poco, la mayoría de las clasificaciones se basaban en categorizar revistas en lugar de artículos individuales. Esto es comprensible dados los desafíos sustanciales de clasificar millones de artículos. En CWTS, ahora trabajamos rutinariamente con clasificaciones a nivel de artículo. Hemos dedicado bastante tiempo a desarrollar algoritmos de agrupamiento para crear estas clasificaciones. Estos algoritmos tienen un impacto más allá de nuestro propio campo de investigación y son de interés para muchos científicos de redes.

Te sorprenderá saber que uno de los algoritmos de agrupamiento más famosos, comúnmente conocido como el algoritmo de Lovaina, en realidad tiene un defecto importante: los grupos que encuentra pueden estar arbitrariamente mal conectados. Por ejemplo, el algoritmo de Lovaina puede agrupar artículos en un grupo, aunque algunos de los artículos no tienen enlaces de citas con los otros artículos en el grupo. Aquí informamos brevemente sobre un nuevo algoritmo que hemos desarrollado, que llamamos algoritmo de Leiden. Este algoritmo garantiza encontrar clústeres bien conectados. ¡Aún mejor, lo hace mucho más rápido que el algoritmo de Louvain!




Algoritmo de Louvain

El algoritmo de Louvain es un algoritmo simple y elegante que es más eficiente que muchos otros algoritmos de agrupación en red. Cuando se introdujo en 2008, se aplicó a una gran red de más de cien millones de nodos y mil millones de enlaces. Se clasificó entre los mejores algoritmos de agrupación en estudios comparativos en 2009 y 2016. El algoritmo de Lovaina busca agrupaciones de alta calidad moviendo nodos individuales, por ejemplo, artículos individuales en una red de citas, de una agrupación a otra de tal manera que La calidad de los grupos se mejora tanto como sea posible. Cuando los grupos no pueden mejorarse más moviendo nodos individuales, el algoritmo de Lovaina hace algo ingenioso: agrega la red, de modo que cada grupo en la red original se convierte en un nodo en la red agregada. En la red agregada, el algoritmo comienza a mover nodos individuales de un clúster a otro. Al repetir el movimiento y la agregación de nodos, el algoritmo de Lovaina puede encontrar grupos de alta calidad en poco tiempo. Desafortunadamente, sin embargo, este enfoque también conduce a una falla importante, que parece haber pasado desapercibida durante la última década.



A veces, un nodo funciona como intermediario o puente para el resto de su clúster. Sin ese nodo crucial, el clúster ya no estaría conectado. Dado que el algoritmo de Lovaina sigue moviendo nodos de un grupo a otro, en algún momento puede mover el nodo crucial a un grupo diferente, rompiendo así la conectividad del grupo original. Quizás sorprendentemente, el algoritmo de Lovaina no puede arreglar esta conectividad rota. La ruptura completa de la conectividad es lo peor que le puede pasar a un clúster. Es el ejemplo más extremo de un problema más general del algoritmo de Lovaina: el algoritmo puede producir grupos que están mal conectados y que deberían haberse dividido en varios grupos.

Algoritmo de Leiden


Solucionamos este problema del algoritmo de Lovaina en nuestro nuevo algoritmo de Leiden. De manera similar al algoritmo de movimiento local inteligente que se desarrolló previamente en CWTS, el algoritmo de Leiden puede dividir grupos en lugar de solo fusionarlos, como lo hace el algoritmo de Lovaina. Al dividir los clústeres de una manera específica, el algoritmo de Leiden garantiza que los clústeres estén bien conectados. Además, el algoritmo garantiza más que esto: si ejecutamos el algoritmo repetidamente, eventualmente obtenemos grupos que son subconjuntos óptimos. Esto significa que es imposible mejorar la calidad de los clústeres moviendo uno o más nodos de un clúster a otro. Esta es una propiedad fuerte del algoritmo de Leiden. Establece que los grupos que encuentra no están muy lejos de ser óptimos. Finalmente, en lugar de verificar continuamente para todos los nodos en una red si se pueden mover a un clúster diferente, como se hace en el algoritmo de Lovaina, el algoritmo de Leiden realiza esta verificación solo para los llamados nodos inestables. Como resultado, el algoritmo de Leiden no solo encuentra clústeres de mayor calidad que el algoritmo de Lovaina, sino que también lo hace en mucho menos tiempo.

En CWTS, utilizamos el algoritmo de Leiden para agrupar grandes redes de citas. El algoritmo de Lovaina necesita más de media hora para encontrar grupos en una red de aproximadamente 10 millones de artículos y 200 millones de enlaces de citas. El algoritmo de Leiden necesita solo un poco más de tres minutos para agrupar esta red. Además, cuando se ejecuta repetidamente, el algoritmo de Leiden encuentra fácilmente grupos de mayor calidad que el algoritmo de Lovaina.



¡Inténtalo tú mismo!

Esperamos que el algoritmo de Leiden resulte útil no solo para nosotros en CWTS, sino también para muchos otros investigadores tanto en estudios de ciencias cuantitativos como en ciencias de redes. Durante la última década, miles de investigadores han publicado artículos en los que utilizan el algoritmo de Lovaina. En el futuro, estos investigadores podrían emplear el algoritmo de Leiden.

Junto con el documento que presenta el algoritmo de Leiden, también hemos lanzado el código fuente Java del algoritmo en GitHub. Hemos hecho un gran esfuerzo para garantizar que el algoritmo sea fácil de usar para todos. Para los más inclinados técnicamente, hemos creado documentación técnica y comentarios de código. ¡Tome el código fuente, ejecútelo en sus propios datos de red y díganos qué piensa de él!

Nota del administrador: Ahora también está disponible como complemente de Gephi.

viernes, 20 de septiembre de 2019

VOSviewer ahora puede mapear la base de Microsoft Research

Mapeo de la ciencia usando datos académicos de Microsoft

Nees Jan van Eck, Ludo Waltman || CWTS






Uno de los desarrollos más emocionantes en los últimos años en el campo de la bibliometría es la aparición de una serie de nuevas fuentes de datos importantes. Dimensiones, creado por Digital Science y puesto a disposición abierta para fines de investigación, es un ejemplo destacado. Otros ejemplos son Crossref y OpenCitations, que proporcionan datos que están completamente abiertos. El lanzamiento de Microsoft Academic en 2016 también representa un desarrollo significativo. En esta publicación de blog, discutimos los datos disponibles por Microsoft Academic y mostramos cómo la versión más reciente de nuestro software VOSviewer puede usarse para crear mapas científicos basados en estos datos.


Microsoft Academic

Al igual que Google Scholar, Microsoft Academic combina datos obtenidos de editores académicos con datos recuperados al indexar páginas web. Sin embargo, a diferencia de Google Scholar, Microsoft Academic hace que sus datos estén disponibles a gran escala, tanto a través de una API como a través de la plataforma Microsoft Azure. Además, los datos se publican bajo una licencia de datos abiertos ODC-BY, que permite que los datos se utilicen bajo restricciones mínimas. Los datos académicos de Microsoft son, por ejemplo, utilizados por Lens, un sitio web cada vez más popular para buscar y analizar literatura y patentes académicas.

Por el momento, la comunidad bibliométrica solo tiene un conocimiento limitado de la cobertura de Microsoft Academic y de la integridad y precisión de sus datos. Un estudio de Anne-Wil Harzing publicado a principios de este año informa que en el campo de los negocios y la economía, Microsoft Academic tiene una cobertura mayor que Web of Science, Scopus y Dimensions. Del mismo modo, un estudio reciente realizado por un equipo de investigación en la Universidad de Curtin encuentra que Microsoft Academic supera a Web of Science y Scopus en términos de cobertura. Sin embargo, este estudio también informa que Microsoft Academic tiene datos de afiliación menos completos. También se han informado otros problemas con la calidad de los datos académicos de Microsoft, por ejemplo, relacionados con años de publicación incorrectos o nombres de revistas incorrectos (por ejemplo, vea esta presentación reciente de uno de nosotros).

En CWTS, actualmente estamos trabajando en una comparación a gran escala de la cobertura de las fuentes de datos bibliométricos, incluido también Microsoft Academic. Nuestro colega Martijn Visser ha desarrollado un algoritmo para hacer coincidir publicaciones en Microsoft Academic con las publicaciones correspondientes en Scopus. Los resultados provisionales para el período 2014–2017 muestran que Microsoft Academic cubre un número mucho mayor de publicaciones que Scopus (consulte la figura a continuación). Sin embargo, Scopus también cubre un número considerable de publicaciones que parecen faltar en Microsoft Academic. También descubrimos que para algunos contenidos cubiertos por Microsoft Academic y no por Scopus, la naturaleza académica puede ser cuestionada. Microsoft Academic, por ejemplo, cubre informes de bodas como este.


Mapeo de la ciencia

Debido a que vemos a Microsoft Academic como una fuente de datos prometedora para el análisis bibliométrico, ahora ofrecemos soporte para datos académicos de Microsoft en nuestro software VOSviewer para crear y visualizar mapas bibliométricos de la ciencia. En la versión más reciente del software, se pueden crear mapas de ciencia basados ​​en datos de Microsoft Academic. Después de obtener una clave API, los usuarios de VOSviewer pueden consultar Microsoft Academic. Los datos se recuperan a través de la API académica de Microsoft. Una característica importante de esta API es su velocidad. La API de Microsoft Academic es mucho más rápida que las API de muchas otras fuentes de datos.

El soporte de VOSviewer para los datos académicos de Microsoft se utilizó en un tutorial reciente de VOSviewer organizado como parte del Open Citations: Opportunities and Ongoing Developments en curso en la conferencia ISSI2019 en Roma. En este tutorial, los participantes, por ejemplo, utilizaron datos académicos de Microsoft para crear el siguiente mapa de coincidencia de términos basado en títulos y resúmenes de publicaciones en Journal of Informetrics.



Los participantes también crearon un mapa de la red de citas de publicaciones en Journal of Informetrics.



Curiosamente, los dos mapas anteriores no se pueden crear en función de los datos de Crossref, otra fuente de datos abierta compatible con VOSviewer. Elsevier, el editor de Journal of Informetrics, no pone resúmenes disponibles en Crossref, mientras que los resúmenes de publicaciones en revistas Elsevier están disponibles en Microsoft Academic. Del mismo modo, Elsevier no está dispuesto a apoyar la Iniciativa para Citas Abiertas, y las listas de referencias de publicaciones en revistas de Elsevier no están disponibles abiertamente en Crossref. Microsoft Academic pone a disposición estas listas de referencias. Esto ilustra algunas de las ventajas de Microsoft Academic sobre otras fuentes de datos abiertas.

Para obtener más ilustraciones de mapas científicos creados con VOSviewer basados ​​en datos de Microsoft Academic, nos remitimos a una reciente publicación de blog de Aaron Tay.

Próximos pasos

En los últimos años, hemos invertido un esfuerzo considerable en ampliar el rango de fuentes de datos bibliométricos compatibles con VOSviewer. El software ahora ofrece soporte para todas las principales fuentes de datos. Los próximos pasos en el desarrollo de VOSviewer incluyen abrir el código fuente del software y lanzar una edición del software basada en la web.

lunes, 4 de marzo de 2019

Estandarizando la forma de presentar visualizaciones de red


Un estándar para presentar visualizaciones de red.

| Reticular



Acabo de asistir a un examen sobre mapeo de controversias en la Universidad de Aalborg, donde, entre otras cosas, los estudiantes interpretaron visualizaciones de Gephi de diferentes tipos (relacionadas con la imagen de arriba). Había redes de páginas de Wikipedia sobre la crianza de los hijos. Los estudiantes fueron bastante buenos a pesar de los problemas comunes sobre cómo hablar de redes. El ejercicio es difícil, y no esperamos que la mayoría de los estudiantes lo dominen en el momento del curso (en este caso, 3 semanas a tiempo completo). Sin embargo, es cierto que, en mi opinión, existe una forma estándar de presentar la visualización de su red. Me di cuenta de que sería útil compartir mi opinión informada sobre cómo presentar su red.

Permítanme primero abordar dos posibles malentendidos.
  1. No se trata de tu método. Hay infinitas cantidades de diseños de investigación válidos que involucran la visualización de redes. No soy la policía divertida. No voy a discutir cuáles son buenas o malas.
  2. No se trata de evaluar la calidad del diseño. Ese es un tema muy válido, tengo mucho que decir al respecto y es algo crucial que me viene a la mente al leer algo como "el estándar de oro para la visualización de redes". Sin embargo, no es lo que quiero decir aquí.
Lo que quiero abordar en esta publicación es qué aspectos debe cubrir, en qué orden y, lo que es más importante, cómo debe cubrirlos. Si alguna vez se sintió perdido en un laberinto argumentativo al presentar su red, quédese conmigo.

Pero antes de comenzar a sugerir lo que debe decir y cómo, debo presentar lo que considero las cuatro capas clave de cualquier discurso en una visualización de red. Me tomaré el tiempo de detallarlos, por el momento solo mencionaré su existencia con la imagen de abajo. Si está familiarizado con el trabajo de Bruno Latour, puede reconocer una cadena de referencia. De lo contrario, comprenderá en el camino: la clave es reconocer las traducciones entre las capas.


Que deberias decir


Asumimos la situación clásica: estás presentando mapas de red hechos por ti mismo. Usted sabe todo lo que hay que saber sobre el proceso, desde la recolección hasta el refinado y la visualización. Tienes alguna experiencia en el tema. Su audiencia comienza con una pregunta muy abierta como "¿Puede decirnos de qué se trata?".

1. Declarar el propósito del trabajo.


Indique el tema primero, sus preguntas de investigación, si tiene alguna, y / o lo que intentó lograr.

Puede ser muy corto pero sigue siendo importante.

Nunca visualizamos una red por el simple hecho de visualizar una red. Siempre hay un motivo subyacente. Interpretar una red nunca es simple y usted y su público corren el riesgo de perderse en el proceso. Indicar hacia dónde te diriges proporciona una ayuda de bienvenida para orientarte.

2. Describe lo que traduce la visualización.


Explique de manera concisa el proceso que ha llevado a la visualización. Es una cadena con muchos pasos que requiere claridad. Use los términos apropiados y haga que cada paso lleve al siguiente explícito.

Hay dos estrategias válidas para narrar esto, dependiendo de la situación:
  1. Describa el proceso en un orden pseudo cronológico, desde la recolección hasta la visualización.
  2. Comience con el objeto físico (la hoja impresa, la pantalla ...) y vaya hacia su origen.

Elige lo que te haga sentir cómodo. Es posible que desee aprovechar esta ocasión para explicar el proceso, o lo ha hecho antes y desea ir directo al punto. En ambos casos hay una serie de elementos que debe proporcionar.

Debe explicar los pasos clave del proceso y usar los términos apropiados para hablar sobre cada uno de ellos. Aquí usaré la estrategia número 2, es decir. para narrar los pasos a partir del objeto físico y de ir hacia arriba a través del proceso. Habría variaciones dependiendo de su diseño de investigación, solo asumiré la situación común descrita en la mayoría de los tutoriales de Gephi.

En pocas palabras, cada paso del proceso es una de las cuatro capas que introduje anteriormente. Cada capa está traduciendo la capa justo debajo, y el objetivo es hacer que cada traducción sea explícita.

Describe cómo la imagen traduce la red.


La imagen o mapa es el objeto físico que ofrece empíricamente a su audiencia para comprender su trabajo (junto con sus explicaciones, por supuesto). Debes explicar de dónde viene todo lo visible en la imagen. En un escenario típico esto sería, por ejemplo:
  • La imagen ha sido producida mediante la visualización de una red.
  • Los círculos están representando los nodos. Todos los nodos han sido representados.
  • Las líneas representan los enlaces. Todos los enlaces también han sido representados.
  • Los textos son etiquetas de nodos, solo mostramos los más importantes.
  • El tamaño de cada círculo representa el grado del nodo.
  • El color de cada ronda representa la categoría del nodo.
  • El grosor de una línea representa el ponderador del enlace.
  • El color de las líneas se ha establecido en un gris claro para evitar el exceso de saturación visual.
  • La colocación de los nodos se ha decidido mediante un algoritmo que analiza sus conexiones, sin considerar otros atributos como su categoría.
  • La leyenda precisa el código de color de las categorías de nodos y la escala del grosor del enlace.

Explica cómo funciona el diseño

El algoritmo de diseño debe ser explicado. En el caso de Force Atlas 2 y muchos otros, los puntos importantes son:
  • El diseño coloca los nodos solo en función de sus enlaces, ignora todos los atributos.
  • Funciona de forma iterativa al hacer que todos los nodos se rechacen entre sí y los nodos conectados se atraigan entre sí. Por diseño converge a un equilibrio que depende de las posiciones de inicio aleatorias.
  • La proyección resultante se dice isotópica: no tiene ejes específicos y se puede girar o voltear sin perder sus características. Se supone que se debe interpretar en términos de distancias relativas.
En caso de que se utilicen dichos ajustes, también merecen ser mencionados:
  • Gravedad: una fuerza adicional limita la propagación de los nodos, lo que genera un sesgo menor, pero permite optimizar el espacio durante la visualización.
  • Prevenga la superposición: la ubicación de los nodos se ha ajustado para que no se superpongan, lo que genera un sesgo menor pero optimiza la legibilidad durante la visualización.
Nota: no creo que valga la pena formalizar una capa adicional, aquí una proyección matemática a un espacio 2D, aunque sea lo que realmente hacemos.

Describe cómo la red traduce los datos de origen.

La red o grafo es la lista de nodos y la lista de enlaces utilizados como una estructura de datos en un software como Gephi. La red se traduce visualmente por la imagen, pero no es la imagen. De manera similar, a menudo traduce datos menos refinados, pero no es esa información.

Debes explicar qué representan los nodos y los enlaces. En otros términos, debe describir cómo se relacionan con los datos sin procesar (ver más abajo). Por ejemplo:
  • Los nodos representan palabras mencionadas al menos 10 veces, excluyendo una lista de palabras de parada (stop words).
  • Los enlaces representan co-ocurrencia, es decir, cuando aparecen dos palabras en el mismo documento.
  • El peso de los enlaces representa en cuántos documentos aparecen las palabras juntas.

Explicar cómo los datos de origen se refieren al mundo empírico.

Debe explicar de dónde provienen los datos de origen y cómo se seleccionaron. La elección de los datos para estudiar a menudo se deriva de un interés en algo preciso en el mundo empírico. Puede ser la paternidad, #blacklivesmatter, diseño nórdico ... Sea cual sea su tema o sus preguntas de investigación, proporcionó un marco interpretativo de los datos de origen, por ejemplo, porque ciertos elementos se utilizan como representantes para obtener información sobre su objeto de interés original.

Podría ser, por ejemplo, mencionar que estaba interesado en un tema relacionado con cuestiones de género, pero por razones prácticas tenía que ser lo suficientemente específico, lo que lo llevó a elegir el tema de la crianza de los hijos que ya se ha descrito en Wikipedia.

3. Interpreta tu mapa de red

Ahora que su audiencia sabe de qué se trata todo esto, puede analizar el contenido de su mapa de red. Su interpretación consistirá en una serie de afirmaciones que se basarán primero en la imagen y atravesarán las capas hasta el mundo empírico, si es posible.

Hay muchas formas de organizar tu interpretación. Puede consultar las sugerencias que Tommaso Venturini, Debora Pereira y yo hemos propuesto para el análisis visual de la red. No abriré esa discusión aquí. Lo único importante es la esencia de cualquier argumento de ese tipo: expone las características de la red que son visibles en la imagen y argumenta que estas características se originan en los datos de origen de una manera que permite decir algo sobre el mundo empírico. Este camino interpretativo es largo, lo sé. Lamentablemente, tal es la situación a la que te enfrentas. La ciencia es dura.

Siempre debe ser claro acerca de las traducciones cuando hace sus puntos. Este es el único truco. Ten éxito en esto, y dominarás la interpretación de la red. Hacer un buen punto tiene que ver con encontrar su camino a través de las capas. Aunque es difícil. Dedicaré el resto de este post a desglosar esa pregunta.

Como deberias decirlo

Pon atención al vocabulario.

El pan y la mantequilla de tus argumentos son las conexiones lógicas entre los muchos elementos que convocarás. Hay tanto que decir que ni siquiera lo intentaré. Sin embargo, siempre comienza con el uso del vocabulario adecuado. Esta pregunta es crítica aquí porque, como veremos, usar los términos apropiados es su mejor defensa contra las líneas argumentativas traicioneras que lo llevarán a un laberinto de falacias.

Cada capa tiene su vocabulario específico, comencemos revisando esto.

Imagen / mapa

El siguiente vocabulario es apto para describir la imagen:
  • Círculo, forma, línea, texto
  • Colores, claros, oscuros.
  • Gran pequeño
  • Cerca, lejos
  • Ocupado / denso / lleno / áreas ocupadas, agujeros, espacios en blanco
  • Centro, periferia (de la imagen, de una zona…).

NO LO USE para describir la imagen en sí: nodo, enlace, hipervínculo, página web ...

Red / grafo


El siguiente vocabulario es apto para describir la red:
  • Nodo, vértice
  • Arista, enlace, conexión
  • Peso del nodo / enlace, atributo, modalidad de un atributo
  • Grado, grado, grado superior, métricas de centralidad
  • Densidad (de un conjunto de nodos)
  • Vecinos, hojas (nodos con 1 vecino), huérfanos (0 vecinos)
  • Equivalencia estructural (tener los mismos vecinos)
  • Distancia geodésica (longitud del camino más corto)
  • Clusters (como el resultado de un algoritmo de clustering)
  • Modularidad (de un clustering)
  • ...

NO LO USE para describir la red: estar cerca o lejos, estar agrupado ...

A menudo querrá hacer conteos simples, como decir que un conjunto de nodos es grande, pequeño o mayor que ... Un conjunto de nodos puede ser un clúster, nodos donde el atributo X toma la modalidad Y, nodos de un grado de X o Más, vecinos de X ...

Fuente de datos


Este paso no siempre es solo un paso en el proceso y puede tomar muchas formas. El punto importante es que los datos siempre se han transformado: se han limpiado, filtrado, refinado ... Hay tantas posibilidades que no puedo ofrecer una visión general. Voy a elegir algunos ejemplos.

Si sus datos en bruto son páginas de Wikipedia, se aplica el siguiente vocabulario:
  • página web
  • Hipervínculo, enlace de hipertexto
  • En enlaces de texto, ver también enlaces.
  • ...

Si sus datos en bruto eran un conjunto de documentos en un análisis de co-ocurrencia:

  • Documento de texto
  • Párrafo, expresión, n-grama, palabra
  • Co-ocurrencia
  • Frecuencia de término
  • ...

Sus datos pueden provenir de una base de datos de patentes, de Twitter o Facebook, de una fuente cualitativa ... Cada uno de estos casos tiene sus propios tipos de objetos, relaciones y vocabulario.

NO LO USE para describir los datos en bruto: nodo, enlace, estar conectado, estar cerca, estar agrupado ...

Mundo empírico


El vocabulario que utiliza cuando se refiere al mundo empírico puede ser:
  • Personas, instituciones, actores,…
  • Libros, proyectos, ideas,…
  • Temas, ámbitos académicos, intereses,…
  • Amistad, apuntes, afinidades, ...
  • Grupos de pueblos, comunidad, cultura,…
  • Notoriedad, influencia, autoridad, relevancia, ...

Cuidado con las metonimias


En la práctica, usted quiere decir "el tamaño de los nodos" y no "el tamaño de las rondas". Bien, pero estás jugando con fuego. Si dominas el ejercicio, puedes usar todo tipo de atajos porque conoces los límites. Un oyente ingenuo puede tener la impresión de que la mayoría de los conceptos son intercambiables y que puede decir indistintamente línea, enlace, lazo o hipervínculo. Está muy mal. Los problemas son reales y puede que te engañes con argumentos falaces y con lógica circular.


"Esto no es un pipa"... Sea claro sobre lo que representa y lo que se representa

La línea para no cruzar se aclara al ver cómo entendemos una metonimia, una forma de hablar en la que nos referimos a algo utilizando un concepto diferente pero estrechamente relacionado. Por ejemplo, "jurar lealtad a la corona" se refiere al soberano y no al objeto físico, por supuesto. Podemos obtener el significado correcto porque no tendría sentido jurar lealtad a una corona literal. El contexto indica si la palabra es metafórica o literal, si hay una metonimia o no. Lo mismo se aplica a nuestros conceptos. En la medida en que los nodos no tienen un tamaño (son entidades de red abstractas), está claro que los "tamaños de nodo" se refieren a "el tamaño de las formas que representan los nodos". En ese sentido, el acceso directo es válido, pero sigue siendo complicado porque usamos la palabra nodo para referirnos a las formas, y este cambio peligroso es la forma en que ocurren los accidentes. La línea de no cruzar es cuando las metonimias se vuelven ambiguas.

Cómo te atrapas en el laberinto de la lógica circular

Primero dice "esos nodos están cerca", que solo puede entenderse como una metonimia para "aquellas formas que representan nodos están cerca", luego dice "por lo que forman un grupo" y ya está pisando el límite prohibido. Como profesor, a menudo le pediré que aclare la ambigüedad, por ejemplo: “¿Puede precisar por qué forman un grupo?”. Ya que conoce el proceso, comprende que la colocación de nodos se debe al algoritmo de diseño, que es de hecho lo que espero. Sin embargo, en este punto, la confusión puede hacer que te adentres en el laberinto de la lógica circular, al responder algo como: "Es un grupo porque el algoritmo de diseño coloca los nodos cerca uno del otro". Bien podría explicar cómo funciona el algoritmo, pero no importa, ya es demasiado tarde. Te has atrapado en una falacia, ¿puedes ver por qué?

El argumento es circular porque establece que los nodos cerrados hacen que los clústeres y los clústeres hagan los nodos cercanos. Desafortunadamente, ser consciente de la circularidad realmente no ayuda. Por mi experiencia, sé que solo te das cuenta de que estás perdido cuando ya es demasiado tarde, si es que alguna vez lo haces. Evitar la falacia no se trata de reconocer la zona prohibida, se trata de no entrar en el laberinto. Se trata de tener una práctica que nunca te ponga en riesgo.

¿Cuál es la práctica segura? En primer lugar, es utilizar el vocabulario adecuado. Pero no puedo ganar la lucha contra la naturaleza humana y hacer que dejes de usar atajos. Así que la práctica segura es sobre el uso de protecciones. Siempre revise la capa donde su argumento es válido. La entrada al laberinto de la lógica circular es donde las metonimias confusas dan lugar a argumentos con desajuste de capas. Pero el desajuste de capas también puede llevar a formas menos dramáticas de malos argumentos que pueden ser muy perjudiciales para usted a pesar de su bajo perfil. Veremos cómo el control de capas ayuda a desacreditarlas.

Malos argumentos


Hay diferentes grados de argumentos erróneos, correspondientes a las diferentes formas en que puede fallar en hacer circular la cadena de referencia de una capa a la siguiente.

Tautología: atrapado en una capa.


El peor tipo de argumento es cuando no hay argumento. Una descripción simple que plantea como un punto. El pintalabios de la retórica sobre el cerdo de la trivialidad. Por ejemplo: "El clúster pro-vida se separa del clúster pro-elección manteniendo una distancia sensible". El argumento es circular: los grupos son distantes porque son distantes. Diagnóstico de este mal argumento como una falla completa para circular fuera de las dos capas superiores, la imagen y la red.



Puede desacreditar dicha declaración comprobando las capas. Hacer un punto implica varios pasos donde las características de una capa están relacionadas con la siguiente. Un argumento apropiado sería algo como esto:
  • Los nodos pro-vida y pro-elección aparecen distantes en la imagen.
  • Son distantes porque tienen pocas conexiones. Así es como funciona el algoritmo de diseño, pero también podemos ver que hay menos enlaces entre grupos que dentro de cada uno.
  • La mayor cantidad de aristas dentro de los grupos muestra que los actores tienden a conectarse con aquellos que son similares a ellos e ignoran a los que son diferentes.
  • Este comportamiento revela una oposición entre las dos comunidades.

Naturalización: saltando a conclusiones.

Un tipo de argumento malo pero menos malo es saltar sobre las traducciones, haciendo un punto incompleto. Llamo a esto "naturalización" porque saltar a conclusiones a menudo usa la retórica de la evidencia, como si la visualización fuera una manifestación natural del mundo empírico. Por ejemplo: "los pro-elección se agrupan, mostrando que comparten valores comunes". La conclusión es a veces cierta, pero la argumentación es pobre. Como profesor, me preguntaría de inmediato: "¿puede explicar por qué cree que un grupo de nodos implica compartir valores comunes?", Lo que le brinda la oportunidad de mostrar su capacidad para circular entre las capas o hacer que se dé cuenta de que está perdido. En el laberinto de la argumentación. Algunos estudiantes simplemente usan atajos, y cuando se les pide que descompriman su razonamiento, pueden hacerlo.

Una vez más, la práctica segura es verificar las capas involucradas. En este ejemplo, la proximidad pertenece a la capa de imagen (número 1). Compartir valores comunes pertenece al mundo empírico (número 4). Debes avanzar de capa en capa sin saltar sobre ninguna. Respetar el vocabulario ayuda a no confundir las capas:
  • La proximidad de la pro-elección en la visualización ...
  • ... proviene de la importante cantidad de enlaces entre los nodos ...
  • ... lo que revela que estos actores se conocen y se vinculan entre sí en la web.
  • Nuestra hipótesis es que podría ser porque comparten valores comunes.

En este ejemplo, el último punto no es muy convincente, y probablemente es simplemente falso. El formulario es válido pero no el contenido. Eso fue solo un ejemplo, pero sigue siendo cierto que la última traducción, desde los datos de origen al mundo empírico, es la más difícil. Desafortunadamente, también es el más importante.

Correr la ultima milla


Mi último consejo es correr siempre la última milla: sus argumentos deben llevar a conclusiones sobre el mundo empírico, aunque solo sea de manera hipotética. La razón por la que analiza los datos es porque quiere entender algo sobre el mundo y debe demostrar su capacidad para hacerlo.

No correr la última milla es el escollo más trágico porque solo le sucede a los buenos estudiantes, aquellos que llegaron lejos pero no pudieron derrotar al último jefe. La mala argumentación no lo lleva a la última milla, pero puede tener todos sus argumentos válidos y aun así no alcanzar la línea final.

No correr la última milla produce declaraciones analíticamente válidas pero solo sobre los datos. Por ejemplo, no mencionando la argumentación sino solo la conclusión:
  • … Por lo tanto, los sitios web gubernamentales ocupan los puestos centrales en el corpus de las ONG.
  • … Todas las ONG se citan en la web, excepto las asociaciones humanitarias.
  • ... los sitios web de la izquierda radical están bien conectados dentro de la esfera web de la izquierda, pero no forman un grupo, al estar mal conectados entre sí.

Esas afirmaciones pueden ser técnicamente válidas, no explican bien cómo se relaciona con el mundo empírico. El tipo de argumento que espero va un poco más allá, aunque solo sea en forma de hipótesis, por ejemplo:

  • ... posiblemente porque muchas ONG dependen de la financiación gubernamental, que a menudo requiere vincularse con las instituciones de financiación.
  • ... porque las asociaciones humanitarias compiten por las donaciones, lo que puede llevarlas a no citar a sus competidores.
  • ... a pesar de estar reunidos bajo la etiqueta común de "izquierda radical", estos actores no se reconocen entre sí y no forman una comunidad, posiblemente debido a divergencias ideológicas.

miércoles, 20 de febrero de 2019

Big Data sobre Linkedin: Flujos de migración laboral revelan el mercado laboral mundial

La red de flujo de trabajo global revela la organización jerárquica y la dinámica de los clusters geoindustriales en la economía mundial

Jaehyuk Park, Ian Wood, Elise Jing, Azadeh Nematzadeh, Souvik Ghosh, Michael Conover, Yong-Yeol Ahn





Los grupos de empresas a menudo logran una ventaja competitiva a través de la formación de agrupaciones geoindustriales. Aunque muchos grupos ejemplares, como Hollywood o Silicon Valley, se han estudiado con frecuencia, los enfoques sistemáticos para identificar y analizar la estructura jerárquica de los grupos geoindustriales a escala global son raros. En este trabajo, utilizamos las historias de empleo de LinkedIn de más de 500 millones de usuarios a lo largo de 25 años para construir una red de flujo de mano de obra de más de 4 millones de empresas en todo el mundo y aplicar un algoritmo recursivo de detección de comunidades de redes para revelar la estructura jerárquica de los clústeres geoindustriales. Mostramos que los grupos geoindustriales resultantes muestran una asociación más fuerte entre la afluencia de trabajadores educados y el desempeño financiero, en comparación con las unidades de agregación existentes. Además, nuestro análisis adicional de los conjuntos de habilidades de trabajadores educados complementa la relación entre el flujo laboral de trabajadores educados y el crecimiento de la productividad. Argumentamos que las agrupaciones geoindustriales definidas por el flujo de trabajo proporcionan una mejor comprensión del crecimiento y el declive de la economía que otras unidades económicas comunes.

viernes, 15 de febrero de 2019

Agrupamientos en redes familiares con NodeXL

Agrupamiento de NodeXL para los partidos de los parientes de mi mamá

Genes and Roots

Publiqué los resultados del agrupamiento de NodeXL de mi padre hace unas semanas (aquí). Como lo prometí, ahora estoy publicando los resultados del agrupamiento NodeXL de mi madre, centrándome en solo algunos de los aspectos más intrigantes (¿desconcertantes?). (Puedes leer un paso a paso sobre cómo usar NodeXL para agrupar tus coincidencias de Ancestry aquí, en el blog de Shelley Crawford).

Las coincidencias de mamá para este ejercicio de agrupación se limitaron a aquellas con 15 cM o más compartidas; simplemente se desordena si incluyo a todos hasta 6 cM.

También en la foto de abajo, he apagado la pantalla para todos los grupos con menos de 4 personas. (Los algoritmos de NodeXL se agruparán en grupos de dos, mientras que otros algoritmos como la herramienta de agrupación compartida de Jonathan Brecher usan tres como mínimo).



Veamos primero el "Grupo 13", el grupo en la parte inferior en azul marino que se ve como 2 grupos separados para mí. (No entiendo completamente cómo funciona el algoritmo). A continuación se muestra el grupo 13, ampliado y con los enlaces intergrupos desactivados, para que pueda ver el grupo de manera más detallada. Claramente, solo una coincidencia enlaza a las dos mitades de este grupo. Por lo tanto, no están relacionados tan estrechamente como uno podría pensar.



Las fotos adicionales a continuación confirman esa teoría. A la izquierda, "Cousin X" está resaltado; Puedes ver que "X" comparte una coincidencia con solo 2 personas (además de mi madre). A la derecha, se resalta "Primo B". "Primo B" solo coincide con otros en un subgrupo, y nadie en el otro subgrupo.



Otro grupo que se ve intrigante es uno de la prima de mi madre, "Sally Sue" (alias), que está bastante relacionada con mamá. (Se puede decir que está más estrechamente relacionada con mi madre por el tamaño del cuadrado azul. Estos partidos se parecen a un centro y radios. "Sally Sue" está en el centro con el cuadrado más grande; los otros están más relacionados con mi madre. (Aparte de eso, la opción de ajustar el tamaño de los cuadrados o puntos por la cantidad de cM compartida está disponible en la herramienta NodeXL, pero no es automática).

El grupo "Sally Sue", que se muestra a continuación con los enlaces externos eliminados, es uno en el que coincide con todas las personas de su grupo, pero cada una de ellas solo coincide con ella (o, no se muestra, al menos una persona en un grupo diferente).



El último grupo que es interesante se muestra a continuación. Esta prima, llamémosla Jane, parece estar en el grupo "incorrecto". Si bien tiene coincidencias en su propio grupo, tiene muchas más coincidencias en un grupo diferente.



Una razón por la que esto podría suceder es que Jane y mamá podrían compartir el ADN en, por ejemplo, el cromosoma 1 (posiblemente con otros en su grupo); los primos en el otro grupo podrían compartir el ADN con mamá en, digamos, el cromosoma 9, y luego compartir el ADN con Jane en el cromosoma 4. No lo sabemos con seguridad, ya que no tenemos información de segmento.

Sin embargo, desde que agrupé las coincidencias de mi madre en NodeXL y comencé el borrador de esta publicación, usé la herramienta de agrupación compartida de Jonathan Brecher, que agrupa a "Jane" con la agrupación donde tiene la mayoría de sus coincidencias.

A primera vista, eso tiene más sentido. Sin embargo, ver a "Jane" en un grupo separado (como se muestra a continuación) podría ser útil para darse cuenta de que puede estar conectada en un ancestral diferente a mi madre que la mayor parte de sus coincidencias. Esto sugiere que debo tener cuidado al analizar el árbol de Jane y los apellidos ancestrales, en relación con las coincidencias en el otro grupo.

De hecho, estoy descubriendo que es útil agrupar tus coincidencias de ADN compartidas con más de una herramienta, ya que cada una usa diferentes algoritmos. (Más sobre otros métodos de agrupación en una publicación posterior).

viernes, 8 de febrero de 2019

Redes de coautorías de economistas argentinos en un congreso principal

Redes de coautorías de economistas argentinos

Author(s):
Juan M.C. Larrosa , (Universidad Nacional del Sur, Bahia Blanca, Argentina and Instituto de Investigaciones Económicas y Sociales del Sur (IIESS), Altos de Palihue Bahia Blanca, Argentina)


Propósito

Este documento tiene como objetivo proporcionar información sobre la estructura del trabajo colaborativo entre las economías argentinas. El estudio proporciona investigación aplicada específica de análisis de redes sociales centrada en esta profesión en este país específico.

Diseño / metodología / enfoque

La contribución optó por aplicar herramientas de análisis de redes sociales a los documentos presentados en un congreso y publicados en sus actas. Los autores se centran en la detección de actores principales, grupos de coautoría, profesionales que actúan como puentes entre grupos y diferencias entre los géneros.


Recomendaciones

El documento proporciona información empírica sobre cómo ha evolucionado la coautoría entre los economistas argentinos. Los autores encuentran que las propiedades estructurales de la red, los principales actores, tanto hombres como mujeres, las principales universidades o el centro que los afilia, una brecha de género que podría estar cerrando.

Limitaciones / implicaciones de la investigación

El documento se centra en la red para el período 1964-2014 sin una dinámica más detallada. Tampoco explica los principales temas trabajados por los autores.


Implicaciones prácticas

El trabajo proporciona conocimiento sobre cómo se crean los grupos en Economía en Argentina, cómo ha evolucionado la cooperación y cuál ha sido el papel de las mujeres en este desarrollo. También muestra cómo diferentes departamentos y entidades colaboran con éxito diverso en la creación de nuevos conocimientos en Economía en Argentina.

Originalidad / valor

El documento trabaja con datos de una fuente de información no estudiada anteriormente y contribuye a explicar un tipo particular de trabajo colaborativo en una profesión en Argentina.



Juan M.C. Larrosa, (2019) "Coauthorship networks of Argentine economists", Journal of Economics, Finance and Administrative Science, https://doi.org/10.1108/JEFAS-06-2018-0062


miércoles, 10 de octubre de 2018

Sesgo de discurso mediate análisis de redes de texto

Medición del sesgo del discurso mediante el análisis de red de texto



Dmitry Paranyushkin
http://noduslabs.com
Towards Data Science

En este artículo, propongo un método y una herramienta para medir el nivel de sesgo en el discurso basado en el análisis de red de texto. La medida se basa en la estructura del texto y utiliza parámetros cuantitativos y cualitativos de un gráfico de texto para identificar qué tan sesgado es. Por lo tanto, puede ser utilizado por humanos, así como implementarse en varias API y AI para realizar un análisis de sesgo automático.

Sesgo: lo bueno y lo malo

El sesgo se entiende comúnmente como inclinación o prejuicio hacia un cierto punto de vista. Un discurso o texto que tiene un sesgo puede tener una determinada agenda o promover cierta ideología.

En la era de las "noticias falsas", el surgimiento de ideologías extremas y varias técnicas de desinformación es importante poder identificar el nivel de sesgo en el discurso: ya sean publicaciones en redes sociales, artículos periodísticos o discursos políticos.

El sesgo no es necesariamente algo malo. A veces puede hacer que una intención sea más fuerte, impulsar una agenda, hacer un punto, persuadir, disuadir y transformar. El sesgo es un agente de cambio, sin embargo, cuando hay demasiado de él, el sesgo también puede ser destructivo. Cuando medimos el sesgo medimos qué tan cargado ideológicamente es un texto, cuánto quiere expresar un cierto punto de vista. En algunos contextos, como ficción o discursos políticos muy cargados, un sesgo fuerte puede ser preferencial. En algunos otros contextos, como noticias o no ficción, un fuerte sesgo puede revelar una agenda.

Actualmente no hay herramientas que puedan medir el sesgo de un texto. Varias API de minería de textos clasifican los textos según su contenido y sentimiento, pero no hay instrumentos que puedan medir el nivel de inclinación hacia un cierto punto de vista en el texto. El instrumento y el método propuesto en este artículo pueden servir como el primer paso en esta dirección. La herramienta en línea de código abierto para el análisis de redes de texto que desarrollé ya puede medir el sesgo en función de esta metodología, por lo que le invitamos a probarlo en sus propios textos y ver cómo funciona. A continuación describo cómo funciona el índice de sesgo y algunos detalles técnicos.

La estructura del discurso como red dinámica.


Cualquier discurso puede representarse como una red: las palabras son los nodos y sus coincidencias son las conexiones entre ellos. El gráfico resultante traza las vías de circulación de significado. Podemos hacerlo más legible alineando los grupos de nodos que están más densamente conectados (algoritmo de atlas de fuerza) en los distintos grupos marcados con un color específico. También podemos hacer que los nodos más influyentes sean más grandes en el gráfico (los nodos con la centralidad de alta intermediación). Puede leer más sobre los detalles técnicos en este documento técnico sobre análisis de red de texto.

Por ejemplo, aquí hay una visualización de la charla de TED de Julian Treasure llamada “How to Speak So People Will Want to Listen”, realizada con este método. Si está interesado en ver el gráfico interactivo real, puede abrirlo aquí.





De este grafo podemos ver claramente que los conceptos principales son las nociones de
“people”, “time”, “world”, “listen”, “voice” etc.

Estos conceptos son las uniones para la circulación del significado en ese discurso en particular. Conectan las diferentes comunidades de nodos (designadas por distintos colores).

El algoritmo funciona de una manera que emula la percepción humana (siguiendo el modelo de lectura del paisaje, la idea de cebado semántico y también el sentido común): si las palabras se mencionan con frecuencia en el mismo contexto, formarán una comunidad en el gráfico. Si aparecen en diferentes contextos, se alejarán unos de otros. Si las palabras se usan con frecuencia para conectar diferentes contextos, aparecerán más grandes en el gráfico.

Como resultado, la estructura de un grafo de red de texto puede decirnos mucho sobre la estructura del discurso.

Por ejemplo, si el gráfico tiene una estructura de comunidad pronunciada (varias comunidades de palabras diferentes), el discurso también tiene varios temas distintos, que se expresan en el texto. En nuestro ejemplo tenemos al menos 4 temas principales:

people — listen — speak (dark green)
time —talk —register (light green)
world—sound—powerful (orange)
amazing—voice (pink)

Si analizamos otros textos de la misma manera, veremos que las estructuras gráficas resultantes son diferentes. Por ejemplo, aquí hay una visualización del primer capítulo de Quaran:


Visualización de la red de texto de Quaran realizada con InfraNodus. La estructura del gráfico es menos diversificada y más centralizada. Hay solo unos pocos conceptos principales, el discurso circula alrededor de ellos, el resto del texto apoya los conceptos principales.

Se puede ver que tiene una estructura de red diferente. Es mucho más centralizado y menos diversificado. Hay algunos conceptos principales:

“god”, “people”, “believe”, “lord”, “give”

y todo el discurso circula en torno a estos conceptos. Todas las otras nociones están ahí para apoyar las principales.

Realizamos un análisis similar con los discursos de inauguración de los presidentes de EE. UU. De 1969 a 2013 y visualizamos la forma en que su narrativa cambió con el tiempo:

US Presidential Inauguration Speeches 1969-2013 from Nodus Labs on Vimeo.

Visualización de los discursos de inauguración de los presidentes de los Estados Unidos realizados con InfraNodus (TNA) y Gephi (visualización). Se puede ver que con el tiempo la estructura se mantiene más o menos igual, sin embargo, los discursos de Obama parecen tener términos influyentes más distintos, lo que indica un discurso más diversificado.

Se puede ver que mientras la estructura del discurso se mantuvo más o menos igual a lo largo de los años, mientras que los conceptos enfatizados han cambiado con cada dirección. Esto puede indicar que la estrategia retórica se mantuvo igual, mientras que el contenido se ha transformado con los años. Los discursos de Obama parecen tener un mayor número de nodos influyentes distintos, lo que puede indicar un discurso más diversificado.

El sesgo como un conducto para la ideología en las redes


Ahora que hemos mostrado cómo el discurso se puede representar como una estructura de red, podemos discutir la noción de sesgo en el contexto de la ciencia de redes. Usaremos algunas ideas para la epidemiología para demostrar cómo la topología de la red afecta la velocidad y la propagación de la información a través de los nodos.

Una red se puede ver como una representación de las interacciones que ocurren a lo largo del tiempo, un diagrama de los rastros dejados por un proceso dinámico. Si estudiamos la topología de una red, podemos obtener una gran cantidad de información sobre la naturaleza de los procesos dinámicos que representa.

En el contexto de las ciencias sociales y de la atención médica, la información sobre la estructura de la red puede proporcionar información valiosa para la epidemiología: qué tan rápido se puede propagar una enfermedad (un virus, una opinión o cualquier otra (mala) información), qué tan lejos puede propagarse, qué es lo mejor. Las estrategias inmunológicas pueden ser.

Se ha demostrado (Abramson & Kuperman 2001; PastorSatorras & Vespignani 2001) que a medida que la estructura de una red se vuelve más aleatoria, su umbral epidemiológico disminuye. Las enfermedades, los virus, la desinformación pueden propagarse más rápido y a un mayor número de nodos. En otras palabras, como la estructura de la comunidad de una red es cada vez menos pronunciada y el número de conexiones aumenta, la red propaga información a más nodos y esta propagación se produce en oscilaciones altamente pronunciadas (infectadas / no infectadas).



Una figura del estudio de Abramson y Kuperman (2001) donde se muestra la fracción de elementos infectados (n) en relación con el tiempo (t) para redes con un grado diferente de trastorno (p). Cuanto mayor es el grado de desorden, más elementos se infectan, las oscilaciones se intensifican más y más, pero también el lapso de tiempo de la infección es relativamente corto.

Al mismo tiempo, cuando la estructura de la comunidad se pronuncia mientras la red está relativamente interconectada (red de mundo pequeño), los “bolsillos” de los nodos ayudan a mantener la enfermedad epidémica durante más tiempo en la red. En otras palabras, menos nodos pueden infectarse, pero la infección puede permanecer más tiempo (estado endémico).


Representación de estructuras de red: [a] aleatoria, [b] libre de escala (comunidades mejor pronunciadas) y, [c] jerárquica (menos conectividad global) (de Stocker et al. 2001)

En otro estudio realizado en varias redes sociales (Stocker, Cornforth y Bossomaier 2002) se ha demostrado que las redes jerárquicamente planas (es decir, desordenadas) no son tan estables como las que no tienen escala (es decir, las que tienen una estructura comunitaria más pronunciada ). En otras palabras, las jerarquías pueden ser buenas para pasar las órdenes, pero las estructuras sin escala son mejores para mantener una cosmovisión determinada.

Como podemos ver, no hay una topología de red que pueda considerarse preferencial. De hecho, depende de la intención, el contexto, la situación. En algunos casos, puede ser bueno si una red puede propagar información fácilmente a todos sus elementos relativamente rápido. En algunos otros casos la estabilidad puede ser más preferencial.

En general, la topología de una red refleja qué tan bien puede propagar la información, qué tan susceptible es a las nuevas ideas, si las ideas se apoderarán de toda la red solo durante un breve período de tiempo o permanecerán durante un período más largo.

El mismo enfoque se puede aplicar cuando estudiamos el sesgo. El supuesto aquí es que una red de discurso es una estructura que propaga ideas.

Si la estructura del discurso se centra en unos pocos nodos influyentes y no hay una estructura de comunidad pronunciada, significa que el discurso es bastante homogéneo y las ideas en torno a esos nodos se propagarán mejor que las ideas de la periferia. Designamos dicho discurso como parcializado.

Si, en el otro lado, una red de discurso consta de varias comunidades distintas de palabras / nodos (red de pequeño mundo sin escala) significa que hay varios temas distintos dentro del texto y cada uno de ellos recibe la misma importancia dentro del discurso. . A este discurso lo llamamos diversificado.

Una estructura de comunidad de red se puede identificar no solo de manera cualitativa mediante una visualización gráfica, sino también a través de la medida de modularidad (consulte Blondel et al 2008). Cuanto mayor sea la modularidad (generalmente por encima de 0,4), más pronunciada es la estructura de la comunidad.

Otro criterio importante es la distribución de la influencia (a través de las palabras / nodos más influyentes) en diferentes comunidades. Para que un discurso se diversifique, los nodos más influyentes deben distribuirse entre las diferentes comunidades. Utilizamos la entropía para medir la dispersión de influencia en el gráfico y tener esto en cuenta al identificar el nivel de sesgo. También verificamos si las comunidades principales incluyen un número de nodos desproporcionadamente alto, en cuyo caso el puntaje de diversificación disminuye y el número de componentes en el gráfico.

Por lo tanto, podemos identificar los tres criterios principales que podemos usar para identificar el nivel de sesgo en el discurso:
  • Estructura de la comunidad: cuán distintos son y el% de nodos que pertenecen a las comunidades principales;
  • Distribución de la influencia: cómo los nodos / palabras más influyentes se reparten entre los diferentes temas / comunidades gráficas;
  • Número de componentes del gráfico: cómo está conectado el discurso;

El índice de sesgo basado en la estructura del discurso

Sobre la base de las proposiciones y los criterios anteriores, proponemos el Índice de sesgo que tiene en cuenta la estructura del discurso y tiene cuatro parámetros principales:
  • Dispersado (sin sesgo)
  • Diversificado (sesgado localmente)
  • Enfocado (ligeramente parcial)
  • Sesgado (muy sesgado)

El primer valor, Dispersed, es un discurso que tiene una estructura de comunidad muy pronunciada (varios temas distintos) que no están muy bien conectados o tiene varios componentes (y, por lo tanto, ningún sesgo). Nuestras pruebas muestran que dichos gráficos se producen generalmente para poesía, notas personales, tweets esquizofrénicos y varios otros esfuerzos creativos. Por ejemplo, aquí hay una visualización del poema de Lord Byron "Darkness" (también puede consultar el gráfico interactivo en InfraNodus):


Visualización de la "Darkness" de Lord Byron realizada utilizando InfraNodus. La estructura del discurso se identifica como Dispersada (vea el panel de Análisis a la derecha) debido a la alta modularidad (0.68) y la alta influencia de la dispersión (las palabras más influyentes se difunden entre las diferentes comunidades y solo el 14% de las palabras están en la parte superior comunidad).

Como podemos ver en el gráfico, es bastante escaso visualmente y nuestra herramienta ha identificado la estructura del discurso como Dispersada porque la medida de modularidad es bastante alta (comunidades / temas pronunciados) y los nodos / palabras influyentes se distribuyen bastante equitativamente entre los temas principales (80 % de dispersión y solo el 14% de las palabras en la comunidad / tema superior). Si lees el poema mismo, verás que tiene un vocabulario bastante rico y que evoca muchas imágenes diversas, sin tratar de impulsar una agenda específica (quizás solo a través de medios poéticos, no retóricos).

El siguiente valor, Diversificated, es un discurso que tiene una estructura de comunidad pronunciada pero donde las comunidades están bien conectadas. Por lo general, indica un discurso que refleja varias perspectivas diferentes y les otorga una posición más o menos igual en el nivel global (sesgo local). Muchos artículos y charlas que tienen como objetivo presentar varios puntos de vista, notas de investigación, titulares de periódicos (tomados de una variedad de fuentes) y piezas de no ficción tendrán esta estructura. Por ejemplo, aquí hay una visualización de los titulares de las noticias (con teasers) del 4 de octubre de 2018 (vea la visualización interactiva aquí):


Visualización de los titulares de noticias y teasers (a través de RSS) realizada con InfraNodus para el 4 de octubre de 2018, tomada de NYT, WSJ, FT, The Guardian y Washington Post. Como podemos ver, la selección de noticias se clasifica como Diversificada, ya que la medida de modularidad es relativamente alta y, sin embargo, los temas también están relacionados entre sí. Las palabras más influyentes se reparten entre los principales grupos / comunidades tópicas, lo que indica que la selección de noticias fue bastante diversa.

Podemos ver que la estructura del discurso está clasificada como diversificada, lo que significa que hay varios temas distintos que se desarrollan dentro de este discurso y, sin embargo, están conectados a nivel global.
El tercer valor, Focused, indica un discurso que tiene un sesgo suave hacia un tema determinado. Por lo general, esto significa que el discurso presenta varias perspectivas, pero se enfoca en una sola, y lo desarrolla aún más. Las estructuras del discurso con el puntaje Enfocado son características de los artículos periodísticos, ensayos, informes, que están diseñados para proporcionar una representación clara y concisa de una idea determinada. Por ejemplo, aquí hay una visualización de las tres partes anteriores de este artículo:


Las tres secciones anteriores de este artículo se visualizan como un gráfico de texto utilizando InfraNodus. Podemos ver que la estructura del discurso está clasificada como Enfocada, lo que indica un ligero sesgo. La estructura de la comunidad está presente, pero no son muy distintas. Casi todas las palabras más influyentes se concentran en una comunidad / tema: "red / estructura / discurso" y luego hay un tema más pequeño con "texto / sesgo / medida".

Finalmente, el cuarto tipo de estructura del discurso es parcial, que es característico de los textos que tienen una estructura de comunidad baja o nula. Las ideas principales se concentran juntas y todas las otras nociones utilizadas en el texto están ahí para apoyar la agenda principal. Dicha estructura de discurso generalmente se puede observar en textos altamente ideológicos, discursos políticos y cualquier otro texto, que recurre a la retórica para persuadir a las personas a actuar. Por ejemplo, aquí hay una visualización de El Manifiesto Comunista:


Visualización de red de texto del Manifiesto comunista utilizando InfraNodus. La estructura de la comunidad no se pronuncia y las palabras más influyentes pertenecen a los dos temas principales y están altamente interconectadas. El resto del discurso está subyugado hacia la agenda principal (lucha de clases).

Epílogo

En este artículo, propuse una medida del sesgo del discurso en función de la estructura de la visualización de la red de texto y de varios parámetros que se pueden obtener a partir del análisis gráfico.

Es importante tener en cuenta que no afirmo (todavía) que las proposiciones que hice son científicamente sólidas. Un estudio completo sobre un corpus de datos mucho más grande está en camino (es bienvenido a unirse).

Mi experiencia muestra que este índice puede ser útil al estudiar textos y ya está implementado como una característica de trabajo en la herramienta de visualización y análisis de red de texto InfraNodus.

Por lo tanto, los invito a que lo prueben usted mismo y me envíen cualquier comentario, sugerencia y propuesta que puedan tener. Por favor, siéntase libre de dejar cualquier comentario aquí, estaría muy curioso de ver lo que piensa y cómo podemos desarrollarlo más. InfraNodus es una herramienta de código abierto, por lo que le invitamos a unirse e implementar cualquier propuesta que pueda tener como código.