domingo, 3 de diciembre de 2017

Pajek: Análisis y visualización de comunidades (2/2)

Visualizando Comunidades

Parte 2/2

Pajek

2. Visualizando comunidades usando 2D Pivot MDS

El algoritmo de diseño rápido Pivot MDS se implementa en Pajek 3.03 o posterior.
El Pivot MDS nos permite visualizar redes mucho más grandes que los springs embedders.
Redes que contienen aprox. 100.000 vértices se pueden visualizar en pocos segundos.

Secuencia de pasos en Pajek


Visualizando usando pivotes aleatorios (sin tomar en cuenta a las comunidades)


 Ejecute Layout/Pivot MDS/Random Pivots/2D para el diseño en un plano.
En el caso de redes grandes (y pantallas pequeñas), las comunidades obtenidas ocupan un área demasiado amplia. Podemos aplicar Options/Transform/Resize Cluster Area con un factor de tamaño menor a 1 (0.1 parece estar bien) para hacerlo más pequeño.

Diseño obtenido (25069 vértices, 100 pivotes aleatorios, tiempo necesario para calcular el diseño = 1 segundo)



Diseño obtenido (25069 vértices, 500 pivotes aleatorios, tiempo necesario para calcular el diseño = 15 segundos)




Diseño obtenido (25069 vértices, 500 pivotes aleatorios, líneas ocultas)




Diseño obtenido (25069 vértices, 500 pivotes aleatorios, líneas ocultas, ampliación)




Visualizar usando pivots computados (tomando en cuenta a las comunidades)


Pero podemos mejorarlo teniendo en cuenta las comunidades obtenidas por el método de Louvain. En lugar de tomar pivotes aleatorios, podemos usar representantes de las comunidades como pivotes. En nuestro caso, obtuvimos 500 comunidades, y podemos seleccionar aleatoriamente un vértice de cada comunidad para su representante:
Aplicar Partition/Make Cluster/Random Representatives of each Cluster en la partición de la comunidad obtenida.
Como resultado obtenemos un nuevo Cluster con 500 vértices (representantes de la comunidad).
Luego calcule el diseño ejecutando: Layout/Pivot MDS/Pivots from Cluster/2D
Finalmente aplique Options/Transform/Resize Cluster Area para reducir el área de clusters.

Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, tiempo necesario para calcular el diseño = 16 segundos)



Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, líneas ocultas)



Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, líneas ocultas, ampliación)





3. Visualizar comunidades usando 3D Pivot MDS


Descargar archivo de red de muestra (15606 vértices, 45878 enlaces).

Aplique

  • Layout / Pivot MDS / Random Pivots / 3D usando diferentes números de pivotes aleatorios
  • Layout/Pivot MDS/Pivots from Cluster/3D usando representantes de la comunidad como pivotes

Diseño 3D obtenido (15606 vértices, 5 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)




Diseño 3D obtenido (15606 vértices, 10 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)



Diseño 3D obtenido (15606 vértices, 100 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)




Diseño 3D obtenido (15606 vértices, 500 pivotes aleatorios, tiempo necesario para calcular el diseño = 8 segundos)




Diseño 3D obtenido (15606 vértices, 1097 representantes de la comunidad como pivotes, tiempo necesario para calcular el diseño = 35 segundos)

jueves, 30 de noviembre de 2017

Pajek: Análisis y visualización de comunidades (1/2)

Detectando comunidades con el método de agrupamiento de Louvain y VOS


Pajek

Detectando comunidades (Pajek y PajekXXL)


El algoritmo de detección de la comunidad de Louvain está disponible en Pajek y PajekXXL 3.02 o posterior.
A partir de la versión 3.04, la implementación ofrece el parámetro de resolución. De esta forma, los usuarios tienen control sobre el tamaño y la cantidad de comunidades encontradas (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
En esta versión, el algoritmo estándar de Louvain fue reemplazado por el algoritmo Multi-Level Coarsening + Multi-Level Refinement.

A partir de la versión 3.05 activada, se incluye el número de parámetro de reinicios. Eso permite ejecutar la optimización varias veces y seleccionar la mejor partición en todas las ejecuciones.

A partir de la versión 3.05, está disponible otro algoritmo de detección de comunidad (VOS Clustering). El uso es muy similar al uso del método de Louvain, por lo tanto, explicaremos el uso solo del método de Louvain. En Louvain, la modularidad del método se optimiza en VOS Clustering VOS quality. La comparación de los resultados obtenidos por ambos métodos se puede encontrar aquí.

Ambos algoritmos son muy rápidos y se pueden aplicar a enormes redes dispersas que contienen cientos de millones de vértices. Los valores de las líneas (si los hay) también se tienen en cuenta en ambos algoritmos.
Hay dos algoritmos disponibles (para más información, consulte: Algoritmos de búsqueda local multinivel para clústeres de modularidad):

  1. Multi-Level Coarsening + Single Refinement: realiza solo el refinamiento de la partición obtenida en el último nivel (la partición más grosera).
  2. Multi-Level Coarsening + Multi-Level Refinement - realiza iterativamente la fase de engrosamiento y refinamiento para cada nivel obtenido.

Secuencia de pasos en Pajek


  1. Descargue el archivo de red de muestra (25069 vértices, 62608 bordes) y cárguelo en Pajek / PajekXXL.
  2. Comience la búsqueda en la comunidad:  Network/Create Partition/Communities/Louvain Method
  3. Por lo general, se necesitan varios niveles. Pajek devuelve la mejor partición de acuerdo a todos los niveles.
    El número de conglomerados (NC) en niveles disminuye (los conglomerados más pequeños se fusionan con los más grandes en niveles posteriores).
    Por otro lado, aumenta la modularidad (Q) (o calidad VOS) de la partición (que se informa junto con la cantidad de clústeres).
    Pruebe el algoritmo con diferentes valores de parámetro de resolución (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
    Para encontrar soluciones tan buenas (y tantas) como sea posible en los vértices del algoritmo se tienen en cuenta de forma aleatoria. Debido a eso, el algoritmo generalmente arroja resultados diferentes en cada ejecución. Por lo tanto, se recomienda ejecutar el algoritmo con varios reinicios que seleccionan la mejor partición de todos los reinicios.
  4. Recomendación: Compare las particiones obtenidas en dos ejecuciones con el mismo parámetro de resolución (usando Partitions / Info / Cramer's V, Rajski, Adjusted Rand Index). Si la correlación de las dos particiones es pequeña, es probable que el número de comunidades no sea el correcto, por lo tanto, sugerimos probar el algoritmo con otro valor (más grande o más pequeño) de parámetro de resolución.
    En nuestro caso obtenemos los siguientes resultados para los valores del parámetro de resolución 1.00, 0.50 y 40.00 respectivamente:
    Resolution: 1.00. Modularity: 0.935506. Number of Communities: 166.
    Resolution: 0.50. Modularity: 0.938871. Number of Communities: 105.
    Resolution: 40.00. Modularity: 0.852442. Number of Communities: 500.

    La correlación entre las particiones obtenidas con el mismo valor de parámetro de resolución es la más alta para resolución = 40.00 (Cramer's V = 0.998) por lo tanto usaremos estas comunidades como las correctas (aunque la modularidad es la más pequeña para este valor de parámetro de resolución).
    Importante: la modularidad se puede usar solo para comparaciones de particiones obtenidas con el mismo valor de parámetro de resolución.
  5. Podemos ajustar el Maximum Number of Iterations in each Restart, Maximum Number of Levels in each Iteration (Número Máximo de Iteraciones en cada Reinicio, el Número Máximo de Niveles en cada iteración) permitida y el Maximum Number of Repetitions in each Level (Número Máximo de Repeticiones en cada Nivel) permitido. Los valores predeterminados (20, 20 y 50 respectivamente) funcionan bien para la mayoría de las redes.
    Tenga en cuenta que el primer nivel lleva la mayor parte del tiempo, los niveles posteriores se realizan muy rápidamente, especialmente si el número de clústeres identificados en el primer nivel ya es bajo según el número de vértices (el algoritmo se ejecuta en redes reducidas en niveles posteriores).
  6. Podemos usar Operations/Network+Partition/Info para calcular la modularidad de la red según la partición o la calidad de VOS de la partición. Se puede usar en cualquier partición (no solo en particiones obtenidas por el método de Louvain o VOS Clustering).
  7. En el caso de una red firmada (al menos un valor de línea es negativo) se llama una versión especial del algoritmo de Louvain (maximizando la suma de las líneas positivas positivas y minimizando las negativas dentro de las comunidades).
    Por otro lado, en VOS Clustring, todos los valores de línea se consideran positivos (se tienen en cuenta los valores de línea absolutos).

Visualizando Comunidades


1. Visualizar comunidades usando VOS Mapping y Spring Embedders

Si el número de comunidades y el tamaño de la comunidad más grande no son demasiado altos, podemos utilizar las comunidades obtenidas para obtener una imagen aproximada de toda la red.
Estimación: las redes con hasta 100.000 vértices se pueden visualizar si el número de comunidades no es mayor que 10000, y el tamaño de la comunidad más grande no es mayor que 1000 al mismo tiempo. Esta es solo una estimación aproximada que depende de la memoria de la computadora disponible y su velocidad también. Y, por supuesto, cuánto tiempo estamos listos para esperar;)
En nuestro caso tenemos aprox. 25,000 vértices, 500 comunidades y el tamaño de la comunidad más grande está por debajo de 80.
Para ver el tamaño de la comunidad más grande, podemos ordenar la partición obtenida en orden decreciente (Partition/Canonical Partition/with Decreasing Frequencies) y aplicar Partition/Info a la partición resultante (la primera comunidad es ahora la más grande).

Secuencia de pasos en Pajek

  1. Reducir las comunidades (Operations/Network+Partition/Shrink Network) y dejar respuestas predeterminadas cuando se solicite una entrada. Como resultado, obtenemos una red reducida donde los vértices representan a las comunidades y el valor entre dos comunidades representa el valor total de las líneas que conectan los vértices pertenecientes a las dos comunidades. También obtenemos un bucle para cada comunidad, el valor significa la suma de valores de línea dentro de la comunidad.
  2. Primero visualizaremos la red contraída obtenida. En esta red, los valores de las líneas son muy importantes (queremos que las comunidades que son más similares se acerquen entre sí). Por lo tanto, debemos usar algún algoritmo de diseño que tenga en cuenta los valores de las líneas como similitudes. El mapeo de VOS y el dibujo de energía son adecuados para este propósito:
    1. Corra VOS Mapping en el que los valores son line siempre se tienen en cuenta (como similitudes).
    2. Si queremos aplicar el dibujo de energía, primero debemos verificar las Options/Values of Lines/Similarities (en la ventana Draw). Luego ejecuta cualquier dibujo de energía, p. Fruchterman-Reingold (recomendado) o Kamada-Kawai.
Como resultado, obtenemos un diseño de conexiones entre las comunidades.

Red encogida (500 comunidades)


3. Ahora aplicamos las coordenadas de la red contraída a toda la red. Para hacer eso:
- seleccione la red encogida (500 vértices) como la primera red,
- seleccione la red original (25069 vértices) como segunda red,
- seleccione la partición utilizada para la reducción (con dimensión igual a la red original, 25069 en nuestro caso).
Luego ejecute: Networks/Shrink Coordinates (First to Second)/Partition.
En el diseño resultante, los vértices que pertenecen a la misma comunidad se dibujan distribuidos aleatoriamente cerca de su vértice reducido.
Antes de dibujar una red de tal tamaño, es posible que primero necesite aumentar la red más grande que Pajek está dispuesto a dibujar utilizando: Options/Read-Write/Max Vertices to draw

Disposición obtenida (25069 vértices)


4. Puede dibujar vértices dentro de las comunidades también en círculos (Layout/Circular/UsingPartition). Si los círculos son demasiado grandes o demasiado pequeños, puede cambiar su tamaño usando Options/Transform/Resize Cluster Area.

5. Ahora permitamos optimizar vértices y líneas dentro de clusters solamente.
Nuestra red original no está ponderada (todos los valores de línea son 1), por lo tanto, primero le ordenamos a Pajek que no tenga en cuenta los valores de las líneas durante la optimización: Options/Values of lines/Forget 
(La optimización sin tener en cuenta los valores de línea es mucho más rápida, especialmente Kamada-Kawai).
Para optimizar los vértices y las líneas dentro de los clusters solamente, use Layout/Energy/Kamada-Kawai/Optimize Inside Clusters only
Ahora debemos esperar hasta que el contador en la esquina superior derecha de la ventana Dibujar alcance la cantidad total de comunidades.
En la imagen obtenida puede acercar seleccionando un rectángulo con el botón derecho del mouse.
Si los vértices dentro de los conglomerados están demasiado cerca o muy lejos ('nubes' demasiado pequeñas o demasiado grandes) puede cambiar el tamaño del área de los conglomerados utilizando Options/Transform/Resize Cluster Area.

Diseño final (25069 vértices)


6. En el caso de redes grandes, es mejor eliminar líneas y mostrar solo vértices para ver 'nubes'.
Para hacerlo, desmarque Options/Lines/Draw Lines/Edges.

Diseño final sin líneas (25069 vértices)


Diseño final sin líneas (25069 vértices, ampliado):




Diseños finales en EPS o SVG sin líneas (25069 vértices)

lunes, 27 de noviembre de 2017

Analizando las redes del Boston colonial con Mathematica

Analizar las redes sociales de los revolucionarios de Boston con el lenguaje de Wolfram

Swede White, Especialista en Medios y Comunicaciones
Wolfram Blog




A medida que se acerca el 4 de julio, muchos en América celebrarán 241 años desde que los fundadores de los Estados Unidos de América firmaron la Declaración de Independencia, su propia y revolucionaria empresa revolucionaria. Antes de la independencia, los colonos celebraban el nacimiento del rey. Sin embargo, después de la Guerra Revolucionaria estalló en abril de 1775, algunos colonos comenzaron a celebrar funerales simulados del Rey Jorge III. Además, las hogueras, los cañonazos festivos y el fuego de mosquetes y los desfiles eran comunes, junto con las lecturas públicas de la Declaración de Independencia. También había ron.
Hoy, a menudo celebramos con barbacoa, fuegos artificiales y una serie de otras festividades. Como aspirante a nerd de datos y sociólogo, pensé que usaría Wolfram Language para explorar la Declaración de Independencia usando un procesamiento básico del lenguaje natural.
Usando metadatos, también exploraré una red política de colonos con especial atención prestada a Paul Revere, utilizando las funciones integradas de Wolfram Language y la ciencia de redes para descubrir algunas verdades ocultas sobre el Boston colonial y sus actores clave antes de la firma de la Declaración de la independencia.

La Declaración de Independencia y el repositorio de datos de Wolfram

Wolfram Data Repository se anunció recientemente y contiene una creciente colección de recursos interesantes para resultados fácilmente computables.




Da la casualidad que el repositorio de datos de Wolfram incluye el texto completo de la Declaración de Independencia. Exploremos el documento con WordCloud, tomándolo primero del Repositorio de Datos.



Interesante, pero esto no es muy patriótico por tema, así que use ColorFunction y luego use DeleteStopwords para eliminar a los firmantes del documento.



Como podemos ver, Wolfram Language ha eliminado los nombres de los firmantes y ampliado las palabras en función de su frecuencia en la Declaración de Independencia. Lo que destaca es que las palabras "leyes" y "personas" aparecen con mayor frecuencia. Esto no es terriblemente sorprendente, pero echemos un vistazo al uso histórico de esas palabras usando la funcionalidad incorporada de WordFrequencyData y DateListPlot para la visualización. Siguiendo con un tema patriótico, usemos también PlotStyle para hacer que la trama sea roja y azul.




Lo que es increíblemente interesante es que podemos ver un pico de uso alrededor de 1776 en ambas palabras. La divergencia entre el uso de las dos palabras a lo largo del tiempo también me parece interesante.

Una red social de Boston colonial

Según los textos históricos, el Boston colonial era un lugar fascinante a fines del siglo XVIII. La monografía de David Hackett Fischer, El viaje de Paul Revere, presenta una imagen completa de las facciones políticas que estaban impulsando el movimiento revolucionario. De particular interés son las logias masónicas y grupos de caucus que fueron políticamente activos y centrales para la Guerra Revolucionaria.
Aquellos de nosotros que crecimos en los Estados Unidos probablemente recordaremos a Paul Revere de nuestras primeras clases de historia en Estados Unidos. Él famoso cabalgó un caballo a través de lo que ahora es la gran área de Boston advirtiendo a la milicia colonial de las tropas británicas entrantes, conocido como su "paseo de medianoche", notablemente capturado en un poema de Henry Wadsworth Longfellow en 1860.
Hasta la exploración de Fischer de las asociaciones políticas y membresías de las bancadas de Paul Revere, los historiadores argumentaron que el movimiento rebelde colonial estaba controlado por élites políticas de alto rango lideradas por Samuel Adams, y muchos concluyeron que Revere era simplemente un mensajero. Eso era, pero a través de ese mensaje y otras actividades, fue clave para unir grupos políticos que de otro modo podrían no haberse comunicado, como mostraré a través del análisis de redes.
Da la casualidad que esta vez el año pasado estuve en la Wolfram Summer School, actualmente en curso en Bentley University. Uno de los aspectos más destacados de mi tiempo fue una conferencia sobre análisis de redes sociales, dirigida por Charlie Brummitt, que utilizó metadatos para analizar rebeldes coloniales en Boston.
El sociólogo de la Universidad de Duke, Kieran Healy, tiene una fantástica publicación en el blog que explora el tema "Uso de metadatos para encontrar a Paul Revere" de la cual se deriva la conferencia. Voy a recrear algunos de sus análisis con Wolfram Language y llevar las cosas un poco más allá con visualizaciones más avanzadas.

"Recuerda a las mujeres"

En primer lugar, sin embargo, como sociólogo, mis estudios e investigaciones a menudo se refieren a las desigualdades, el poder y los grupos marginados. Sería negligente si no hubiera pensado en la correspondencia de Abigail Adams con su esposo John Adams el 31 de marzo de 1776, en la que ella le instruyó a "recordar a las damas" en las actas del Congreso Continental. Hice una WordCloud de la carta aquí.



Los datos que estamos utilizando se refieren exclusivamente a hombres y datos de membresía de organizaciones sociales y políticas exclusivamente masculinas. Vale la pena señalar que durante el período Revolucionario, y durante bastante tiempo después, a las mujeres se les prohibió legalmente participar en la mayoría de los asuntos políticos. Las mujeres podían votar en algunos estados, pero entre 1777 y 1787, esos derechos fueron despojados en todos los estados excepto Nueva Jersey. No fue hasta el 18 de agosto de 1920 cuando se aprobó la 19ª Enmienda, lo que garantizó el derecho de las mujeres a votar de manera inequívoca.
Con ese fin, según el derecho consuetudinario inglés, las mujeres eran tratadas como fem encubiertas, lo que significaba que los derechos de las mujeres casadas eran absorbidos por sus maridos. No solo no se les permitía votar, las leyes de cobertura dictaban que el esposo y la esposa eran una sola persona, ya que el primero tenía la autoridad exclusiva para tomar decisiones políticas, así como la capacidad de comprar y vender propiedades y ganar salarios.
Después de la Revolución Americana, Estados Unidos estuvo libre de la tiranía del Rey Jorge III; sin embargo, las mujeres seguían estando sumisas a los hombres legal y culturalmente. Por ejemplo, Hannah Griffitts, una poeta conocida por su trabajo sobre las Hijas de la Libertad, "The Female Patriots", expresada en un diario de 1785, sentimientos de entrada comunes entre muchas mujeres coloniales:
The glorious fourth—again appears
A Day of Days—and year of years,
The sum of sad disasters,
Where all the mighty gains we see
With all their Boasted liberty,
Is only Change of Masters.
Hay pocas dudas de que sin el trabajo doméstico y emocional de las mujeres, a menudo invisible en la historia, estos hombres, los llamados Padres Fundadores, habrían sido menos exitosos y expeditos en el logro de sus objetivos de independencia de Gran Bretaña. Así que hoy, recordamos a las mujeres, los marginados y los privados de derechos.

Grupos políticos del Boston colonial: obtención de datos y análisis exploratorio

Convenientemente, cargué una matriz de asociación limpia de miembros de grupos políticos en Boston colonial como ResourceObject para el Repositorio de Datos. Importaremos con ResourceData para proporcionarnos un buen marco de datos con el que trabajar.





Podemos ver que tenemos 254 colonos en nuestro conjunto de datos. Echemos un vistazo a los grupos coloniales rebeldes de los que Samuel Adams era miembro, ya que es conocido en la actualidad por ser un ingrediente clave en las celebraciones del 4 de julio, la cerveza.



Nuestros valores True/False indican membresía en una de las siete organizaciones políticas: St. Andrews Lodge, Loyal Nine, North Caucus, Long Room Club, Tea Party, Boston Committee of Correspondence y London Enemies.
Podemos ver que Adams fue miembro de cuatro de estos. Echemos un vistazo a las membresías de Revere.




Como podemos ver, Revere fue un poco más involucrado, ya que es miembro de cinco grupos. Podemos graficar fácilmente su membresía en estas organizaciones políticas. Para aquellos de ustedes que no están familiarizados con el funcionamiento de una red, los nodos representan a los agentes y las líneas entre ellos representan algún tipo de conexión, interacción o asociación.



Hay siete organizaciones en total, así que veamos cómo están conectadas destacando las organizaciones políticas como nodos rojos, con individuos conectados a cada nodo.




Podemos ver que Tea Party y St. Andrews Lodge tienen muchos más miembros que Loyal Nine y otros, que ahora exploraremos más a fondo en el nivel micro.

Red de personas en organizaciones políticas: cercanía y centralidad

Lo que hemos hecho hasta ahora es bastante macro y exploratorio. Analicemos detenidamente la conexión de cada individuo entre sí a través de la membresía compartida en estos diversos grupos. Esencialmente, estamos eliminando nuestros nodos de organización política y centrándonos en los colonos individuales. Utilizaremos Tooltip para ayudarnos a identificar a cada actor en la red.



Ahora usamos un método de red social llamado BetweennessCentrality que mide la centralidad de un agente en una red. Es la fracción de las rutas más cortas entre pares de otros agentes que pasan a través de ese agente. Dado que el actor puede intermediar información entre los otros agentes, por ejemplo, esta medida se vuelve clave para determinar la importancia de un nodo particular en la red midiendo cómo se encuentra un nodo entre pares de actores sin nada que se encuentre entre un nodo y otros actores.
Primero crearemos una función que nos permitirá visualizar no solo BetweennessCentrality, sino también EigenvectorCentrality y ClosenessCentrality.




Comenzamos con un breve código para BetweennessCentrality que utiliza la función ColorData definida para mostrarnos qué actores tienen la mayor capacidad para transmitir recursos o información a través de la red, junto con la información sobre herramientas que se definió previamente.



Y he aquí, Paul Revere parece tener una puntuación de interinidad mucho más alta que cualquier otra persona en la red. Significativamente, John Adams está en el centro de nuestro gráfico radial, pero no parece tener mucho poder en la red. Tomemos los números.





Revere tiene casi el doble del puntaje del siguiente colono más alto, Thomas Urann. Lo que esto indica es la importancia esencial de Revere en la red como intermediario de información. Como él es miembro de cinco de los siete grupos, esto no es terriblemente sorprendente, pero de lo contrario hubiera pasado desapercibido sin este tipo de investigación.
La cercanía La centralidad varía de la intermedia en que nos preocupamos por la longitud de la ruta a otros actores. Estos agentes que pueden llegar a un gran número de otros actores a través de trayectos cortos pueden diseminar información o incluso ejercer el poder de manera más eficiente que los agentes en la periferia de la red. Ejecutamos nuevamente nuestra función en la red y miremos a ClosenessCentrality para ver si Revere todavía se encuentra en la posición más alta.



Revere aparece clasificado como el más alto, pero no es tan dramático como su puntaje de intermediación y, de nuevo, John Adams tiene un puntaje bajo. Tomemos las medidas para un análisis posterior.



Como indica nuestra coloración del mapa de calor de los nodos, otros colonos no se quedan atrás de Revere, aunque sin duda es el mejor clasificado. Si bien hay otras personas importantes en la red, Revere es claramente el intermediario más eficiente de recursos, poder o información.
Una medida final que podemos examinar es EigenvectorCentrality,, que utiliza un algoritmo más avanzado y tiene en cuenta la centralidad de todos los nodos y la cercanía e incrustación de un actor individual entre los agentes altamente centrales.



Parece haber dos contendientes principales para la puntuación más alta del vector propio. Volvamos a calcular las medidas en una tabla para su examen.



Nathaniel Barber y Revere tienen puntajes casi idénticos; sin embargo, Revere todavía encabeza la lista. Tomemos ahora los cinco primeros puntajes de cercanía y creemos una red sin ellos para ver cómo podría cambiar la cohesión de la red.
.


Vemos un cambio bastante dramático en el gráfico de la izquierda con nuestros jugadores clave eliminados, lo que indica que aquellos con los cinco primeros puntajes de cercanía son bastante esenciales para unirse a estas siete organizaciones políticas juntas. Joseph Warren parece ser una de las pocas personas que puede actuar como un puente entre grupos dispares de conexiones. Básicamente, sería difícil que la información se distribuyera libremente a través de la red de la izquierda en oposición a la red de la derecha que incluye a Paul Revere.

Conclusión

Como hemos visto, podemos usar la ciencia de redes en la historia para descubrir o exponer ideas preconcebidas sobre la importancia de una figura en eventos históricos, según los metadatos de membresía grupal. Antes del análisis de Fischer, muchos pensaban que Revere era solo un mensajero, y no una figura importante. Sin embargo, lo que he podido mostrar es la importancia de Revere para unir grupos políticos dispares. Esto revela aún más que el movimiento Revolucionario fue pluralista en sus objetivos. En última instancia, la red estuvo unida por el desdén por la tiranía del rey Jorge III, las injustas acciones militares británicas y las políticas que llevaron a una sangrienta revuelta, no necesariamente una directiva descendente de las elites políticas.
Más allá de la historia, la ciencia de la red y el procesamiento del lenguaje natural tienen muchas aplicaciones, como descubrir agentes de información, recursos y poder, es decir, capital social ocultos. Uno puede imaginar fácilmente cómo esto podría ser útil para el marketing computacional o las relaciones públicas.
¿Cómo utilizará la ciencia de la red para descubrir ideas ocultas que de otra manera revolucionarán e interrumpirán su trabajo o sus intereses?

sábado, 25 de noviembre de 2017

Teoría de redes ayuda a lidiar con Big Data

La gran idea detrás de Big Data

ADAM FRANK  - National Public Radio



La teoría de redes tiene cientos de aplicaciones, dice el físico Adam Frank.



Matjaz Slanic / Getty Images / iStockphoto


En la primavera de 2009, el virus H1N1 / 09, conocido como "gripe porcina", dio el salto de los cerdos a las personas y comenzó a reclamar sus primeras víctimas.

Temiendo el comienzo de una pandemia mundial de gripe porcina, los aterrorizados funcionarios de salud comenzaron a planificar lo peor. La clausura de los principales aeropuertos del mundo se convirtió en la opción nuclear de su arsenal: la última esperanza para detener el virus llega a límites de contagio imparables.

Eso, sin embargo, fue antes de que dos científicos italianos demostraran que el encofrado del sistema de transporte aéreo podría retrasar el temido umbral epidémico por, como máximo, unas pocas semanas (mientras que también conduce al caos económico).

Los investigadores que proporcionaron esta información crucial no eran médicos sino físicos. Más importante aún, las matemáticas que implementaron fueron las mismas que usan diariamente los investigadores de los gigantes de "Big Data" como Facebook, Google y la NSA. También fue la misma matemática utilizada por científicos de todo el mundo que estudian el genoma humano, las eficiencias de las redes eléctricas verdes, la economía del comercio mundial y un centenar de otras aplicaciones. Era la matemática de un nuevo tipo de ciencia cuya promesa había que sopesar contra el lado oscuro de Big Data, con todas sus implicaciones para la vigilancia y el control.

Es una ciencia llamada teoría de redes.

Durante más de 400 años, la ciencia ha transformado el mundo una y otra vez al descubrir nuevas adiciones a su censo de "cosas". Los descubrimientos de gérmenes microscópicos, de campos electromagnéticos, de genes y de quarks nos introdujeron a jugadores nuevos e inimaginables en el escenario cósmico.

A medida que encontramos nuestro camino en un mundo conformado por Big Data, no es la gran cantidad de información que reunimos, sino las redes que iluminan las que son la más reciente adición al índice de cosas de la ciencia. Eso es lo que hace que las redes sean la gran idea detrás de Big Data.

Pero, ¿qué son las redes y cómo encajan en nuestra cultura basada en datos? Una red es solo una entidad donde las conexiones entre las partes son más importantes que las partes mismas. Todos tenemos una experiencia íntima con las redes en la red de relaciones personales que se expande de usted a sus amigos y sus amigos, y así sucesivamente - la red social Facebook lo hizo de manera explícita. Pero los genes de los que depende la vida también forman una red donde la expresión de un gen depende de la actividad de otros. Las cadenas alimentarias interconectadas en ecología son redes de múltiples depredadores que se alimentan de múltiples capas de presas. La cadena de comercio mundial también es una red donde el comercio representa conexiones entre negocios y naciones.

Las redes están en todas partes en la naturaleza y la sociedad. Pero antes de que las computadoras nos concedieran el poder de recopilar, almacenar y analizar cantidades astronómicas de datos, Big Data, estábamos ciegos ante su penetración y su poder para dar forma al mundo.

El laberinto parecido a un espagueti de rutas aéreas que se encuentra en la parte posterior de su revista de a bordo le da una pista visual de por qué las redes (en este caso, la red de transporte aéreo) son difíciles de estudiar. Representan una propiedad que los científicos llaman complejidad. Cuando todo está conectado con todo lo demás, eso es complejidad, y crea problemas perversamente difíciles.

Las redes y su complejidad desafían la inclinación de la ciencia por el reduccionismo, por dividir los fenómenos en partes más pequeñas. Pero al ver las redes en términos de sus propios elementos esenciales, los científicos todavía han encontrado una manera de abrazar su holismo inherente. No importa cuán complejo sea, cada red es solo una colección de nodos (es decir, puntos) y conexiones (líneas).

El poder de esta abstracción es algo que cada habitante de la ciudad ya entiende a través de los mapas de tránsito, como los del metro de Londres. Las estaciones se convierten en puntos vinculados por líneas que representan diferentes rutas de tren. En 1931, Henry Beck desarrolló los primeros mapas abstractos de la red de metro después de muchos intentos fallidos de combinar una representación del sistema del metro con la geografía real de Londres. Beck finalmente se dio cuenta de que la geografía no les importaba a los jinetes. Al tratar de llegar desde Liverpool St. a Gloucester Rd., Solo la arquitectura de los enlaces entre las estaciones es importante.

La geografía importa menos que la "netografía". Esta es una lección fundamental para todas las redes y el primer paso para reconocerlas como una entidad nueva y distinta para que la ciencia explore.

Kevin Bacon entiende netografía. En la década de 1990, el juego "Six-Degrees of Kevin Bacon" relacionó al actor con cualquier otro jugador de Hollywood basado en las películas en las que aparecía, y enlazaba con actores en común de las películas. El juego Bacon se originó a partir de famosos experimentos tempranos con redes sociales que muestran que estás conectado con cualquier otro ciudadano de EE. UU. en solo seis enlaces.

Explicar este fenómeno de "seis grados de separación" fue una de las primeras victorias de Network Theory. Utilizando las matemáticas para representar nodos y conexiones, científicos como Steven Strogatz descubrieron cómo unos pocos atajos (como personas que se reúnen al azar en un tren) permiten que las redes se conviertan en mundos pequeños (sí, ese es un término técnico). Estos accesos directos reducen enormemente la cantidad de saltos necesarios para ir desde cualquier lugar de la red a cualquier otro lugar. En ese sentido, "es un mundo pequeño" no es solo un coloquialismo. Es una ley universal de estas "cosas" llamadas redes, así como la gravedad es una ley universal de las cosas llamada materia.

Las redes del mundo real son tan complejas, sin embargo, que los modelos matemáticos abstractos por sí solos solo van tan lejos. Aquí es donde Big Data entra en la historia, con el rápido crecimiento de Internet en la década de 1990. Con cada clic entre páginas web, cientos de millones de personas comenzaron a establecer pistas que los científicos podrían utilizar para finalmente mapear el comportamiento real de redes complejas. Al explorar estos enormes conjuntos de datos, los investigadores encontraron sorprendentes nuevas leyes sobre cómo se comportan las redes del mundo real. Una clave fue el descubrimiento de nodos superconectados que llamaron "centros". El aeropuerto O'Hare es un centro súper conectado en la red de transporte aéreo, al igual que Andy Warhol era un centro neurálgico en la red de arte de la ciudad de Nueva York.

Utilizando la primera generación de Big Data de Internet, investigadores como el físico Albert-László Barabási de Northeastern descubrieron centros que controlan el comportamiento de todas las grandes redes, desde la regulación de proteínas hasta las páginas web.

"La naturaleza evolucionó la red metabólica para las células durante más de 4 mil millones de años", dice Barabasi, "pero esa misma arquitectura surgió en la World Wide Web después de solo una década".

Diferentes redes, mismas leyes.

El encanto esencial de la ciencia siempre ha sido la oportunidad de comprender el mundo en un nivel fundamental. Para físicos como yo, esto ha significado estudiar las entidades más básicas del mundo, como las partículas subatómicas. Pero suba más en la escala de estructuras del mundo, desde moléculas a células y sociedades, y las "cosas" se vuelven más complejas y, finalmente, imposiblemente difíciles de describir de esta manera. Nadie está lo suficientemente loco como para intentar predecir la respuesta social a un terremoto al describir los átomos en sus víctimas. Reducir el todo a sus partes tiene límites. La teoría de redes ofrece un camino diferente, y eso es lo que lo hace tan emocionante.

Ver el mundo a través de la lente de la teoría de redes ofrece a los científicos una poderosa perspectiva de arriba hacia abajo. Mantiene la promesa de que podríamos encontrar leyes elegantes y matemáticas para dominios como el comportamiento del cerebro o el movimiento de la sociedad, dominios que solían estar fuera del alcance de tales descripciones. La Teoría de la Red promete ideas de un tipo que antes eran imposibles, y ya está cumpliendo esa promesa de una manera que puede ofrecer asistencia real a un mundo plagado de más de 7 mil millones de habitantes.

Es Network Science que permite a Alessandro Vespignani, uno de los investigadores que condujo el innovador estudio H1N1, cumplir con el reto de los Centros para el Control y la Prevención de Enfermedades de predecir con precisión la extensión anual de los brotes de gripe. Dichas predicciones de gripe mes a mes, imposibles en el pasado, pueden permitirle a los CDC un mejor tiempo de producción y distribución de vacunas. El politólogo David Lazer de Harvard está utilizando ideas similares para desarrollar herramientas que supervisen el comportamiento de las redes de telefonía celular tras las emergencias como el atentado de Boston Marathon. Al observar cómo se ilumina la red durante un desastre, es posible atravesar la niebla de la confusión e identificar exactamente dónde deben responder los primeros en responder a sus recursos. El rápido desarrollo de la comprensión de las redes también ha permitido a biólogos como Neo Martinez en la Universidad de Arizona, mapear la respuesta de todo un ecosistema al colapso de una sola especie. Los resultados de Martínez tienen la promesa de manejar con precisión las pesquerías frente al cambio climático y el agotamiento de los recursos con una agudeza que puede poner orden a su complejidad perversa.

Como científico, es imposible ignorar la perspectiva verdaderamente revolucionaria. La Teoría de la Red se abre no solo al mundo natural (el dominio tradicional de los físicos) sino también al mundo que hemos creado: el orden social y las tecnologías de las que depende. Pero como ciudadano, estoy profundamente preocupado por las implicaciones más oscuras inherentes a los recursos de Big Data en los que se basa esta nueva ciencia. Estamos obteniendo herramientas que pueden hacer que el mundo no solo sea menos humano, sino menos humano.

Sin embargo, equilibrar tales dualidades en una revolución científica no es nuevo. A finales del siglo XX, no sabíamos nada de los átomos o sus componentes. Penetrar en el mundo atómico nos llevó a las maravillas electrónicas diarias que ahora damos por sentadas. También nos permitió construir armas nucleares de inconcebible poder destructivo cuyo legado todavía nos persigue.

La teoría de la red es quizás la primera ciencia verdadera y universal que emerge de nuestra revolución digital. Nos ha dado una forma fundamentalmente nueva de comprender cómo se construye el mundo. Nos está mostrando que toda la vida existe en y a través de redes, cuya red de conexiones parpadea, parpadea y pulsa con energía e información.

A medida que se expanda ese conocimiento y se entiendan sus implicaciones, el miedo debe equilibrarse con una discusión informada.

sábado, 18 de noviembre de 2017

¿Por qué las mujeres economistas quedan rezagadas?

Esta es la razón por la que las economistas no están siendo reconocidas




Un oficinista con una bolsa de compras se refleja en el techo de un edificio en el centro de Sídney el 5 de febrero de 2013. REUTERS / Daniel Muñoz (AUSTRALIA - Tags: IMÁGENES DE BUSINESS TPX DEL DÍA) - GM1E9250X6201 En 2016, menos del 15% de todos los profesores de economía eran mujeres. Imagen: REUTERS / Daniel Muñoz


Michael E. Rose
Candidato a Doctor en Economía, Universidad de Ciudad del Cabo
World Economic Forum

Cuando se trata del éxito académico, las mujeres científicas están, en promedio, generalmente detrás de sus homólogos masculinos. Reciben la titularidad académica con menos frecuencia y ganan menos premios.

Esta brecha de género también existe en la disciplina académica de la economía. En 2016, menos del 15% de todos los profesores de economía eran mujeres.

Los datos que he recopilado y con los que trabajé durante mi doctorado muestran que las mujeres también son menos importantes en la red social de colaboración informal. Esto se refiere al proceso entre los académicos de proporcionar comentarios y ayudar a otros autores a mejorar su trabajo a través de comentarios y compromisos. Tales redes permiten el flujo global de conocimiento, que es crucial para la investigación.

Mi información sugiere que las actitudes de los hombres podrían ser parte de lo que impide que las mujeres en un subcampo de la economía ocupen una posición central en la red social de colaboración informal.

Menos mujeres

Los datos se centran en la economía financiera, el campo que se ocupa de las crisis financieras, la inflación, la banca y las finanzas corporativas.

El conjunto de datos contiene 14,529 investigadores cuyos nombres aparecen en artículos de investigación publicados en revistas de economía financiera importantes entre 1997 y 2011. Son autores, comentaristas reconocidos o ambos. Un comentarista reconocido es una persona que asesoró a los autores y ayudó a guiar o informar su pensamiento; su asistencia se anota en la sección de agradecimientos de cualquier artículo o libro de revista.

A lo largo de todos los años, solo el 18% de los autores son mujeres. Esta disparidad solo entre autores masculinos y femeninos ejemplifica la brecha de género. También es sorprendente que las mujeres comentaristas solo representen el 11% del total. Esto significa que los autores no recurren regularmente a las mujeres economistas para obtener asesoramiento.

Esta baja proporción de mujeres comentaristas y autores es problemática por dos razones. El primero es la falta de diversidad. El gobernador de la Reserva Federal de los Estados Unidos, Lael Brainard, reiteró recientemente por qué la diversidad es tan valiosa: ayuda a generar mejores ideas.

El segundo se relaciona con el rol que desempeña la colaboración informal en la red social de economía financiera como disciplina académica. Las personas intercambian información sobre conferencias, visitas en otras instituciones o llamadas telefónicas. Esta información incluye información sobre resultados no publicados, tendencias emergentes, nuevas ideas, conjuntos de datos prometedores y más. Hoy en día un investigador debe estar activo incluso antes de que se publique su investigación. Por eso es importante ser parte de la conversación.

Aquellos que no son centrales para tales redes (en el caso de mi investigación y datos, mujeres) tienen menos probabilidades de recibir información relevante que aquellos que ejercen una gran influencia: los hombres. Ellos quedan fuera de la conversación.

Una hipótesis estándar es que las mujeres establecen redes de manera diferente, y con menos eficacia, que los hombres. Existe evidencia anecdótica de que las mujeres evitan el trabajo en red por varias razones. Una es que las mujeres a menudo son menos seguras de sí mismas, piensan que su trabajo hablará por su competencia y que no se necesita publicidad.

Mis datos me permitieron probar, y desaprobar, esta hipótesis. Los agradecimientos nos dicen mucho sobre el comportamiento de redes, porque los autores también usan esta parte de un artículo para enumerar conferencias y seminarios en las universidades donde presentaron su investigación.


Como muestra esta figura, mis datos revelan que los artículos escritos solo por mujeres muestran una colaboración más informal por autor que los escritos exclusivamente por hombres. Un grupo de autoras, en promedio, presenta su artículo con más frecuencia y habla con más personas que un grupo de autores masculinos o un grupo de autores de género mixto.

Entonces, el problema no es que las mujeres tengan menos redes. En cambio, se conectan más. ¿Por qué, entonces, se los reconoce con menos frecuencia?

A las mujeres no se les pide consejo


Mis datos muestran que los autores masculinos, en promedio, no están pidiendo consejos a las mujeres o no están reconociendo el consejo que reciben de las mujeres. Esta podría ser una de las razones por las cuales las mujeres participan menos en las enredadas redes de investigación líderes en el mundo.

No sabemos en este momento por qué los hombres reconocen a las mujeres con menos frecuencia. Una explicación plausible es la actitud más amplia de los hombres hacia las mujeres en la sociedad y en el trabajo. Los estudios sobre las mujeres en el lugar de trabajo sugieren que los hombres perciben a las mujeres como menos creativas o que las mujeres tienen que trabajar mucho más que los hombres para ser consideradas igualmente competentes. Este podría ser el caso aquí también.

Un reciente artículo de Nature lo expresó muy bien: "Las mujeres no están fallando en la ciencia, la ciencia les está fallando a las mujeres". En nuestro caso, son los científicos hombres -economistas financieros- quienes están "fallando en las mujeres".

Este artículo se basa en una pieza que apareció originalmente en el blog profesional del autor.

martes, 14 de noviembre de 2017

Redes de críticas de la "Messa da Requiem" de Giuseppe Verdi

Experimentos con Gephi: visualizar relaciones en el corpus de texto #dhmasterclass



Torsten Roeder · Digital Humanities am DHIP

Antes de mí es una colección de artículos de periódicos históricos de 1874 a 1878, todos los cuales tienen que ver con la "Messa da Requiem" de Giuseppe Verdi (más sobre: ​​aquí). ¿Qué puede decirme una herramienta de visualización sobre este corpus de texto? Algunos experimentos con la herramienta de visualización de redes Gephi trajeron aspectos interesantes a la luz, especialmente en combinación con el conocimiento previo del corpus.


Cada nodo en la red representa un texto. Las flechas a continuación muestran menciones, citas o réplicas.

A menudo sucedía que los autores se citaban entre sí o (sin preguntar) el uno del otro copiaba. Extraje todas las referencias de los textos entre sí, que había codificado previamente en XML / TEI. Gephi genera una visualización de red que muestra algunos puntos clave: un informe correspondencia de Milán, dos textos francés de París, un texto de Viena, a continuación, un informe de Múnich de una revista de música y, finalmente, un texto de un Berliner Zeitung nacional. Una coincidencia une todos estos textos: fueron creados con motivo de las primeras representaciones en los respectivos países. Por sí solo, ya conocía estos puntos pero aún no los había considerado todos en un contexto.

En términos de contenido, las menciones son muy diferentes. En este caso, el interés por los aspectos de análisis históricos salido a la luz: El informe sobre el estreno de Milán para la Augsburger Allgemeine Zeitung (mayo de 1874) se menciona porque se llevó luego a un pequeño escándalo. El autor Hans von Bülow, un famoso director de orquesta y pianista, había sido tan impopular con su opinión despectiva ( "un triunfo de la barbarie romana") en Italia, que tuvo que abandonar a causa de peligro para la vida.


Informe de correspondencia de París en el Wiener Zeitung, 18.6.1874 (digitalizado por ANNO)

Los informes de París a la premier local (mediados de 1874), sin embargo, son significativos porque predeterminan algunas facetas de la recepción alemana más tarde: la crítica alemana fue más tarde se hizo cargo de la adopción de las críticas París grque Verdi annectirt la Mirum tuba del Réquiem de Berlioz " "Tener. El informe de la revista Wiener Extrablatt (mediados de 1875) es citado por la afirmación de que el Réquiem de Verdi era el "mayor creación musical del siglo": Este dictamen podría los otros críticos alemanes, además de apreciar las cualidades de composición de Verdi expresamente a no compartir.

Un aspecto completamente diferente se destacó en Munich: a finales de 1875, las dos primeras representaciones en el Reich alemán tuvieron lugar el mismo día en Munich y Colonia. Por lo tanto, el ponente Colonia contradijo la afirmación en el periódico musical en general que Munich había "adquirido gran mérito" que para tener primero realiza el trabajo en el Reich alemán. Por último, hubo varias menciones del informe en el Berlín Nacional-Zeitung: Después de innumerables críticas ya aparecieron, los informes contentan ahora con la nota que usted estuvo de acuerdo "en el Puncten esencial" con ese informe.

Para asignar el aquí señalado, sobre la base de puntos del grafo de red de las múltiples facetas de la recepción alemana: en primer lugar, la Bulow asunto y en el comentario Wiener que demuestran los límites extremos de la gama de puntos de vista (total oposición a la elevación total) y por lo tanto se wichitg como puntos de referencia , Por otro lado, sin embargo, la influencia de la crítica parisina y la lucha por el honor de la primera actuación también es evidente.


Cada nodo en la red muestra un lugar donde se ha publicado o informado. Los colores sirven como código de país.

Un segundo grafo visualiza la relación entre las ubicaciones de los informes (por ejemplo, París) y las ubicaciones de publicación (por ejemplo, en un Wiener Zeitung). Los colores indican los países. Se puede ver que hay cuatro "centros" relevantes en esta red: Leipzig, Viena, Berlín y París. Es sorprendente que la cobertura de las actuaciones en Italia (verde) fue casi exclusivamente a través de Viena. En Leipzig, una ubicación de muchas revistas de música, sin embargo, aparecieron mensajes del mundo en el extranjero. Berlín informó principalmente de las capitales europeas, así como de Prusia y Sajonia. París aparece en esta red como un punto de referencia común, que se ubica mucho más centralmente que el lugar de estreno en Milán.

Las imágenes me inspiraron a nuevas narrativas, ya que abrieron un nuevo acceso al material de investigación. En cualquier caso, los dos experimentos que he descrito aquí te invitan a continuar y profundizar.