sábado, 30 de junio de 2018

Análisis de hashtag italianos

#Censimento y #Salvinischedacitutti vistos con análisis de redes sociales

Dr Who


Ayer, Twitter ha introducido sus propios hashtags: #Censimento y, posteriormente, #Salvinischedacitutti. El tema es conocido. Analicé el fenómeno con el análisis de redes sociales, tomando datos en línea.
#Censimento y #Salvinischedacitutti: el patrón polarizado del análisis de redes sociales

La geografía relacional que emerge en el hashtag #Censimento se polariza: grupos de personas que discuten sobre el mismo tema, pero con diferentes puntos de vista.

Las discusiones polarizadas se caracterizan por dos grupos grandes y densos que tienen poca conexión entre ellos. Los temas que se discuten son a menudo altamente conflictivos y temas candentes o cuestiones políticas. En realidad, generalmente hay poca conversación entre estos grupos, a pesar del hecho de que están enfocados en el mismo tema. Esto significa que la gente no está discutiendo. Se ignoran mutuamente mientras apuntan a diferentes recursos web y usan diferentes hashtags.

#Census y #Salvinischedacitutti: datos y eventos

En el cuadro inmediatamente anterior, el grupo superior está formado por personas que están en contra del tema, y ​​viceversa, el grupo a continuación. Esta primera consulta de la red produjo 3652 nodos con 4662 informes.

En el transcurso del día, hacia la tarde, el hashtag #Salvinischedacitutti comienza a ser tendencia (probablemente para legitimar aún más una posición contraria al #Censimento). El patrón se repite. Preciso. El grupo en la parte superior está formado por personas que están en contra, y viceversa en el grupo a continuación. La consulta tomó 3198 nodos con 4012 informes.


La subida del hashtag #Salvinischedacitutti en detrimento del hashtag #Censimento no ha cambiado la sustancia de las conversaciones. Al analizar los datos que me permitieron construir al nuevo sociografista, surgieron algunos aspectos. En particular: el cluster inferior tiene dos muy grandes nodos: uno a la derecha tiene un valor de atractivo igual a 395, uno a la izquierda, un valor de 335. La salida "fuerza" está dada por su base seguidor potencial base: la primera tiene más de 49K y el segundo algo más de 11K. Pueden ser, por coherencia, considerados influyentes, pero no para acciones de segundo nivel por los conectores, de hecho, no vemos una viralidad porque la RT no generó el efecto de cadena. En el clúster superior, el nodo con la mayor fuerza potencial tiene poco más de 4K seguidor, extremadamente desequilibrado en términos potenciales y con una capacidad atractiva de solo 156.

#Salvinischedacitutti: la fuerza del hashtag

Durante la noche, el hashtag #Salvinischedacitutti mantuvo la tendencia principal de Twitter. I riscaricato datos y que tenía una confirmación del patrón polarizado, pero encontró que había una migración de conversaciones sobre: ​​la tasa de nudos presente nell'hashtag #Censimento superponen con los de #Salvinischedacitutti es igual a 62% . Esta migración ha fortalecido aún más las posiciones de las personas que se oponen a ella. La fecha al aplicar el algoritmo OpenOrd nos muestra perfectamente este refuerzo. La banda azul de la izquierda está formada por personas que se oponen al tema tiene diferentes interconexiones que van a las afueras de la gráfica, mientras que el otro grupo es "Castillo" sólo un par de probar el contenido, el hecho de no tener argumentos.



Al comparar a los sociólogos de los dos hashtags que estamos analizando, es claro que el patrón polarizado es una constante, y está claro que el grupo de personas opuesto al tema se fortalece en términos de interconexiones.

En la noche, alrededor de las 22:00, los volúmenes de las conversaciones han perdido fuerza, haciendo que el hashtag salga de la tendencia.

jueves, 28 de junio de 2018

Enfoque de 2 modos para análisis de redes socio-semánticas en Twitter


Análisis automatizado de redes de actores en Twitter: Nuevo enfoque para el análisis de redes socio-semánticas

Iina Hellsten, Loet Leydesdorff
ARXiv

Los datos de los medios sociales brindan oportunidades cada vez mayores para el análisis automatizado de grandes conjuntos de documentos textuales. Hasta ahora, se han desarrollado herramientas automatizadas para dar cuenta de las redes sociales entre los participantes de los debates, o para analizar el contenido de esos debates. Se ha prestado menos atención al mapeo de actores concurrentes (participantes) y temas (contenido) en debates en línea que forman redes socio-semánticas. Proponemos un nuevo enfoque automatizado que utiliza un enfoque de matriz completa de temas codirigidos y los actores. Mostramos las ventajas del nuevo enfoque con el análisis de un gran conjunto de mensajes de Twitter en inglés en la reunión de Río + 20, en junio de 2012 (72.077 tweets), y un conjunto de datos más pequeño de mensajes en Twitter en neerlandés sobre la gripe aviar relacionado con la avicultura en 2015-2017 (2,139 tweets). Discutimos las implicaciones teóricas, metodológicas y sustantivas de nuestro enfoque, también para el análisis de otros datos de redes sociales.


martes, 26 de junio de 2018

Curación de datos en Big Data


Cómo hacer curación de contenido con los datos

Dr. Who



El contenido es el rey: siempre lo escuchamos cuando hablamos de la cura del contenido. Producir contenido valioso es difícil, si no tenemos idea, es prácticamente imposible. El valor de un contenido puede tener múltiples significados. Una cosa es segura: además de su originalidad, debe reflejar la demanda del mercado; debe reflejar, es decir, lo que las personas buscan en la red. Los datos en la web pueden ayudarnos en este sentido y, una vez procesados, pueden brindarnos diferentes maneras de hacerlo.

Curación de contenido guiados por datos: Pasos operacionales

Comienza desde el tema: definido el tema es necesario para dibujar la arquitectura de análisis. La arquitectura de análisis no es más que un documento simple para registrar los principales elementos de nuestro análisis, como son: el lapso de tiempo a considerar, la identificación de los canales donde residen los contenidos, el análisis de la pregunta específica.

Estos cuatro elementos básicos se deben expandir de acuerdo con los hallazgos que proporciona el raspado de datos. Un elemento fundamental es tener un buen crowler para obtener los datos de partida sin procesar.

El tema que traigo como ejemplo, y cuyos datos se tomaron hace más de un año, es el de la salud digital. El período de tiempo considerado fue de 30 días. La elección de este tiempo ajustado se debe al hecho de que es necesario evitar la dispersión de la demanda: un tiempo ajustado asegura que los datos se recopilan de los eventos recientes.

El cuestionamiento de la red permitió extraer más de 1700 contenidos con un duopolio de canales en los que viajó este contenido. Los tweets y artículos en línea dividían, hace un año, los contenidos sobre el tema de salud digital.

A partir de esta información, es posible ampliar la estructura arquitectónica de nuestro análisis: extraer información de la web para realizar el análisis de extracción de texto y comprender la existencia de aspectos particulares; lleve a cabo el análisis de las conversaciones de twitter para comprender cómo se debatió el tema e identifique, si existieran, personas influyentes específicas.


Curación de contenido: análisis SERP


El análisis SERP nos permite identificar tanto la competencia existente sobre el tema, como los segmentos que lo componen. El enfoque es el del análisis de cola larga que muchos de ustedes conocen. El análisis de cola larga, sin embargo, no es el único tipo de actividad que se puede realizar en un SERP: una vez tomada, también se puede analizar a través del análisis de minería de texto, en particular en la dimensión de metadescripción. La metadescripción es uno de los elementos fundamentales que guían nuestra investigación al facilitar la elección de clikkare, o no, en uno de los diversos enlaces que nos devuelve una consulta en Google. Dado el tiempo y el tema, hace un año tomé unos 980 sitios (igual al 50% del SERP completo) con una opción aleatoria estratificada. La estratificación permite considerar diferentes grupos de agregaciones y tener una representación estadística.

Para evaluar la oportunidad de llevar a cabo el análisis minería de texto en profundidad, el primer indicador que vemos es el de la tabla Zipf: un gráfico denso nos muestra que los temas resumidos en la meta descripción se argumentan; hay algún material sobre el cual trabajar y avanzar con el análisis.

Curación de contenido: análisis de minería de texto


Las ideas que surgieron hace un año fueron muy interesantes: la mayor parte del contenido en línea se relacionó con artículos / publicaciones para personajes locales y esto ensucia la capacidad del análisis para resaltar el estado de ánimo subyacente.



Al eliminar estos aspectos, fue posible identificar dos macroconjuntos: uno relacionado con la identidad digital, el otro más específico sobre el tema de la innovación digital en el sector hospitalario (lado derecho del gráfico).

La lectura de los contenidos de los dos clusters identificados: 4 referencias web para el clúster de identidad digital y 10 referencias para el clúster de innovación digital.

Estos 14 sitios representan las fuentes relevantes para una primera identificación del estado de ánimo subyacente en un tema determinado. Al combinar estas instancias con la segmentación hecha con el análisis de la cola larga, tenemos excelentes indicaciones para identificar el área temática que queremos cubrir con nuestro contenido.

Curación de contenido: evaluación de tema con el SNA

Se recopilaron más de 728 conversaciones en Twitter y se encontró una red de 526 oradores que generaron más de 500 informes.

Al aplicar los indicadores estadísticos apropiados, se resaltaron algunos conglomerados de conversación. En particular:

  • Mercado de salud digital (clúster verde)
  • Innovación en asistencia sanitaria digital (racimo rojo)
  • Dossier electrónico (clúster negro)
  • Observatorio PoLIMI (grupo naranja)
  • Convención del observatorio digital (clúster central)



Los principales contenidos fueron extraídos de cada grupo individual.

Ambos análisis, aunque con matices obvios, confirman los conocimientos que se pueden utilizar en términos de datos de curación de contenido impulsados, lo que respalda tanto la demanda del mercado como las conversaciones relacionadas con ella. No solo eso: el análisis de redes sociales también nos permite identificar cuáles de los actores analizados son los mejores para "contactar" para compartir el contenido que vamos a crear.

domingo, 24 de junio de 2018

Maravilloso trabajo de campo con redes sociales de tribus de cazadores-recolectores

Cazadores-recolectores de Hadza, redes sociales y modelos de cooperación


por Artem Kaznatcheev | Theory, Evolution and Games Groups


En el corazón de la región de los Grandes Lagos de África Oriental se encuentra Tanzania, una república compuesta por 30 mikoa o provincias. Su frontera está marcada por los lagos gigantes Victoria, Tanganyika y Malawi. Pero el lago que más me interesa es uno interno: a 200 km de la frontera con Kenia en el cruce de mikao Arusha, Manyara, Simiyu y Singed está el lago Eyasi. Es un lago temperamental que se puede secar casi por completo, que se puede cruzar a pie, en algunos años y en otros, como en los años de El Niño, inunda sus riberas lo suficiente como para atraer hipopótamos del Serengeti.

Para los Hadza, es su hogar.

El número de Hadza es de alrededor de mil personas, y alrededor de 300 viven como cazadores-recolectores nómadas tradicionales (Marlow, 2002; 2010). Un estilo de vida que se cree que es un modelo útil de sociedades en nuestra propia herencia evolutiva. Un modelo empírico de particular interés para la evolución de la cooperación. Pero un modelo que requiere mucho más esfuerzo para explorar que ejecutar algunas configuraciones de parámetros en su computadora. En el verano de 2010, Coren Apicella exploró este modelo viajando entre los campos de Hadza en toda la región del lago Eyasi para obtener información sobre su red social y su comportamiento cooperativo.

Aquí hay un video resumen donde Coren describe su trabajo:




Los datos que recopiló con sus colegas (Apicella et al., 2012) proporcionan nuestro mejor proxy para la organización social de los primeros humanos. En este post, quiero hablar sobre el Hadza, el conjunto de datos de su red social, y cómo puede informar a otros modelos de cooperación. En otras palabras, quiero freeride en Apicella et al. (2012) y me permito a mí mismo y a otros teóricos explorar modelos computacionales informados por el modelo empírico Hadza sin tener que caminar por el Lago Eyasi por nosotros mismos.






Los Hadza viven en pequeños campamentos temporales de unos 30 individuos, con un promedio de 11.7 \ pm 6.0 adultos por campamento para los 17 campamentos en Apicella et al. (2012). [1] Dentro de los campamentos de cazadores-recolectores, incluido el Hadza, hay un intercambio de alimentos en todo el campamento (Marlowe, 2004; Gurven, 2004), de la responsabilidad del cuidado infantil (Henry, et al., 2005; Crittenden & Marlowe, 2008; Hill & Hurtado, 2009), y de las tareas diarias como la adquisición de alimentos, la construcción y el mantenimiento de espacios habitables, y el transporte de niños y posesiones (Hill, 2002). En un metanálisis multicultural de 32 sociedades de alimentación actuales, incluyendo Hadza - Hill et al. (2011) mostraron que sus campamentos tienen bajos niveles de parentesco cercano (generalmente menos del 10%; en el Hadza específicamente varía en promedio del 4.1% para un macho focal al 5.5% para una hembra focal) y experimentan un flujo constante de individuos entre campamentos. Como destacó Coren en el video anterior, los campos de Hadza son muy dinámicos, se reubican cada 4 a 6 semanas y algunas veces se disuelven o se fusionan con otros campamentos.

Sin embargo, este flujo de individuos entre los campamentos no es aleatorio. Los individuos tienen preferencias para compañeros de campamento y Apicella et al. (2012) midieron estas preferencias pidiendo a cada adulto que nominara a algunas otras personas que preferirían tener como compañeros de campamento para su próximo campamento. [2] En este estudio, los hombres solo nominaron a otros hombres y mujeres como mujeres, lo que resultó en dos grafos disjuntos con un total de 205 individuos (nodos) y 1263 candidaturas futuras (enlaces dirigidos) y alrededor del 46% de los enlaces entre los campamentos. Apicella et al. (2012) presentaron estos grafos en la figura 1c (y las nominaciones dentro de los campamentos en la figura S4). Dado que un paso importante para trabajar con datos es tener esos datos, preferiblemente en un formato amigable para la máquina, me enfoqué en esta figura. Aunque conocí a Coren Apicella una vez, no me sentí cómodo al enviarle un correo electrónico con sus datos en bruto, especialmente porque no tenía un propósito específico en mente, así que Marcel Montrey y yo extrajimos la matriz de adyacencia de la figura 1c mano. [3]


Grafo de la futura preferencia de compañero de campamento de Hadza, basado en datos de Apicella et al. (2012) El grafo de la izquierda es de mujeres y el grafo de la derecha es de hombres. Los nodos se dimensionan en proporción a su grado.

Pero, ¿qué vamos a hacer con estos datos? El primer paso de Apicella et al. (2012) fue comparar con otras redes o modelos de redes que a menudo discutimos. En comparación con una red aleatoria con el mismo número de enlaces y nodos, encontraron:
  • que la distribución de grados tiene colas significativamente más gordas,
  • diferencias en su grado de reciprocidad, con un Hadza siendo 37.6 a 51.4 veces más propenso a nombrar como compañero de campamento deseado a alguien que los haya nombrado como un compañero de campamento deseado,
  • asociatividad más alta de lo esperado entre el grado de ingreso y el de salida: los agentes que nombran más agentes también tienen más probabilidades de ser nombrados más ellos mismos.
  • homofilia en rasgos como edad, altura, peso, grasa corporal, fuerza de agarre y nivel de contribución en un juego de bienes públicos. [4]
Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Mi impulso de tener datos de redes sociales sobre cazadores-recolectores proviene de la aparente importancia y omnipresencia del estudio de la estructura espacial en los modelos matemáticos de la teoría de juegos evolutiva. La idea es eliminar al intermediario modelador de redes. En lugar de tratar de descubrir qué tipo de red son las familias como redes reales, y luego ejecutar juegos en esas familias, ¿por qué no ejecutar juegos directamente en redes observadas empíricamente? Lamentablemente, existe una tensión entre el tipo de redes que recolectan los antropólogos y los sociólogos, y el tipo de redes que modelan los teóricos de los juegos evolutivos. El enfoque típico de las redes en EGT es hacer que los enlaces del grafo determinen los pares de agentes que interactúan durante el juego y para la reproducción o la imitación. [5] Dado que generalmente consideramos juegos simétricos, generalmente también queremos grafos simétricos. [6] Entonces, un enfoque obvio es simétrizar la red Hadza diciendo que los agentes interactuarán simétricamente si cualquiera inicia, y que el "futuro compañero" es un sustituto de un amigo y la amistad es un sustituto de la interacción frecuente. Esto facilita la integración de la red Hadza en los modelos existentes, pero descarta nuestro conocimiento de cómo los Hadza realmente interactúan entre sí; que se encuentra principalmente en el nivel de un campamento.

En cambio, podríamos estructurar modelos usando los datos de Coren en términos de campamentos, y tener interacciones invisibles dentro de cada campamento. Desafortunadamente, si se permite que los campamentos crezcan o sobrevivan en proporción al rendimiento total (o promedio) de los campamentos, independientemente de las interacciones que elija para modelar, entonces habremos creado una selección de grupos en nuestros modelos. Si, en cambio, mantenemos fijos los campamentos, con migración única (sin pago) entre los campamentos, entonces estamos en un entorno similar a la teoría de conjuntos evolutivos de Tarnita et al. (2009). Este enfoque también puede promover la cooperación, pero de una manera más sutil que la selección directa en grupos. Luego, podemos usar el grafo de las nominaciones de compañeros de campamento futuros de campo cruzado de la figura suplementaria S4 como un grafo de migración. Imagine una dinámica en la que en cada paso del tiempo, se selecciona un ego al azar [7] y se le da la oportunidad de migrar al campamento, potencialmente el mismo campamento en el que ya están, de uno de los alteros que el ego nominó como preferida compañera de campamento futura. Además, periódicamente podemos disolver y luego reformar las redes de compañeros de campamento de acuerdo con las preferencias que Coren recopiló. Una manera podría ser (1) seleccionar egos al azar, (2) crear un nuevo campamento para ellos si aún no son parte de un campamento, y (3) dejarlos invitar a quienes deseen tener como compañeros de campamento a su campamento . Esto reflejaría que, aunque la migración o las visitas son muy comunes, los campamentos completos se mueven entre 6 y 12 veces al año; el número y tamaño de los campamentos también fluctúa a lo largo de la temporada, con menos campamentos más grandes formados durante la última estación seca y la estación húmeda cuando las bayas son comunes (Marlowe, 2002; 2010). Este enfoque nos permite usar la red social de Coren no como el grafo de interacción (y / o reproducción / imitación), sino como una meta-red que informa cómo actualizamos el grafo de interacción.

Los enfoques de los últimos dos párrafos difieren en la medida en que debe alejarse del conocimiento del dominio sobre los datos empíricos que se recopilaron y cuánto tiene que ajustar las herramientas de modelado existentes. El primero se integró mejor con el trabajo teórico sobre EGT, y el segundo con el trabajo empírico en antropología. Al final, la cantidad que ajuste sus herramientas o cuán lejos se aleja de los datos es una elección similar a encontrar su combinación preferida de herramienta-problema. Puedo verme a mí mismo utilizando la red simétrica como telón de fondo para proyectos existentes como la evolución de delirios útiles (Kaznatcheev, et al., 2014) y extendiendo la teoría de conjuntos evolutiva como base para un modelo más cercano al modelo empírico de Hadza. Te mantendré actualizado sobre ambos, querido lector.


Notas y referencias

  1. Aquí parece haber una variación significativa entre años o estaciones. Los datos utilizados por Hill et al. (2011), por ejemplo, informó 17 campamentos con un total de 406 adultos, por lo que alrededor de 23.9 adultos por campamento. No estoy seguro de qué hacer, si es que hay algo que hacer.
  2. Apicella et al. (2012) también construyó una red de regalos pidiendo a las personas que elijan recipientes para un total de 3 barras de miel. Los palos no se podían guardar, pero podría elegir enviar más de uno de sus palos a la misma persona, lo que da como resultado un gráfico dirigido ponderado. Muchas de las propiedades generales que analizo más adelante para la red campmate también fueron válidas para esta, pero la red en sí misma no se presentó explícitamente en el documento (o los materiales complementarios). Como no pude trabajar con él directamente, no lo discutí más en esta publicación.
  3. La representación abarrotada en la figura 1c y los errores en la transcripción introducen cierta discrepancia entre los números informados en Apicella et al. (2012) y los gráficos que recuperamos. En particular, nuestros gráficos tienen un total de 94 hombres y 97 mujeres, y 340 y 506 bordes en los gráficos masculino y femenino, respectivamente. Se trata de 14 personas y 417 candidaturas menos que las 205 personas y 1263 nominaciones que los autores informan. Por lo tanto, no use nuestro conteo como un conjunto de datos autorizado. Para mis propios fines, le pediré a Coren los datos brutos reales si encuentro una pregunta que creo que el modelado computacional puede responder.
  4. Mientras visitaba los campamentos, Coren contrató al Hadza en un juego de bienes públicos. Aunque los investigadores le han pedido al Hadza que juegue varios juegos económicos antes, generalmente el juego del ultimátum o dictador (por ejemplo, ver Henrich et al., 2001), esta era la primera vez que jugaban en el juego de bienes públicos. Las recompensas fueron en la miel, su comida más preferida (Marlowe y Berbesque, 2009), y se midió en barritas. Cada participante fue dotado con 4 palos de miel, y todos los que donaron para el bien público se multiplicaron por un factor de 3 y, después de que todos los compañeros de campamento adultos tomaran sus decisiones de contribución en privado, se distribuyeron entre todos los adultos en el campamento. Todos los campamentos tenían más de 4 residentes adultos.
  5. Por supuesto, también podemos seguir a Ohtsuki et al. (2007) y usa diferentes gráficos de interacción y reemplazo. Es más fácil justificar la red Hadza como un reemplazo por una red de imitación, diciendo que los bordes son vínculos de amistad; y usar la interacción de inviscid a nivel de campamento como lo analizo en el próximo párrafo. Por supuesto, si se adapta el enfoque completo de meta-red del siguiente párrafo, entonces la red Hadza se usa para actualizar los campamentos, pero la interacción y las redes de imitación pueden ser establecidas por la propia estructura del campamento invisible.
  6. Alternativamente, uno puede abrazar los bordes dirigidos modificando los modelos de la teoría del juego evolutivo y concentrándose en juegos no simétricos como el ultimátum o el dictador. Esto se conectaría con una gran literatura de economía conductual y antropología (como Henrich et al., 2001) y algunos estudios de modelado (como Nowak et al., 2000).
  7. Seleccionar egos al azar independientemente de su aptitud o estrategia es una simplificación potencialmente irracional. Cuando un Hadza deja su campamento, por alguna razón es como una disputa o escasez de recursos que puede estar estrechamente vinculada a la recompensa o estrategia de uno en las interacciones cooperativas. Afortunadamente, este tipo de estrategias de migración condicional ya están siendo exploradas por investigadores como C. Athena Aktipis (2004).

Aktipis, C.A. (2004). Know when to walk away: contingent movement and the evolution of cooperation. Journal of Theoretical Biology, 231(2): 249-260.

Apicella, C.L., Marlowe, F.W., Fowler, J.H., & Christakis, N.A. (2012). Social networks and cooperation in hunter-gatherers. Nature, 481 (7382), 497-501 PMID: 22281599

Crittenden, A. N., & Marlowe, F. W. (2008). Allomaternal care among the Hadza of Tanzania. Human Nature, 19(3): 249-262.

Gurven, M. (2004). To give and to give not: the behavioral ecology of human food transfers. Behavioral and Brain Sciences, 27(04), 543-559.

Harris, K.M., C.T. Halpern, E. Whitsel, J. Hussey, J. Tabor, P. Entzel, & Udry, J.R. (2009) The National Longitudinal Study of Adolescent to Adult Health: Research Design. [online].

Kaznatcheev, A., Montrey, M., & Shultz, T.R. (2014). Evolving useful delusions: Subjectively rational selfishness leads to objectively irrational cooperation. Proceedings of the 36th annual conference of the cognitive science society. arXiv: 1405.0041v1.

Marlowe, F. (2002). Why the Hadza are still hunter-gatherers. Ethnicity, huntergatherers, and the ‘Other’, ed. S. Kent, 247-81.

Marlowe, F.W. (2004). What explains Hadza food sharing? Research in Economic Anthropology, 23: 69-88.

Marlowe, F. W., & Berbesque, J. C. (2009). Tubers as fallback foods and their impact on Hadza hunter‐gatherers. American Journal of Physical Anthropology, 140(4): 751-758.

Marlowe, F.W. (2010). The Hadza: hunter-gatherers of Tanzania (Vol. 3). Univ. of California Press.

Nowak, M. A., Page, K. M., & Sigmund, K. (2000). Fairness versus reason in the ultimatum game. Science, 289(5485): 1773-1775.

Ohtsuki, H., Pacheco, J. M., & Nowak, M. A. (2007). Evolutionary graph theory: breaking the symmetry between interaction and replacement. Journal of Theoretical Biology, 246(4): 681-694.

Hill, K. (2002). Altruistic cooperation during foraging by the Ache, and the evolved human predisposition to cooperate. Human Nature, 13(1): 105-128.

Hill, K., & Hurtado, A. M. (2009). Cooperative breeding in South American hunter–gatherers. Proceedings of the Royal Society of London B: Biological Sciences, rspb20091061.

 

viernes, 22 de junio de 2018

Centralidad en redes ponderadas

Centralidad de nodo en redes ponderadas

Tore Opsahl


La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978; Bonacich, 1987; Borgatti, 2005; Borgatti et al., 2006). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Para ejemplificar su idea, utilizó una red que consta de 5 nodos. El nodo medio tiene tres ventajas sobre los otros nodos: tiene más vínculos, puede alcanzar a todos los demás más rápidamente y controla el flujo entre los demás. Con base en estas tres características, Freeman (1978) formalizó tres medidas diferentes de la centralidad del nodo: grado, cercanía e interdependencia. Grado es la cantidad de nodos a los que está conectado un nodo focal y mide la participación del nodo en la red. Su simplicidad es una ventaja: solo debe conocerse la estructura local alrededor de un nodo para que se calcule (p. Ej., Cuando se utilizan datos de la Encuesta social general, McPherson et al., 2001). Sin embargo, existen limitaciones: la medida no toma en consideración la estructura global de la red. Por ejemplo, aunque un nodo podría estar conectado a muchos otros, podría no estar en condiciones de alcanzar a otros rápidamente para acceder a los recursos, como la información o el conocimiento (Borgatti, 2005; Brass, 1984). Para capturar esta característica, la centralidad de cercanía se definió como la suma inversa de las distancias más cortas a todos los demás nodos desde un nodo focal. Una de las principales limitaciones de la cercanía es la falta de aplicabilidad a las redes con componentes desconectados (consulte Centralidad de proximidad en redes con componentes desconectados). La última de las tres medidas, betweenness, evalúa el grado en que un nodo se encuentra en la ruta más corta entre otros dos nodos y puede canalizar el flujo en la red. Al hacerlo, un nodo puede ejercer control sobre el flujo. Si bien esta medida tiene en cuenta la estructura de red global y puede aplicarse a redes con componentes desconectados, no deja de tener sus limitaciones. Por ejemplo, una gran proporción de nodos en una red generalmente no se encuentra en la ruta más corta entre ninguno de los otros dos nodos, y por lo tanto recibe la misma puntuación de 0.

 
Una red de estrella con 5 nodos y 4 enlaces. El tamaño de los nodos corresponde al grado de los nodos. Adaptado de Freeman (1978) y Opsahl et al. (2010).



Las tres medidas se han generalizado a redes ponderadas. En un primer conjunto de generalizaciones, Barrat et al. (2004) grado generalizado tomando la suma de pesos en lugar de los nudos, mientras que Newman (2001) y Brandes (2001) utilizaron el algoritmo de Dijkstra (1959) de caminos más cortos para generalizar la cercanía y la interdependencia a redes ponderadas, respetuosamente (ver Rutas más cortas en Weighted Networks para más detalles). Estas generalizaciones se centraron únicamente en los pesos vinculados e ignoraron la característica original de las medidas: el número de vínculos. Como tal, un segundo conjunto de generalización fue propuesto por Opsahl et al. (2010) que incorpora tanto el número de vínculos como los pesos de enlace utilizando un parámetro de ajuste.

Grado

El grado es la más simple de las medidas de centralidad del nodo al usar la estructura local solo alrededor de los nodos. En una red binaria, el grado es el número de vínculos que tiene un nodo. En una red dirigida, un nodo puede tener un número diferente de enlaces salientes y entrantes, y por lo tanto, el grado se divide en grado y grado, respectivamente.

Por lo general, el grado se ha extendido a la suma de ponderaciones cuando se analizan las redes ponderadas (Barrat et al., 2004; Newman, 2004; Opsahl et al., 2008) y la resistencia del nodo etiquetada. Es igual a la definición tradicional de grado si la red es binaria (es decir, cada vínculo tiene un peso de 1). Por el contrario, en las redes ponderadas, los resultados de estas dos medidas son diferentes. Como la fuerza del nodo toma en consideración el peso de los enlaces, esta ha sido la medida preferida para analizar las redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008). Sin embargo, la fortaleza del nodo es una medida contundente, ya que solo toma en consideración el nivel total de participación de un nodo en la red, y no toma en cuenta la característica principal de las medidas originales formalizadas por Freeman (1978): el número de vínculos. Esta limitación se destaca por la centralidad de grado de las tres redes de ego de la tercera red EIES de Freeman. Los tres nodos han enviado aproximadamente la misma cantidad de mensajes; sin embargo, a un número bastante diferente de otros. Si se aplicó la medida original de Freeman (1978), el puntaje de centralidad del nodo en el panel A es casi cinco veces más alto que el nodo en el panel C. Sin embargo, al usar la generalización de Barrat et al., Obtienen aproximadamente el mismo puntaje.




Redes Ego de Phipps Arabie (A), John Boyd (B) y Maureen Hallinan (C) de la tercera red EIES de Freeman. El ancho de un enlace corresponde a la cantidad de mensajes enviados desde el nodo focal a sus contactos. Adoptado de Opsahl et al. (2010).


En un intento de combinar el grado y la fuerza, Opsahl et al. (2010) utilizó un parámetro de ajuste para establecer la importancia relativa de la cantidad de vínculos en comparación con los pesos de enlace. Específicamente, la medida de centralidad de grado propuesta fue el producto de la cantidad de nodos a los que está conectado un nodo focal y el peso promedio de estos nodos ajustado por el parámetro de ajuste. Hay dos valores de referencia para el parámetro de ajuste (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproducen las medidas existentes (Barrat et al., 2004; Freeman, 1978). Si el parámetro se establece en el valor de referencia de 0, los resultados de las medidas se basan únicamente en el número de vínculos, y son iguales a la encontrada al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todas las los lazos con un peso mayor a 0 se configuran como presentes. Al hacerlo, los pesos vinculados son completamente ignorados. Por el contrario, si el valor del parámetro es 1, la medida se basa solamente en los pesos de empate y es idéntica a la generalización ya propuesta (Barrat et al., 2004). Esto implica que no se tiene en cuenta el número de vínculos. La siguiente tabla destaca las diferencias entre las medidas de grado.
.
Nodo Grado medido por
Freeman (1978) Barrat et al. (2004) Opsahl et al. (2010; alpha=0.5) Opsahl et al. (2010; alpha=1.5)
Phipps Arabie (A) 28 155 66 365
John Boyd (B) 11 188 45 777
Maureen Hallinan (C) 6 227 37 1396

Para calcular las puntuaciones de grado de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de grado de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el R-package tnet.
1
2
3
4
5
6
7
8
9
10
11
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the out-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5)
# Calculate the in-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5, type="in")


Cercanía



La cercanía se define como la inversa de la lejanía, que a su vez es la suma de las distancias a todos los demás nodos (Freeman, 1978). La intención detrás de esta medida fue identificar los nodos que podrían llegar a otros rápidamente. Una limitación principal de la cercanía es la falta de aplicabilidad a redes con componentes desconectados: dos nodos que pertenecen a diferentes componentes no tienen una distancia finita entre ellos. Por lo tanto, la cercanía generalmente está restringida a los nodos dentro del componente más grande de una red. La publicación de blog Closeness Centrality in Networks with Disconnected Components sugiere un método para superar esta limitación,

La cercanía se ha generalizado a las redes ponderadas por Newman (2001), que utilizó el algoritmo de Dijkstra (1959) (para obtener más detalles, consulte Trayectos más cortos en Redes ponderadas). Para reiterar rápidamente el trabajo de Dijkstra (1959) y de Newman (2001) aquí:
  1. Dijkstra (1959) propuso un algoritmo para encontrar las rutas más cortas en una red donde los pesos podrían considerarse costos. La ruta menos costosa que conecta dos nodos fue la ruta más corta entre ellos (por ejemplo, una red de carreteras donde cada tramo de carretera tiene un costo de tiempo asignado).
  2. Newman (2001) transformó los pesos positivos en una red de colaboración en costos invirtiéndolos (dividiendo 1 por el peso).
  3. Sobre la base de los pesos invertidos, Newman (2001) aplicó el algoritmo de Dijkstra y encontró los caminos menos costosos entre todos los nodos.
  4. El costo total de las rutas de un nodo a todos los demás fue una medida de lejanía: cuanto mayor es el número, más cuesta que un nodo llegue a todos los otros nodos. Para crear una medida de proximidad, Newman (2001) siguió a Freeman (1978) e invirtió los números (1 dividido por la lejanía). Por lo tanto, una alta lejanía se transformó en una baja cercanía, y una baja lentitud se transformó en una gran cercanía.

De forma similar a la generalización de grado de Barrat et al. (2004), el algoritmo generalizado de Newman (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas se puede aplicar para determinar la longitud de ellas.

Para calcular las puntuaciones de cercanía de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de cercanía de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el paquete de R tnet.




.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the binary closeness scores
closeness_w(net=celegans.n306.net, alpha=0)
# Calculate the first generation weighted closeness scores
closeness_w(net=celegans.n306.net, alpha=1)
# Calculate the second generation weighted closeness scores (alpha=0.5)
closeness_w(net=celegans.n306.net, alpha=0.5)

Intermediación

La medida en que un nodo forma parte de las transacciones entre otros nodos se puede estudiar utilizando la medida de interdependencia de Freeman (1978). En la red de muestra de la derecha, si los enlaces no tenían un peso asignado, las líneas grises intermitentes representan las 9 rutas más cortas de la red que pasan por nodos intermedios. El nodo resaltado es un intermedio en 8 de estas rutas. Esto le dará a este nodo una puntuación de interinidad de 8.



Brandes (2001) propuso un nuevo algoritmo para calcular la interrelación más rápido. Además de reducir el tiempo, este algoritmo también relajó la suposición de que los vínculos debían estar presentes o ausentes (es decir, una red binaria) y permitió que se calculase la interdependencia en redes ponderadas (tenga en cuenta que esta generalización es independiente de la medida de flujo propuesta por Freeman et al., 1991, que podría ser más apropiado en ciertos entornos). Esta generalización tiene en cuenta que, en las redes ponderadas, la transacción entre dos nodos podría ser más rápida a lo largo de las rutas con más nodos intermedios que están fuertemente conectados que las rutas con menos nodos intermedios débilmente conectados. Esto se debe al hecho de que los nodos intermedios fuertemente conectados tienen, por ejemplo, un contacto más frecuente que los conectados débilmente. Por ejemplo, el vínculo entre el nodo superior izquierdo y el nodo focal en la red de muestra anterior tiene cuatro veces la fuerza del enlace entre el nodo inferior izquierdo y el nodo focal. Esto podría significar que el nodo superior izquierdo tiene contacto más frecuente con el nodo focal que el nodo inferior izquierdo. A su vez, esto podría implicar que el nodo superior izquierdo podría dar al nodo focal una información (o una enfermedad) cuatro veces más rápido que el nodo inferior izquierdo. Si estamos estudiando los nodos que con mayor probabilidad canalizan información o enfermedades en una red, entonces la velocidad a la que viaja y las rutas que lleva se ven claramente afectadas por los pesos. La identificación de las rutas más cortas en redes ponderadas también se puede utilizar al identificar los nodos que canalizan transacciones entre otros nodos en redes ponderadas. Si suponemos que las transacciones en una red ponderada siguen las rutas más cortas identificadas por el algoritmo de Dijkstra en lugar de la que tiene el menor número de nodos intermedios, entonces el número de rutas más cortas que pasan por un nodo podría cambiar.

.
Nodo Medida de intermediación de
Freeman (1978) Brandes (2001) Opsahl et al. (2010; alpha=0.5)
1 0 4 0
2 8 8 8
3 0 0 0
4 0 0 0
5 4 4 4
6 0 0 0


Ahora, el nodo 1 (A) también obtuvo una puntuación de interdependencia de 4. Esto se debe a que se usa la ruta indirecta desde el nodo B al nodo C hasta A en lugar de la conexión directa.

De forma similar a la generalización de proximidad de Newman (2001), el algoritmo generalizado de Brandes (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas también puede aplicarse para identificarlas.

Para calcular las puntuaciones de interdete de los nodos, a continuación se muestra un código de muestra para producir las tres tablas anteriores utilizando el paquete de R de tnet.
.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Manually enter the example network
net <- cbind(
i=c(1,1,2,2,2,2,3,3,4,5,5,6),
j=c(2,3,1,3,4,5,1,2,2,2,6,5),
w=c(4,2,4,1,4,2,2,1,4,2,1,1))
# Calculate the binary betweenness measure
betweenness_w(net, alpha=0)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=1)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=0.5)

 Nota: La implementación del algoritmo de Brandes (2001) encuentra múltiples rutas si tienen exactamente la misma distancia. Por ejemplo, si se encuentra un camino sobre el empate directo con un peso de 1 (distancia = 1/1 = 1) y un segundo camino es a través de un nodo intermediario con dos empates con pesos de 2 (distancia = 1/2 + 1 / 2 = 1), las dos rutas tienen exactamente la misma distancia. Sin embargo, si hay un tercer camino a través de dos intermediarios con tres vínculos con pesos de 3 (distancia = 1/3 + 1/3 + 1/3), no es exactamente igual a 1 ya que las computadoras leen estos valores como 0.3333333 y la suma de estos valores es 0.9999999. Por lo tanto, esta ruta se considera más corta que las otras dos rutas (distancia = 1).

Referencias

Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752. arXiv:cond-mat/0311416
Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Freeman, L. C., Borgatti, S. P., White, D. R., 1991. Centrality in valued graphs: A measure of betweenness based on network flow. Social Networks 13 (2), 141-154.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251. 

miércoles, 20 de junio de 2018

Facebook sabe cuando visitas la página de tu ex

Facebook sabe exactamente cuántas veces has buscado a tu ex



Una mujer trabaja en su computadora mientras está acostada en la hierba en uno de los primeros días cálidos de primavera en Washington Square Park en la ciudad de Nueva York, EE.UU., 1 de mayo de 2018. REUTERS / Brendan McDermid - RC1D8B5CE5F0



Escrito por Hanna Kozlowska
Quartz

Facebook sabe mucho sobre ti, incluso cada vez que buscas a un ex, un enamorado o cualquier otra persona en la plataforma.

Este pequeño pedacito es parte de un documento de 225 páginas que incluye cientos de preguntas para Facebook de senadores estadounidenses del Comité Judicial, y las respuestas de la compañía, presentadas el viernes (8 de junio). Son seguimientos del testimonio de Mark Zuckerberg ante el comité en abril.

La senadora de California Kamala Harris preguntó en detalle sobre el alcance de la recopilación de datos de Facebook, y si "recopila y almacena permanentemente" cada búsqueda que los usuarios hacen de otra persona en Facebook.

La compañía respondió que, de hecho, mantenía todos los registros de su acecho en línea. Hay buenas noticias: puede eliminar cualquier consulta de búsqueda que desee, aunque el registro tardará aproximadamente seis meses en desaparecer por completo, dice Facebook. Simplemente vaya al "Registro de actividad" en su página de perfil y haga clic en "Historial de búsqueda". Al lado de cada consulta, hay una opción para eliminarlo. Técnicamente, nadie puede ver esta información excepto usted mismo, pero es mejor estar a salvo que arrepentirse, ¿verdad?

Las respuestas de Facebook al Senado revelaron algunas otras cosas espeluznantes que sabe sobre usted, incluido el seguimiento de los movimientos de su mouse, y si está mirando Facebook activamente o si está en segundo plano.

sábado, 16 de junio de 2018

Centralidad en redes de dos modos


Centralidad de nodo en redes de dos modos

Tore Opsahl

La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Con base en este concepto, formalizó tres medidas: grado, cercanía y entrecruzamiento. Para obtener una información más completa sobre estas medidas, vea Centralidad de nodos en Redes ponderadas.

Grado

Grado es el número de vínculos que tiene un nodo o el número de otros nodos a los que está conectado un nodo. En redes de dos modos, este concepto se puede aplicar directamente. Sin embargo, hay algunas complicaciones. En redes de dos modos, "la cantidad de otros nodos a los que está conectado un nodo" es ambigua. Podría ser el número de nodos secundarios a los que está conectado un nodo primario (y viceversa), o el número de nodos primarios a los que está conectado un nodo primario. Para aclarar la diferencia entre estos dos números, me referí a ellos como nodos de dos modos y un modo, respectivamente. Para ejemplificar la diferencia, la imagen a continuación muestra la red local que rodea a Flora en el Dataset de mujeres sureñas de Davis (1940) (adaptado de Opsahl, 2011).





La red local que rodea a Flora
Como se puede ver en este diagrama, el grado de dos modos de Flora es 2 y el grado de 1 modo es 12. Si la red se proyectó a una red de modo único, la medida de grado estándar sería 12.

También es posible obtener el grado de dos modos de los nodos una vez que se ha proyectado una red utilizando el método de Newman (2001). Este método de proyección fue desarrollado para las redes de coautoría científica, y establece el peso del empate entre dos autores igual a la suma en los trabajos co-autoescritos de 1 sobre el número de autores en ese documento menos 1. En otras palabras, para cada coautoría papel, un nodo divide 1 por los otros autores. Como tal, el peso total del empate es igual al número de documentos coautores. La única diferencia entre este método y el grado de dos modos son los trabajos de autor único. Estos están excluidos en el primero e incluidos en el segundo método.

Cercanía e intermediación

La parte principal de las medidas de proximidad y de interdependencia son los caminos más cortos y su longitud. La cercanía es la suma inversa de las longitudes de las trayectorias más cortas, y la interdependencia es la cantidad de trayectos más cortos que pasan por un nodo. Al aprovechar el algoritmo de ruta más corta de dos modos, es posible ampliar fácilmente estas dos medidas a redes de dos modos. Para recapitular rápidamente este algoritmo: 
  1. Use un método de proyección apropiado 
  2. Utilice el método para identificar las rutas más cortas y calcular su longitud en redes ponderadas de modo único (Brandes, 2001; Dijkstra, 1959; Newman, 2001).
Cuando se encuentre la longitud de las rutas más cortas, la medida de proximidad sería simplemente la suma inversa de ellas. Del mismo modo, la interdependencia se calculará fácilmente mirando los nodos intermedios en las rutas más cortas y contará, para cada nodo, la cantidad de veces que ese nodo es un intermediario. Nota: si hay varias rutas más cortas, es importante dividir por el número de ellas para asegurarse de que cada ruta solo cuente una vez.


Ejemplo

Para ilustrar las cuatro medidas, confío en Davis (1940) Southern Women Dataset. La asistencia a la reunión de 18 mujeres en 14 reuniones se registra en este conjunto de datos. La siguiente tabla muestra el resultado de las cuatro medidas (Newman's, 2001, el método de proyección se utiliza para la cercanía y la interdependencia, ya que es probable que el nivel de interacción entre los participantes en eventos más pequeños sea mayor).

.
nodo two-mode degree one-mode degree closeness betweenness
EVELYN 8 17 0.053 5
LAURA 7 15 0.051 1
THERESA 8 17 0.060 48
BRENDA 7 15 0.050 1
CHARLOTTE 4 11 0.044 0
FRANCES 4 15 0.041 0
ELEANOR 4 15 0.043 0
PEARL 3 16 0.037 0
RUTH 4 17 0.043 0
VERNE 4 17 0.045 0
MYRNA 4 16 0.042 0
KATHERINE 6 16 0.052 0
SYLVIA 7 17 0.054 11
NORA 8 17 0.059 60
HELEN 5 17 0.046 0
DOROTHY 2 16 0.027 0
OLIVIA 2 12 0.035 0
FLORA 2 12 0.035 0

En esta tabla se puede ver una limitación clave de la medida de transición: la mayoría de las personas obtiene un puntaje de 0 (es decir, la medida es cero-inflado). Las correlaciones por pares entre las medidas se informan a continuación. Si bien todas las medidas tienen altas correlaciones, es interesante observar que la medida de grado de dos modos tiene una mayor correlación con la cercanía y la interdependencia que la medida de grado de modo único. Esto podría sugerir que la medida de grado de dos modos computacionalmente barata es más capaz de replicar las medidas de proximidad y de equilibrio computacionalmente costosas.


1 2 3 4
1: two-mode degree 1.00


2: one-mode degree 0.51 1.00

3: closeness 0.95 0.44 1.00
4: betweenness 0.59 0.34 0.64 1.00


¿Quieres probarlo con tus datos?

Las medidas se pueden calcular utilizando tnet. Primero, necesita descargar e instalar tnet en R. Luego, necesita crear un edgelist de su red (vea las estructuras de datos en tnet para redes de dos modos). Los siguientes comandos muestran cómo se crearon las tablas anteriores.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# Load tnet and the Southern Women Dataset
library(tnet)
data(tnet)
net <- Davis.Southern.women.2mode
 
# Calculate two-mode degree
out <- degree_tm(net, measure="degree")
 
# Create one-mode projection
net1 <- projecting_tm(net, "Newman")
 
# Calculate one-mode degree
tmp <- degree_w(net1)[,"degree"]
 
# Append to table
out <- data.frame(out, onemodedegree=tmp)
 
# Calculate closeness and append to table
tmp <- closeness_w(net1 )[,"closeness"]
out <- data.frame(out, closeness=tmp)
 
# Calculate betweenness and append to table
tmp <- betweenness_w(net1 )[,"betweenness"]
out <- data.frame(out, betweenness=tmp)
 
# Download and set names
out[,"node"] <- read.table("http://opsahl.co.uk/tnet/ datasets/Davis_southern_club_women-name.txt")
 
# Pair-wise correlation table
tmp <- matrix(nrow=4, ncol=4)
tmp[lower.tri(tmp)] <- apply(which(lower.tri(tmp), arr.ind=TRUE)+1, 1, function(a) cor.test(out[,a[1]], out[,a[2]])$estimate)




Referencias

Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Davis, A., Gardner, B. B., Gardner, M. R., 1941. Deep South. University of Chicago Press, Chicago, IL.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., 2013. Triadic closure in two-mode networks: Redefining the global and local clustering coefficients. Social Networks 35, doi:10.1016/j.socnet.2011.07.001.
Opsahl, T., Agneessens, F., Skvoretz, J., 2010. Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32 (3), 245-251.

jueves, 14 de junio de 2018

Red de rutas romanas creadas a través de ánforas


Un grupo científico reconstruye las rutas del antiguo Imperio Romano

Historiadores, con la ayuda de matemáticos, informáticos y físicos, han llevar a cabo una investigación liderada por la UB

Mapa de rutas comerciales del antiguo Imperio Romano (Cortesía de la UB)

La Vanguardia


La ayuda de matemáticos, informáticos y físicos ha permitido a los historiadores reconstruir las rutas comerciales del antiguo Imperio Romano, una investigación que ha encabezado la Universidad de Barcelona. La investigación se ha llevado a cabo en el marco del proyecto europeo que lidera el catedrático de la UB José Remesal.

Un proyecto que ha permitido constatar que el comercio a escala continental, entre las diferentes provincias romanas, tenía "flujos importantes" y que "el Atlántico era la ruta principal para transportar aceite, las conservas de pescado y el vino producidos en la península Ibérica (provincias Bética y Tarraconense) hasta el norte de Europa.

Nueva teoría

Esta propuesta de Remesal, publicada en la revista Journal of Archaeological Science, se contrapone a las teorías que hasta ahora priorizaban la importancia del valle del Ródano como vía comercial. Remesal ha explicado que "el viaje por el Ródano tardaba unos 200 días en llegar a Germania, mientras que la vía atlántica desde la Bética hasta la desembocadura del Rin tardaba unos 22 días, y luego se tardaban otros 22 días en transporte fluvial hasta Maguncia".

Según el arqueólogo, "la vía marítima hasta la boca del Rin permitía más viajes al ser más rápida que la del Ródano, que necesitaba de un cambio constante de barcos, más pequeños al llegar al Mosela y que necesitaba además de un tramo de transporte terrestre".

A esta conclusión se ha llegado tras analizar los sellos de las ánforas: "Hay similitudes en las marcas entre las provincias del valle del Rin (Recia, Germania Superior y Germania Inferior) con las zonas de Britania y Bélgica, y en cambio no existe esa similitud con las provincias de la Galia".


Restos de ánfora como indicador para el estudio 


El transporte atlántico, precisa Remesal, tendría lugar entre abril y principios de noviembre cuando se producían las condiciones climatológicas de "mare apertum", ayudado desde tierra por un sistema de faros como el de La Coruña, que "no era un faro para los pescadores de la zona" y que concluiría en la ínsula de los Batavos en la que "se sabe que había un muelle y un canal, había soldados romanos y también comerciantes, y que hoy permanece bajo tierra en algún lugar de Holanda".

Para llevar a cabo la investigación se ha utilizado la base de datos del Centro para el Estudio de la Interdependencia Provincial en la Antigüedad Clásica (CEIPAC) de la UB, que reúne 43.000 registros arqueológicos de restos de ánforas de toda Europa, en su mayoría de aceite de Hispania, pero también sobre vino de la Layetana, producción de aceite de la zona de Brindisi, y de vino de la Galia.

Estos recipientes se pueden considerar "el mejor indicador para estudiar el comercio de alimentos en la antigua Roma, pues estaban presentes en todo el imperio y llevaban grabados unos sellos o marcas con información precisa sobre el lugar de procedencia, el peso y los fabricantes". La investigación ahora publicada analiza esta inmensa base de datos de epigrafía anfórica con métodos propios de la física y la informática para contrastar las diferentes teorías sobre el comercio en la antigüedad.

La procedencia de las ánforas


Junto al CEIPAC, participan el grupo de investigación de la UB PhysComp, coordinado por Albert Díaz Guillera, que se dedica al estudio de redes complejas desde la perspectiva de la física estadística; el Barcelona Supercomputing Centre (Xavier Rubio e Iza Romanowska) y la consultora SIRIS Academic, especializada en modelos semánticos y gestión del conocimiento (Bernardo Rondelli).

Estos análisis estadísticos han constatado que "las provincias próximas geográficamente tienen coincidencias como ánforas con los mismos sellos de procedencia, seguramente por que compartían las mismas redes comerciales". Igualmente, se observa que las provincias con importantes destacamentos militares también presentan similitudes entre ellas, lo que indica que "unidades del ejército separadas por miles de kilómetros se abastecían con el mismo sistema de proveedores".

Remesal asegura que esta colaboración interdisciplinar, que hasta ahora sólo se había utilizado para analizar las sociedades prehistóricas, "abre nuevas posibilidades para conocer mejor la Roma clásica". Bernardo Rondelli ha subrayado que los investigadores del EPNet han ido más lejos con la creación del Roman Open Data, un conjunto de base de datos de modelo ontológico, propio de los últimos avances en informática, que podrá albergar hasta una cuarentena de bases de datos sobre historia antigua.

En la actualidad, ha precisado Rondelli, ya hay "un millón de datos con las bases del CEIPAC, de la Universidad de Heidelberg sobre personajes históricos, y de la Universidad de Southampton sobre formas de ánforas". El vino de la Layetana se distribuyó a lo largo del Ródano y el Garona, por la Galia, y, sobre todo, en Roma en dos tipos de ánforas, una que imitaba la itálica, que a su vez era copia de la ánfora cretense, y otra ánfora propia, creada cuando el vino local adquirió prestigio.

martes, 12 de junio de 2018

Socilab: Para crear redes egocéntricas desde Linkedin



Socilab


Enlace

Este sitio permite a los usuarios visualizar y analizar su red de LinkedIn utilizando métodos derivados de la investigación social y científica. Muestra completa de salida se muestra aquí. El sitio es gratuito y de código abierto. ¡Que te diviertas!

Explore sus conexiones


Haga clic en un nodo para resaltar sus conexiones con otras personas que conoce. Desplácese para acercar / alejar en clusters particulares. Busque conexiones de larga distancia, ya que podrían generar un momento de 'mundo pequeño'.
<
>

Instrucciones:


  1. Inicie sesión a través de LinkedIn (haciendo clic en el botón de arriba). Si no ve el botón, probablemente tenga su bloqueador de anuncios configurado para bloquear los complementos de redes sociales.
  2. Al igual que la función inMaps ahora retirada, nuestro sitio le permite ver un diagrama de su red de LinkedIn. Espere mientras se producen las métricas de visualización y red. Cuando haya terminado, desplácese hacia abajo para ver su mapa y análisis de red.
  3. En la parte inferior de la página, habrá una serie de medidas de red extraídas de investigaciones sociológicas en redes profesionales, así como barras de percentiles que comparan sus medidas de red agregadas con usuarios anteriores.
  4. Debajo de cada medida habrá una breve interpretación.
  5. Privacidad: el programa utiliza javascript del lado del cliente para realizar los cálculos, por lo que su red se procesa localmente en su propia máquina. No almacenamos ninguna información demográfica sobre sus contactos o su estructura de red, además de las estadísticas agregadas utilizadas en las barras de percentiles.
  6. Este software se lanzó bajo la Licencia Pública General GNU v2.
  7. Proporcionamos una función de mensajería que le permite escribir y enviar un mensaje de LinkedIn al contacto seleccionado dentro de la aplicación. Esta funcionalidad requiere que solicitemos permisos de mensajería. Nunca enviaremos mensajes en nombre de los usuarios sin su autorización expresa.
  8. Debido a las aceleraciones API de LinkedIn, estamos limitados en la cantidad de contactos que podemos mostrar en un día. Podemos mostrar hasta 450 a 500 contactos por usuario por día, donde el límite preciso depende de qué tan densamente conectados estén sus contactos. Aquellos con más de 500 contactos verán que la aplicación dibuja contactos hasta el límite en orden alfabético. Para evitar golpear este límite, no actualice la página. LinkedIn también limita el número de llamadas de contacto que nuestra aplicación puede realizar en un día a 100k. Esto significa que si más de 200 usuarios con 500 contactos inician sesión, el sitio ya no podrá mostrar los contactos hasta el día siguiente. Este límite se restablece todos los días a las 12 a.m. horario UTC, por lo que siempre puede volver a intentarlo mañana. Desafortunadamente, no hay ninguna solución para esto hasta que podamos obtener una asociación oficial con LinkedIn. ¡Gracias por su comprensión!
Si esta página te resulta útil, compártela con tus amigos.

Compatibilidad: este programa funciona mejor con navegadores de escritorio que ejecutan Javascript (Chrome, Firefox, Safari).

viernes, 8 de junio de 2018

Redes, historia y complejidad

Redes e historia

Peter Bearman,
Instituto de Investigación y Política Social y Económica, Universidad de Columbia, Nueva York, NY 

James Moody, y 
Departamento de Sociología, Universidad Estatal de Ohio, Columbus, OH 
Robert Faris
Departamento de Sociología, Universidad de Carolina del Norte en Chapel Hill


Fuente

Los eventos y las estructuras de eventos componen los elementos constitutivos de la historia. Para construir relatos históricos de secuencias de eventos, los historiadores tienen que hacer casos. Este artículo propone un método para encajonar eventos históricos. Ilustramos la estrategia analítica al considerar una compleja población de eventos interrelacionados que conforman una narrativa de revolución, contrarrevolución y revolución en una pequeña aldea en China. Se discuten las implicaciones para la metodología de las ciencias sociales históricas.


En contraste con los argumentos excesivamente deterministas sobre las causas fundamentales, las narrativas imaginativas de la cate nación fortuita de los eventos contingentes como reveladores del proceso histórico son la moda actual en la ciencia social histórica. Al servicio de tales narrativas, las imágenes de red a menudo se despliegan para describir las vías contingentes aparentemente frágiles a través de las cuales ocurren resultados históricos complejos. A primera vista, las redes parecen proporcionar una metáfora apropiada para el azar y la contingencia, pero este no es el caso. En cambio, la consideración de las estructuras de red en el contexto histórico sugiere roles limitados para la contingencia en la dinámica de eventos. En consecuencia, las estructuras de eventos históricos que aparecen como casos en la historia de las ciencias sociales son mucho más sólidas de lo que se suele imaginar. Sin embargo, algunos eventos pueden jugar papeles más importantes que otros en la configuración de la historia, y el problema de la explicación histórica se basa en desarrollar una metodología para modelar estructuras complejas de eventos que revele qué eventos desempeñan papeles críticos en los resultados históricos. Tal metodología es la preocupación de este artículo en el cual proponemos que la aplicación de modelos de red a casos históricos puede proporcionar respuestas a preguntas tan fundamentales como: ¿cuándo, si alguna vez, los eventos únicos cambian la historia? ¿Qué significan las cosas en el contexto histórico y cómo definimos los casos en un contexto histórico?
El argumento que proponemos es simple. El significado de un evento depende de su posición en una secuencia de eventos interrelacionados, lo que los historiadores llaman un caso. En consecuencia, para quienes estén interesados ​​en lo que significan los eventos, las secuencias de eventos de cobertura es el problema más fundamental que enfrentan los historiadores. En la Sección 2, proponemos una solución, que explota los desarrollos en el análisis de redes sociales que son relevantes para el análisis de estructuras complejas de eventos. Nos enfocamos
sobre las similitudes entre las estructuras sociales y las estructuras de eventos que apuntan a la aplicabilidad de los métodos de red para el análisis de datos históricos. Estas similitudes también sugieren que los procesos históricos pueden ser bastante robustos a la perturbación.El encapsulamiento (casing), que está limitando el comienzo y el final de las secuencias de eventos, no es diferente de un problema en el análisis estructural: cómo especificar un límite en una red. El problema para las ciencias sociales históricas implica generar una población de eventos. Las estrategias para generar una población de eventos en contextos históricos se describen brevemente en la Sección 3. En la Sección 4, ilustramos el método con respecto a un único caso complejo; revolución, contrarrevolución y revolución en una aldea china durante el período de 1920 a 1950. Explotamos técnicas de modelado para redes narrativas [1], para transformar las narrativas en redes. Las operaciones en estas redes proporcionan la base para nuestros análisis, en los que "probamos" nuestra solución de creación de un caso es simulando el futuro. Finalmente, consideramos si los eventos se pueden organizar de manera significativa con respecto a su probabilidad de dar forma al historial y describir cómo dicha matriz podría contribuir a un nuevo método histórico. En la conclusión, indicamos cómo el enfoque propuesto aquí podría alterar nuestro pensamiento sobre la naturaleza del azar en la configuración de los resultados, el registro de casos que los historiadores consideran, y la historia en general.

1. EL PROBLEMA DEL CREACIÓN DE UN CASO

El encapsulamiento está necesariamente implicado en la simple tarea de construir una narración histórica. Del mismo modo, la carcasa es un requisito previo para el significado. Precisamente porque es tan importante, la creación de un caso se ve como una cuestión de discernimiento y el juicio que surge de tal idea. Para la mayoría de los historiadores, cómo se crea un caso de estudio es un logro esencialmente artístico. Aquí proponemos una estrategia para cubrir eventos históricos que dependen menos del arte y más del método. No es sorprendente que este no sea un problema simple. Una gran complicación surge del futuro. Debido a que el significado de un evento depende de su posición en una secuencia de eventos interrelacionados, es necesariamente imposible fijar para siempre el significado de un evento, es decir, fijar para siempre el final y el comienzo de una secuencia de eventos, porque el futuro los eventos pueden activarse, es decir, dibujar en una nueva secuencia de eventos, eventos pasados. No podemos encontrar consuelo en la idea de que solo una cierta clase de eventos futuros podría tener ese papel, porque la ocurrencia futura podría ser tan trascendental como la toma de la Bastilla o tan trivial como el descubrimiento de un diario perdido. En este último caso, un elemento del arte de los historiadores, el descubrimiento (de nuevos eventos o relaciones entre eventos) tiene la capacidad de cambiar los comienzos y los fines, y por lo tanto el significado específico de los eventos.El hecho de que sea posible cambiar el significado de los eventos no significa que los historiadores deban abandonar el intento de desarrollar una estrategia para encauzar secuencias de eventos. Primero, aunque algunos eventos pueden activarse por descubrimiento o por el futuro, la mayoría nunca es tan afortunado. Lo que sea que significa que la mayoría de los eventos se han corregido completamente dentro de una única secuencia de eventos específicos, se ha fijado en secuencias de eventos más grandes y complejas. Dicho de otra manera, ni el descubrimiento de nuevos eventos ni sucesos futuros desconocidos pueden alterar en modo alguno la secuencia de eventos en los que están incrustados los eventos "muertos" y, en consecuencia, su significado también es fijo. Sin embargo, algunos eventos ya se han incorporado, y algunos más, en nuevas secuencias de eventos luego del descubrimiento o la ocurrencia de eventos en el futuro. En consecuencia, podemos imaginar una distribución de eventos, definida con respecto a su probabilidad de activación, "fluidez de significado" o susceptibilidad a estar condicionados por el futuro. Si podemos ordenar eventos con respecto a su probabilidad de estar condicionados por el futuro, se deduce que las secuencias de eventos también se caracterizan mediante dicha distribución, y asimismo, los conglomerados de secuencias de eventos densamente interrelacionadas (lo que definimos como "casos") también están sujetos a la misma distribución, con algunos más probables de cambiar que otros. Esto tiene sentido intuitivo y lo confirma el juicio que usan los historiadores. En términos simples, algunos eventos, secuencias de eventos y casos están muertos.Algunos eventos y secuencias de eventos están sujetos a una revisión radical. Podemos hablar con confianza sobre el significado de los eventos muertos. Nuestra confianza recae en aquellos que probablemente estén vivos. El problema práctico implica saber qué eventos, secuencias de eventos y casos son calientes y cuáles no.

Teoría fuerte e historia delgada

Cuanto más sólida es la teoría, más delgada es la historia, una perogrullada que se revela más claramente cuando uno se propone representar la historia como una red de eventos conectados por flujos de causalidad. Las descripciones históricas de los acontecimientos, especialmente las que ofrecen los historiadores de las ciencias sociales, tienden a tener una apariencia uniforme. Comienzan con un grupo relativamente denso de eventos interrelacionados. Estos, típicamente eventos de nivel macro (por ejemplo, crisis fiscal, crisis agraria, crisis de confianza / legitimidad) fluyen hacia una estrecha corriente de eventos específicos de micro nivel. Una vía delgada (escasamente conectada con muy poca redundancia, pocos ciclos, etc.) se mueve a través del tiempo, induciendo finalmente un evento fundamental que se caracteriza por una gran diferencia, impactando múltiples secuencias de eventos y proporcionando (típicamente) el límite del "caso".
La Figura 1 es un grafo de red de una narración histórica estándar, en este caso, la historia de la revolución y la contrarrevolución en una aldea china.



En la Figura 1, los nodos son eventos específicos que tuvieron lugar, y las flechas son enlaces entre eventos (causales o lógicos) implícitos o explícitos en la narración. El tiempo se mueve, en general, de izquierda a derecha. Los eventos pivotales son aquellos en el centro del gráfico, delimitados por el principio y el final de la narrativa, que componen el caso. La narración es muy delgada como una red, solo escasamente conectada. Esto implica que la teoría que dio lugar a la historia específica es fuerte, porque la teoría implica negar datos. Los relatos narrativos finos son el producto de teorías específicas que dirigen al historiador a identificar algunos eventos como sobresalientes y a negar otros eventos como no destacados. La historia implica la selección de eventos para interconectarse en una narrativa. Tener una teoría requiere que sepamos el final de la historia para dirigir la selección de eventos. Pero esto es un problema ¿Cómo vamos a saber el principio y el final si solo nos dicen lo que significan los eventos?


En lugar de centrarse en la selección de eventos, ahora consideramos que la teoría implícita de la historia se caracteriza por líneas finas sin vías independientes que conectan causas y eventos. Una ironía es que con una sólida teoría, pronto nos vemos obligados a contemplar los efectos de la mantequilla como historia de conducción. En la narrativa de la Figura 1, hay muchos puntos críticos a través de los cuales solo fluye un camino. Los efectos de la manteca se pronunciarían si una pequeña perturbación tiene la consecuencia de eliminar (o agregar) un nodo o línea entre los eventos. Si el evento o el enlace no existieran, ¿podríamos realmente imaginar que la revolución no ocurriría? El problema no es la parsimonia de la explicación per se. Muchas cuentas parsimoniosas que atraviesan el mismo campo desde diferentes puntos finales pueden generar poblaciones de estructuras de eventos densas. El problema es que hay muy pocos conjuntos de ojos. El truco metodológico básico es integrar puntos de vista desde múltiples perspectivas.

2. REDES SOCIALES Y CIENCIAS SOCIALES HISTÓRICAS

Durante la última década, se publicaron artículos influyentes que se basan en el análisis de redes, sobre temas históricos sustantivamente importantes, desde la organización de los Medici hasta la construcción del estado otomano y más allá de la Comuna de París [2-7]. Las imágenes y los métodos de red proporcionan información sobre mecanismos y procesos específicos al enfocarse en individuos de rango medio, sobre individuos aislados, pero por debajo de formaciones sociales enteras. Estos estudios han proporcionado una nueva percepción del papel que desempeñan las relaciones sociales en la estructuración y el bloqueo de la acción y, de manera más abstracta, han proporcionado un nuevo lenguaje para describir los niveles densos, a menudo anidados y cíclicos, interrelacionados de relaciones sociales, construcciones simbólicas, y prácticas (vistas como flujos en una red) que componen estructuras sociales tangibles en contextos históricos y contemporáneos.
Estos notables logros no han llegado sin costos. La reconstrucción detallada de la estructura social, definida con respecto al patrón en múltiples relaciones, necesaria para el análisis de red a menudo ha conducido a un mayor compromiso con explicaciones muy particulares, y una renuencia a abstraer la estructura en sí misma de contextos específicos. En consecuencia, gran parte del trabajo en ciencias sociales históricas que utiliza redes parece prosopográfico: un enfoque de datos relacionales que es limitado porque no puede proporcionar un andamiaje analítico para una comparación significativa entre casos con respecto a parámetros estructurales interpretables. Por otro lado, el énfasis en el contexto ha sido un paliativo útil para contrarrestar una tendencia más inquietante en la historia de las ciencias sociales, la idea de que los modelos de elección racional pueden servir para una función explicativa, como frente a la función heurística. Es irónico que un método (análisis de red estructural) diseñado para la comparación entre contextos celebra la particularidad como la principal barrera para una teoría que niega la relevancia de todos los contextos (a pesar de la protesta en sentido contrario). [Los modeladores de opciones racionales lo negarían al señalar cómo sus modelos incorporan el contexto (como valores, bienes, costos, etc.) en los marcos de decisión de los actores. Pero el hecho de que todos los contextos son igualmente fáciles de integrar en el modelo le quita el fantasma.]


Igualmente irónico es el extraño matrimonio entre teóricos relacionales y de contingencia. Al igual que con las redes, la contingencia ha sido un "descubrimiento" importante para los científicos sociales históricos y actualmente sirve como el principal desafío para los modelos más antiguos en las ciencias sociales históricas que se centran en los determinantes a nivel macro del cambio social sin suficiente atención (social, relacional, mecanismos simbólicos, etc.) Las principales metáforas se basan en el hecho de que las observaciones de redes sociales, como las observaciones históricas, están ligadas e interdependientes. En las redes sociales y en la historia, existe la sensación de que el hecho de la interdependencia significa que el cambio sutil puede concatenarse violentamente a través de un sistema y acumularse en cambios históricos y / o estructurales imprevistos [8]. La idea es atractiva, pero incorrecta.

Las estructuras sociales tangibles se basan y dependen de la fluidez local y la interrupción de la estabilidad [9,10]. (Solo podemos observar estructuras sociales que son robustas. Las estructuras sociales no sólidas no duran lo suficiente para observar. Un idioma popular explica lo que fortalece las estructuras. El amor, como un árbol, puede resistir mejor las tormentas si se dobla).
Las estructuras robustas absorben la fluidez en el micronivel en virtud de características estructurales específicas que "explotan" la interdependencia. Los datos de red en una población son localmente densos, pero globalmente escasos, a menudo cíclicos, anudados y caracterizados por una redundancia de vínculos. (Hay muchas más similitudes. Una similitud, que explotamos posteriormente, es que las características de las redes sociales globales pueden determinarse de manera significativa mediante el muestreo de redes locales, un argumento que a menudo está implícito en las narrativas históricas). Las estructuras sociales comparten estas características con estructuras. Además de los revisionistas radicales, la mayoría de los historiadores también estarían de acuerdo en que los datos históricos muestran una redundancia vinculada, por ejemplo, la idea de que existen múltiples vías independientes a través de las cuales fluyen los efectos causales. Los ciclos en los datos históricos aparecen cuando eventos futuros condicionan eventos pasados, sacando de las relaciones nuevas pasadas a otros eventos. En las redes sociales, la densidad local, el nudo, la redundancia y la ciclicidad dan lugar a las complejas estructuras sociales que organizan el mundo relacional.
Aunque analíticamente separables, se relacionan entre sí. La ciclicidad da lugar a la redundancia, la redundancia da lugar a la densidad local y la densidad da lugar a nudos, generando propiedades de cohesión a nivel macro a partir de una serie de microprocesos independientes. Nuestro interés aquí es mostrar que es lo mismo con las estructuras de eventos. Demostramos que las estructuras de eventos reales que surgen de los datos históricos tienen una estructura similar, donde el orden aparece en el nivel agregado, un producto de la fluidez a nivel micro. En consecuencia, las representaciones de estructuras de eventos como narraciones delgadas y, en consecuencia, sujetas a los "efectos de la mantequilla" se equivocan en gran medida.


3. GENERAR UNA POBLACIÓN DE EVENTOS DE NARRATIVAS INTERCALANTES

En los relatos históricos convencionales, el fin determina el comienzo y, por lo tanto, los elementos que deben ordenarse en la narración. Para el caso de un evento, que puede estar en múltiples subsecuencias interrelacionadas, necesitamos una población de eventos alrededor de la cual podamos dibujar un principio y un final. Dos estrategias distintas para construir una población de eventos son posibles, muestras de bola de nieve de corto alcance y narrativas intercalares. La idea del muestreo de bolas de nieve de corto recorrido es comenzar con una gran muestra de eventos y utilizar técnicas de muestreo de bola de nieve para generar una población de eventos. Se puede implementar una variedad de estrategias de muestreo para redes [ver 11,12 para primeros pasos], para construir poblaciones de eventos históricos. Aquí, ilustramos la segunda estrategia, narraciones intercalares, para demostrar nuestro método para la creación de un caso. Los datos que usamos son historias de vida. Al igual que los relatos históricos, las historias de vida presuponen un final (un punto de vista). Contar historias implica organizar elementos seleccionados de un rico e inagotable plato de bienes culturales -personas, lugares, cosas, eventos, ideas, etc.- en secuencias narrativas que están orientadas hacia un fin particular, de tal manera que sea una trama . El final le permite al autor seleccionar de un mar interminable de eventos solo aquellos eventos que él o ella ve como importantes (sobre la base de una teoría) para que la historia sea revelada. En contraste con las historias formales, las historias de vida tienen características que las hacen ideales para nuestro objetivo, la más importante de las cuales es una estructura teórica débil.
Para ilustrar utilizamos 14 historias de vida de pobladores chinos cuyas experiencias abarcaron la revuelta agraria en el campo, la contrarrevolución, una revolución y luego la codificación de un régimen revolucionario en un marco institucional. El contexto es un pequeño pueblo en el norte de China. Las historias están tomadas de Report from a Chinese Village [13]. El libro contiene una colección de historias de vida de los aldeanos de la aldea de Liu Ling, en el norte de China, cerca de Yenan. Myrdal realizó entrevistas allí en 1961. La Figura 2 proporciona una representación gráfica de dos de las historias de vida que usamos.
Al tratar los eventos como nodos y las relaciones entre los eventos como arcos, las secuencias narrativas de los elementos se transforman en redes. Al representar las secuencias de eventos complejos como redes, podemos observar y medir las características estructurales de las narraciones que de otra manera serían difíciles de ver.
En estos gráficos, los elementos de la historia de la vida narrativa se tratan como nodos que están conectados por cláusulas narrativas, representadas por arcos. Una cláusula narrativa es una cláusula que está ordenada temporalmente de tal forma que moverla implica cambiar el significado de la subsecuencia en la que está incrustada. Las cláusulas libres, por el contrario, se pueden mover sin cambiar el significado de una subsecuencia o la narración como un todo [1,14,15]. Codificamos solo cláusulas narrativas como arcos, vinculando un evento (o elemento) a otro a lo largo del tiempo. Los elementos (nodos) de las narrativas son heterogéneos en alcance y rango, desde el saludo a las tropas conquistadoras con té, hasta una batalla escenificada entre el KMT y los comunistas. El evento anterior ató a los hijos de los terratenientes al KMT; este último resultó en una derrota imaginaria de los comunistas. La idea detrás de este espejismo era engañar al liderazgo del KMT para que pensara que los comunistas habían sido aplastados por las fuerzas locales del KMT para que ambas fuerzas pudieran resistir a los japoneses.



En la Figura 2, el tiempo narrativo se mueve de la parte superior a la parte inferior de la página. El eje izquierda-derecha no es substancialmente interpretable. La profundidad narrativa está representada por la cantidad de arcos que conectan eventos. En esta instancia, por ejemplo, los dos eventos en la parte inferior de la Figura 2B tienen una profundidad narrativa de 17, es decir, hay 17 pasos desde la parte inferior hasta un evento inicial en la parte superior del gráfico. Una característica de estas historias es que son estructuralmente muy diferentes de las historias de los historiadores profesionales.
Tienen muchos elementos desconectados. Los eventos se mencionan, pero no necesariamente están vinculados. A través de subsecuencias, es imposible caminar desde los eventos tempranos a eventos posteriores sin interrupción. No es sorprendente que las historias de vida sean más densas y más complejas que las narrativas históricas convencionales. Tienden a tener un flujo narrativo profundo. Son más complejos porque la gente común no está entrenada como teórica. Por lo tanto, tienen problemas para negar los datos. Las historias de vida con las que trabajamos muestran heterogeneidad. Algunas cuentas son delgadas (Figura 2A), mientras que otras son intrincadas (Figura 2B). Cada una de estas historias tiene un punto final diferente. Los narradores están parados en diferentes lugares. El final de las historias implica diferentes resultados.
El hecho de que se encuentren en diferentes lugares dirige la selección de los elementos que eligen representar para su fin. Por analogía, uno podría considerar un conjunto de cuentas profesionales de la misma secuencia de eventos, cada uno de pie en una posición diferente. Todas las historias cubren los mismos eventos de aldea y aldea en el mismo tiempo, y, en consecuencia, el campo que atraviesan y los eventos a los que se refieren, se superponen considerablemente. Explotamos esta superposición intercalando historias para generar una población de eventos interrelacionados, lo que proporciona una nueva estructura de datos y, en consecuencia, señala nuevas estrategias para el análisis. Estas nuevas instrucciones se recogen a continuación en la Sección 4.


4. HACER Y PROBAR UN CASO

Entre 1920 y 1950, China se transformó. La reforma, la revolución y la guerra sacudieron el campo. Nuestros datos surgen de una de las miles de aldeas en el norte de China. Son sobre los eventos en este pueblo y su conexión con eventos lejanos que ocurren en otros pueblos y ciudades y países, cuyo carácter y contexto probablemente era inimaginable para los aldeanos que vivían en Liu Ling. Nuestro problema es desarrollar un método para el caso de secuencias de eventos interrelacionados. Para presentar un caso, primero necesitamos una población de eventos y necesitamos información sobre su relación. El segundo paso es dibujar un límite en los nodos en el gráfico. El problema (y la solución) se conoce como el problema de especificación de límites [16]. Basándonos en una vieja tradición en la literatura de las redes sociales, podemos aislar los casos al definir una partición en la población de eventos.Sin embargo, las técnicas de agrupamiento estándar no son apropiadas para nuestro problema, ya que los arcos que conectan regiones densas de un gráfico (nodos puente) podrían desempeñar un papel importante en la secuencia narrativa que estamos tratando de capturar. En cambio, adoptamos una nueva estrategia, que es identificar todos los bicomponentes en la población [17]. Un componente de un gráfico es un subgrafo conectado máximo. Un subgráfo máximo es uno que no puede hacerse más grande y aún conserva la propiedad de que hay una ruta entre todos los pares de nodos en el subgráfico y que no hay una ruta entre un nodo en el componente y un nodo que no está en el componente. Un bicomponente es un componente que tiene la propiedad de que todos los nodos están conectados por al menos dos caminos independientes diferentes y que la adición de un nodo requiere que esté conectado a dos nodos en el subgráfico. La idea central es que un caso, visto como un conjunto de eventos interconectados producidos por múltiples narraciones intercaladas debe tener la propiedad de al menos un bicomponente. Un bicomponente no es necesariamente un caso. Es un candidato para un caso. Definimos los casos como bicomponentes que son robustos para el descubrimiento o la activación futura. La figura 3 informa todos los eventos mencionados en las 14 historias de los aldeanos chinos con los que trabajamos, intercalados para formar un solo gráfico. Se mencionan casi 2000 eventos únicos, cada evento está representado por un círculo. Los eventos que están en más de una narrativa están sombreados. El tiempo narrativo se mueve desde la parte superior a la parte inferior de la página. En algunas regiones del gráfico, donde los eventos y sus relaciones son especialmente densos, los arcos son invisibles. Los eventos que están vinculados entre sí por arcos en estas regiones densas parecen superponerse en el gráfico. Los eventos al lado izquierdo de la figura están incrustados en secuencias de eventos que no están vinculadas a eventos en el lado derecho de la figura.



Esta es nuestra población de eventos. Por supuesto, hay millones de eventos no presentes. Podrían pertenecer a alguna otra historia pero no a esta historia. Pero algunos de los eventos que están presentes parecen que tampoco pertenecen a esta historia; por ejemplo, ninguna ruta los conecta a otros eventos.
Los happenings sin relaciones son solo acontecimientos. Las relaciones que tienen con otros eventos que no están en nuestra población pueden hacerlos parte de la historia, pero no la historia del caso en el que estamos trabajando. La figura 4 identifica y representa el componente principal. Tenga en cuenta que hemos pasado de los eventos de 1995, muchos de los cuales no estaban relacionados con ningún otro evento, a un conjunto más pequeño de aproximadamente 1476 eventos, todos agrupados en el lado derecho de la Figura 4.




Como antes, el tiempo narrativo se mueve desde la parte superior a la parte inferior de la página, los eventos superpuestos están conectados por arcos invisibles, y los eventos compartidos a través de múltiples narrativas están sombreados. Uno podría considerar un componente como un caso. El problema sustantivo es que es demasiado frágil. La eliminación de cualquier número de arcos o nodos individuales (relaciones causales o eventos) daría como resultado una partición del componente en múltiples subgrafos discretos. Nuestra estrategia es definir un caso candidato como un componente bicomponente, insistiendo en que todos los eventos estén conectados por al menos dos vías independientes y para probar su robustez para el futuro. El bicomponente más grande contiene 493 eventos. La figura 5 representa la estructura de este bicomponente, siguiendo la plantilla utilizada en las figuras anteriores. La Figura 5 destaca eventos compartidos en múltiples narrativas.
Este es el caso candidato.



5. CASOS DE PRUEBA

Para saber qué significa un evento, uno debe incrustarlo en una secuencia de eventos interrelacionados, que a su vez están integrados en secuencias más grandes que componen un caso. Algunos casos son más sólidos que otros. Los casos robustos se componen de elementos que, incluso si se activan en el futuro (o por descubrimiento) no cambian el caso. Es posible evaluar la robustez del caso simulando el efecto del futuro. Los subproductos son una evaluación de la solidez de los casos y un inventario de los eventos ordenados con respecto a la probabilidad de que sean causables. La Figura 6 informa la solidez de nuestro caso candidato, su resistencia a las perturbaciones menores y mayores. El criterio que usamos es la estadística RAND, que informa la extensión del acuerdo de clasificación cuando un par de elementos seleccionados al azar (aquí, eventos) se clasifican de la misma manera (perteneciendo al mismo grupo o perteneciendo a diferentes grupos) a través de dos particiones de una matriz. La estadística ajustada corrige la superposición casual [18, Eq. 9] e informa el acuerdo entre dos subgrafos más allá de la expectativa de azar.
El lado izquierdo de la Figura 6 informa el grado de acuerdo entre los eventos iniciales que componen el bicomponente inicial (n=479) y los eventos que componen un segundo bicomponente potencialmente alterado por la adición aleatoria de 1 a 10 nuevos enlaces a uno o más de los eventos de 1995 que componen el universo de eventos de Liu Ling. En otras palabras, agregamos un número de líneas aleatorias para conectar eventos previamente desconectados en Liu Ling. Agregar enlaces cambia la estructura del grafo original (al igual que el descubrimiento de un nuevo "hecho" podría conectar dos eventos que anteriormente se consideraban desconectados). Luego, reducimos el nuevo gráfico a su bicomponente más grande y comparamos el bicomponente del gráfico original con el nuevo bicomponente. Para cada caso, ejecutamos la misma simulación 500 veces, evaluando el efecto de agregar 1, 2, 3, ... 10 enlaces. La línea horizontal oscura informa el efecto mediano; el sombreado sombreado informa el rango intercuartílico. Al alejarse de las áreas sombreadas hay puntos que informan los efectos extremos de agregar enlaces.
Debería ser obvio que el caso es robusto al impacto de agregar un enlace. En la instancia promedio, no hay cambio. En el peor de los casos, agregar una sola línea resulta en un acuerdo entre los dos casos candidatos, que es un 93% mayor de lo esperado por casualidad. Los efectos de la mantequilla son posibles, pero extremadamente raros. Se observa un patrón similar para la adición de dos o tres relaciones nuevas. La estructura se rompe un poco con alteraciones más y más radicales del gráfico original. En el momento en que se agregan 10 nuevas líneas, la superposición entre los dos casos candidatos cae un 90% más de lo esperado por casualidad. El alcance del cambio es significativo, al igual que el descubrimiento de un nuevo archivo, múltiples adiciones conducirían a (re) conectar elementos de la estructura de datos subyacente, por lo tanto,

El alcance del cambio es significativo, al igual que el descubrimiento de un nuevo archivo, las adiciones múltiples conducirían a (re) conectar elementos de la estructura de datos subyacente, lo que podría cambiar su significado cambiando el caso en el que están integrados. La alteración simultánea de múltiples relaciones causales puede tener un profundo efecto multiplicador. La inestabilidad del caso resulta de combinaciones específicas (conjunciones) de cambios múltiples y simultáneos en los datos subyacentes.El efecto de eliminar relaciones es mucho menos pronunciado. Incluso en casos extremos, eliminando 10 enlaces, y por lo tanto potencialmente hasta 20 nodos, los dos casos candidatos siguen siendo notablemente similares. Aquí, el contraste entre nuestro caso y las narrativas históricas tradicionales (o incluso el componente que identificamos anteriormente) está marcado. Estos hallazgos no son artefactos, y proporcionan una idea de la estructura de un caso. Si se eliminase una ventaja de un bicomponente mínimamente conectado, el resultado sería una partición del componente en subgrafos y, por lo tanto, un acuerdo de clasificación significativamente inferior al que observamos. La solidez del caso para la eliminación implica que el bicomponente está compuesto de múltiples clústeres densos y que los eventos que componen cada grupo están vinculados por más de dos vías independientes. Esta estructura está más cerca de la estructura social escrita en grande. La densidad local de las estructuras de eventos reales protege los casos de colapso de las perturbaciones que tienen el efecto de eliminar las relaciones causales entre los eventos históricos.

Rompedores de casos

Para los casos que colapsan bajo una presión sutil (al agregar o eliminar una o unas pocas líneas), uno podría tener poca confianza en los significados atribuidos a un evento. Con casos robustos para el futuro, el significado de los eventos que componen el caso es fijo. Se sigue que si otros siguieran la misma estrategia de investigación, revelarían el mismo caso. En consecuencia, estarían de acuerdo con el significado del evento. Como útil es un inventario de eventos dispuestos con respecto a su probabilidad de romper el caso. Esta matriz permitiría que los científicos sociales históricos aprendan acerca de las características estructurales de los eventos que tienen el potencial de tocar los efectos de ruptura de casos. De las colas en ambos paneles de la Figura 6, está claro que en algunos casos, agregar o quitar un borde puede romper la caja. Estos son eventos fundamentales. Los eventos pivotales pueden inducirse de maneras que ya no están implícitas en la cohesión proximal de los grupos de eventos iniciales.



Un mecanismo (diferenciación) es que un clúster de evento temprano conecta múltiples clústeres de sucesos posteriores, en cada caso a través de múltiples rutas independientes. Un segundo mecanismo (convergencia) es que los clústeres de eventos iniciales separados se conectan a los mismos conglomerados de eventos subsiguientes, en cada caso a través de múltiples rutas independientes. Varias combinaciones de diferenciación también pueden ser visibles. En el primer caso (diferenciación), lo que parece un clúster de eventos unitarios se divide en múltiples clusters de eventos. En el segundo caso (convergencia) observamos el tipo inverso de estructura.
Una estrategia simple para identificar bordes / nodos de alto impacto es recorrer cada borde (o par de nodos) de a uno por vez, eliminarlo o agregarlo, y calcular una estadística RAND ajustada para los bicomponentes resultantes. Esto genera un puntaje de impacto potencial sistemático para cada borde, bajo la suposición de que podría ser eliminado (o agregado entre nodos) por algún evento futuro. En los límites de nuestro caso se encuentran grupos de eventos más pequeños y relativamente densos. Si los eventos que se encuentran en el límite de los casos son o no fundamentales depende de la estructura de los grupos de eventos más pequeños que, como las lunas, están suspendidos en la periferia del caso focal. En este caso, los eventos pivotales se ubican exclusivamente dentro de las regiones semi-densas del bicomponente.

6. DISCUSIÓN

Este artículo explota los métodos de red para hacer historia. Al centrarse en las redes como útiles para el método de la ciencia social histórica, han aparecido nuevas soluciones a viejos problemas. El problema más profundo es qué significan los eventos. La idea central de este artículo es que el significado de los eventos depende de su posición en una secuencia de eventos y, por lo tanto, el problema central de las ciencias sociales históricas son las secuencias de sucesos de cobertura, con el fin de inducir principios y fines. Las soluciones antiguas para la circunscripción de un caso están por todas partes. Descansan en conocer el final, teniendo una teoría para guiar la selección de eventos hacia un comienzo. La estructura de la historia aparece como un reloj de arena. Toda la energía causal tangible está encerrada en corrientes de comportamiento delgadas que parecen estar sujetas a todo tipo de contingencia. Se necesita poca visión para ver que, al igual que las muñecas rusas anidadas, el interior de una historia proporciona la madeja exterior para otra. En cada eliminación, lo que parece globalmente escaso se revela como denso a nivel local, y viceversa. 

Los métodos de red proporcionan una forma de explotar esta característica fractal de las estructuras de eventos, si podemos revelarlas. Ilustramos una estrategia simple para generar y revelar estructuras de eventos densos, como una nueva unidad de análisis. La estrategia que ilustramos es para intercalar historias múltiples. Las estructuras de eventos históricos que produce nuestro método se caracterizan por su ciclicidad, redundancia y densidad local.

Debido a que son estructuras, tienen parámetros significativos. Se ajustan a nuestra comprensión intuitiva de un caso, como algo que envuelve eventos dentro de un límite, ya sea en virtud de principios estructurales similares que organizan las relaciones entre los elementos, o una estructuración profunda a través de la memoria o la codificación cultural. También se ajustan a nuestra comprensión intuitiva de cómo se desarrolla la historia como resultado de múltiples fuentes que operan a través de múltiples vías en múltiples niveles de observación.
Si la historia tiene esta estructura, se deduce que la contingencia, mientras sea posible, está limitada por estructuras de eventos fractales profundamente complejas que absorben los eventos del presente y del futuro. Difícilmente podría ser de otra manera. ¿Cómo puede ser entonces que la contingencia y el azar desempeñen papeles tan grandes en la comprensión histórica? Una respuesta conservadora se sugiere arriba. Algunos eventos rompen casos. Debido a que este es el caso, una contribución central de la metodología que proponemos es producir una serie consistente de eventos con respecto a su probabilidad de servir como casos quebrantadores. Tal arreglo ayudará, como mínimo, a los historiadores a demostrar empíricamente qué eventos son críticos para su caso. A largo plazo, una mejor comprensión de los casos que interrumpen los casos, dentro de los casos, debería proporcionar una base para la abstracción en todos los casos, el objetivo principal de la sociología histórica.
Hay más posibilidades radicales. Uno podría, por supuesto, con algo de ironía, simplemente afirmar que el énfasis en el azar y la contingencia es el resultado de las presiones disciplinarias. Hay algo de verdad en esta afirmación, aunque tal vez no en el aspecto que uno pueda tener. La verdad radica en el compromiso que la (s) disciplina (s) tiene con los casos antiguos. Si el nuevo trabajo debe permanecer dentro de los límites de los casos aceptados, los nuevos argumentos más convenientes gravitarán hacia la contingencia como explicación. Sin embargo, podría ser de otra manera. Si el juicio ha producido los casos reales a considerar, el método propuesto en este artículo inducirá esos casos, y solo esos casos.
Al mismo tiempo, el método que describimos permite la inducción de casos: estructuras de eventos densas y robustas a una leve permutación, para las cuales no tenemos palabras. Y aquí, quizás, yace la avenida para una nueva percepción del pasado. Nuestra conjetura es que el compromiso de los historiadores con la estructura de casos conocidos ha limitado significativamente nuestra comprensión de los eventos, secuencias de eventos y la naturaleza del pasado, de la misma manera que el compromiso de los sociólogos con la realidad de las descripciones categóricas de la presente comprensión limitada de las estructuras sociales dentro de las cuales se organiza, expresa y representa el material de la vida. Para estar seguros, por supuesto, uno tiene que esperar las aplicaciones posteriores de los métodos de red -más sofisticados que los utilizados aquí- a la historia. 



REFERENCIAS

1. Bearman, P.; Stovel, K. Becoming a Nazi: A model for narrative networks. Poetics, Forthcoming, 1999.
2. Barkey, K.; Van Rossen, R. Networks of contention: Villages and regional structure in the seventeenth century Ottoman empire. Am J Sociol 1997, 102(5), 1345–1382.
3. Bearman, P. Relations into Rhetorics; Rose Monograph Series; ASA: New Brunswick, NJ, 1993.
4. Brudner, L.; White, D. Class, property and structural endogamy: Visualizing networked histories. Theory and Society 1997, 25, 161–208.
5. Gould, R.V. Insurgent Identities: Class, Community, and Protest in Paris from 1848 to the Commune; University of Chicago Press: Chicago, IL, 1995.
6. Gould, R.V. Patron-client ties, state centralization, and the whiskey rebellion. Am J Sociol 1996, 102(5), 400 – 429.
7. Padgett, J.; Ansell, C. Robust action and the rise of the Medici, 1400 –1434. Am J Sociol 1993, 98, 1259 –1319.
8. Emirbayer, M.; Goodwin, J. Network analysis, culture, and the problem of agency. Am J Sociol 1994, 99, 1411–1454.
9. Tilly, C. Durable Inequality; University of California Press: Berkeley, 1999.
10. White, H. Identity and Control; Princeton University Press: Princeton, NJ, 1992.
11. Frank, O. Sampling and estimation in large social networks. Social Networks 1978, 1, 91–101.
12. Granovetter, M. Network sampling: Some first steps. Am J Sociol 1977, 81(6), 1287–1303.
13. Myrdal, J. Report From a Chinese Village; Pantheon Books: New York, NY, 1965.
14. Labov, W. Language in the Inner City; University of Pennsylvania Press: Philadelphia, 1972.
15. Franzosi, R. From Words to Numbers. Unpublished Manuscript. Oxford University, England, 1999.
16. Wasserman, S.; Faust, K. Social Network Analysis. Methods and Applications; Cambridge University Press: Cambridge, MA, 1994.
17. White, D.; Schnegg, M.; Brudner, L.; Nutini, H. Status Groups and Structural Endogamy: Compadrazgo in Rural Tlaxcala, Mexico. Unpublished manuscript, 1999.
18. Morey, R.; Agresti, A. The measurement of classification agreement:An adjustment to the RAND statistic for chance agreement. Educational Psychological Measurement 1984, 44, 33–37.