sábado, 24 de junio de 2017

Estructura e inferencia en redes con metadatos

Estructura e inferencia en redes anotadas
M. E. J. Newman y Aaron Clauset
Nature Communications 7, Número del artículo: 11863 (2016)
Doi: 10.1038 / ncomms11863

Resumen
Para muchas redes de interés científico conocemos tanto las conexiones de la red como la información sobre los nodos de la red, como la edad o el género de los individuos en una red social. Aquí se demuestra cómo estos "metadatos" se puede utilizar para mejorar nuestra comprensión de la estructura de la red. Nos centramos en particular en el problema de la detección de comunidades en redes y desarrollamos un enfoque matemático basado en principios que combina una red y sus metadatos para detectar comunidades con mayor precisión de lo que se puede hacer con solo. Crucialmente, el método no asume que los metadatos están correlacionados con las comunidades que estamos tratando de encontrar. En su lugar, el método aprende si existe una correlación y utiliza o ignora correctamente los metadatos dependiendo de si contienen información útil. Demostramos nuestro método en redes sintéticas de estructura conocida y en redes del mundo real, grandes y pequeñas, provenientes de dominios sociales, biológicos y tecnológicos.



Introducción

Las redes surgen en muchos campos y proporcionan una representación potente y compacta de la estructura interna de una amplia gama de sistemas complejos1. Los ejemplos incluyen redes sociales de interacciones entre personas, redes tecnológicas y de información como Internet o la World Wide Web y redes biológicas de moléculas, células o especies enteras. Las dos últimas décadas han sido testigos de un rápido crecimiento tanto en la disponibilidad de datos de la red como en el número y la sofisticación de las técnicas de análisis de redes. Tomando ideas de la teoría de grafos, la física estadística, la informática, las estadísticas y otras áreas, el análisis de redes tiende a caracterizar las características estructurales de una red de una manera que arroja luz sobre el comportamiento del sistema descrito por la red. Estudios de redes sociales, por ejemplo, podrían identificar a los individuos más influyentes o centrales en una población. Los estudios de las redes de carreteras pueden arrojar luz sobre los flujos de tráfico o cuellos de botella dentro de una ciudad o país. Los estudios de vías en redes metabólicas pueden conducir a una comprensión más completa de la maquinaria molecular de la célula.

La mayor parte de la investigación en esta área trata a las redes como objetos de topología pura, conjuntos sin adornos de nodos y sus interacciones. Sin embargo, la mayoría de los datos de la red están acompañados por anotaciones o metadatos que describen las propiedades de los nodos como la edad, el género o la etnia de una persona en una red social, el modo de alimentación o la masa corporal de las especies en una red alimenticia, la capacidad de datos o la ubicación de los nodos. El Internet y así sucesivamente. (Puede haber metadatos en los enlaces de una red, así como en los nodos2, pero nuestro enfoque aquí es en el caso del nodo.) En este artículo, consideramos cómo ampliar el análisis de las redes para incorporar directamente estos metadatos. Nuestro enfoque se basa en métodos de inferencia estadística y en principio se puede aplicar a una serie de diferentes tareas de análisis de red. Aquí nos centramos específicamente en una de las tareas más estudiadas, el problema de detección de la comunidad. La detección de la comunidad, también llamada agrupación de nodos o clasificación, busca una buena división de los nodos de una red en grupos o clases3. Normalmente, se busca una estructura asociativa, agrupaciones de nodos tales que las conexiones son más densas dentro de los grupos que entre ellas. Esta estructura es común en las redes sociales, por ejemplo, donde los grupos pueden corresponder a conjuntos de amigos o compañeros de trabajo, pero también ocurre en otros casos, incluyendo las redes biológicas y ecológicas, la Web, las redes de transporte y distribución y otras. Menos común, pero no menos importante, es la estructura desastrosa, en la que las conexiones de red son más escasas dentro de los grupos que entre ellas, y también pueden ocurrir mezclas de estructura asociativa y desastrosa, donde diferentes grupos pueden tener propensiones variables para conexiones dentro o entre grupos .

En algunos casos, los grupos identificados por la detección de la comunidad se correlacionan significativamente con otras propiedades o funciones de la red, como las lealtades o los intereses personales en las redes sociales3,4 o la función biológica en las redes metabólicas5,6. Sin embargo, algunas investigaciones recientes han sugerido que estos casos pueden ser la excepción más que la regla7,8, un punto importante que abordaremos más adelante en este artículo.

Se ha propuesto un gran número de métodos para detectar comunidades en redes no anotadas3. Entre ellos, algunos de los más poderosos, tanto en términos de rendimiento rigurosamente demostrable y de velocidad cruda, son los basados ​​en la inferencia estadística. Aquí construimos sobre estos métodos para incorporar los metadatos del nodo, ya sean categóricos o de valor real, en el problema de detección de la comunidad de una manera flexible y flexible. (Para los metadatos de valor real, nos limitamos al caso escalar o unidimensional, pero los metadatos multidimensionales, como las ubicaciones en el espacio físico o latente9,10,11, serían un enfoque natural para futuras extensiones de nuestro enfoque). Los métodos resultantes tienen varias características atractivas. En primer lugar, pueden hacer uso de metadatos en formato arbitrario para mejorar la precisión de la detección de la comunidad. En segundo lugar, y fundamentalmente para nuestros objetivos, no asumen a priori que los metadatos se correlacionan con las comunidades que buscamos encontrar. En cambio, detectan y cuantifican la relación entre los metadatos y la comunidad, si existe, explotan esa relación para mejorar los resultados. Incluso si la correlación es imperfecta o ruidosa, el método todavía puede usar qué información está presente para obtener resultados mejorados. A la inversa, si no existe correlación, el método ignorará automáticamente los metadatos, devolviendo resultados basados ​​únicamente en la estructura de la red.

Tercero, nuestros métodos nos permiten seleccionar entre divisiones competidoras de una red. Muchas redes tienen una serie de diferentes divisiones posibles12. Por ejemplo, una red social de conocidos puede tener divisiones significativas a lo largo de las líneas de edad, género, raza, religión, idioma, política o muchas otras variables. Mediante la incorporación de metadatos que se correlacionan con una división de intereses en particular, podemos favorecer esa división sobre otros, dirigiendo el análisis en una dirección deseada. Por ejemplo, si nos interesa, por ejemplo, en una división de una red social a lo largo de las líneas de edad, y tenemos datos de edad para Alguna fracción de los nodos, podemos usar esos datos para dirigir el algoritmo hacia divisiones correlacionadas con la edad. Incluso si los metadatos son incompletos o ruidosos, el algoritmo todavía puede utilizarlos para guiar su análisis. Sin embargo, si entregamos los metadatos del algoritmo que no se correlacionan con ninguna buena división de la red, el método se negará a seguir ciegamente y nos informará que no existe una buena correlación.

Finalmente, la correlación entre los metadatos y la estructura de la red aprendida por el algoritmo (si existe) es interesante por derecho propio. Una vez encontrado, nos permite cuantificar el acuerdo entre las comunidades de la red y los metadatos, y predecir la pertenencia a la comunidad de nodos para los que carecemos de datos de red y solo tenemos metadatos. Si hemos aprendido, por ejemplo, que la edad es un buen predictor de las agrupaciones sociales, entonces podemos hacer predicciones cuantitativas de la pertenencia a grupos de individuos sobre los que conocemos su edad y nada más.

Varios otros investigadores han investigado formas de incorporar metadatos en los cálculos de detección de la comunidad13,14,15,16,17,18,19, aunque normalmente han hecho suposiciones más fuertes sobre la naturaleza de las comunidades o metadatos, asumiendo, por ejemplo, que Las comunidades son siempre asortativas, o que los metadatos representan ubicaciones en el espacio físico. Tal vez lo más cercano a nuestro enfoque son los métodos de aprendizaje semi-supervisados17,20,21,22, donde se supone que se nos dan las asignaciones exactas de la comunidad de alguna fracción de los nodos y el objetivo es deducir el recordatorio. Una variante de este enfoque es el aprendizaje activo, en el que se da la pertenencia a la comunidad de algunos nodos, pero los nodos conocidos no se especifican a priori, sino que son elegidos por el propio algoritmo a medida que se ejecuta23,24. Otra vena de la investigación, un poco más lejos de nuestro enfoque, considera el caso en el que se nos dice que algunos pares de nodos que están definitivamente en o definitivamente no en la misma comunidad, y luego asigna a las comunidades sujetas a estas restricciones25,26.

Nuestro enfoque, que se describe en detalle en la sección Métodos, toma como entrada una red acompañada de un conjunto de metadatos de nodo, que puede ser, por ejemplo, valores numéricos o etiquetas arbitrarias textuales o alfanuméricas, y produce como salida una división de la Nodos de la red en un número especificado k de grupos o comunidades. El método no asume, como lo hacen algunos métodos, un patrón particular de conexiones entre comunidades -como conexiones más densas dentro de grupos que entre ellas- y es numéricamente eficiente, haciendo uso de un supuesto esquema de propagación de creencias para realizar una rápida inferencia de Las asignaciones de grupo óptimas que hacen posibles aplicaciones a redes muy grandes. La red más grande que hemos analizado utilizando el método tiene más de 1,4 millones de nodos.

En las secciones siguientes damos resultados que muestran que nuestro método es capaz de recuperar comunidades conocidas en conjuntos de datos de referencia con mayor precisión que los algoritmos basados ​​únicamente en la estructura de la red, que podemos seleccionar entre divisiones comunitarias competidoras en pruebas reales y sintéticas, Es capaz de divinizar las correlaciones entre la estructura de la red y los metadatos, o determinar que no existe tal correlación y que las correlaciones aprendidas entre la estructura y los metadatos pueden usarse para predecir la pertenencia a la comunidad basándose únicamente en los metadatos.

Resultados

Redes sintéticas

Nuestras primeras pruebas están en redes (sintéticas) generadas por computadora que han conocido la estructura de la comunidad incrustada dentro de ellas. Estas redes se crearon utilizando el modelo de bloque estocástico, un modelo estándar de estructura de red en el que n nodos se asignan a grupos, entonces los enlaces se colocan entre ellos de forma independiente con probabilidades que son una función de la pertenencia a un grupo solamente27,28. Después de que se creen las redes, generamos metadatos de nodos de valor discreto que coinciden con las asignaciones de nodos reales de una fracción dada del tiempo y se eligen aleatoriamente de los valores no coincidentes. Esto nos permite controlar la medida en que los metadatos se correlacionan con la estructura de la comunidad y por lo tanto probar la capacidad del algoritmo para hacer uso de metadatos de calidad variable.

La figura 1a muestra los resultados de un conjunto de tales redes que tienen dos comunidades de igual tamaño, con las probabilidades de enlace pin=cin/n y pout=cout/n para los enlace dentro del grupo y entre los grupos, respectivamente, donde n es el número de nodos Como antes y cin y cout son constantes cuyos valores elegimos. Cuando cin es mucho mayor que cout las comunidades son fáciles de detectar de la estructura de la red por sí sola, pero como cin enfoques de la estructura se vuelve más débil y más difícil de detectar. Cada curva de la figura muestra la fracción de nodos clasificados en sus grupos correctos por nuestro algoritmo, ya que varía la fuerza de la estructura de la comunidad, medida por la diferencia cin-cout. Las curvas individuales muestran resultados para diferentes niveles de correlación entre comunidades y metadatos.


Figura 1: Pruebas en redes sintéticas de referencia con n = 10.000 nodos.


(A) Fracción de nodos asignados correctamente para redes con dos comunidades plantadas con grado medio c = 8, en función de la diferencia entre los números de conexiones dentro y entre grupos. Las cinco curvas muestran resultados para las redes con una coincidencia entre los metadatos y las comunidades plantadas en una fracción de 0,5, 0,6, 0,7, 0,8 y 0,9 de los nodos (de abajo hacia arriba). La línea vertical discontinua indica el umbral teórico de detectabilidad, por debajo del cual ningún algoritmo sin metadatos puede detectar las comunidades. (B) Fracción de 100 redes de prueba de cuatro grupos donde el algoritmo selecciona una división bidireccional en particular, entre varias posibilidades de competencia, con y sin la ayuda de metadatos que están débilmente correlacionados con la división deseada. Se considera que una corrida encuentra la división correcta si la fracción de nodos correctamente clasificados supera el 85%. Los parámetros de red son cout = 4 y cin = 20.


Cuando los metadatos y la comunidad coinciden exactamente con la mitad de los nodos (curva inferior) no hay correlación entre los dos, y los metadatos no pueden ayudar en la detección de la comunidad. Por lo tanto, no es de extrañar que esta curva muestra la tasa de éxito más baja. A niveles más altos de correlación, los metadatos contienen información útil y el rendimiento del algoritmo mejora en consecuencia.

Examinando la figura, surge un patrón claro. Para el cin-cout grande la red contiene la estructura de comunidad fuerte y el algoritmo clasifica confiablemente esencialmente todos los nodos en los grupos correctos, como nosotros esperaríamos de cualquier algoritmo eficaz. A medida que la estructura se debilita, la fracción de nodos correctos disminuye, pero sigue siendo mayor en todos los casos en los que los metadatos son útiles que en la curva más baja donde no lo son. Además, la tasa de éxito del algoritmo parece mejorar monotónicamente con el nivel de correlación entre los metadatos y las comunidades.

Cuando no hay metadatos, se sabe que el algoritmo de propagación de creencias que usamos proporciona respuestas óptimas al problema de detección de la comunidad en el sentido de que ningún otro algoritmo clasificará una fracción mayor de nodos correctamente en promedio29. El hecho de que nuestro algoritmo hace mejor cuando hay metadatos implica que el algoritmo con metadatos es mejor que cualquier algoritmo posible sin metadatos.

Además, se ha demostrado previamente que por debajo del llamado umbral de detectabilidad, que se produce en  (indicado por la línea vertical discontinua en la figura, y alineado con la transición aguda en la curva de fondo), la estructura de la comunidad se vuelve tan débil como para ser Indetectable por cualquier algoritmo que dependa sólo de la estructura de la red29,30. Muy por debajo de este umbral, sin embargo, nuestro algoritmo aún clasifica correctamente una fracción de los nodos aproximadamente igual a la fracción de metadatos que coinciden con las comunidades, lo que significa que el algoritmo hace mejor con los metadatos que sin que incluso por debajo del umbral. La Figura 1a también muestra que la fracción de nodos clasificados correctamente supera este nivel basal para valores de cin-cout algo por debajo del umbral, lo que sugiere que el uso de los metadatos cambia el umbral hacia abajo o tal vez lo elimina por completo.

En resumen, nuestro método combina automáticamente la información disponible de la estructura de la red y los metadatos para realizar un mejor trabajo de detección en la comunidad que cualquier algoritmo basado únicamente en la estructura de la red. Y cuando la red o los metadatos no contienen información sobre la estructura de la comunidad, el algoritmo los ignora correctamente y devuelve una estimación basada únicamente en la otra.

La figura 1b muestra una prueba sintética diferente, de la capacidad del algoritmo para seleccionar entre divisiones competidoras de una red. En esta prueba, las redes se generaron con cuatro comunidades de igual tamaño, pero el algoritmo se encargó de encontrar una división en sólo dos comunidades. Hay ocho maneras de dividir dicha red en dos si queremos mantener indivisibles los cuatro grupos subyacentes. Imaginamos una situación en la que nos interesa encontrar uno de estos ocho. Un algoritmo convencional de detección de la comunidad podría encontrar una división razonable de estas redes, pero no hay garantía de que encontraría la parte "correcta" de una parte del tiempo en que podemos esperar encontrar una de las divisiones competidoras. Pero si a nuestro algoritmo se le da un conjunto de metadatos que se correlacionan con la división de intereses, incluso si la correlación es pobre, entonces esa división será favorecida sobre las otras.

En nuestras pruebas la división deseada era una que coloca dos de los cuatro grupos subyacentes en una comunidad y los dos restantes en la otra. Se generaron metadatos de dos valores que coinciden con esta división el 65% del tiempo, un nivel de correlación relativamente débil, no muy por encima del 50% de los datos completamente no correlacionados. Sin embargo, como se muestra en la Fig. 1b, esto es suficiente para que el algoritmo encuentre de manera fiable la división correcta de la red en casi todos los casos-el 98% del tiempo en nuestras pruebas. Sin los metadatos, por el contrario, tenemos éxito sólo el 6% del tiempo. Algunas aplicaciones prácticas de esta capacidad para seleccionar entre divisiones competidoras se dan en la siguiente sección.

Redes del mundo real

En esta sección describimos aplicaciones de nuestro método a una serie de redes del mundo real, extraídas de los dominios sociales, biológicos y tecnológicos.

Para nuestra primera aplicación analizamos una red de estudiantes escolares, extraída del Estudio Nacional Longitudinal de Salud del Adolescente de los Estados Unidos. La red representa patrones de amistad, establecidos por encuesta, entre los 795 estudiantes de una escuela secundaria estadounidense de tamaño mediano (grados 9°-12°, 14-18 años) y su escuela secundaria de alimentación (grados 7° y 8°, 14 años).

Dado que esta red combina escuelas intermedias y secundarias, no es de extrañar que haya una clara división (previamente documentada) en dos comunidades de la red correspondientes aproximadamente a las dos escuelas. Trabajos anteriores, sin embargo, también han demostrado la presencia de divisiones por origen étnico31. Nuestro método nos permite seleccionar entre divisiones usando metadatos que se correlacionan con el que nos interesa.

La figura 2 muestra los resultados de aplicar nuestro algoritmo a la red tres veces. Cada vez, pedimos al algoritmo dividir la red en dos comunidades. En la Fig. 2a, usamos los seis grados escolares como metadatos y el algoritmo identifica fácilmente una división en los grados 7 y 8 por un lado y los grados 9-12 en el otro, es decir, la división en la escuela media y secundaria. En la Fig. 2b, por el contrario, utilizamos la autoidentificación étnica de los estudiantes como metadatos, que en este conjunto de datos toma uno de los cuatro valores: blanco, negro, hispano u otro (más un pequeño número de nodos con datos faltantes). Ahora el algoritmo encuentra una división completamente diferente en dos grupos, un grupo compuesto principalmente de estudiantes negros y uno de blanco. (El pequeño número de estudiantes restantes se distribuye aproximadamente igual entre los grupos.)


Figura 2: Comunidades encontradas en una red de amistad de la escuela secundaria con varios tipos de metadatos.

Tres divisiones de una red de amistad escolar, utilizando como metadatos (a) grado escolar, (b) origen étnico y (c) género.

Uno podría estar preocupado de que en estos ejemplos el algoritmo está principalmente siguiendo los metadatos para determinar la pertenencia a la comunidad, e ignorando la estructura de la red. Para probar esta posibilidad, se realizó un tercer análisis, utilizando el género como metadatos. Cuando hacemos esto, como se muestra en la Fig. 2c, el algoritmo no encuentra una división en grupos masculinos y femeninos. En cambio, encuentra una nueva división que es un híbrido de las divisiones de grado y etnicidad (estudiantes blancos de secundaria en un grupo y todos los demás en el otro). Es decir, el algoritmo ha ignorado los metadatos de género, porque no había una buena división de red que se correlaciona con ella, y en su lugar encontró una división basada en la estructura de la red solo. El algoritmo hace uso de los metadatos sólo cuando hacerlo mejora la calidad de la división de red (en el sentido del ajuste de máxima verosimilitud descrito en la sección Métodos).

La medida en que las comunidades encontradas por nuestro algoritmo coinciden con los metadatos (o cualquier otra variable de "verdad del suelo") se pueden cuantificar mediante el cálculo de una información mutua normalizada (NMI) 32,33, como se describe en la sección Métodos. NMI varía en el valor de 0 cuando los metadatos no son informativos sobre las comunidades a 1 cuando los metadatos especifican las comunidades por completo. Las divisiones mostradas en la Fig. 2a, b tienen puntuaciones NMI de 0,881 y 0,820, respectivamente, lo que indica que los metadatos son fuertemente pero no perfectamente correlacionada con la pertenencia a la comunidad. Por el contrario, la división en la Fig. 2c, donde el género se utilizó como metadatos, tiene un puntaje de NMI de 0,003, lo que indica que los metadatos contienen esencialmente información cero sobre las comunidades.

Nuestra próxima aplicación es a una red ecológica, una red alimentaria de interacciones predador-presa entre 488 especies marinas que viven en el Mar de Weddell, una gran bahía frente a la costa de la Antártida34,35. Existen diferentes metadatos disponibles para estas especies, incluyendo el modo de alimentación (alimentador de depósitos, alimentador de suspensión, depurador, etc.), zona dentro del océano (bentónica, pelágica, etc.) y otros. En nuestro análisis, sin embargo, nos enfocamos en uno en particular, la masa corporal promedio de un adulto. Las masas corporales de las especies en este ecosistema tienen una amplia gama, de los microorganismos que pesan nanogramos o menos a los centenares de toneladas para las ballenas más grandes. Convencionalmente, en tales casos uno trabaja a menudo con el logaritmo de la masa, que hace la gama más manejable, y lo hacemos aquí. Entonces realizamos descomposiciones de la comunidad k-modos usando esta masa de registro como metadatos, para varios valores de k.

La figura 3a muestra los resultados para k = 3. Los nodos se colorean de acuerdo con su papel en el ecosistema-carnívoros, herbívoros, productores primarios y así sucesivamente. La división encontrada por el algoritmo parece corresponder a estos papeles muy de cerca, con un grupo compuesto casi enteramente de productores primarios y herbívoros, uno de omnívoros y un tercero que contiene la mayoría de los carnívoros. Los tamaños de nodos en la figura son proporcionales a log-masa, que aumenta a medida que subimos la figura, lo que indica que el algoritmo ha recuperado de la estructura de la red la bien conocida correlación entre la masa corporal y el papel del ecosistema36. Este punto es aún más acentuado por las probabilidades de pertenencia a los tres grupos, que son una incidental, pero a menudo útil, salida adicional del algoritmo que utilizamos (ver Métodos). Estas probabilidades, trazadas como una función de la masa corporal en la Fig. 3b, demuestran que los organismos de baja masa son abrumadoramente propensos a estar en el primer grupo, y los de alta masa en el tercer grupo. Los organismos de masa intermedia tienen una distribución más amplia, pero están particularmente concentrados en el segundo grupo.

Figura 3: Resultados de la aplicación del método de este trabajo a la red alimentaria de especies marinas en el Mar de Weddell.

A) Descomposición tridireccional de la red alimentaria marina descrita en el texto, con el logaritmo de la masa corporal media utilizada como metadatos. Los tamaños de los nodos son proporcionales a la masa de log, y los colores indican el papel de la especie dentro del ecosistema. B) Las probabilidades aprendidas de pertenecer a cada una de las comunidades en función de la masa corporal. Utilizamos masa de registro como la variable de metadatos en nuestros cálculos, pero el eje horizontal aquí se calibra para leer en términos de la masa original en gramos utilizando una escala logarítmica. Las curvas azules, verdes y rojas corresponden, respectivamente, a las comunidades etiquetadas 1, 2 y 3 en a.


Las probabilidades de pertenencia también son de interés por derecho propio. Si, por ejemplo, aprendiéramos de una nueva especie, previamente no representada en nuestro conjunto de datos de la red alimentaria, entonces, incluso sin conocer su modelo de conexiones de red, podemos hacer una declaración acerca de su probabilidad de pertenecer a cada una de las comunidades, Así como su probabilidad de interacción con otras especies, siempre y cuando sepamos su masa corporal. Por ejemplo, una masa corporal baja de 10-12 g pondría una especie con alta probabilidad en el grupo 1 en la Fig. 3, lo que significa que es casi seguramente un productor primario o un herbívoro, con los patrones de interacción que implica.

La detección de la comunidad es ampliamente estudiada precisamente porque se cree que las comunidades de la red están correlacionadas con la función de la red. Más específicamente, se supone comúnmente que las comunidades se correlacionan con alguna variable funcional subyacente, que puede o no ser observada. Sin embargo, esta suposición ha sido cuestionada por trabajos recientes que compararon las comunidades en redes del mundo real con las variables de metadatos de "verdad fundamental" y encontraron poca correlación entre los dos7,8. Este es un descubrimiento sorprendente, pero hay una advertencia. Como hemos visto, a menudo hay múltiples divisiones comunitarias significativas de una red (como en la red de amistad escolar de la Figura 2, por ejemplo), y el hecho de que una división no está correlacionada con una variable de metadatos dada no descarta la posibilidad Que otro podría ser.

Nuestro tercer ejemplo de aplicación del mundo real ilustra estos problemas utilizando una de las mismas redes estudiadas en la referencia. 8, una representación de 46.676 nodos de la estructura peering de Internet a nivel de sistemas autónomos. La variable "verdad del suelo" para esta red es el país en el que se encuentra cada sistema autónomo. El análisis de la ref. 8 encontró poca correlación entre la estructura de la comunidad y los países.

Primero analizamos esta red sin metadatos, realizando una división tradicional 'ciega' de la comunidad, en cinco grupos usando métodos estándar. A continuación, repetimos el análisis utilizando el algoritmo de este documento, con los países como metadatos. Recuerde que, al hacerlo, no forzamos al algoritmo a encontrar una división de comunidad que se alinea con los metadatos si no existe tal división, pero si existe una división, será favorecida sobre las divisiones competidoras que no se alinean con los metadatos. Hay 173 países distintos en el conjunto de datos, un número significativamente mayor de valores de metadatos que para cualquiera de las otras redes que hemos considerado, pero de ninguna manera más allá de las capacidades de nuestro método.

Como antes, evaluamos los resultados usando la información mutua normalizada. Si de hecho hay muchas divisiones competitivas de la red, sólo algunas de las cuales se correlacionan con los metadatos particulares que se nos dan, entonces esperamos que nuestro análisis ciego devuelva una gama de valores de NMI en diferentes ejecuciones, algunas bajas y (quizás) algunas más altas . Esto es realmente lo que vemos, con el NMI en nuestros cálculos que van desde un máximo de 0.626 a un relativamente bajo 0.398, este último está de acuerdo con los resultados citados en ref. 8. A la inversa, cuando el algoritmo de este documento se aplica con países como metadatos, encontramos un puntaje de NMI significativamente mayor que cualquiera de estas cifras, en 0.870, lo que sería interpretado convencionalmente como una indicación de correlación fuerte.

Estos resultados hacen hincapié en que una aparente falta de correlación entre las comunidades de la red y los metadatos podría ser el resultado de la presencia de divisiones de la competencia de la red, que no están correlacionados con los metadatos particulares que tenemos a mano. El algoritmo de este trabajo nos permite seleccionar entre las divisiones y por lo tanto encontrar los que se correlacionan con la variable de interés.

Nuestro cuarto ejemplo se extrae del conjunto de datos FB100 de Traud et al.37, que es un conjunto de redes de amistad entre los estudiantes universitarios de las universidades estadounidenses compiladas a partir de relaciones de amigos en el sitio de redes sociales Facebook. Las redes datan de los primeros días de Facebook cuando sus servicios sólo estaban disponibles para universidades y cada universidad formaba un subgrafo separado e inconexo en la red más grande. Los nodos de estas redes representan a los participantes, que son principalmente aunque no exclusivamente estudiantes, los bordes representan las relaciones de amigos en Facebook, y además de la estructura de la red hay metadatos de varios tipos, incluyendo el género, el año universitario (es decir, el año de Graduación universitaria), mayor (es decir, tema principal del estudio de los estudiantes, si se conoce) y un código numérico que indica en qué residen los estudiantes de dormitorios.

Las divisiones principales en estas redes parecen ser por edad, o más específicamente por año de universidad. Por ejemplo, hemos examinado en detalle la red de la Universidad de Harvard, el lugar de nacimiento de Facebook, que tiene 15.126 nodos. La mayoría de ellos representan a los estudiantes de pregrado, que abarcan los años universitarios 2003-2009, pero también hay un pequeño número de ex alumnos (es decir, antiguos estudiantes), principalmente los recién graduados (años de graduación 2000-2002), así como estudiantes graduados, Estudiantes de verano, y algunos profesores y personal.

La Figura 4a muestra los resultados de una división de cinco vías de la red utilizando nuestro algoritmo con el año como metadatos. Este cálculo proporciona otro ejemplo de la utilidad de las probabilidades aprendidas de pertenencia a grupos para arrojar luz sobre la estructura de la red. La figura muestra una visualización de las probabilidades en función del año, con los colores mostrando la probabilidad relativa de pertenecer a cada una de las comunidades. Cada una de las barras en la parcela tiene la misma altura de 1, ya que las probabilidades se requieren para sumar a 1, mientras que el equilibrio de colores muestra la distribución sobre las comunidades. El examen del panel superior de la figura muestra claramente una división de la red a lo largo de las líneas de edad. Dos grupos, naranja y amarillo, a la derecha de la parcela, corresponden a los dos últimos años de estudiantes en el momento del estudio (años de graduación 2008 y 2009) y el siguiente, en rojo, representan los dos años anteriores (2006 y 2007). La comunidad morada corresponde a los tres años siguientes, 2003-2005, mientras que el sexto grupo, que se muestra en azul, corresponde a los alumnos. Finalmente, los estudiantes para los cuales el año no fue registrado se muestran en la columna marcada 'Ninguno', que es una mezcla de los cinco grupos.

Figura 4: Probada probabilidad previa de pertenecer a la comunidad para dos divisiones de cinco vías de la red de amistad de Facebook en Harvard descrita en el texto.

El eje horizontal es (a) año de graduación y (b) dormitorio, y los colores representan las probabilidades previas aprendidas de pertenecer a cada una de las comunidades.


Estos resultados se alinean bien con el análisis original de los mismos datos por Traud et al.37, quienes realizaron una división comunitaria tradicional de la red y luego realizaron pruebas estadísticas post hoc para medir las correlaciones entre comunidades y metadatos. Encontraron fuertes correlaciones con los metadatos del año escolar, de acuerdo con nuestros resultados. Con el beneficio de la retrospectiva los resultados pueden parecer no sorprendentes-cualquiera que haya estado en la universidad sabe que un gran número de sus amigos están en el mismo año que usted- pero ciertamente podría formular hipótesis competidoras. Una alternativa que Traud et al. Se consideró que la amistad podría estar influenciada por el lugar donde viven los estudiantes, y los estudiantes que viven en el mismo dormitorio tienen más probabilidades de ser amigos, independientemente del año en que se encuentren. Traud et al. Encontró que había alguna evidencia para esta hipótesis, pero que el efecto era más débil que el de la edad, y nuestro análisis lo confirma. El panel inferior de la Fig. 4 muestra una gráfica de los priores para una división con dormitorios estudiantiles como la variable de metadatos y hay una correlación clara entre el dormitorio y la pertenencia a la comunidad, pero no es tan limpio como en el caso de la edad. Parece que hay dos grupos que se alinean fuertemente con conjuntos particulares de dormitorios (de color rojo y morado en la figura), mientras que el resto de los dormitorios son una mezcla de diferentes comunidades (la región en el centro de la figura). La impresión de que la estructura de la comunidad está más alineada con el año de graduación que con el dormitorio también está corroborada por los valores normalizados de información mutua para las dos divisiones, que son 0.668 para el año de graduación, pero 0.255 para el dormitorio.

Nuestro ejemplo de la red del mundo real final se extrae de una red de recombinación génica para el parásito humano Plasmodium falciparum, que causa la malaria. La malaria es endémica en las regiones tropicales y es responsable de aproximadamente un millón de muertes anuales, en su mayoría niños en el África subsahariana38. Durante la infección, los parásitos evaden el sistema inmune del huésped y prolongan la infección cambiando repetidamente un camuflaje de proteínas que aparece en la superficie de un glóbulo rojo infectado. Para permitir este comportamiento, cada parásito tiene un repertorio de aproximadamente 60 proteínas inmunológicamente distintas, cada una de las cuales está codificada por un gen var en el genoma del parásito39. Estos genes experimentan una recombinación frecuente, produciendo nuevas proteínas mezclando y empalmando subcadenas de genes var existentes.

El proceso de recombinación induce una red bipartita natural con dos tipos de nodos, genes var por un lado y sus subcadenas constitutivas en el otro, donde cada nodo del gen está conectado por un borde a cada subcadena que contiene40,41. La recombinación en estos genes ocurre principalmente dentro de un número de regiones altamente variables distintas (HVRs) y cada HVR representa un conjunto distinto de bordes entre los mismos nodos. Aquí nos centramos en las proyecciones de gen-gen de un modo de las subredes HVR 5 y HVR 6, que han sido previamente analizadas utilizando métodos de detección de comunidades sin metadatos40,41. Cada una de estas redes de un modo consta de 297 genes.

Analizamos estas redes utilizando como metadatos las etiquetas Cys derivadas de la secuencia HVR 6 y las etiquetas Cys-PoLV (CP) derivadas de las secuencias adyacentes a HVR 5 y 6 (refs 39, 42, 43). Ambos tipos de etiquetas dependen únicamente de las características de las secuencias: Cys indica el número de cisteínas que contiene la secuencia HVR 6 (2 o 4), mientras que CP subdivide las clasificaciones Cys en seis grupos dependiendo de los motivos de secuencias particulares. Así, cada nodo tiene dos valores de metadatos, una etiqueta Cys y una etiqueta CP. Los marcadores de Cys son biológicamente importantes porque los recuentos de cisteína han sido implicados en fenotipos severos de la enfermedad39,42.

En nuestros cálculos usamos las seis etiquetas de CP como metadatos para una división comunitaria de dos vías de la red y luego evaluamos el grado en que las comunidades inferidas se correlacionan con los metadatos Cys. La Figura 5 muestra los resultados para la red HVR 6 con y sin las etiquetas de CP como metadatos. Sin metadatos, las etiquetas Cys se mezclan entre los grupos inferidos (Figura 5a), pero con los metadatos obtenemos una partición casi perfecta (Fig. 5b). Esto indica que la etiqueta del CP se correlaciona bien con la estructura de la comunidad de la red, un hecho que se oscureció en el análisis sin metadatos. Además, las comunidades inferidas se correlacionan fuertemente con las etiquetas de Cys más gruesas, que no se mostraron al método: observar que un gen tiene dos cisteínas es altamente predictivo (96% de probabilidad) de ese gen que está en un grupo, mientras que tiene cuatro cisteínas es modestamente Predictivo (67% de probabilidad) de estar en el otro grupo. Por lo tanto, el método ha descubierto por sí mismo que las secuencias de motivos que definen las etiquetas de CP, junto con sus comunidades de red correspondientes, se correlacionan con los conteos de cisteína y sus fenotipos de enfermedad grave asociados39, 42.

Figura 5: Comunidades inferiores para la red de recombinación de genes HVR 6 de la malaria.

Las comunidades inferen (a) sin metadatos y (b) con metadatos para la red HVR 6 del parásito de la malaria humana P. falciparum, donde los valores de metadatos son los marcadores de CP para los genes y los nodos se colorean de acuerdo con su etiqueta Cys biológicamente relevante.


Las comunidades en la red HVR 6 representan patrones altamente no aleatorios de recombinación, que se cree que indican restricciones funcionales en la estructura de la proteína. Trabajos anteriores ha conjeturado que las limitaciones comunes en la recombinación span distintos HVRs [40]. Podemos probar esta hipótesis usando los métodos descritos en este artículo. No hay razón a priori para esperar que la estructura de la comunidad de HVR 6 debe correlacionar con la de HVR 5 porque el Cys y CP etiquetas se derivan de fuera de la HVR 5 secuencias-Cys etiquetas reflejan cisteína cuenta en HVR 6 mientras CP etiquetas subdivide Cys Etiquetas basadas en motivos de secuencias adyacentes a, pero fuera de, HVR 5. Aplicando nuestros métodos a HVR 5 sin metadatos (figura 6a), encontramos mezcla de los HVR 6 Cys etiquetas a través de la HVR 5 comunidades. Por el contrario, utilizando las etiquetas CP como metadatos para la red HVR 5, nuestro método encuentra una partición mucho más limpia (Figura 6b), lo que indica que de hecho las etiquetas HVR 6 Cys se correlacionan con la estructura de la comunidad de HVR 5.


Figura 6: Comunidades inferiores para la red de recombinación de genes HVR 5 de la malaria.

Las comunidades inferen (a) sin metadatos y (b) con metadatos para la red HVR 6 del parásito de la malaria humana P. falciparum, donde los valores de metadatos son los marcadores de CP para los genes y los nodos se colorean de acuerdo con su etiqueta Cys biológicamente relevante.


Discusión

Existen varias extensiones posibles de este trabajo. En el nivel más simple se podrían incluir tipos de metadatos más complejos, como combinaciones de variables discretas y continuas o variables vectoriales como coordenadas espaciales. Los metadatos también podrían incorporarse a métodos para detectar otros tipos de estructura, como jerarquías44, motivos45, estructuras núcleo-periferia46, clasificaciones47 o estructuras de espacio latente48. Y los ajustes resultantes podrían formar el punto de partida para una variedad de aplicaciones adicionales, como la predicción de enlaces perdidos o metadatos faltantes en conjuntos de datos incompletos. Estas y otras posibilidades que dejamos para el trabajo futuro.


Referencias

1. Newman, M. E. J. Networks: An Introduction Oxford Univ. Press (2010).
2. Aicher, C., Jacobs, A. Z. & Clauset, A. Learning latent block structure in weighted networks. J. Complex Networks 3, 221–248 (2015).
3. Fortunato, S. Community detection in graphs. Phys. Rep. 486, 75–174 (2010).
4. Adamic, L. A. & Glance, N. The political blogosphere and the 2004 U.S. election: divided they blog. In Proceedings of the 3rd International Workshop on Link Discovery 36–43 (2005).
5. Holme, P., Huss, M. & Jeong, H. Subnetwork hierarchies of biochemical pathways. Bioinformatics 19, 532–538 (2003).
6. Guimerà, R. & Amaral, L. A. N. Functional cartography of complex metabolic networks. Nature 433, 895–900 (2005).
7. Yang, J. & Leskovec, J. Community-affiliation graph model for overlapping community detection. In Proceedings of the 12th IEEE International Conference on Data Mining (ICDM), 1170–1175 (2012).
8. Hric, D., Darst, R. K. & Fortunato, S. Community detection in networks: structural communities versus ground truth. Phys. Rev. E 90, 062805 (2014).
9. Barthélemy, M. Spatial networks. Phys. Rep. 499, 1–101 (2011).
10. Jacobs, A. Z. & Clauset, A. A unified view of generative models for networks: models, methods, opportunities, and challenges. Preprint at http://arxiv.org/abs/1411.4070 (2014).
11. Zuev, K., Marián Boguñá, G. B. & Krioukov, D. Emergence of soft communities from geometric preferential attachment. Sci. Rep. 5, 9421 (2015).
12. Good, B. H., de Montjoye, Y.-A. & Clauset, A. Performance of modularity maximization in practical contexts. Phys. Rev. E 81, 046106 (2010).
13. Bothorel, C., Cruz, J. D., Magnani, M. & Micenková, B. Clustering attributed graphs: models, measures and methods. Network Sci. 3, 408–444 (2015).
14. Yang, J., McAuley, J. & Leskovec, J. Community detection in networks with node attributes. In Proceedings of the 13th IEEE International Conference On Data Mining (ICDM), 1151–1156 (2013).
15. Binkiewicz, N., Vogelstein, J. T. & Rohe, K. Covariate assisted spectral clustering. Preprint at http://arxiv.org/abs/1411.2158 (2014).
16. Galbrun, E., Gionis, A. & Tatti, N. Overlapping community detection in labeled graphs. Data Min. Knowl. Discovery 28, 1586–1610 (2014).
17. Hansen, T. J. & Mahoney, M. W. Semi-supervised eigenvectors for large-scale locally-biased learning. J. Mach. Learn. Res. 15, 3871–3914 (2014).
18. Zhang, Y., Levina, E. & Zhu, J. Community detection in networks with node features. Preprint at https://arxiv.org/abs/1509.01173 (2015).
19. Expert, P., Evans, T. S., Blondel, V. D. & Lambiotte, R. Uncovering space-independent communities in spatial networks. Proc. Natl Acad. Sci. USA 108, 7663–7668 (2011).
20. Peel, L. Supervised blockmodeling. ECML/PKDD Workshop on Collective Learning and Inference on Structured Data http://arxiv.org/abs/1209.5561 (2012).
21. Eaton, E. & Mansbach, R. A spin-glass model for semi-supervised community detection. In Proceedings of the 26th AAAI Conference on Artificial Intelligence (AAAI), 900–906 (2012).
22. Zhang, P., Moore, C. & Zdeborová, L. Phase transitions in semisupervised clustering of sparse networks. Phys. Rev. E 90, 052802 (2014).
23. Moore, C., Yan, X., Zhu, Y., Rouquier, J.-B. & Lane, T. Active learning for node classification in assortative and disassortative networks. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 841–849 (2011).
24. Leng, M., Yao, Y., Cheng, J., Lv, W. & Chen, X. in Database Systems for Advanced Applications (eds Meng W., Feng L., Bressan S., Winiwarter W., Song W. Vol. 7826, 324–338Springer (2013).
25. Maa, X., Gaoa, L., Yongb, X. & Fua, L. Semi-supervised clustering algorithm for community structure detection in complex networks. Phys. A 389, 187–197 (2010).
26. Zhang, Z.-Y. Community structure detection in complex networks with partial background information. Europhys. Lett. 101, 48005 (2013).
27. Holland, P. W., Laskey, K. B. & Leinhardt, S. Stochastic blockmodels: some first steps. Social Networks 5, 109–137 (1983).
28. Karrer, B. & Newman, M. E. J. Stochastic blockmodels and community structure in networks. Phys. Rev. E 83, 016107 (2011).
29. Decelle, A., Krzakala, F., Moore, C. & Zdeborová, L. Inference and phase transitions in the detection of modules in sparse networks. Phys. Rev. Lett. 107, 065701 (2011).
30. Mossel, E., Neeman, J. & Sly, A. Reconstruction and estimation in the planted partition model. Probab. Theory Related Fields 162, 431–461 (2015).
31. Moody, J. Race, school integration, and friendship segregation in America. Am. J. Sociol. 107, 679–716 (2001).
32. Danon, L., Duch, J., Diaz-Guilera, A. & Arenas, A. Comparing community structure identification. J. Stat. Mech. 2005, P09008 (2005).
33. McDaid, A. F., Greene, D. & Hurley, N. Normalized mutual information to evaluate overlapping community finding algorithms. Preprint at http://arxiv.org/abs/1110.2515 (2011).
34. Brose, U. et al. Body sizes of consumers and their resources. Ecology 86, 2545–2545 (2005).
35. Jacob, U. Trophic Dynamics of Antarctic Shelf Ecosystems Food Webs and Energy Flow Budgets PhD thesis, Univ. Bremen (2005).
36. Woodward, G. et al. Body size in ecological networks. Trends Ecol. Evol. 20, 402–409 (2005).
37. Traud, A. L., Mucha, P. J. & Porter, M. A. Social structure of Facebook networks. Phys. A 391, 4165–4180 (2012).
38. Report, W. M. World Malaria Report World Health Organization (2012).
39. Bull, P. C. et al. Plasmodium falciparum variant surface antigen expression patterns during malaria. PLOS Pathog. 1, e26 (2005).
40. Larremore, D. B., Clauset, A. & Buckee, C. Z. A network approach to analyzing highly recombinant malaria parasite genes. PLOS Comput. Biol. 9, e1003268 (2013).
41. Larremore, D. B., Clauset, A. & Jacobs, A. Z. Efficiently inferring community structure in bipartite networks. Phys. Rev. E 90, 012805 (2014).
42. Warimwe, G. M. et al. Plasmodium falciparum var gene expression is modified by host immunity. Proc. Natl Acad. Sci. USA 106, 21801–21806 (2009).
43. Bull, P. C. et al. An approach to classifying sequence tags sampled from Plasmodium falciparum var genes. Mol. Biochem. Parasitol. 154, 98–102 (2007).
44. Clauset, A., Moore, C. & Newman, M. E. J. Hierarchical structure and the prediction of missing links in networks. Nature 453, 98–101 (2008).
45. Milo, R. et al. Network motifs: simple building blocks of complex networks. Science 298, 824–827 (2002).
46. Borgatti, S. P. & Everett, M. G. Models of core/periphery structures. Social Networks 21, 375–395 (1999).
47. Ball, B. & Newman, M. E. J. Friendship networks and social status. Network Sci. 1, 16–30 (2013).
48. Hoff, P. D., Raferty, A. E. & Handcock, M. S. Latent space approaches to social network analysis. J. Am. Stat. Assoc. 97, 1090–1098 (2002).
49. Yedidia, J. S., Freeman, W. T. & Weiss, Y. in Exploring Artificial Intelligence in the New Millennium (eds Lakemeyer G., Nebel B. 239–270Morgan Kaufmann (2003).
50. Cover, T. M. & Thomas, J. A. Elements of Information Theory 2nd edn Wiley (2006).

sábado, 17 de junio de 2017

ARS: Desarrollos, avances y perspectivas

Análisis de redes sociales: desarrollos, avances y perspectivas
John Scott -  Socian Networks Analysis and Mining

Resumen Este trabajo revisa el desarrollo del análisis de redes sociales y examina sus principales áreas de aplicación en sociología. Se examinan los acontecimientos actuales, incluidos los de fuera de las ciencias sociales, y se examinan sus perspectivas de progreso en el conocimiento sustantivo. En una sección final se examinan las implicaciones de las técnicas de extracción de datos y se destaca la necesidad de una cooperación interdisciplinaria si se quiere lograr un trabajo significativo.
Scott, J. SOCNET (2011) 1: 21. doi:10.1007/s13278-010-0012-6


1. El desarrollo del análisis de redes sociales

Los orígenes de un enfoque de la estructura social explícitamente utilizando las ideas de una "red social" son difíciles de discernir. El pensamiento estructural tiene raíces profundas en la tradición sociológica, pero en realidad sólo en los años treinta se expresó específicamente el pensamiento en red como un enfoque distinto de la estructura social.
Los teóricos sociales alemanes influenciados por Georg Simmel tomaron su énfasis en las propiedades formales de la interacción social para construir una "sociología formal", en la cual los sociólogos fueron obligados a investigar las configuraciones de relaciones sociales producidas por el entretejido de encuentros sociales. Alfred Vierkandt y Leopold von Wiese fueron los principales defensores de esta idea y adoptaron explícitamente una terminología de puntos, líneas y conexiones para describir las relaciones sociales. Sus ideas influyeron en un número de trabajadores en psicología social y psicoterapia que estaban interesados ​​en las formas en que las estructuras de grupos pequeños influenciaron las percepciones individuales y las opciones de acción. Lewin (1936) y Moreno (1934) fueron los principales contribuyentes a las investigaciones sobre el "campo" o "espacio" de las relaciones sociales y sus características de red (véase Bott1928). Fue Moreno quien dio a su enfoque el nombre de sociometría e introdujo la idea de representar las estructuras sociales como diagramas de red -sociogramas- de puntos y líneas. La sociometría se convirtió en un importante campo de investigación en la educación y la psicología social (Jennings, 1948), donde dio lugar al enfoque denominado "dinámica de grupo" (Cartwright y Zander, 1953; Harary y Norman 1953), fuertemente desarrollado en la Universidad de Michigan y en El Instituto Tavistock.
Este trabajo tuvo cierto impacto en la corriente principal de la sociología americana, gracias al trabajo de Lundberg (1936, Lundberg y Steele 1938), pero un desarrollo más fuerte del pensamiento de red comenzó cuando Lloyd Warner y Elton Mayo colaboraron en un estudio de la empresa de servicios eléctricos de Hawthorne en Chicago y fueron a investigar la estructura de la comunidad en ciudades y pueblos americanos. Basándose en las ideas que Radcliffe-Brown había tomado de la sociología de Durkheim, centraron su atención en la estructura de las relaciones de grupo y comenzaron a diseñar diagramas de red para representar esto. Pueden haber sido influenciados por las ideas sociométricas emergentes, pero el estímulo particular a esta forma de pensar puede haber sido los diagramas de cableado eléctrico que encontraron en la fábrica estudiada y que sirvió como una metáfora para las relaciones de grupo. Cualesquiera que sean sus orígenes, la idea de ver a los grupos sociales como redes de relaciones se estableció firmemente cuando su principal informe de investigación apareció una década después del comienzo de la investigación (Roethlisberger y Dickson, 1969). En un estudio de Newburyport, realizado entre 1930 y 1935, Warner desarrolló técnicas para representar las relaciones comunitarias a gran escala en forma de matriz como una representación de Lo que él llamó la "estructura de la camarilla" de la ciudad (Warner y Lunt, 1941). George Homans desarrolló estos métodos matriciales en su reanálisis de la pequeña camarilla (clique) de mujeres del sur estudiada por Warner en Natchez (Homans 1950). Estas dos tradiciones de investigación comenzaron a unirse en el trabajo antropológico llevado a cabo en la década de 1950 por investigadores de la Universidad de Manchester. Al intentar romper con las suposiciones de consenso de la sociología americana dominante y reconocer el conflicto y las divisiones dentro de la estructura de la comunidad, consideraron que el análisis de redes proporcionaba los medios para este fin. Fue Barnes (1954) quien propuso tomar la idea de una red de relaciones en serio, y sus argumentos fueron reforzados por el trabajo de Elizabeth Bott en Londres sobre redes de parentesco (Bott 1955, 1956). Al presentar sus ideas a los investigadores de Manchester inspiraron una declaración sistemática de Nadel (1957) y un programa de investigación sobre las comunidades africanas (Mitchell 1969b). El comentario de Mitchell sobre este trabajo (Mitchell 1969a) cuenta como uno de los primeros resúmenes sistemáticos de una metodología de red social formal. En el momento en que apareció el trabajo de Mitchell, sin embargo, varios investigadores estadounidenses también habían comenzado a desarrollar
Una metodología formal para el análisis de redes sociales. Harrison White había comenzado a explorar los usos del álgebra para representar las estructuras de parentesco (White1963), mientras que Edward Laumann (Laumann 1966) había comenzado a emplear métodos de escalamiento multidimensionales como una extensión del enfoque de Lewin al campo social. White se trasladó a la Universidad de Harvard y reunió a un grupo grande y dinámico de asociados para explorar los métodos de red (véase la discusión en Mullins 1973). Lee (1969) y Granovetter (1973, 1974) utilizaron métodos sociométricos extendidos para investigar, respectivamente, el aborto y el empleo, mientras que White y sus colegas desarrollaron métodos de análisis matricial para estudiar las relaciones sociales (White et al., 1976, Boorman y White, 1976). Fue de este grupo que una nueva generación de investigadores de redes sociales tomó este estilo de investigación en todo el mundo e influyó en el trabajo realizado en muchos países.
Lo más notable de los desarrollos en análisis de redes sociales fuera de Norteamérica fue el trabajo de Barry Wellman sobre la estructura de la comunidad en Canadá (Wellman y Berkowitz 1988), el trabajo de Frans Stokman y sus colegas sobre los patrones holandeses e internacionales de control corporativo (Helmers et al., 1975; Stokman et al., 1985), y mi propio trabajo sobre la propiedad y el control corporativos (Scott, 1979; Scott y Griff, 1984). Desde finales de los años setenta la cantidad de trabajo en la metodología del análisis de redes sociales ha aumentado masivamente, y la gama de aplicaciones impide cualquier resumen fácil. Los principales hitos metodológicos en el desarrollo del análisis de redes sociales son los principales estudios de Burt (1982), Freeman et al. (1989), y por Wasserman y Faust (1994), un volumen editado por Wasserman y Galaskiewicz (1994), un texto introductorio de Scott (2000, publicado originalmente en 1991) y una reciente colección editada por Carrington et al. (2005). Los desarrollos recientes y los avances se publicarán en el próximo Manual de análisis de redes sociales (Scott y Carrington2011).

2 Ideas centrales y aplicaciones de análisis de redes sociales

El enfoque predominante en el análisis de redes sociales hasta hace relativamente poco tiempo ha sido el enfoque matemático llamado teoría de los grafos. Esto todavía, discutible, proporciona el núcleo del análisis formal de la red social. La teoría de los grafos se originó en las investigaciones matemáticas emprendidas por Euler y proporciona un método para estudiar las redes ("grafos") de todo tipo. En el análisis de las redes sociales, los individuos y los grupos están representados por puntos y sus relaciones sociales están representadas por líneas, como en los sociogramas clásicos. La teoría de los grafos proporciona teoremas para analizar las propiedades formales de los sociogramas resultantes. Cuando los datos de la red se registran en forma de matriz, la teoría de los grafos puede operar directamente sobre las matrices sin necesidad de construir una representación visual real de los datos: una gran ventaja al manejar conjuntos de datos a gran escala. A las líneas de un grafo se les puede asignar una "dirección" para representar el flujo de influencia o recursos en una red social y se les puede asignar un "valor" para representar la fuerza de la relación.
Los teoremas de la teoría de grafos usan datos no dirigidos, dirigidos y valorados para construir medidas de la "densidad" global de una red y la "centralidad" relativa de varios puntos dentro de la red. Las medidas de centralidad se han utilizado típicamente como proxies para el poder y la influencia y han permitido la investigación de relaciones de arbitraje (Burt 2005). Un área importante de trabajo dentro de este enfoque ha sido la investigación de cliques y clusters, donde una variedad de medidas alternativas se han ideado para representar las divisiones estructurales dentro de una red social.

Junto a este trabajo ha sido un enfoque basado en la matriz que se origina en las ideas de Harrison White y Doug White, que se centra no en las propiedades de individuos y grupos sino en las características de las posiciones sociales, roles y categorías. Estos enfoques de posición -a veces denominados «modelos de bloques» - son métodos rigurosos de agrupamiento matricial que organizan las redes en posiciones jerárquicas del tipo que Nadel (1957) considera centrales para las preocupaciones teóricas de la sociología. Se han desarrollado varias medidas alternativas de la "equivalencia estructural" y la "sustituibilidad" de los individuos dentro de las posiciones sociales como formas de avanzar en este aspecto del análisis de redes sociales.

Estas ideas se han desarrollado en una serie de piezas generales y específicas de software. El más extendido en uso común ha sido UCINET, desarrollado inicialmente como una implementación de enfoques teóricos de grafos por Lin Freeman, Martin Everett, y otros en la Universidad de California, Irvine. Se ha ampliado en un programa general que maneja medidas posicionales y enfoques gráficos y ofrece una manera intuitiva y eficiente de realizar análisis de red. Más recientemente, PAJEK ha sido desarrollado por Vladimir Batagelj en la Universidad de Ljubljana como forma de manejar conjuntos de datos a gran escala y, en particular, utilizando métodos visuales de representación (véase De Nooy et al., 2005). También es capaz de realizar análisis generales de la estructura de la red y ahora se incluye como un subprograma dentro de UCINET.
Quizás el área principal, y también una de las áreas más tempranas, en las cuales se han aplicado técnicas de redes sociales, es el estudio de las relaciones de poder intercorporadas a través de la investigación de directorios entrelazados. Una de las principales áreas en las que se ha aplicado el análisis de redes sociales La investigación del poder corporativo y los directivos entrelazados. Varios estudios iniciales de escritores como Sweezy (1939) habían adoptado técnicas ad hoc para dibujar diagramas de red de conexiones a nivel de tablero y habían adoptado provisionalmente el lenguaje de redes y redes, especialmente en relación con la formación de camarillas. Durante las décadas de 1960 y 1970 estas sugerencias fueron promovidas en una serie de estudios realizados por analistas de redes en los Estados Unidos y luego en Europa, Australia y Japón. Bearden et al. (1975) elaboró ​​un documento que desarrolló la idea de la centralidad en las redes sociales como una forma de explorar el poder y la influencia de los bancos en el mundo empresarial estadounidense, mientras que Levine (1972) examinó el mapeo de los clusters asociados con Bancos y sus directores en el espacio social, utilizando técnicas de escalamiento multidimensional.
Las medidas clave desarrolladas en los Países Bajos (Helmers et al., 1975) se convirtieron en la base para una investigación de patrones transnacionales (Fennema 1982) y una investigación comparativa internacional (Stokman et al., 1985). Esto se amplió en una investigación comparativa de las redes intercomunales de accionistas (Scott1986) y dio lugar a numerosos estudios en diversas sociedades (véase la revisión en Scott 1997).
Una segunda gran tabla de análisis de redes sociales ha sido la investigación de la estructura de la comunidad. Esta área tiene una larga historia en las investigaciones llevadas a cabo por Lloyd Warner en pequeñas camarillas de ciudades y redes de negocios (Warner y Lunt, 1941) y en estudios antropológicos de comunidades tribales. En la década de 1960, un grupo de antropólogos asociados con los desarrollos en análisis de redes en la Universidad de Manchester comenzó una serie de estudios formales (Mitchell 1969b), pero fue Fisher (1977) y Wellman (1979) quienes generaron el trabajo que movió este campo En una dirección sistemática. Wellman emprendió una serie de investigaciones sobre la estructura cambiante de las relaciones comunales en una ciudad canadiense y examinó el papel de la amistad en la integración social. Se interesó particularmente en cambiar los medios de mantener el contacto y ha elaborado recientemente los medios electrónicos de comunicación como bases para las redes interpersonales (Wellman y Hogan, 2006). Este trabajo ha convergido recientemente con ideas sobre capital social que se desarrollaron a partir del trabajo de Putnam (2000). Las contribuciones más importantes a este trabajo han sido las reflexiones de Lin (2001) y Burt (2005, véase también Lin et al., 2001).
Numerosas otras aplicaciones, demasiado numerosas para citar aquí, han ampliado el análisis de redes sociales en redes políticas y de políticos, movimientos sociales, criminalidad y terrorismo, redes religiosas y en otros lugares. Muchas de estas áreas son revisadas en el próximo Manual Sage de Análisis de Redes Sociales (Carrington y Scott 2011)

3 Entran los físicos

Quizás el desarrollo más llamativo en el análisis de la red ha sido el crecimiento del interés aparente entre los físicos al aplicar las ideas de la red a los fenómenos sociales. En 1998, Duncan Watts y Steven Strogatz publicaron un artículo (Watts y Strogatz1998) que revisaba algunas de las ideas sobre redes aleatorias que habían surgido de la obra de Stanley Milgram sobre "mundos pequeños" (Milgram, 1969, Travers y Milgram, 1969). Tomando estas sugerencias y trabajos previos sobre redes aleatorias, teóricos como Barabasi (2002) y Watts (1999, 2003) propusieron lo que consideran nuevas áreas de aplicación al mundo social. Por desgracia, estos físicos han ignorado o han ignorado la gran cantidad de trabajo previo en las redes sociales y han propuesto investigaciones en, por ejemplo, redes de directorios sobre la base de que ninguno hasta ahora ha sido emprendido! La conciencia pública de las implicaciones del análisis de redes para investigar el mundo social ha sido fuertemente influenciada por las actividades de proselitismo de los físicos, y su trabajo es elogiado a menudo como nuevo e innovador por aquellos que son igualmente inconscientes del trabajo de los sociólogos (véase, Por ejemplo, Buchanan 2002).
Una revisión de estudios publicados por Freeman (2004) ha demostrado que el trabajo de los físicos rara vez ha citado el trabajo de los analistas de redes sociales y los analistas de redes sociales han sido reacios a comprometerse con el trabajo de los físicos. De hecho, un análisis de la red de patrones de citas muestra claramente una separación casi completa de los dos grupos.
Hay indicios de que esta división se está desmoronando, al menos en lo que respecta a los sociólogos. Watts se ha convertido a la sociología, pero Barabasi y otros influenciados por él persisten en ignorar el trabajo de los anteriores. Sin embargo, el trabajo de los físicos ha esbozado áreas de investigación que fueron subestimadas en análisis previos de redes sociales y un acercamiento será fructífero para ambas partes.
Un área clave destacada en el trabajo de los físicos ha sido la dinámica de redes y el cambio con el tiempo y sin duda ha sido un área que ha sido desarrollada sólo débilmente, si es que, por sociólogos que trabajan en análisis de redes sociales. Mucho trabajo sociológico ha sido estático o se ha ocupado simplemente de una secuencia de secciones estáticas de las redes, pero los métodos de los físicos prometen maneras de avanzar hacia los estudios adecuadamente dinámicos de la transformación de la red y la explicación de los procesos de red.

4 Áreas de avance

En el trabajo actual, se pueden identificar cuatro grandes áreas de avance. Estos son el uso de pruebas de significación estadística, el desarrollo de modelos de cambio longitudinal, la exploración de nuevos métodos de visualización y exploraciones en el contexto cultural de los modelos de redes sociales. Aunque ha habido algunos intentos de utilizar medidas estadísticas básicas de probabilidad y significación para probar hipótesis sobre la estructura de la red, sólo recientemente se han hecho avances significativos en esta área. Los procedimientos estadísticos estándar como las pruebas de significación, la regresión y el análisis de la varianza asumen la independencia de las observaciones, y esta suposición no concuerda con los datos típicos de la red. Por esta razón, se han requerido nuevas técnicas estadísticas, siendo el trabajo más importante el trabajo de Stanley Wasserman y sus colegas (Wasserman y Pattison, 1996, Pattison y Wasserman 1999, Robins et al.1999) para generalizar los grafos de Markov a una familia más grande de Modelos. Sus modelos de grafos aleatorios exponenciales -a veces denominados p* modelos- definen una distribución de probabilidad en el conjunto de todas las redes que se pueden construir en un conjunto dado de puntos usando vectores paramétricos específicos. Los grafos generados al azar varían a lo largo de todo el rango de completamente no conectados a completamente conectados, y log odds ratios de las probabilidades se utilizan para producir estimaciones de Monte Carlo que hacen posible una comparación de una red real con el conjunto de lógicamente posibles grafos con el fin de evaluar la probabilidad de su ocurrencia por casualidad.
Además de su enfoque descriptivo, gran parte del análisis de redes sociales también se ha concentrado en las características estáticas de las redes sociales. Esto también ha comenzado a cambiar en los últimos años, ya que se ha prestado más atención a los procesos dinámicos que intervienen en los cambios en el tiempo. Un avance clave en esta dirección ha sido el uso de modelos que ilustran las formas en que el comportamiento de los agentes individuales da lugar a transformaciones globales de la estructura de la red.
En los denominados modelos computacionales basados ​​en agentes, los agentes (ya sean individuos o grupos) son vistos como entidades que siguen las reglas, cuyas decisiones de actuar de una manera u otra son consecuentes para la red global en virtud de su concatenación con las consecuencias de la acción de otros . Por lo tanto, el conocimiento de las reglas bajo las cuales actúan los agentes puede ser utilizado para predecir patrones generales de cambio en la estructura de la red.
La búsqueda de explicaciones de cambio en el tiempo ha sido promovida por el desarrollo de una serie de métodos longitudinales que se han basado en modelos computacionales basados ​​en agentes (ver Monge y Contractor 2003). Tom Snijders (Snijders y van Duijn 1997, Snijders 2001, 2005) ha desarrollado un enfoque que ve el ajuste incremental de la acción individual a la estructura cambiante de la red, resultando en un proceso continuo pero a menudo no lineal de desarrollo de la red. Los agentes actúan «miopically», con sólo la concepción parcial de las consecuencias más amplias de sus opciones y los cambios que han resultado de sus acciones. Las redes evolucionan a través de la iteración continua de acciones y pequeños cambios incrementales pueden acumularse hasta un punto de inflexión en el que puede producirse una transformación no lineal en la estructura de la red. El trabajo actual en esta área está haciendo conexiones importantes con el trabajo temprano de Wasserman (Wasserman1980) y sus modelos exponenciales del grafos aleatorios. El enfoque general se ha implementado en el programa SIENA de Snijders para facilitar su uso.
La visualización de las redes sociales ha sido durante mucho tiempo una meta del análisis de redes sociales, originado en los primeros sociogramas. Sin embargo, una vez que las redes alcanzaron un tamaño mayor que un puñado de puntos, se hizo difícil dibujar sociogramas precisos y legibles. El deseo de recapturar el simple impacto visual del sociograma ha motivado el intento de investigar formas de dibujar diagramas de red que retengan los patrones espaciales inherentes a los datos relacionales. El escalamiento multidimensional emergió como uno de los primeros intentos de superar el revoltijo de líneas entrecruzadas y mostrar puntos según su distancia relativa en el espacio social. Las implementaciones de este enfoque ya están disponibles en los principales paquetes de software, y también están empezando a estar disponibles técnicas como el análisis de correspondencia múltiple. Freeman y otros, sin embargo, han estado explorando bases alternativas para la visualización, incluyendo aquellas que son capaces de prevenir imágenes en movimiento de cambio de red.
El trabajo teórico ha sido durante mucho tiempo subdesarrollado en análisis de redes sociales. Si bien los métodos en sí no requieren ni implican ninguna teoría sociológica en particular, requieren una contextualización teórica en debates más amplios. Los argumentos teóricos recientes más importantes han sido los que han retomado el trabajo de White (1992) en temas de cultura, identidad y agencia.

Ann Mische (Mische2003, véase también Mische 2007) ha desarrollado algunos argumentos interesantes que se basan en el trabajo realizado con Mustafa Emirbayer (Emirbayer y Mische1998). El mismo Emirbayer ha contribuido a un importante trabajo sobre el marco de la "sociología relacional" que él ve como el fundamento del análisis de redes sociales (Emirbayer y Goodwin, 1994).


5. Conclusión

El potencial de las técnicas de minería de datos para el análisis de las fuentes de datos disponibles está comenzando a ser reconocido a través de las ciencias sociales (ver Savage y Burrows 2007), y la formación de esta revista y de Avances en Análisis de Redes Sociales y Minería (ASONAM) es una marca De su potencial para el campo del análisis de redes sociales. Las nuevas técnicas de análisis de redes son las más apropiadas para conjuntos de datos a gran escala del tipo que generalmente no han sido posible investigar utilizando técnicas de análisis de redes sociales convencionales. Las técnicas de minería de datos permiten que tales conjuntos de datos sean examinados de manera que prometan nuevos avances en metodología y conocimiento sustantivo. Sin embargo, es importante que el uso de estas técnicas no conduzca a una reversión al trabajo puramente descriptivo. En los primeros tiempos de las técnicas computarizadas de análisis de redes sociales, la tendencia entre los investigadores era generar datos y "hallazgos" con poca o ninguna consideración de su importancia para cuestiones teóricas sustantivas.
Esto llevó a muchos observadores de las estadísticas y sociogramas producidos a responder "¿y qué?" Análisis de redes sociales luchó para madurar hasta el punto en que las preguntas analíticas se convirtió en el centro de las investigaciones y los datos se utilizó para probar y objetivos explicativos adicionales.
Sería un desastre si el uso de las nuevas técnicas de minería de datos nos devolviera a esa situación anterior, en la que los investigadores estaban más interesados ​​en patrones que en la interpretación sustantiva de esos patrones. Esto no debería ser un tiempo para los especialistas en metodología por sí solo para explorar determinados conjuntos de datos. Se debe aprovechar la oportunidad para la cooperación interdisciplinaria en la que aquellos con un conocimiento sustantivo de un campo particular pueden cooperar productivamente con especialistas técnicos para producir esos poderosos estudios analíticos y explicativos que pueden promover la agenda del análisis de redes sociales en los muchos campos sustantivos de Ciencias Sociales.

Referencias


  • Bearden J et al (1975) The nature and extent of bank centrality in corporate networks. In: Scott J (ed) Social networks, vol 3. Sage, London
  • Barabási A-L (2002) Linked: the new science of networks. Perseus, Cambridge
  • Barnes JA (1954) Class and Committee in a Norwegian Island Parish. Hum Relat 7:39–58
  • Boorman SA, White HC (1976) Social structure from multiple networks: II Am J Sociol 81:1384–1446
  • Bott H (1928) Observation of play activities in a nursery school. Genet Psychol Monogr 4:44–48
  • Bott E (1955) Urban families: conjugal roles and social networks. Hum Relat 8:345–384
  • Bott E (1956) Urban families: the norms of conjugal roles. Hum Relat 9:325–341
  • Buchanan M (2002) Small world: uncovering nature’s hidden networks. Weidenfeld and Nicolson, London
  • Burt RS (1982) Towards a structural theory of action. Academic Press, New York
  • Burt RS (2005) Brokerage and closure: an introduction to social capital. Oxford University Press, New York
  • Carrington PJ, Scott J (eds) (2011) Sage handbook of social network analysis. Sage, London
  • Carrington PJ, Scott J, Wasserman S et al (eds) (2005) Models and methods in social network analysis. Cambridge University Press, Cambridge
  • Cartwright D, Zander A (eds) (1953) Group dynamics. Tavistock, London
  • Clyde MJ (1969a) The concept and use of social networks. In: Mitchell JC (ed) Social networks in urban situations. Manchester University Press, Manchester
  • Clyde MJ (ed) (1969b) Social networks in urban situations. Manchester University Press, Manchester
  • De Nooy W, Mrvar A, Batagelj V (eds) (2005) Exploratory social network analysis with Pajek. Cambridge University Press, New York
  • Emirbayer M (1997) Manifesto for a relational sociology 103(2):281–317
  • Emirbayer M, Goodwin J (1994) Network analysis, culture, and the problem of agency 99:1411–1454
  • Emirbayer M, Mische A (1998) What is agency? Am J Sociol 103(4):962–1023
  • Fennema M (1982) International networks of banks and industry. Martinus Nijhof, Hague
  • Fischer CS (1977) Networks and places: social relations in the urban setting. Free Press, New York
  • Freeman LC (2004) The development of social network analysis: a study in the sociology of science. Empirical Press, Vancouver
  • Freeman LC, White DR, Romney AK (eds) (1989) Research methods in social network analysis. Transaction Books, New Brunswick
  • Granovetter M (1973) The strength of weak ties. Am J Sociol 78(6):1360–1380
  • Granovetter M (1974) Getting a job. Harvard University Press, Cambridge
  • Harary F, Norman RZ (1953) Graph theory as a mathematical model in social science. Institute for Social Research, Ann Arbor
  • Helmers HM et al (1975) Graven Naar Macht. Van Gennep, Amsterdam
  • Homans G (1950) The human group. Routledge and Kegan Paul, London
  • Jennings HH (1948) Sociometry in group relations. American Council on Education, Washington, DC
  • Laumann EO (1966) Prestige and association in an urban community. Bobbs-Merrill, Indianapolis
  • Lee NH (1969) The search for an abortionist. Chicago University Press, Chicago
  • Levine JH (1972) The sphere of influence. Am Sociol Rev 37:14–27
  • Lewin K (1936) Principles of topological psychology. Harper and Row, New York
  • Lin N (2001) Social capital: a theory of social structure and action. Cambridge University Press, New York
  • Lin N, Cook KS, Burt RS (eds) (2001) Social capital: theory and research. Transaction Press, New Brunswicvk, NJ
  • Lundberg G (1936) The sociography of some community relations. Am Sociol Rev 5(1):47–63
  • Lundberg GA, Steele M (1938) Social attraction-patterns in a village Sociometry 1:375–419
  • Milgram S (1967) The small world problem. Psychol Today 2:60–67
  • Mische A (2003) Cross-talk in movements: rethinking the culturenetwork link. In: Diani M, McAdam D (eds) Social movements and networks: relational approaches to collective action. Oxford University Press, Oxford
  • Mische A (2007) Partisan publics: communication and contention across Brazilian youth activist networks. Princeton University Press, Princeton, NJ
  • Monge PR, Contractor NS (2003) Theories of communication networks. Oxford University Press, Oxford
  • Moreno JL (1934) Who shall survive?. Beacon Press, New York
  • Mullins NC (1973) Theories and |theory groups in american sociology. Harper and Row, New York
  • Nadel SF (1957) The theory of social structure. Free Press, Glencoe
  • Pattison P, Wasserman S (1999) Logit models and logistic regressions for social networks: II. Multivariate relations. Br J Math Stat Psychol 52:169–193
  • Putnam RD (2000) Bowling alone: the collapse and revival of American community. Simon and Schuster, New York
  • Robins GL, Pattison P, Wasserman S (1999) Logit models and logistic regressions for social networks. III. Valued relations. Psychometrika 64:371–394
  • Roethlisberger FJ, Dickson WJ (1939) Management and the worker. Harvard University Press, Cambridge
  • Savage M, Burrows R (2007) The coming crisis of empirical sociology. Sociology 41(5):885–899
  • Scott J (1979) Corporations, classes and capitalism, 1st edn. Hutchinson, London
  • Scott J (1986) Capitalist property and financial power. Wheatsheaf Books, Brighton
  • Scott J (1997) Corporate business and capitalist classes. Oxford University Press, Oxford
  • Scott J (2000) Social network analysis, 2nd edn. Sage, London (Originally 1991)
  • Scott J, Carrington PC (eds) (2011) Handbook of social network analysis. Sage, London
  • Scott J, Griff C (1984) Directors of industry. Polity Press, Cambridge Snijders TAB (2001) The statistical evaluation of social network dynamics. In: Sobel ME, Becker MP (eds) Sociological methodology. Basil Blackwell, Oxford
  • Snijders TAB (2005) Models for longitudinal network data. In: Carrington PJ, Scott J, Wasserman S (eds) Models and methods in social network analysis. Cambridge University Press, Cambridge
  • Snijders TAB, van Duijn MAJ (1997) Simulation for statistical inference in dynamic network models. In: Conte R, Hegelmann R, Terna P (eds) Simulating social phenomena. Springer, Berlin
  • Stokman F, Ziegler R, Scott J et al (eds) (1985) Networks of corporate power. Polity Press, Cambridge
  • Sweezy PM (1939) Interest groups in the american economy. In: Sweezy PM (ed) The present as history. Monthly Review Press, New York
  • Travers J, Milgram S (1969) An experimental study of the small world problem. Sociometry 32(4):425–443
  • Warner WL, Lunt PS (1941) The social life of a modern community. Yale University Press, New Haven
  • Wasserman S (1980) Analyzing social networks as stochastic processes. J Am Stat Assoc 75:280–294
  • Wasserman S, Faust K (1994) Social network analysis: methods and applications. Cambridge University Press, New York
  • Wasserman S, Galaskiewicz J (eds) (1994) Advances in social network analysis. Sage, Beverley Hills
  • Wasserman S, Pattison P (1996) Logit models and logistic regressions for social networks: I. An introduction to Markov random graphs and p*. Psychometrika 60:401–426
  • Watts D (1999) Small worlds: the dynamics of networks between order and randomness. Princeton University Press, Princeton
  • Watts D (2003) Six degrees. The science of a connected age. W. W. Norton, New York
  • Watts DJ, Strogatz SH (1998) Collective dynamics of ‘‘small-world’’ networks. Nature 393:440–442
  • Wellman B (1979) The community question: the intimate networks of east yorkers. Am J Sociol 84:1201–1231
  • Wellman B, Berkowitz S (eds) (1988) Social structures. Cambridge University Press, New York
  • Wellman B, Hogan B (2006) Connected lives: the project. In: Purcell J (ed) Networked neighbourhoods. Springer, London
  • White HC (1963) An anatomy of kinship. Prentice-Hall, Englewood Cliffs
  • White H (1992) Identity and control. Princeton University Press, Princeton
  • White HC, Boorman SA, Breiger RL (1976) Social structure from multiple networks. I. Am J Sociol 81:730–780


martes, 13 de junio de 2017

Convocatoria beca interna doctoral para tesis en redes sociales y grandes datos


Convocatoria beca interna doctoral CONICET
Proyecto Unidad Ejecutora

INCLUSIÓN SOCIAL SOSTENIBLE: INNOVACIONES Y POLÍTICAS PÚBLICAS EN 
PERSPECTIVA REGIONAL.
Directora: Dra. Silvia London





Temas de tesis

Estudios de Inclusión digital con grandes datos y redes sociales

Director: Dr. Juan M.C. Larrosa

El plan de trabajo ya fue aprobado por CONICET.

Básicamente se busca estudiar problemas de inclusión digital en el marco de una ciudad usando herramientas de análisis sociales a gran escala (big data). El plan de trabajo plantea trabajar con redes sociales muy grandes (decenas de miles de nodos con cientos de miles de enlaces) buscando encontrar arquitectura de interconexión entre los diferentes grupos, así como explorando diversas dimensiones sociales, económicas y culturales de los grupos.


REQUISITOS:
-  Licenciado en Economía, Administración o afines al 1 de abril de 2018.
-  Antecedentes en investigación (no excluyente pero altamente deseable)

El candidato puede ser nacional o internacional pero deberá radicarse en Bahía Blanca, sede del IIESS. Se inscribirá en un Doctorado dictado en la Universidad Nacional del Sur (Doctorado en Historia, Geografía, Administración, Economía, Computación, entre otras opciones). La beca dura 3 años renovables.


Fechas importantes

Período general: desde 19 de junio al 14 de julio de 2017
Cierre para becas Doctorales: 14 de julio de 2017
Asimismo se informa que la documentación para cada convocatoria estará disponible a partir  del 15 de junio de 2017.


Interesados contactarse con: jlarrosa@uns.edu.ar


Más información, a partir del 19 de junio, estará disponible en este enlace

.

domingo, 11 de junio de 2017

Un estudio comparativo de herramientas de análisis de redes sociales

Un estudio comparativo de herramientas de análisis de redes sociales
David Combe, Christine Largeron, Egyed-Zsigmond, y Mathias Géry




Las redes sociales han conocido un importante desarrollo desde la aparición de las plataformas web 2.0. Esto lleva a una creciente necesidad de minería de métodos y herramientas de redes sociales y análisis de redes sociales (ARS) con el fin de proporcionar un análisis más profundo de la red, sino también para detectar comunidades en vista de diversas aplicaciones. Por esta razón, una gran cantidad de trabajos se han centrado en la caracterización de gráficos o agrupación y varias nuevas herramientas de ARS se han desarrollado en estos últimos años. El propósito de este artículo es comparar algunas de estas herramientas que implementan algoritmos dedicados al análisis de redes sociales.


sábado, 3 de junio de 2017

Lazos débiles explican menos ahora la probabilidad de encontrar un trabajo

"Un amigo de un amigo" ya no es la mejor manera de encontrar un trabajo
Ilana Gershon  |  Harvard Business Review





¿Cómo consigues un trabajo estos días? La respuesta a menudo implica el establecimiento de una red - no es lo que usted sabe, es quién, nos dicen. Pero ¿qué significa eso? Después de todo, estamos conectados con muchas personas, de innumerables maneras. Entonces, ¿quién puede ayudar? ¿Qué tipo de relaciones debemos tratar de usar cuando estamos buscando un trabajo?

Si usted va a los talleres de búsqueda de empleo - y fui a más de 50 en el curso de estudiar el paisaje de contratación contemporánea en 2013 y 2014 - se le dirá los lazos débiles son la clave. Los lazos débiles son las personas que conoces, pero no muy bien: el maestro de tu hijo o el amigo de un amigo que encontraste en una fiesta. Este consejo se originó en un estudio innovador del sociólogo Mark Granovetter a principios de los años setenta. Entrevistó a 100 trabajadores de cuello blanco que habían cambiado de trabajo en los últimos cinco años y descubrió que los lazos débiles ayudaron a muchos de ellos a enterarse de su próximo trabajo.

Los lazos débiles eran importantes por una sencilla razón: tus fuertes lazos (colegas, familiares y amigos) probablemente sabían de los mismos trabajos que hiciste. Granovetter descubrió que era más probable que usted oyera sobre las posibilidades de trabajo desconocidas de la segunda prima que se encontró en una boda, o desde el antiguo vecino que vio en el estacionamiento del supermercado. De las personas en el estudio de Granovetter que se enteró de un trabajo de apertura de boca en boca, el 83,4% dijo que se enteró a través de un lazo débil. A principios de los años setenta, quedó claro que la manera más efectiva de encontrar un trabajo a través de la creación de redes era estar en contacto con tantas lazos débiles como fuera posible.

Me propuse averiguar si eso seguía siendo así. Después de todo, el estudio de Granovetter se hizo hace décadas, mucho antes de que todos comenzáramos a usar Internet. Si las tecnologías que nos ayudan a buscar un trabajo han cambiado de maneras significativas, razoné, es probable que las maneras de obtener información sobre puestos de trabajo también han cambiado. Tuve que encontrar una forma de replicar el estudio de Granovetter de alguna forma para ver qué relación de redes importa en la ecología de los medios de hoy.

Localizé una gran fuente: una reunión semanal organizada por una organización para los solicitantes de empleo de cuello blanco en el área de la bahía, una porción de la cual estaba dedicada a los solicitantes de empleo exitosos que cuentan sus historias - en la película. Aunque no es una duplicación del estudio de Granovetter, ver 380 historias de éxito recopiladas de 2012 a 2014 me permitió llevar a cabo un estudio bastante comparable.

Por lo tanto, los lazos débiles sigue siendo la clave? No. De las 141 personas que dijeron que pensaban que las redes les habían ayudado, sólo el 17% informó que un lazo débil hacía el truco. Los lazos en el lugar de trabajo, sin embargo, resultaron ser más útiles. Más del 60% de los narradores informaron que alguien con quien habían trabajado en el pasado les ayudó a encontrar su próximo trabajo. Éstos no eran siempre compañeros de trabajo - los jefes anteriores y los clientes anteriores ayudaron, también. Pero lo que los solicitantes de empleo encontraron más útil fueron las personas que podían hablar con conocimiento y convincentemente sobre lo que el solicitante era como un trabajador y colega.

Ese es un cambio dramático desde la década de 1970, y el conductor más obvio es nuestra ecología de medios salvajemente alterada. Cuando Granovetter llevó a cabo su estudio, el mayor desafío para encontrar un nuevo empleo era aprender que el trabajo existía en primer lugar. En la década de 1970 la gente se enteró de los puestos de trabajo a través de anuncios en los periódicos, "ayuda quería" señales, o la palabra de la boca. Hoy en día, ésa es la parte fácil: La gente aprende sobre los trabajos porque encuentran los anuncios del trabajo en línea, los listados de la búsqueda en los sitios corporativos, o son entrados en contacto con por los reclutadores. Eso ha llevado a un nuevo problema: Demasiadas personas están solicitando los mismos trabajos. La parte más difícil ahora, como la mayoría de la gente sabe, es destacarse de la manada - tener su currículo notado en una pila grande, o encontrar algún camino alrededor de un sistema de rastreo de solicitantes deslucidos. Gerentes de contratación enfrentan el mismo problema, tener que ordenar a través de cientos de solicitantes con las limitadas herramientas de software de aplicación, currículos y cartas de presentación. En estos momentos, lo que más valor de la contratación es una recomendación fuerte de alguien que realmente conoce al solicitante como un trabajador y puede asegurarles que la persona será un buen empleado.

Si bien estas conexiones son importantes, es importante tener en cuenta que no pueden cambiar uno de los resultados más problemáticos de la creación de redes: lugares de trabajo relativamente homogéneos. Granovetter mismo se dio cuenta de que incluso si la gente estaba recibiendo puestos de trabajo a través de lazos débiles, la creación de redes no estaba cambiando la composición de las empresas. Después de todo, si nadie de color o de un fondo de la clase trabajadora fue contratado en una oficina, había menos gente para difundir la noticia de que el trabajo existía en primer lugar. Hoy en día, el problema es más un sesgo implícito en cómo funcionan las recomendaciones - la gente tiende a recomendar a sus ex compañeros de trabajo a quienes les gustaba trabajar. Confiar en los vínculos laborales no resuelve el problema de cómo la creación de redes crea barreras para crear un lugar de trabajo más diverso; Simplemente cambia el lugar del problema.

Prácticamente, ya que recomendar a alguien para un trabajo es una parte tan importante de la contratación - y una forma en que personas con diferentes antecedentes y perspectivas pueden ser excluidos de los lugares de trabajo - se ha convertido en una decisión ética importante. Todos los involucrados en las decisiones de contratación deben pensar cuidadosamente acerca de quién está siendo recomendado y por qué. Y para el buscador de trabajo que está en red, no renunciar a los lazos débiles por completo - el 17% de ellos todavía tienen buenas probabilidades. En última instancia, sin embargo, los lazos en el lugar de trabajo pueden tener más peso. Los tipos de redes que su lugar de trabajo le permite nutrir materia no sólo a sus actuales condiciones de trabajo, sino también a qué puestos de trabajo se puede obtener en el futuro. La mejor manera de aumentar la probabilidad de conseguir el trabajo que desea más adelante puede ser tratar a sus colegas bien en el que tiene ahora.


Ilana Gershon es profesora asociada de antropología en la Universidad de Indiana, que estudia cómo las personas usan los nuevos medios para realizar tareas sociales complicadas, como encontrar un trabajo y romper. Su nuevo libro es Down and Out in the New Economy: How People Find (or Don’t Find) Work Today..

sábado, 27 de mayo de 2017

Estudio geoquímico revela complejas redes de comercio en el NE argentino

Estudio proporciona un retrato sorprendentemente complejo de las antiguas redes comerciales del NE argentino
por Christopher Packham | Phys.org



Rutas de distribución de fuentes de obsidiana, cerámica decorada MG2 y MG7, mercancías Vaquerías y Condorhuasi y vulcanita tipo 1. Crédito: (c) PNAS 2017 114 (20) E3917-E3926; Publicado antes del 1 de mayo de 2017, doi: 10.1073/pnas.1610494114


(Phys.org) -El estudio de las civilizaciones antiguas, en particular las que no dejaron extensa escritura en el registro arqueológico, depende de la evidencia de otros tipos de artefactos materiales. Y una de las claves para entender las sociedades grandes y complejas es cartografiar la circulación de tales artefactos. Una colaboración internacional de investigación publicó recientemente un estudio en las Actas de la Academia Nacional de Ciencias sobre la producción y circulación de artefactos en los Andes centro-sur durante el 400 aC a 1000 dC.

El estudio cuestiona los modelos de interacción centralizados de la red existentes a favor de una estructura de red descentralizada. Los investigadores construyeron la mayor base de datos de procedencias jamás construida para la región, tomando un enfoque multianalítico que consideraba fuentes líticas, análisis de cerámica y comparaciones de arcillas y telas. Estos materiales y artefactos habían sido previamente estudiados por separado. La amplia colección de datos dio lugar a un complejo y extenso retrato del noroeste argentino durante el período formativo.
Esta era se caracterizó por el lento desarrollo de sociedades sedentarias con tecnologías de subsistencia y artesanía. En estudios más antiguos, los investigadores reconstruyeron redes regionales basadas en similitudes tipológicas entre materiales y artefactos. El nuevo estudio intenta investigar las interacciones entre las redes locales y regionales en los Andes durante este período comparando la fabricación y las fuentes de materiales, en comparación con sólo mirar estilos.
Por ejemplo, un examen de artefactos de obsidiana demostró que compartían una fuente común. Pero las diferencias entre los estilos culturales y las asambleas demostraron que muchos grupos de diferentes comunidades y culturas compartían el acceso a la misma fuente. Esto permitió a los investigadores crear una red regional que representara el movimiento y la propagación de esta fuente de roca.
El análisis petrográfico de fuentes cerámicas reveló una variedad de modos técnicos de producción. Los investigadores encontraron huellas químicas distintas para los artefactos de cerámica encontrados en valles y áreas específicas. "Este patrón sugiere fuertemente que había un conjunto de conexiones de distancia de alcance medio que implicaban no sólo la circulación de materias primas y artefactos, sino también la transmisión de habilidades y conceptos de fabricación y diseño que no eran excluyentes", señalan los autores.
Cabe destacar que el estudio no encontró artefactos característicos del valle de Ambato, que son los distintivos objetos gris-negro encontrados en excavaciones arqueológicas pasadas que no parecen extenderse entre las regiones abarcadas por el estudio actual. Esto pone en tela de juicio la presunta centralidad del valle de Ambato como nodo dentro de la red comercial regional. "Junto con la baja frecuencia observada de las variedades pintadas de Aguado en nuestro área de estudio, los resultados del análisis geoquímico apoyan una reconsideración del supuesto papel central de este valle", escriben los investigadores.
El estudio concluye que el área apoyó muchas redes de circulación que implicaban múltiples medios de transporte, incluyendo el supuesto uso de llamas. Adicionalmente, redes locales de diferentes tipos se incorporaron a redes regionales más grandes que mejor atendían las necesidades de las comunidades durante ese período-necesidades que no eran necesariamente dictadas por consideraciones sociopolíticas o por los deseos de las élites culturales. "Centrarse en los estrechos vínculos intercomunitarios basados ​​en prácticas artesanales comunes y no únicamente en las reconstrucciones estilísticas es una vía más fructífera para explorar la antigua circulación de bienes, habilidades y personas sin asumir la capacidad de las primeras élites para manipular y capitalizar tales redes" concluyen los autores.


Más información: Compositional data supports decentralized model of production and circulation of artifacts in the pre-Columbian south-central Andes. PNAS 2017 114 (20) E3917-E3926; publicado adelantadamente el 1 de Mayo de 2017, DOI: 10.1073/pnas.1610494114

jueves, 25 de mayo de 2017

Redes de coautoría en Gephi

Visualización de su red de coautores
Por Abhishek Kathuria | A little bit of this, a little bit of that



Hace poco decidí crear una visualización de mi red de coautores. Yo creía que esta era una tarea bastante fácil y esperaba encontrar una sola herramienta, muy simple e instrucciones para ello en línea. Sin embargo, para mi disgusto, este proceso tomó mucho más tiempo de lo que esperaba. A continuación se muestran los pasos que descubrí después de una prueba y error:


Mapa de la red de coautoría de los médicos que publican sobre la hepatitis C (Crédito de la foto: speedoflife)

1. Cree un archivo de su trabajo académico usando cualquier administrador de referencia. Utilicé EndNote para esta tarea. A continuación, seleccione y exporte las referencias pertinentes en un archivo de texto en formato BibTex. Para lograr esto en EndNote, debe ‘Select Another Style …’ en la lista desplegable de estilo de citas y, a continuación, seleccione  ‘Bib Text Export’. A continuación, haga clic en File->Export y guárdelo como un archivo de texto con ‘Bib Text Export' seleccionado como ‘Output Style’.



2. Descargue, instale y ejecute Sci2 desde el sitio web de la Universidad de Indiana aquí. Haga lo mismo para Gephi desde aquí.

3. Cargue las referencias en Sci2 usando la opción File->Load. Seleccione el formato correcto.

4. Seleccione el archivo, haga clic en Data Preparation-> Extract Co-author Network.

5. Seleccione el archivo de información de autor y seleccione Visualization->Networks->Gephi

6. Gephi debe abrirse. Crear un nuevo grafo no dirigido. Puede utilizar el editor WYSIWYG para editar el grafo Gephi , agregar etiquetas, cambiar colores, aumentar el tamaño de los nodos y los bordes en función del número de documentos creados y co-publicados, respectivamente.

Mi salida se puede ver aquí. (Tenga en cuenta que he utilizado un diseño de Yifan Hu y sólo retenido las conexiones de primer orden). Este proceso se puede seguir para crear visualizaciones para una variedad de redes, incluyendo una red completa de coautoría, redes de citas, redes de seguidores de Twitter, etc.