lunes, 31 de marzo de 2014

Redes basados en roles sociales en grupos de discusión online

Redes basadas en Roles Sociales

crmblog
Los diagramas de red siempre han sido interesantes para mí. Trazar y analizar el flujo de diálogo basado en los roles sociales nos da un poco más penetración en el fenómeno de las redes sociales. He estado haciendo mi camino a través de un poco de trabajo que un gurú de la comunidad y comunicador maestro Marc Smith:

"... presentada en la ICWSM 2008 en Seattle (Conferencia Internacional sobre la Web Logs y Medios de Comunicación Social) y las Comunidades y Tecnologías de la conferencia de 2007 en la Universidad Estatal de Michigan.
Un documento que publicamos recientemente en el Journal of Social Structure: "Visualizing the Signatures of Social Roles in Online Discussion Groups [La visualización de las firmas de los roles sociales en los grupos de discusión en línea]" está disponible en: http://www.cmu.edu/joss/content/articles/volume8/Welser/ "

NetworkSocialTypes


Como hago mi camino a través del plan de estudios Marc siempre veo esta visualización de la red que es más que analítico, es verdaderamente una obra de arte también :

NetworkExcelAddin


Esta es una red grafo dirigido recientemente publicado trazar los add-in para Excel. Estas herramientas y otros están disponibles en nuestro sitio Web: (http://www.research.microsoft.com/community/projects.aspx). Tengo mucho más para leer, pero utilizando los centros de investigación en este post hasta ahora, sospecho que podría pasar la mayor parte de su fin de semana de fiesta hacerse una idea.

Saludos ,

Jaag

Microsoft Dynamics CRM

sábado, 29 de marzo de 2014

¿Pueden predecirse las cascadas en Facebook?

La naturaleza curiosa de las cascadas de compartir en Facebook
La mayoría del contenido en Facebook se comparte un par de veces, pero algunos pueden ser millones de veces compartida. Ahora científicos de la computación están empezando a comprender la diferencia.




Una de las características definitorias de contenido social es la forma en imágenes, vídeo y texto es compartida entre muchos usuarios. Inevitablemente, parte del contenido se hace más popular que otros y esto lleva a las cascadas en el que el número de publicaciones compartidas puede ser enorme. Aunque la mayoría de las piezas de los medios de comunicación tienen sólo unas pocas acciones, algunas se ha compartido muchos millones de veces.

Así que hay mucho interés en saber cómo predecir algo que es probable que sea muy popular en comparación con algo que no es. En la cara de ella, es fácil pensar que la predicción de la popularidad de los contenidos es casi imposible. Eso es porque depende de muchos factores que son difíciles de medir, como la naturaleza de los contenidos y la conectividad de las personas que lo ven.

Sin embargo, varios equipos han afirmado haber encontrado la manera de predecir de un puesto eventual de popularidad mediante el análisis de su popularidad poco después de su publicación. Sin embargo, dada la ausencia de una manera confiable de hacer esto en la web, se puede juzgar por sí mismo lo bien que estos mecanismos deben trabajar.

Hoy en día, tenemos una opinión diferente sobre el tema de la previsibilidad gracias al trabajo de Justin Cheng de la Universidad de Stanford en California, así como un par de amigos en Facebook y la Universidad de Cornell. Estos chicos muestran por qué su popularidad es tan difícil de predecir en el abordaje convencional de estudiar las primeras etapas de la popularidad.

Pero al mismo tiempo, que muestran que diversas características de una cascada se pueden predecir con exactitud notable y que esto se puede utilizar para hacer juicios exitosos sobre el comportamiento futuro de cascadas, una vez que han comenzado. El resultado es una visión mucho más profunda de la naturaleza de las cascadas de lo que podría pensarse inicialmente posible.

Cheng y colegas llegan a sus conclusiones mediante el análisis de la forma en que las fotografías fueron compartidos en Facebook durante un período de 28 días después de su carga inicial en junio de 2013. Los miró por encima de 150 000 fotos que fueron juntos ha compartido más de 9 millones de veces. Los datos les dijeron que las personas (nodos) volvió a compartir cada fotografía y en qué momento y esto les permitió reconstruir exactamente las redes por las que se produjeron las publicaciones compartidas.

En el pasado, los investigadores han observado cómo comienzan las grandes cascadas y luego trató de utilizar esa información para detectar grandes cascadas en el futuro, con resultados mixtos.

Cheng y colegas adoptan un enfoque diferente. Comienzan con una foto que se ha vuelto a compartir un cierto número de veces, digamos k. A continuación, determinar la probabilidad de que esta foto será compartida dos veces tantas veces. En otras palabras, su tarea consiste en predecir si la cascada se duplicará en tamaño.

Eso es una buena opción de la pregunta porque la distribución de tamaño de la cascada sigue un cierto tipo de ley de energía. Esta ley asegura que para cascadas de un dado tamaño, la mitad será más del doble en tamaño, mientras que la otra mitad no. Así que para decidir si una cascada dado se duplicará, una estimación aleatoria recibirá la respuesta correcta alrededor de la mitad de las veces.

La pregunta es si es posible distinguir características del conjunto de datos que permiten un algoritmo de aprendizaje de máquina para hacer algo mejor que esto. Así Cheng y sus amigos usan una porción de sus datos para entrenar a un algoritmo de aprendizaje automático para buscar características de cascadas que hacen predecible.

Estas características incluyen el tipo de imagen, ya sea un primer plano o al aire libre o tener un título y así sucesivamente, el número de seguidores del cartel original tiene, la forma de la cascada que se forma, ya sea un gráfico simple estrella o estructuras más complejas ; y, finalmente, la rapidez con la cascada tiene lugar, su velocidad.

Después de haber entrenado su algoritmo, la usaban para ver si se podía hacer predicciones sobre otras cascadas. Comenzaron con imágenes que habían sido compartidos sólo cinco veces, así que la pregunta era si finalmente se compartirían más de 10 veces.

Resulta que este es sorprendentemente predecible. " Para esta tarea, adivinar al azar obtendría un rendimiento de 0,5, mientras que nuestro método logra un rendimiento sorprendentemente fuerte : la precisión de clasificación de 0.795 ", dicen.

Y algunas de las características de la cascada de unos mucho mejores predictores y otros. De hecho, el rendimiento temporal de la cascada, la rapidez con que se propaga, es el mejor indicador de todos. Así que algo se propaga rápidamente, para empezar, es probable que se propague más.

Otro factor importante son los temas mencionados en el título asociado con una imagen, por ejemplo si el interés periodístico o asociado con un meme actual.

Cheng y coautores también dicen que es más fácil hacer una predicción que el número de re-acciones aumenta." Esto demuestra que más información es siempre mejor : cuanto mayor es el número de publicaciones compartidas observadas, mejor es la predicción ", dicen.

Y es por eso que los esfuerzos anteriores han fracasado - que en gran parte siempre comienzan con muy poca información.

Existen limitaciones para el trabajo, por supuesto. La más obvia es que se hizo sólo con las fotos compartidas en su totalidad dentro de Facebook. Puede ser que compartidas en Facebook son algo diferentes de los que ocurren en otros lugares en la web y que las fotos son tratados de manera diferente de los enlaces de la historia, por ejemplo.

Pero Cheng y coautores confían en que gran parte de lo que encontraron serán útiles en otros lugares. "A pesar de estas limitaciones, creemos que los resultados dan ideas generales que serán de utilidad en otros ámbitos ", dicen.

Y deja mucho de interés para otros investigadores a seguir. Cheng y colegas han tropezado con una rica veta de información sobre la naturaleza de las cascadas en las redes sociales. Y hay más oro que las colinas de Thar.

Ref : arxiv.org/abs/1403.4608 : ¿Puede predecirse las Cascadas?

MIT Technology Review


viernes, 28 de marzo de 2014

ARS 101: Mark S Granovetter

Mark Granovetter


Nacimiento 1 de junio de 1943 (70 años)
Nacionalidad Estadounidense.
Campo Sociología.
Alma máter Universidad de Stanford.

Mark Granovetter es un sociólogo estadounidense de la Universidad de Stanford.1 Elaboró varias teorías sobre sociología moderna en los años 70. Dentro de sus estudios sobre redes sociales y en la sociología económica, cabe destacar "la fuerza de los lazos débiles" o también conocida como la teoría de “la fuerza de los vínculos débiles”, enunciada en 1973. Pese a ello, esta teoría está vigente en pleno siglo XXI, y valorando la evolución de la sociedad, cada vez más.
En esta teoría Granovetter argumenta cómo la coordinación social se ve más influida de lo que valoramos habitualmente por vínculos débiles establecidos con anterioridad con otros actores con los que se tiene poco o ningún contacto, carencia de vínculos emocionales y escasos lazos relacionales y no tanto como creemos por lazos más fuertes como puede ser la familia o amigos.
Granovetter comprobó cómo se depende mucho más de lo que apreciamos de estos grupos, en especial en actividades como la búsqueda de trabajo o a la hora de organizar proyectos. Esta teoría cada día cobra más vigencia, y es que la relevancia de las redes sociales así como las redes profesionales favorecen este hecho.

Algunas publicaciones

  • Getting A Job: A Study of Contacts and Careers. Cambridge, Mass: Harvard University. 1974. ISBN 978-0-674-35416-6
  • «Threshold Models of Collective Behavior». American Journal of Sociology 83 (6):  pp. 1420–1443. 1978. doi:10.1086/226707.
  • «The Strength of Weak Ties: A Network Theory Revisited». Sociological Theory 1:  pp. 201–233. 1983. doi:10.2307/202051.
  • - Reimpreso en Social Structure and Network Analysis. Sage. 1982. ISBN 978-0-8039-1888-7
  • «Economic Action and Social Structure: The Problem of Embeddedness». American Journal of Sociology 91 (3):  pp. 481–510. 1985. doi:10.1086/228311.
  • «Problems of Explanation in Economic Sociology». Networks and Organizations: Structure, Form, and Action. Boston, Mass: Harvard Business School. 1992. ISBN 978-0-87584-324-7
  • «The Impact of Social Structure on Economic Outcomes». Journal of Economic Perspectives 19:  pp. 33–50. 2005. doi:10.1257/0895330053147958.
  • «Structure and tie strengths in mobile communication networks». Proceedings of the National Academy of Sciences 104 (18):  pp. 7332–7336. 2007. doi:10.1073/pnas.0610245104. PMID 17456605. Bibcode: 2007PNAS..104.7332O.: estudio que confirma la hipótesis de Granovetter en una red de comunicaciones móviles.

martes, 25 de marzo de 2014

Redes económicas de la Mafia

Red económica de la delincuencia organizada revelada
Un enfoque basado en la teoría de redes revela el patrón de vínculos entre las empresas controladas por la mafia involucrados en el crimen organizado y el resto de la economía por primera vez.




La teoría de redes ha revolucionado la comprensión de la economía en los últimos años. Ya no es la economía de un agitado misteriosa masa gobernada por leyes arcanas con poca evidencia práctica para apoyarlos.

En lugar de ello, la economía es una red de empresas que están vinculadas si se produce una transacción financiera entre ellos. Este enfoque ha dado los economistas una visión única de la forma en que las diferentes partes de la economía dependen unos de otros y cómo el dinero, los recursos y los flujos de información a través del mundo de los negocios.

Pero aquí hay una pregunta interesante: ¿cómo el crimen organizado que en todo esto? Hoy tenemos una respuesta de todo tipo gracias a la obra de Stefano Gurciullo en la University College de Londres. Gurciullo ha estudiado las redes económicas de las empresas en una región de Sicilia, Italia, destacando el papel de las empresas que se sabe están asociados con la mafia local.

Él dice que los resultados revelan una interesante propiedad de las empresas que participan en el crimen organizado. Ellos tienden a estar involucrados en sectores con buenas conexiones de la economía y las empresas mafiosas mismas tienden a estar entre los más conectados en toda la economía.

Gurciullo basa su trabajo en los datos recogidos por la policía antimafia italianos en 2002. Se centra alrededor de Porto Empedocle, una ciudad de unos 17.000 habitantes en el sur centro de Sicilia. En 2002, su economía consistía en 1.380 empresas de las cuales el 30 por ciento tienen cuatro o más empleados y sólo el 0,05 por ciento tienen más de 10 empleados.

Estas empresas operan en 29 sectores económicos, que van desde el hotel y la hospitalidad de la construcción a las telecomunicaciones. Con mucho, los mayores sectores por el número de empresas son los comercios al por menor y al por mayor, dando a entender que la principal fuente de ingresos de la población local es a través del comercio local.

Las pruebas reunidas por la policía antimafia italiana demuestra claramente la implicación de la mafia en el sector de la construcción de esta economía. Esta evidencia muestra una violenta lucha por el control y eventual monopolio de esta industria. Las empresas controladas por la mafia obligadas las empresas locales para comprar materias primas a partir de ellos y extorsionaron dinero de protección a la vez.

La evidencia incluye incluso una conversación grabada en la que dos empresarios mafiosos planeaban matar al director general de un competidor potencial. Sin embargo, finalmente descartó este enfoque debido a la atención que atraería a la policía y porque se creía que esta medida debía reservarse para situaciones más graves.

El enfoque de Gurciullo consiste en trazar las relaciones entre los distintos sectores económicos, prestando especial atención a la relación entre la industria de la construcción, sabe que tiene la participación de la mafia, y otros sectores. Luego trazó la red de vínculos entre las empresas pertenecientes al sector de la construcción.

Los resultados muestran una tendencia clara. "Los sectores penetrado por el crimen organizado muestran un mayor que promedio del Índice de centralidad y concentración", dice.

Lo que es más, las empresas específicas involucradas en el crimen organizado tienden a tener un lugar especial en la red. "Por lo menos una de las firmas que experimentan Mafioso infiltración posee el más alto grado nodal de la sub-red del sector", dice.

Eso tiene sentido. Las Naciones Unidas define el crimen organizado como : "un grupo estructurado de tres o más personas existente durante un período prolongado de tiempo y que tienen el propósito de cometer delitos graves mediante una acción concertada mediante la intimidación, la violencia, la corrupción u otros medios con el fin de obtener, directa o indirectamente, un beneficio financiero o material."

Es evidente que una operación criminal de este tipo sólo puede tener éxito si se vincula a muchas otras empresas. Así que no es de extrañar que las empresas controladas por la mafia se sientan en el centro de una red económica.

Por supuesto, hay limitaciones para este tipo de estudio. La primera es que es sólo un ejemplo; quizás otros ejemplos líderes del crimen organizado a los diferentes tipos de redes.

Otra limitación es que los datos es poco probable que sea completa. Tal vez hay otras empresas que participan en la delincuencia organizada que la policía no registraron dar sólo una visión parcial de la repercusión en la red.

Sin embargo, a pesar de sus limitaciones, el trabajo proporciona una interesante visión de la naturaleza de la delincuencia organizada y su papel dentro de las redes que subyacen a nuestras economías.

Y es evidente que trabajar para el futuro. Una pregunta interesante es por qué la mafia se concentra en la construcción cuando hay otros sectores de la economía que están más altamente conectados dentro de la red, como la venta al por menor y al por mayor.

Tal vez la respuesta tiene que ver con el valor de los trabajos. Los proyectos individuales de construcción a menudo pueden tener valores medidos en millones de euros. Pero las ofertas importantes en los sectores de venta al por menor y al por mayor son probablemente valen mucho menos.

Los datos de Gurciullo no incluye ningún estudio del valor monetario de las empresas. Pero esta vía podría ser una fructífera línea de investigación para el futuro.

El trabajo de Gurciullo también es valiente. Dada la naturaleza de los datos, la dificultad en la obtención de los tipos y de las personas involucradas, esto es potencialmente una peligrosa investigación a la cual abocarse y un trabajo valiente para estar seguro.

Ref : arxiv.org/abs/1403.5071  : La infiltración de la delincuencia organizada en la economía privada legítima : un enfoque de análisis de red empírica

MIT Technology Review

jueves, 20 de marzo de 2014

Jerarquías emergentes de un juego en red

Cómo los mundos de juegos virtuales están revelando la naturaleza de las jerarquías humanas
La forma más jugadores forman en grupos de juegos en línea revela que las jerarquías son un producto inevitable de la condición humana, dicen los científicos de la complejidad.





Uno de los objetivos de la antropología es entender la forma en que los humanos interactúan para formar grupos. De hecho, los antropólogos saben desde hace tiempo que las sociedades humanas son altamente estructurados.

Pero exactamente qué tipo de estructuras forman y en qué medida estos grupos dependen del medio ambiente sigue siendo objeto de mucho debate. Así que una pregunta interesante es si los seres humanos forman el mismo tipo de estructuras en los mundos en línea como lo hacen en la vida real.

Hoy en día, obtener una respuesta gracias a la labor de Benedikt Fuchs en la Universidad Médica de Viena en Austria y un par de amigos. Estos chicos han estudiados los grupos humanos forman al jugar un juego en línea multijugador masivo llamado Pardus .

Su conclusión es que los seres humanos forman naturalmente en una jerarquía de tipo fractal en el que las personas pertenecen a una variedad de grupos en diferentes escalas. De hecho, la formación de jerarquías parece ser una parte innata de la condición humana.

En Pardus, los jugadores exploran un universo futurista al interactuar y competir en una economía impulsada por el jugador. Desde 2004, cuando el juego se puso en marcha, unas 400,00 personas se han unido a este mundo. Estos jugadores pueden marcar otras personas como amigos, forman colectivos para mejorar su competitividad y que pertenecen a otras facciones.

Pero lo más importante, lo que los jugadores hacen es registrado en el juego, lo que lo ha hecho a los investigadores estar tan interesados en analizarlo.

Fuchs y colegas descargan más de tres años del valor de estos datos, incluyendo la información completa sobre las redes sociales creadas por la comunicación, el comercio con y "el gusto " a otros jugadores. Después de haber reconstruido estas redes y cómo varían con el tiempo, Fuchs y coautores determinaron su complejidad usando una medida conocida como orden Horton- Strahler.

Este es un método matemáticos usan para medir la complejidad de un árbol ramificado. Asigna una orden para cada parte del árbol en función del número de "niños" que se ramifican fuera de ella.

Las ramas están en el extremo de las ramas, sin hijos, y así tener la orden más baja de 1. Las ramas de la jerarquía se numeran según el número de hijos que tienen. Esto permite que partes de la jerarquía en muy diferentes partes del árbol a ser comparados.

El ordenamiento de Horton-Strahler se utiliza regularmente para medir la complejidad de ramificación de todo, desde los ríos y afluentes de los lenguajes de programación de alto nivel. Y en las redes sociales, por supuesto.

Fuchs y colegas aplicaron exactamente este proceso a las redes en Pardus y encontraron una jerarquía de ramificación de siete niveles. El primer nivel son los propios individuos, el nivel dos resulta ser pequeños grupos de personas que se han marcado como amigos y se han comunicado recientemente.

A continuación se muestran las personas vinculadas de forma más débil , que pueden haber, una vez comercializados o marcados como amigos, pero no comunicados con regularidad. Estos aparecen en la tercera orden.

Los jugadores también pueden formar alianzas, grupos formales que adquieren ciertos privilegios de juego. Estos aparecen en el cuarto orden. Luego están las facciones más grandes que se forman las órdenes de cinco y seis. El séptimo orden comprende todos en todo el juego.

Lo interesante de estas órdenes no es sólo su existencia, sino su escala con respecto al otro. "Sorprendentemente, los jugadores en línea muestran el mismo tipo de capas jerárquicas estructuradas como las sociedades estudiadas por los antropólogos, en los que cada una de estas capas es de tres a cuatro veces el tamaño de la capa inferior," dicen Fuchs y colegas.

Eso es un resultado interesante. Que la misma jerarquía emerja en muy diferentes situaciones sugiere que todo lo que produce este efecto es independiente del medio ambiente. En otras palabras, debe ser una propiedad innata de la conducta social humana.

Fuchs y colegas van aún más lejos. "Nuestros hallazgos sugieren que la organización jerárquica de la sociedad humana está profundamente anidado en la psicología humana", dicen.

Una conclusión interesante. La pregunta ahora es cómo profundizar aún más en esta psicología para embromar aparte con más detalle.

Ref : arxiv.org/abs/1403.3228 : Fractal organización multi - nivel de los grupos humanos en un mundo virtual

sábado, 15 de marzo de 2014

Redes de pases de fútbol

Análisis de las redes de distribución de balón en fútbol: pases de juego y pases de adaptación

Isidro Maya Jariego, María Rocío Bohórquez Gómez-Millán


Este artículo propone distinguir los pases de juego y los pases de adaptación al juego en las aplicaciones del análisis de redes sociales al estudio del fútbol. Las redes de pases de balón permiten describir y evaluar las configuraciones tácticas en el desarrollo de un partido (Bundio y Conde, 2007; Cotta, Mora, Merelo-Molina y Merelo, 2011). El equipo es analizado como una red en la que los jugadores son los nodos y los pases de juego son lazos dirigidos. Los patrones de interacción entre jugadores revelan procesos emergentes que trascienden las estadísticas individuales de corte tradicional. Pese a que las primeras aplicaciones utilizan la matriz bruta de pases de balón, la diferenciación de las relaciones entre jugadores en función del tipo de tarea desarrollada muestra con más claridad los elementos tácticos del juego (Maya Jariego y Bohórquez, 2011). Para ilustrarlo utilizamos datos del Real Betis Balompié en la final de Copa de S. M. El Rey de 2005 y del encuentro Getafe CF – Sevilla FC en la final de Copa de 2007. Tanto los indicadores de centralidad como las pruebas no paramétricas muestran una clara diferenciación entre la red de pases de juego y la red de pases de adaptación. Los resultados permiten interpretar el desarrollo táctico del partido, que comparamos con la descripción basada en estadísticas individuales de corte tradicional.


viernes, 14 de marzo de 2014

Importando datos de redes sociales en NodeXL

Cómo importar datos en NodeXL

NodeXL ofrece múltiples formas de importar datos para el análisis. De hecho, puede ser la única herramienta que ofrece tan vastas opciones para un usuario final. Cuando se presiona el botón de importación que se encuentra en la esquina izquierda de la cinta NodeXL, se le presentará con varias opciones (como se da en la figura a continuación) que se describirá más adelante en el tutorial.

 
Fig: Importando datos en Node XL

Las formas de importar datos se ha dividido en cinco categorías principales que se explicarán más adelante

1)    Importación desde otras herramientas de Análisis de Redes Sociales

Puede importar un archivo guardado de herramientas de análisis de redes sociales como Pajek o UCINET.

2)    Importación de un libro ya existente

Si usted tiene un libro ya existente con la lista de amigos y su relación entre sí, es posible importar el libro y lo utilizan a visualizar su red.

3)    Importación desde redes de Emails

Usted puede importar directamente la red de correo electrónico si utiliza un cliente de correo electrónico como Outloook, Thunderbird, etc, que tienen la indización habilitado en Microsoft Windows.

4)    Importar desde Twitter o YouTube / Flickr

El plugin te da opción de importar a la red de su página y el canal en sitios de redes sociales.

5)    Importar usando los importadores de terceros

Estos importadores como Net Social Importer, VOSON te dan muchas opciones sobre cómo importar datos y hasta qué nivel.

Para saber más sobre "Cómo importar datos a NodeXL", pasar por el siguiente vídeo:

jueves, 13 de marzo de 2014

Las actualizaciones de Facebook difunden el mal humor viralmente

Detecting Emotional Contagion in Massive Social Networks
Lorenzo Coviello, Yunkyu Sohn, Adam D. I. Kramer, Cameron Marlow, Massimo Franceschetti, Nicholas A. Christakis, James H. Fowler

Published: March 12, 2014
DOI: 10.1371/journal.pone.0090315



Abstract


Happiness and other emotions spread between people in direct contact, but it is unclear whether massive online social networks also contribute to this spread. Here, we elaborate a novel method for measuring the contagion of emotional expression. With data from millions of Facebook users, we show that rainfall directly influences the emotional content of their status messages, and it also affects the status messages of friends in other cities who are not experiencing rainfall. For every one person affected directly, rainfall alters the emotional expression of about one to two other people, suggesting that online social networks may magnify the intensity of global emotional synchrony.

Figures


Introduction


Happiness and other emotions have recently been an important focus of attention in a wide range of disciplines, including psychology, economics, and neuroscience [1][2][3][4]. Some of this work suggests that emotional states can be transferred directly from one individual to another via mimicry and the copying of emotionally-relevant bodily actions like facial expressions [5]. Experiments have demonstrated that people can “catch” emotional states they observe in others over time frames ranging from seconds to months [6][7], and the possibility of emotional contagion between strangers, even those in ephemeral contact, has been documented by the effects of “service with a smile” on customer satisfaction and tipping[8].

Longitudinal data from face-to-face social networks has established that emotions as diverse as happiness [9], loneliness [10], and depression [11] are correlated between socially-connected individuals, and related work suggests that these correlations also exist online [4][12][13],[14][15]. However, it is difficult to ascertain whether correlations in observational studies result from influencing the emotions of social contacts (contagion) or from choosing social contacts with similar emotions (homophily) [16].

This problem has been addressed by using experimental methods to estimate network effects[17][18][19][20][21][22], but these methods are either limited in scale and external validity, or they require very close collaboration with private companies, which means there are limited opportunities to conduct such experiments. Moreover, even when companies are willing to conduct a large-scale experiment, they may have other goals that constrain its design. For example, they may wish to provide a uniform online experience to all users, which reduces their willingness to create experimental treatment groups of sufficient size to take advantage of their massive scale.

Here, we propose an alternative method for detecting emotional contagion in massive social networks that is based on instrumental variables regression, a technique pioneered in economics [23]. In an experiment we would directly control each user's emotional expression to see what impact it has on their friends' emotional expression. However, since this is infeasible in our massive-scale setting, we identify a source of variation that directly affects the users' emotional expression (this variable is called an “instrument”). For this instrument, we use rainfall. Importantly, rainfall is unlikely to be causally affected by human emotional states, so if we find a relationship it suggests that rainfall influences emotional expression and not vice versa. We then measure whether or not the changes induced by the instrument predict changes in the friends' emotional expression. Instead of changing the user's emotion directly with an experimental treatment, we let rainfall do the work for us by measuring how much the rain-induced change in a user's expression predicts changes in the user's friends' expression.

More formally, suppose we can represent one person's emotional expression mathematically as follows:(1)
This model assumes that emotional expression yjt by person j at time t is an additive linear function of other factors measured in the same time period including a time-specific factor θt(perhaps it is a holiday), an individual-specific factor fj (some people are always happier than others), the effect β of an exogenous factor xjt (like rainfall); the effect γ of an endogenous factoryit (the emotional expression of each friend i at time t), which is moderated by the strength of relationship aijt between each friend i and person j at time t (for simplicity, we assume this is binary—a relationship either exists or it does not) and by the degree djt of person j (a person with more friends is assumed to be less influenced by each); and an error term εjt. The key variable allowing us to estimate contagion in emotional expression is γ, and our inclusion of the individual-fixed effect fj means that we are controlling for all possible characteristics of the person, which further reduces the likelihood that correlation in emotions is driven by choice of social connections (homophily).

Although this model seems straightforward to estimate, it is not. The reciprocal influence of a user on her friend and vice versa makes it difficult to interpret a simple association in their emotional states. Moreover, in large populations, it would be computationally expensive to apply the model to longitudinal content generated by millions of users with billions of friends over thousands of days.

We address the problem of computational cost by aggregating individuals into groups. In the supporting information (Text S1), we show that when a subpopulation of individuals experience the same exogenous factor (such as rainfall affecting individuals who are in the same city),equation (1) is equivalent to(2)
where for time tygt is the average emotion of all people in subpopulation (city) gθt and cg are time and subpopulation fixed effects; xgt is the average exogenous factor (rainfall) for people in subpopulation gYgt is a weighted average emotional expression of friends of people in subpopulation g; and εgt is an error term (see Text S1 for derivation).

Notice that we can use equation (2) to estimate the social contagion effect γ that appears inequation (1). However, ygt and Ygt are still endogenous, so prior to estimation we use an instrument Xgt, the aggregated rainfall of the friends of the people in subpopulation g, to predict exogenous variation in the friends' emotional expression Ygt:(3)

Consistent with standard recommendations regarding instrumental variable regression [23], we include in the “first stage” equation (3) all other exogenous explanatory variables in the “second stage” equation (2). Thus, we are estimating the effect of rainfall on average emotion while controlling for time and city fixed effects and for rainfall in all other cities. This mitigates problems that may arise from autocorrelation in weather over time and between nearby cities. We then use predicted values from equation (3) to substitute for the value of Ygt in equation (2)to estimate the social contagion variable γ. This instrumental variables approach effectively addresses the problem of endogeneity (in our case, the fact that two friends influence one another) [23].

One worry in a model like this is that friends' rainfall is correlated, so the instrument might actually just be a proxy for the direct effect of rainfall on a person's emotional expression (a violation of the “exclusion restriction” [23]). Therefore, to break any possible correlation between rainfall xgt in city g and the rainfall Xgt of their friends, we only consider how emotional expression is transmitted on days when it is not directly raining on city g (that is, we only include observations for which xgt = 0, see Text S1). Then, in a separate model, we consider only days when it is raining in city g.

Another worry is that there is an “ecological fallacy” in this model since we are using city-level measures to estimate individual-level effects. In Text S1 we mathematically formalize the relationship between the individual and aggregate level models to show there is no problem in our case, but here we explain in words. The ecological fallacy occurs when there are opposing effects of individual-level and aggregate-level variation. For example, Robinson showed that U.S. states with more immigrants had higher literacy rates (perhaps because literate state populations were more tolerant of immigration), even though immigrants were less likely to be literate (perhaps because they had not yet learned English) [24]. However, a key factor that reduces the likelihood this is a problem in our model is that people in a city usually all experience the same weather on the same day, so city-level variation is a good predictor of individual-level variation (if you were in New York on a given day you probably experienced the same weather as everybody else in New York that day). Compare this to the Robinson example, where state-level immigration rates are a very poor predictor of individual-level immigrant status, which allows for the possibility of opposite correlations with literacy at the aggregate and individual level.

We apply our method to data collected for a set of 1180 days on Facebook from January 2009 to March 2012. The study was approved by and carried out under the guidelines of the Institutional Review Board at the University of California, San Diego, which waived the need for participant consent. To protect participant confidentiality, researchers did not personally view any names of users or words posted by users, and all analysis of identified data took place in the same secure location on servers where Facebook currently keeps users' data.

Users of Facebook interact with each other in many ways, mostly textual. To measure emotional expression, we use “status updates” (also called “posts”) which are undirected text-based messages that a user's social contacts (Facebook friends) may view on their own News Feed. Relying on the Linguistic Inquiry Word Count (LIWC), a widely used and validated word classification system [25],[26], we determine whether a post uses words that express positive or negative emotions. Although this is not the only way to measure sentiment [27], this method has previously been used to measure the emotional content of online messages [28]. We then use two different metrics to quantify the average emotional state of a user during a day (seeText S1): the fraction of posts expressing positive emotions (“positive rate”); and the fraction expressing negative emotions (“negative rate”). Note that the positive and negative emotions are not two ends of the same scale. Some messages will express both positive and negative emotions just as individuals experience mixed emotions on occasion, so it is possible to score high on both measures. We then aggregate individual observations by city and day, restricting our attention to all English-speaking Facebook users residing in the 100 most populous US cities.

Results


Consistent with recently-published research on Twitter posts [28]Fig. 1 shows temporal patterns of variation in positive and negative emotions on Facebook that correspond to greater happiness on weekends and holidays. Fig. 1 also shows geographic variation in emotion expression and illustrates the number of between-city friendships in larger cities.
Figure 1. Description of the data.

Temporal and geographic variation in emotions expressed by Facebook users in 2011 as measured by (a) the fraction of status updates containing positive emotion words; (b) the fraction of status updates containing negative emotion words. Extreme values are noted for holidays. (c) A map of the U.S. with approximate locations of the 100 most populous cities (represented by airport code) and their average fraction of posts with positive emotions (blue is less and green is more). (d) Network of between-city ties for all pairs of cities with at least 50,000 friendships. Darker, thicker lines indicate more friendship ties (maximum = 1,210,769).
doi:10.1371/journal.pone.0090315.g001

We matched these observations to publicly available meteorological records that indicate total precipitation for each day in each of these cities. Fig. 2a shows results from the “first stage” regressions that estimate the effect of rainfall on a user's emotion. We find that an average rainy day decreases the number of positive posts by 1.19% (95% CI: 0.78% to 1.60%) and also increases the number of negative posts by 1.16% (0.78% to 1.55%). While these effects are small, it is their statistical significance – not size – that matters, since the goal is to use them as instruments to study the effect of exogenous variation in friends' emotional expression on one's own expression. Both models generate test statistics that suggest the rainfall instruments are strong enough to provide adequate power and that they are also appropriately identified (see Text S1).
Figure 2. Model estimates.

(a) Difference in emotional expression between days with and without rain. Estimates derived from first stage regressions of each measure of emotion on a binary measure of rainfall. (b) Estimates of emotional contagion between friends from the second stage of an instrumental variables regression from four separate models. The results show that rain affects emotional expression, both positive and negative posts are contagious, and positive posts tend to inhibit negative posts and vice versa. All models include fixed effects for city and day, average friends' weather in other cities, and standard errors clustered by city and day (see Text S1). Vertical bars show 95% confidence intervals.
doi:10.1371/journal.pone.0090315.g002

Given widespread folk beliefs about the effect of mood on weather, it is perhaps somewhat surprising that this relationship is contested. Past research has generally focused on small samples and researchers have argued that inconsistent results mean the effect of rainfall is contingent on season [29] or personality type [30], but the results here suggest that the reason for the inconsistent results may be due to lack of power. Another recent (and highly powered) study of Twitter data also uses weather variables to improve predictive power in a model of sentiment, but the researchers do not separate the effect of rainfall from other weather variables[31].

Using predicted variation in emotional expression based on the exogenous effect of rainfall, we can now estimate the total effect of a user on all her friends, which is quantified by the contagion variable γ (see Text S1 for proof). Fig. 2b shows that each additional positive post yields an additional 1.75 (95% CI 1.51 to 1.99) positive posts amongst one's friends. Meanwhile, each additional negative post yields 1.29 (95% CI 1.19 to 1.38) more negative posts by friends. In other words, the total effect of rainfall on emotional expression is about 150% larger than we would expect if we were only measuring the direct effect on users and ignoring the indirect effect on their friends. And intriguingly, although rain is the impetus for this contagion, positive messages appear to be more contagious than negative (p = 0.001 for the comparison).

Fig. 2b also shows that positive and negative emotional expressions tend to have an inhibitory effect on one another. Each additional positive post decreases the number of friends' negative posts by 1.80 (95% CI 1.27 to 2.33), and each additional negative post decreases the number of friends' positive posts by 1.26 (95% CI 0.81 to 1.70). Again, positive messages appear to have a stronger effect, though here the difference is not significant (p = 0.12) and therefore may be due to chance.

We also evaluated these models when we restricted observations to rainy days (rather than restricting them to non rainy days) and found that rainy days elsewhere have just as strong an effect in all cases, regardless of the weather a person experiences directly (see Fig. 2b).

Our model allows us to measure the total direct effect of rainfall on the number of positive and negative posts in each city, which is an increasing function of the number of users. We can also measure the total indirect effect of rainfall in one city on users in other cities, which is an increasing function of the number of users and their average number of friends in other cities, but a decreasing function of the friends of those friends (since people with more friends are less likely to be influenced by any one of them in particular). For example, we estimate that a rainy day in New York City directly yields an additional 1500 (95% CI 1100 to 2100) negative posts by users in New York City and about 700 (95% CI 600 to 800) negative posts by their friends elsewhere. Fig. 3 shows results like these for all 100 cities in our sample (see Text S1 for details and confidence intervals).
Figure 3. Predicted effects.

Total number of negative posts generated by a day of rainfall within a city (direct) and in other cities via contagion (indirect). Blue colors indicate higher indirect/direct effect ratio. Larger labels indicate larger population.
doi:10.1371/journal.pone.0090315.g003

To evaluate the robustness of our method for estimating emotional contagion, we created a “placebo” test of the effect of future weather and resulting emotional expression on today'semotional expression by friends. In Text S1, we show that none of our four models generates a significant estimate for contagion that travels backwards in time. In future work, it may be helpful to have greater resolution for the time of the exogenous factor to see how the effect of emotional contagion changes over hours or minutes. Moreover, to exclude the possibility that the emotion contagion we measure is merely topic contagion between people writing posts about the weather, we conducted additional tests that control for the frequency of weather-related posts. In all cases, the estimates for the social contagion effect γ are substantially the same as in the original model, suggesting that the results are not driven by topic contagion (see Text S1).

Discussion


Our estimates of the social contagion of emotional expression suggest that there may be large-scale spillovers in online networks. What people feel and say in one place may spread to many parts of the globe on the very same day. Yet the 1.5:1 estimated ratio of the indirect to the direct effect is actually somewhat lower than other kinds of network effects measured experimentally. For the spread of giving behavior in a public goods experiment, for example, it is estimated that each dollar given yielded two dollars in giving by others [32]. For voting behavior, a recent large-scale experiment suggested the ratio is about four to one [17].

While the method we elaborate here is potentially applicable to a wide variety of emotions and behaviors online, an important limitation is that we cannot use this method to estimate contagion effects within subpopulations. It is plausible that these effects might be even stronger when subpopulations are geographically defined (as in cities), since many studies suggest that physical proximity increases social influence between connected individuals [16]. Another limitation is that instruments are not always readily available, and in some cases it may be unclear whether they are causally and directly related to the outcome variable of interest. However, when such instruments are indeed available, this approach may prove to be a useful alternative to costly large-scale experiments with limited external validity since they require neither experimental control nor alteration of the user environment.

Although there are many factors that affect human emotions [33][34][35], we have confirmed here that individual expression of emotions depends on what others in an individual's social network are expressing. These results imply that emotions themselves might ripple through social networks to generate large-scale synchrony that gives rise to clusters of happy and unhappy individuals. And new technologies online may be increasing this synchrony by giving people more avenues to express themselves to a wider range of social contacts. As a result, we may see greater spikes in global emotion that could generate increased volatility in everything from political systems to financial markets [36].

Our results are also consistent with prior work on the evolutionary basis of human emotions and with prior work focusing on the fleeting, direct spread of emotions. In addition to their internal and psychological relevance [37], emotions play a specifically social role: when humans experience emotions, they do not generally keep them to themselves, but rather, they tend to show them. Like laughter and smiling [38], emotions expressed online may serve the evolutionarily adaptive purpose of enhancing social bonds. Human laughter, for example, is believed to have evolved from the “play face” expression seen in other primates in relaxed, social situations [39]. Such facial expressions and positive emotions enhance social relations by producing analogous pleasurable feelings in others [16], by rewarding the efforts of others, and by encouraging ongoing social contact. Given the organization of people (and early hominids) into social groups larger than pairs [40], such spread in emotions probably served evolutionarily adaptive purposes. In this regard, it is noteworthy that, during our study period, users were increasingly expressing emotions as they adapted to Facebook as a new communication environment.

Our findings also have significance for public wellbeing. To the extent that clinical or policy maneuvers increase the happiness of one person, they may have cascade effects on others in their social networks, thereby enhancing the efficacy and cost-effectiveness of the intervention, and these results suggest that such cascade effects may be promoted online. For example, providing better care for those who are suffering might not only improve their happiness, but also the happiness of numerous others, thereby further vindicating the benefits of medical care or public policy.