lunes, 6 de julio de 2015

Sentimiento en las redes: Homofilia de felices e infelices en Milán


La aflicción ama la compañía: la felicidad y la comunicación en la ciudad
Aamena Alshamsi(1), Edmond Awad(1), Maryam Almehrezi(1), Vahan Babushkin(1), Pai-Ju Chang(1), Zakariyah Shoroye(1), Atila-Péter Tóth(1) e Iyad Rahwan(1)(2) *

Afiliaciones de los autores
1 Instituto Masdar de Ciencia y Tecnología, Abu Dhabi, Emiratos Árabes Unidos
2 Massachusetts Institute of Technology, Cambridge, EE.UU.

EPJ Data Science 2015, 4:7  doi:10.1140/epjds/s13688-015-0044-2

La versión electrónica de este artículo es el que completa y se puede encontrar en línea en: http://www.epjdatascience.com/content/4/1/7


Recibido: 21 de julio 2014
Aceptado: 10 de junio 2015
Publicado: 02 de julio 2015
© 2015 Alshamsi et al.

Open Access Este artículo se distribuye bajo los términos de la licencia Creative Commons Reconocimiento 4.0 Licencia Internacional (http://creativecommons.org/licenses/by/4.0/), que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre le das crédito correspondiente al autor (s) original y la fuente, proporcionan un enlace a la licencia Creative Commons, e indicar si se introdujeron cambios.

Resumen

La alta densidad de población en las ciudades confiere muchas ventajas, incluyendo la mejora de la interacción social y el intercambio de información. Sin embargo, a menudo se argumenta que la vida urbana se produce a expensas de la reducción de la felicidad. El objetivo de esta investigación es arrojar luz sobre la relación entre la comunicación urbana y la felicidad urbana. Analizamos mensajes geo-localizada de medios sociales (Tweets) dentro de un gran centro urbano (Milán) para producir un mapa espacial detallada de los sentimientos urbanos. Combinamos estos datos con los datos de intensidad de comunicaciones móviles de alta resolución entre diferentes áreas urbanas. Nuestros resultados revelan que las áreas felices (respectivamente infelices) comunican preferentemente con otras áreas de su tipo. Esta observación constituye evidencia de comunidades homofícilas a escala de toda una ciudad (Milán), y tiene implicaciones sobre las intervenciones que tienen como objetivo mejorar el bienestar urbano.

Palabras clave: medios de comunicación social; el sentimiento; la felicidad; ciudades; homofilia

1. Introducción

Por primera vez en la historia, la mayoría de los seres humanos vive en ciudades. Una teoría completa de que se trate con el crecimiento y la dinámica de las ciudades es todavía un trabajo en progreso [1]. Sin embargo, nuestra comprensión fenomenológica de las ciudades está creciendo de manera significativa gracias a los avances en nuestra capacidad de percibir la dinámica del comportamiento humano [2], y el medio ambiente urbano y la infraestructura [3], [4].

La alta densidad de población en las ciudades se asocia con ambos indicadores urbanos deseables tales como la innovación, el crecimiento económico y las oportunidades de empleo, y con consecuencias no deseadas como crímenes, enfermedades y contaminación [5], [6]. En particular, las ciudades exhiben consistente sub-lineal y escalado super-lineal de muchos de estos indicadores [7].

Estas características de las ciudades se atribuyen a varios factores [8], [9]. Entre ellos, especial atención se da a menudo el papel de la interacción social [10], [11]. Las características de la interacción social humana, tales como el papel de los lazos débiles [12], agujeros estructurales [13] y la diversidad en la interacción [14] se ven a menudo como facilitadores importantes del éxito en las ciudades. Recientemente, se ha sugerido que las ciudades son especiales debido a que el aumento de la densidad de población urbana conduce a escala super-lineal en la densidad de vínculo social, facilitando así la escala super-lineal de difusión de información [15].

Por otra parte, el éxito de la sociedad de las ciudades es también una función de bienestar y la felicidad urbano. Los responsables políticos están interesados ​​en la comprensión de las causas de la felicidad en las ciudades con el fin de mantener o incrementar ella [16]. Por lo tanto, es importante comprender la interacción entre la comunicación urbana, por un lado, y la felicidad urbano en el otro. Esto ayudaría a entender, por ejemplo, si y cómo urbana estructuras de comunicación facilitan o inhiben el bienestar de los ciudadanos. En este artículo, echamos un primer paso hacia la investigación de este tema.

Los estudios tradicionales se basan en la auto-informes a través de encuestas para medir la felicidad a nivel de ciudades enteras [16] - [18]. A pesar de la omnipresencia de las encuestas en la cuantificación o medidas felicidad indexación, sufren de una serie de limitaciones, como la falta de fiabilidad de los datos subjetivos [19].

Recientemente, los investigadores mostraron que la abundancia de datos personales emitidos a través de los medios de comunicación social (por ejemplo, a corto mensaje medios de difusión como Twitter) puede cuantificar de manera fiable la felicidad individual [20] - [22]. Cuando se combina con la información geográfica, esta técnica puede ser utilizado para caracterizar la distribución geográfica de la felicidad través de grandes áreas, tales como la continental de los Estados Unidos [23].

Motivados por los resultados recientes sobre la geografía de la felicidad y la estructura de comunicación en las ciudades, estamos interesados ​​en la comprensión de la relación entre la felicidad urbana y la comunicación urbana. Nos aprovechamos de datos proporcionados por el Gran Desafío de datos que fue organizado por Telecom Italia [24]. Se utilizaron los datos de intensidad de comunicación para construir una red dirigida de las zonas urbanas por lo que los pesos de los bordes indican la fuerza de la comunicación entre las áreas. Para estimar el nivel de felicidad de las zonas urbanas, se utilizó Dodds et al. Método [22] para analizar el sentimiento de las emisiones a corto mensajes geolocalizados (también conocidos como tweets) iniciado en estas áreas, que después de la agregación (de promedio) nos dio una aproximación fiable.

Después de pre-procesamiento de los datos, hemos demostrado la eficacia de los medios de comunicación social en la felicidad de mapeo con una resolución espacial mucho más fino (dentro de una zona urbana). A continuación, se determinó la relación entre la comunicación entre las diferentes áreas geográficas y sus niveles de felicidad. Encontramos que los patrones de comunicación de las zonas urbanas presentan un comportamiento homophilous. Más precisamente, las áreas urbanas felices tienden a interactuar con otras áreas felices más que ellos interactúan con áreas infelices. Del mismo modo, las zonas urbanas infelices tienden a interactuar con otras áreas infelices más interactúan con áreas felices. El homofilia urbano en la felicidad que hemos sido testigos en nuestra base de datos compatible con los hallazgos previos sobre homofilia en la felicidad entre los seres humanos individuales [25], y muestra que este fenómeno persiste a escalas más grandes. Nuestro resultado es relevante para los responsables políticos para guiarlos en el establecimiento de estrategias que aumentan la felicidad, que es en sí correlacionada con resultados importantes que van desde el crimen y la salud, a la productividad y la innovación.

2 Los métodos y datos

2.1 El conjunto de datos

Este trabajo utiliza cuatro conjuntos de datos publicados por Telecom Italia para el Reto Big Data 2014 [24]. Los datos fueron recolectados durante noviembre y diciembre de 2013. Entre los conjuntos de datos publicados, se utilizaron los siguientes cuatro.

'Milano Red'. La ciudad de Milán se dividió en una cuadrícula espacial de 100x100 células. Este conjunto de datos contiene la ID de cada celda de la cuadrícula junto con la geometría de la célula. Vamos a utilizar el celular y el área términos indistintamente.

'Telecomunicaciones - SMS, llamadas, Internet - MI'. Este conjunto de datos contiene la actividad de las llamadas / SMS e Internet tráfico entrante y saliente, agregada sobre las células y en intervalos de 10 minutos. La Figura 1 muestra la distribución de las llamadas salientes y el tráfico de Internet a través de las células. Se puede observar que sus distribuciones están parcialmente caracterizan por una ley de potencia. Sin embargo, la cola de la distribución exhibe un punto de corte exponencial, probablemente causado por la saturación cognitiva en la capacidad de comunicación de las personas dentro de las células individuales [26]. Distribuciones similares se pueden encontrar para las llamadas entrantes y los SMS entrantes / salientes (marque la sección E de archivo adicional 1).


Figura 1. Distribución de las llamadas y el tráfico de Internet. (a) La distribución de las llamadas salientes por área: La distribución es amplio (cola larga) y parte de ella es bien aproximada por una ley de potencia. Muchas áreas reciben pocas llamadas, mientras que algunas áreas reciben muchas llamadas. (b) Distribución del tráfico de Internet por área: También se larga cola y sigue una ley de potencia mediante el cual algunas áreas colocan muchas llamadas, mientras que muchas áreas colocan algunas llamadas. Observar el punto de corte exponencial en la cola de la distribución, lo que probablemente se atribuye a las limitaciones en el tiempo, la atención, el ancho de banda, etc.

'Telecomunicaciones - MI a MI'. Este conjunto de datos contiene la fuerza de interacción direccional entre las diferentes celdas de la cuadrícula. Esto se basa en las llamadas intercambiados entre los usuarios de teléfonos móviles en Milán entre el 01 de noviembre y 31 de diciembre de 2013. Se utilizó este conjunto de datos para la construcción de la red dirigida ponderado de la interacción entre las células.

'Geo tweets'. Contiene alrededor de 500.000 tweets que se encuentran geo-en Milán. La figura 2 muestra la distribución de los tweets en Milán, destacando variabilidad entre diferentes zonas, y en horas pico en el centro.


Figura 2. Mapa de calor del número de tweets en Milán. La figura muestra la intensidad de tweets con todo Milán. El rojo oscuro indica alto número de tweets, mientras que el azul oscuro indica bajo número de tweets. Podemos ver que la mayor parte de los tweets se encuentra cerca del centro de Milán.

2.2 El Preprocesamiento de los Tweets 

De conjunto de datos 'Geo Tweets', se extrajeron los tweets escritos en italiano y en Inglés. Estos tuits constituyeron alrededor del 80% de los tweets en general (marque la Sección H de archivo adicional 1). Luego, utilizando la libre Google Translate API (Goslate), tradujimos los tweets italianos al Inglés.

2.3 Medición de la felicidad de las células

Para medir la felicidad en los tweets y en consecuencia en las células, se utilizó un total de 10.000 palabras con sus puntuaciones felicidad en una escala de 1 (infeliz) a 9 (feliz). Estos datos se utilizó en varios estudios [22], [23], [27], y está disponible en línea [22]. Siguiendo la metodología existente [22], [23], hemos eliminado todas las palabras con una puntuación felicidad entre 4 y 6, a continuación, se calculó la puntuación de felicidad para cada tweet en función de las palabras que contiene. Para un tweet dado T, que contiene N palabras únicas, la felicidad media se calcula utilizando la siguiente fórmula [22]:



donde  es la frecuencia de la palabra iésima  en Tes la felicidad media de la palabra . Palabras que no tienen puntuaciones de felicidad se les da el valor de la felicidad cero. Tweets con puntuaciones de felicidad cero se descartaron porque no proporcionan ninguna información sobre el sentimiento de la zona al que pertenecen. Entre los tweets de cuentas, el 14% de los tweets (55K de 382K) tiene la felicidad puntaje cero. Figura 3 (a) muestra un histograma de las puntuaciones de felicidad de los tweets 'en nuestros datos.


Figura 3. Distribución de la felicidad. (a) Histograma de la felicidad de un tweet. El histograma muestra la distribución de la puntuación de la felicidad por tweet. Se descartaron los tweets con la felicidad puntaje cero. Al igual que en la distribución de la felicidad media en ciudades de Estados Unidos se encuentran en [23], se puede ver que más tuits tienen puntuación de felicidad por encima de la media. (b) histograma de la felicidad de una célula. El histograma muestra la distribución de la puntuación de la felicidad por área. Se descartaron las áreas con la felicidad puntaje cero y áreas que contienen menos de diez usuarios únicos. Es interesante observar que, si bien la distribución de los tweets individuales de la felicidad es negativamente sesgada, la distribución de las áreas "felicidad (es decir, la felicidad total de estos tuits) parece simétrica.

Se utilizó la aplicación de la inclusión del punto en la prueba Polígono de W. Randolph Franklin [28] para asignar los tweets a las células. Tweets que no se asignan a la red (es decir, no son geo-localizada en Milán) fueron descartados. También descartamos células con puntajes felicidad cero. Una célula tiene una felicidad cero puntuación sea porque no tiene los tweets (es decir, no hay tweets son asignadas a él), o porque todos sus tuits tienen puntuaciones felicidad cero. Luego, las células con menos de diez usuarios únicos de Twitter se descartaron ya que proporcionan una medida muy ruidoso de la felicidad. Nos quedamos con 1213 células, cuya distribución de las puntuaciones de felicidad se muestra en la Figura 3 (b). Un mapa de calor para la puntuación felicidad células en Milán se visualiza en la figura 4 (a).


Figura 4. Mapa de calor de la felicidad en Milán. (a) El mapa muestra la intensidad de la puntuación de felicidad de cada área. Zonas rojas tienen puntajes altos de felicidad, mientras que las zonas azules tienen puntuaciones bajas felicidad. (b) La cifra identifica la categoría de la felicidad (feliz, triste, o neutral) de cada célula. Nos discretiza la puntuación felicidad por áreas. Se consideraron las áreas con las más altas puntuaciones de 15% de la felicidad como áreas felices, mientras que las áreas con los 15% más bajas puntuaciones de felicidad como áreas infelices. Áreas restantes se consideran como zonas neutras.

Nuestra investigación de homofilia basa en una red de células con categorías discretas (felices e infelices). Así que el primer paso fue clasificar cada uno células de acuerdo a su nivel de felicidad de acuerdo a lo siguiente:

Descontento: la felicidad agregada <5,91 (más bajo 15%)

Feliz: la felicidad agregada> 6,35 (superior al 15%)

Neutral: todas las demás células.

Hemos eliminado todas las células neutrales ya que sólo estamos interesados en la interacción entre las células feliz / infeliz. Un mapa de calor de las células felices, tristes y neutrales se muestra en la Figura 4 (b). Los resultados presentados en el documento se generan utilizando el percentil 15. Sin embargo, hemos probado otros percentiles diferentes (20, 25, 40 y 50) a las células de la etiqueta como felices o infelices y reportamos los resultados detallados en la sección A de la disposición 1.

2.4 Construyendo la red de comunicación 

Para construir la red, hemos utilizado los datos de comunicación para toda una semana de trabajo (de 4 noviembre hasta 8 noviembre 2013) para caracterizar la red de comunicación urbana (resultados similares se obtuvieron a partir de datos de comunicación desde un solo día). Nosotros agregamos pesos las llamadas 'entre las células durante esta semana, los bordes y después se filtró en la que la llamada / llamadas células se descartaron en una etapa anterior (ya sea porque tenían menos de diez usuarios únicos de Twitter o porque tuvieron la felicidad puntaje cero). También descartamos auto-bordes que la comunicación de captura dentro de las células. Para eliminar el efecto de las comunicaciones transitorios, se utilizó el peso de bordes para filtrar los bordes con conexiones débiles (se descartó bordes con pesos agregados de menos de 0,1). También, como se observa en la Figura 1, hay una variación en términos de las proporciones de la comunicación entre las áreas. Por lo tanto, la intensidad de la comunicación entre dos zonas se puede atribuir a su población [29], [30]. Por desgracia, los datos Desafío Grande no proporcionó el tamaño de la población en cada área, y los datos de población del público no está disponible en el mismo nivel de granularidad. Por lo tanto, como sustituto de la población, se utilizó el número de usuarios de Twitter que iniciaron los tweets en cada célula [31]. Nuestro objetivo es reducir al mínimo el efecto de la población de la intensidad de la comunicación. Comprobación de la correlación entre la intensidad de la comunicación entre las dos áreas y la población en estas áreas ayudaría a determinar una buena manera de minimizar este efecto. Hemos probado la correlación entre la intensidad de la comunicación entre un par de zonas con el mínimo de las dos áreas 'población, el producto de las dos áreas' población, la media de la población de las dos áreas ', la población de la área de llamadas de, y la receptora población área. Todos ellos proporcionan valores de correlación positivos significativos (correlación de Spearman: 0,3, 0,29, 0,25, 0,22 y 0,2 respectivamente). Por lo tanto, hemos dividido la comunicación entre cada par de zonas de la población menor de las dos:




La red resultante se compone de 363 nodos que representan células / áreas, cada una de las cuales se etiquetan como feliz o infeliz. Estos nodos se conectan utilizando 52.417 enlaces dirigidos ponderados que representan la intensidad de las llamadas entre áreas.


3 Resultados

Comenzamos con una exploración visual de si las células se comunican preferentemente con células de su propio tipo, nos encontramos con un algoritmo de detección de la comunidad (el algoritmo de optimización modularidad multinivel [32]) en la red de comunicación entre las áreas urbanas que clasifica como "feliz . "y" infeliz "La salida se muestra en la Figura 5. Los nodos etiquetados con + representan áreas felices y nodos etiquetados con - representan áreas infelices. Los diferentes colores representan diferentes comunidades identificadas por el algoritmo. La mayoría de las comunidades están dominadas menor o igual a 2/3 por una clase particular (feliz o infeliz).


Figura 5. Red de llamadas entre áreas feliz / infeliz en Milán. Los nodos representan áreas, y los bordes representan llamadas entre estas áreas. Los nodos etiquetados con + representan áreas felices, mientras que los nodos etiquetados con - representan áreas infelices. Colores representan comunidades generados por el multi-nivel algoritmo de optimización modularidad [32]. Se puede observar que la mayoría de las comunidades están dominadas menor o igual a 2/3 por una clase particular (feliz o infeliz).

Para cuantificar aún más este efecto, que estadísticamente investigó la variación en la comunicación entre áreas de diferentes niveles de felicidad. Se realizó un análisis de dos vías de varianza (ANOVA) para comparar el efecto de los niveles de felicidad (es decir felices frente infeliz) de las zonas de origen y destino en la fuerza de la comunicación, una relación que puede ser descrita por el siguiente modelo lineal:



La variable dependiente es la comunicación direccional global entre las dos áreas (número continuo). Las variables independientes son: (1) Fuente, un factor con dos niveles de felicidad que representa el área que inicia la comunicación, (2) Objetivo, un factor con dos niveles de felicidad que representa el área que recibe la comunicación (feliz o infeliz), (3) la interacción entre estos dos factores Fuente x Objetivo.

Los resultados del ANOVA muestran que la interacción entre el origen y el destino es significativa . El efecto de interacción podría indicar la existencia de homofilia o heterofilia en los patrones de comunicación de las zonas urbanas en Milán. La homofilia significa que las áreas de un mismo nivel de felicidad tienden a interactuar más entre sí que interactúan con las áreas del otro nivel de felicidad, mientras que heterofilia significa que las áreas tienden a interactuar con las áreas del otro nivel de felicidad más de lo que hacen con áreas de un mismo nivel.

Hemos producido un complot de la interacción de visualizar el efecto de interacción. La Figura 6 muestra una tendencia a que homofilia en la comunicación. Teniendo en cuenta todo el volumen de la comunicación, áreas felices tienden a llamar a las zonas más felices que ellos llaman áreas infelices. Del mismo modo, las áreas infelices tienden a llamar áreas infelices más de lo que llaman áreas felices. El mismo comportamiento se puede también notó con respecto a la recepción de las llamadas. Áreas felices reciben más llamadas de áreas felices que desde áreas infelices y desdichados áreas reciben más llamadas de áreas infelices que desde áreas felices.


Figura 6. Presencia de homofilia en los patrones de comunicación de las zonas. El eje x denota los niveles de felicidad de las zonas de recepción de llamadas y el eje y indica la suma de las llamadas agregados. (a) La interacción parcela. La línea de puntos negro indica las áreas felices que colocan las llamadas mientras que la línea continua de color rojo indica las áreas infelices que colocan las llamadas. (b) Otra forma de visualizar los resultados. El color oscuro representa las áreas felices que colocan las llamadas, mientras que el color de la luz representa las áreas infelices que colocan las llamadas.

Con el fin de estudiar la importancia de las observaciones anteriores, se realizó comparaciones post hoc utilizando la prueba de Tukey HSD [33] para comparar todas las seis posibles combinaciones de los pesos de las interacciones. Tukey HSD es una prueba estadística que se utiliza con un ANOVA (un ANOVA de dos vías en nuestro caso) para hacer comparaciones por pares entre las medias de los diferentes tratamientos (en nuestro caso, tenemos cuatro tratamientos, como se muestra en la Tabla 1, y por lo tanto tenemos seis comparaciones por pares).

Tabla 1. Peso de las comunicaciones de las células feliz / infeliz (Fuente) a células feliz / infeliz (Meta)
DesdeHaciaMediadesvío estándar
HappyHappy0.0390.1
UnhappyUnhappy0.0410.1
UnhappyHappy0.0330.075
HappyUnhappy0.0330.075
Alshamsi et al.

La Tabla 1 muestra los valores de la desviación estándar para las interacciones entre las células feliz / infeliz y media. La media de los pesos de comunicación de las áreas infelices llamar y recibir llamadas a / desde otras áreas infelices es estadísticamente significativamente diferente de los ponderadores de comunicación media de las áreas infelices que se comunican con las zonas felices . Del mismo modo, la media de los pesos de comunicación de las zonas feliz que llama y recibir llamadas a / desde otras áreas feliz es estadísticamente significativamente diferente de los pesos de comunicación media de las áreas felices que comunican con las zonas infeliz .

También hemos cuantificado el nivel de mezcla asortatividad en la red de áreas mediante el uso de una versión ponderada del coeficiente de asortatividad definido por [34]. Para obtener más información acerca de cómo se implementó, por favor refiérase a la sección D de archivo adicional 1. Se encontró que el coeficiente es 0,21 asortatividad que podría considerarse relativamente alta. Por lo tanto, esta es otra evidencia del comportamiento selectivo en los patrones de comunicación de las zonas urbanas en Milán.

4 Homofilia en el nivel de la comunidad

Teniendo en cuenta estos resultados, sería interesante saber si existe homofilia en el nivel de la comunidad. Para investigar esto, hemos utilizado la salida del algoritmo de detección de comunidad (es decir, multi-nivel algoritmo de optimización modularidad [32]). Este algoritmo utiliza la noción de modularidad, que es una medida de calidad para el gráfico de agrupamiento propuesto por Newman [35]. Después encontramos comunidades, se estudió el efecto del tamaño de la comunidad sobre la media y la desviación estándar de la puntuación de la felicidad de una comunidad. En general, si la desviación estándar es pequeño, entonces se podría concluir la existencia de homofilia el nivel de la comunidad. Además, estamos interesados ​​en la búsqueda de si el promedio y la desviación estándar de la puntuación de la felicidad de una comunidad va a cambiar como el tamaño de la comunidad (medido como el número de células) cambios. Para la comparación, hemos generado las comunidades aleatorias de tamaños similares de las comunidades a las que tenemos. Una comunidad aleatoria de un tamaño h se forma mediante la asignación al azar células h en ella. El proceso se repite 200 veces y el valor medio (de promedios o de desviaciones estándar) se calcula para la comunidad. Para más detalles, consulte la sección G de la disposición 1.

La Figura 7 (a) muestra que las comunidades de pequeño tamaño tienen ligeramente superior felicidad promedio que una comunidad azar del mismo tamaño. A medida que aumenta el tamaño de la comunidad, su puntuación de felicidad disminuye a ser menos que el de una comunidad al azar del mismo tamaño. Esto sugiere que las comunidades más pequeñas gozan de un mayor nivel de felicidad que las grandes. Figura 7 (b) muestra que las comunidades tienen detectados desviación estándar inferior a las comunidades al azar, lo que sugiere cierta evidencia de homofilia dentro de las comunidades. Además, muestra que la desviación estándar de la felicidad puntuación aumenta a medida que el tamaño de la comunidad aumenta. Sin embargo, las comunidades aleatorios muestran un patrón similar de aumento de la desviación estándar. Esto sugiere que el aumento en la desviación estándar es sólo ligeramente debido a la disminución en homofilia. Es decir, homofilia dentro de una comunidad está ligeramente influenciada por el tamaño de la comunidad.


Figura 7. La media (a) y (b) la desviación estándar de la felicidad de una comunidad en función de su tamaño. Cada punto representa una sola comunidad. Los puntos verdes representan comunidades detectadas mediante un algoritmo de maximización modularidad aplicado en la red de comunicaciones construido, mientras que los puntos rojos representan las comunidades aleatorios. Los puntos azules en (b) representan la diferencia entre los valores de los respectivos puntos verdes y rojos. Las comunidades tienen detectados desviación estándar inferior a las comunidades al azar, lo que sugiere cierta evidencia de homofilia. Además, como el tamaño de la comunidad aumenta, la felicidad promedio disminuye y la desviación estándar de la felicidad aumenta. Sin embargo, las comunidades aleatorios muestran un patrón similar de aumento de la desviación estándar. Esto sugiere que el aumento en la desviación estándar no es principalmente debido a la disminución en homophily. A medida que la línea azul muestra, la desviación estándar aumenta sólo ligeramente ya que el tamaño de los incrementos de la comunidad. Tenga en cuenta que sólo las células dentro de la parte superior / inferior al 15% de la felicidad son considerados. El uso de otros percentiles produce parcelas similares (consulte la sección G de la disposición 1).

5 Discusión

Hemos dado un primer paso hacia la comprensión de la interacción entre la comunicación y la felicidad en las zonas urbanas con una resolución alta. Encontramos evidencia de mezcla selectivo (homofilia) en la comunicación entre las diferentes áreas urbanas en función de su nivel de felicidad. También se encontró que la media de la felicidad parece variar con el tamaño de la comunidad, donde la comunidad se define en términos de la estructura de comunicación.

La obtención de nuestro resultado principal requiere el desarrollo de un gasoducto de ciencia de datos que combina los datos de una variedad de fuentes y realiza sociales raspado de datos de medios de comunicación, la traducción, la puntuación sentimiento, agregación, geo-localización, y las pruebas de hipótesis estadísticas. Creemos que este tipo de tubería puede utilizarse más allá del alcance de este trabajo en particular. Por ejemplo, nuestras afirmaciones sobre la comunicación homofílica se limitan a un indicador en particular, a saber, la felicidad se mide a través de la producción pública de medios sociales. Puede ser posible aplicar la misma técnica para medir la homofilia basado en otros indicadores de sentimiento que se pueden extraer de los medios sociales, tales como la confianza del consumidor, ni credo político.

Ciertamente, Twitter no es la única manera de medir la felicidad en las ciudades, y que puede ser posible establecer asortatividad utilizando otras medidas de la felicidad, como la recogida de felicidad auto-reporte de una muestra de personas a través de las encuestas [36]. Sin embargo, estas medidas son caros, sobre todo en la alta resolución espacial obtenidos por este estudio. Por otra parte, el uso de los mensajes de los medios sociales como Tweets proporciona un indicador en tiempo real de la felicidad, y por lo tanto más adecuado para aplicaciones que requieren esta información al mayor resolución temporal es.

La principal limitación de este estudio es que se trata de una sola ciudad. Esto es causado por la disponibilidad limitada de datos. En el futuro, sería necesario llevar a cabo investigaciones similares para otras ciudades para ver si homofilia mantiene constantemente a través de una variedad de centros urbanos. Incluso si el patrón se sostiene, sería interesante investigar si diferentes ciudades exhiben comunicación homofílica en diferentes grados.

Otra oportunidad para seguir trabajando es explorar el papel (si lo hay) que desempeñan los otros indicadores urbanos, como los ingresos, en la mediación de nuestras observaciones. Puede ser posible, por ejemplo, que nuestro efecto observado es más (o menos) pronunciada para las zonas con similares ingresos per cápita.

Creemos que hay muchas oportunidades para una mayor exploración del papel de la comunicación urbana en el bienestar urbano. Un interesante, aunque difícil, el experimento puede implicar ejecutar las intervenciones destinadas a la manipulación de la estructura de comunicación urbana para ver si una relación de causalidad se puede hacer para el bienestar urbano.

Referencias


  • Bettencourt LM. The origins of scaling in cities. Science. 2013; 340(6139):1438-1441.Publisher Full Text
  • Eagle N, Pentland A. Reality mining: sensing complex social systems. Pers Ubiquitous Comput. 2006; 10(4):255-268. Publisher Full Text
  • Crane P, Kinzig A. Nature in the metropolis. Science. 2005; 308(5726):1225.Publisher Full Text
  • Akyildiz IF, Su W, Sankarasubramaniam Y, Cayirci E. Wireless sensor networks: a survey. Comput Netw. 2002; 38(4):393-422. Publisher Full Text
  • Heilig GK (2012) World urbanization prospects: the 2011 revision. United Nations, Department of Economic and Social Affairs (DESA), Population Division, Population Estimates and Projections Section, New York
  • Glaeser EL, Sacerdote B (1996) Why is there more crime in cities? Technical report, National Bureau of Economic Research
  • Bettencourt LM, Lobo J, Helbing D, Kühnert C, West GB. Growth, innovation, scaling, and the pace of life in cities. Proc Natl Acad Sci USA. 2007; 104(17):7301-7306.Publisher Full Text
  • Bettencourt LM, Lobo J, Strumsky D, West GB. Urban scaling and its deviations: revealing the structure of wealth, innovation and crime across cities. PLoS ONE. 2010; 5(11): Article ID e13541 Publisher Full Text
  • Glaeser E. Triumph of the city: how our greatest invention makes US richer, smarter, greener, healthier and happier. Pan Macmillan, London; 2011.
  • Audretsch DB, Feldman MP. R&D spillovers and the geography of innovation and production. Am Econ Rev. 1996; 86(3):630-640.
  • Jaffe AB, Trajtenberg M, Henderson R. Geographic localization of knowledge spillovers as evidenced by patent citations. Q J Econ. 1993; 108(3):577-598. Publisher Full Text
  • Granovetter M. The strength of weak ties. Am J Sociol. 1973; 78(6):1360-1380.Publisher Full Text
  • Burt RS. Structural holes: the social structure of competition. 2009.
  • Eagle N, Macy M, Claxton R. Network diversity and economic development. Science. 2010; 328(5981):1029-1031. Publisher Full Text
  • Pan W, Ghoshal G, Krumme C, Cebrian M, Pentland A. Urban characteristics attributable to density-driven tie formation. Nat Commun. 2013; 4: Article ID 1961
  • Leyden KM, Goldberg A, Michelbach P. Understanding the pursuit of happiness in ten major cities. Urban Aff Rev. 2011; 47(6):861-888. Publisher Full Text
  • Helliwell JF, Layard R, Sachs J. World happiness report 2013. 2013.
  • Cutler DM. Measuring national well-being. Measuring the subjective well-being of nations: national accounts of time use and well-being. 2009.107-112. Publisher Full Text
  • Bertrand M, Mullainathan S. Do people mean what they say? Implications for subjective survey data. Am Econ Rev. 2001; 91(2):67-72. Publisher Full Text
  • Davidov D, Tsur O, Rappoport A. Enhanced sentiment learning using Twitter hashtags and smileys. Proceedings of the 23rd international conference on computational linguistics: posters. 2010.241-249. 
  • Thelwall M, Buckley K, Paltoglou G. Sentiment in Twitter events. J Am Soc Inf Sci Technol. 2011; 62(2):406-418. Publisher Full Text
  • Dodds PS, Harris KD, Kloumann IM, Bliss CA, Danforth CM. Temporal patterns of happiness and information in a global social network: hedonometrics and Twitter.PLoS ONE. 2011; 6(12): Article ID e26752 Publisher Full Text
  • Mitchell L, Frank MR, Harris KD, Dodds PS, Danforth CM. The geography of happiness: connecting Twitter sentiment and expression, demographics, and objective characteristics of place. PLoS ONE. 2013; 8(5): Article ID e64417 Publisher Full Text
  • Telecom Italia (2014) Big Data Challenge. http://www. telecomitalia.com/bigdatachallenge webcite
  • Bollen J, Gonçalves B, Ruan G, Mao H. Happiness is assortative in online social networks. Artif Life. 2011; 17(3):237-251. Publisher Full Text
  • Miritello G, Lara R, Cebrian M, Moro E. Limited communication capacity unveils strategies for human interaction. Sci Rep. 2013; 3: Article ID 1950 Publisher Full Text
  • Kloumann IM, Danforth CM, Harris KD, Bliss CA, Dodds PS. Positivity of the English language. PLoS ONE. 2012; 7(1): Article ID e29484 Publisher Full Text
  • Haines E. Point in polygon strategies. Graphics gems IV. 1994.24-46. Publisher Full Text
  • Expert P, Evans TS, Blondel VD, Lambiotte R. Uncovering space-independent communities in spatial networks. Proc Natl Acad Sci USA. 2011; 108(19):7663-7668.Publisher Full Text
  • Krings G, Calabrese F, Ratti C, Blondel VD. Urban gravity: a model for inter-city telecommunication flows. J Stat Mech Theory Exp. 2009; 2009(07): Article ID L07003Publisher Full Text
  • Botta F, Moat HS, Preis T. Quantifying crowd size with mobile phone and Twitter data.R Soc Open Sci. 2015; 2(5): Article ID 150162 Publisher Full Text
  • Blondel VD, Guillaume J-L, Lambiotte R, Lefebvre E. Fast unfolding of communities in large networks. J Stat Mech Theory Exp. 2008; 2008(10): Article ID P10008Publisher Full Text
  • Yandell BS. Practical data analysis for designed experiments. 1997.
  • Newman ME. Mixing patterns in networks. Phys Rev E. 2003; 67(2): Article ID 026126Publisher Full Text
  • Newman ME. Modularity and community structure in networks. Proc Natl Acad Sci USA. 2006; 103(23):8577-8582. Publisher Full Text
  • Leedle BR, Clifton J (2014) State of well-being 2013 state, community and congressional district analysis. Technical report, Gallup Inc. and Healthways Inc.

sábado, 4 de julio de 2015

Las ilusiones provocadas por las redes sociales

La ilusión de la red social que engaña a tu mente
Los científicos de redes han descubierto cómo las redes sociales pueden crear la ilusión de que algo es común cuando en realidad es raro.




MIT Technology Review

Una de las cosas curiosas sobre las redes sociales es la forma en que algunos mensajes, imágenes o ideas pueden extenderse como un reguero de pólvora, mientras que otros que parecen tan pegadiza o interesante apenas registran en absoluto. El contenido en sí no puede ser el origen de esta diferencia. En su lugar, tiene que haber alguna propiedad de la red que cambia para permitir que algunas ideas se propaguen pero no en otros.

Hoy en día, tenemos una idea de por qué sucede esto, gracias a la labor de Kristina Lerman y amigos de la Universidad del Sur de California. Estas personas han descubierto una ilusión extraordinaria asociada con las redes sociales que pueden jugar malas pasadas a la mente y explicar todo, desde por qué algunas ideas se popularizan rápidamente a cómo los comportamientos de riesgo o antisociales puede propagarse tan fácilmente.

Los científicos de redes han conocido acerca de la naturaleza paradójica de las redes sociales desde hace algún tiempo. El ejemplo más famoso es la paradoja de la amistad: en promedio sus amigos tendrán más amigos que tú.

Esto se produce debido a que la distribución de los amigos en las redes sociales sigue una ley de potencias. Así, mientras que la mayoría de la gente va a tener un pequeño número de amigos, algunos individuos tienen un gran número de amigos. Y estas personas sesgan la media.

He aquí una analogía. Si se mide la altura de todos sus amigos varones. usted encontrará que el promedio es de alrededor de 170 centímetros. Si usted es hombre, en promedio, sus amigos estarán aproximadamente a la misma altura que eres. De hecho, la noción matemática de "promedio" es una buena manera de captar la naturaleza de estos datos.

Pero imaginemos que uno de sus amigos era mucho más alto que tú dices-, a un kilómetro o 10 kilometros de altura. Esta persona sesgaría drásticamente la media, lo que haría que sus amigos más alto que tú, en promedio. En este caso, el "promedio" es una mala manera de capturar este conjunto de datos.

Exactamente esta situación se produce en las redes sociales, y no sólo por el número de amigos. En promedio, sus coautores serán citados más a menudo que tú, y las personas que sigues en Twitter a publicar con más frecuencia que tú, y así sucesivamente.

Ahora Lerman y co han descubierto una paradoja relacionada, que llaman la ilusión de la mayoría. Este es el fenómeno por el cual un individuo puede observar un comportamiento o atributo en la mayor parte de sus amigos, a pesar de que es poco frecuente en la red en su conjunto.

Ilustran esta ilusión con un ejemplo teórico: un conjunto de 14 nodos enlazados para formar una pequeña red mundial, al igual que una red social real (ver foto arriba). Luego colorean tres de estos nodos y contar cuántos de los nodos restantes enlazar a ellos en un solo paso.

Dos versiones de esta configuración se muestran arriba. En el ejemplo de la izquierda, los nodos incoloro ver más de la mitad de sus vecinos como de color. En el ejemplo de la derecha, esto no es cierto para cualquiera de los nodos incoloro.

Pero aquí está la cosa: la estructura de la red es el mismo en ambos casos. Lo único que cambia son los nodos que son de color.

Esta es la ilusión-la mayoría impresión local que un atributo específico es común cuando la verdad global es completamente diferente.

La razón no es difícil de ver. La ilusión mayoría se produce cuando se colorean los nodos más populares. Debido a que estos vínculo con el mayor número de otros nodos, que sesgan la vista desde el suelo, como si dijéramos. Es por eso que esta ilusión está tan estrechamente vinculada a la paradoja de la amistad.

Lerman y co van a ajustar los parámetros de la red, por el cambio de la distribución de enlaces y así sucesivamente, para ver cómo la ilusión mayoría depende de ellos. Resulta que las condiciones en que puede producirse la ilusión son sorprendentemente amplio.

Entonces, ¿cómo frecuente es en el mundo real? Para averiguarlo, Lerman y estudio co varias redes del mundo real, incluyendo la red de coautoría de físicos de alta energía, la gráfica seguidor de la red de medios sociales Digg, y la red que representa los vínculos entre los blogs políticos.

Y la ilusión mayoría puede ocurrir en todos ellos. "El efecto es más grande de la red de blogs de política, donde hasta el 60% -70% de los nodos tendrá mayoría vecinos activos, incluso cuando sólo el 20% de los nodos están activos", dicen. En otras palabras, la ilusión de la mayoría puede ser utilizado para engañar a la población a creer algo que no es cierto.

Eso es un trabajo interesante que explica de inmediato una serie de fenómenos interesantes. Para empezar, se muestra como parte del contenido se puede propagar a nivel mundial, mientras que otro contenido similar no-la clave es comenzar con un pequeño número de los primeros en adoptar bien conectadas engañando al resto de la red en el pensamiento de que es común.

Eso podría parecer inofensivo cuando se trata de los memes en Reddit o vídeos en YouTube. Pero puede tener efectos más insidiosos también. "En algunas condiciones, incluso una opinión minoritaria puede parecer extremadamente popular a nivel local", dicen Lerman y co. Eso podría explicar cómo vistas extrema a veces puede propagarse tan fácilmente.

También podría explicar la propagación de la conducta antisocial. Diversos estudios han demostrado que los adolescentes sobreestiman constantemente la cantidad de alcohol y drogas consumen sus amigos. "Si los grandes bebedores también resultan ser más popular, entonces la gente que examinan la conducta de beber de sus amigos van a concluir que, en promedio, sus amigos beber más de lo que hacen", dicen Lermann y co.

En otras palabras, la culpa de la ilusión de la mayoría.

Eso es importante, pero todavía no es la carta de un vendedor. Para eso, los vendedores deben primero ser capaz de identificar los nodos populares que pueden crear la ilusión de mayoría para el público objetivo. Estos influenciadores deben entonces ser persuadidos a adoptar el comportamiento o producto deseado.

Esa es una meta que todo buen vendedor ya habrá identificado. Por lo menos ahora saben cómo y por qué se puede trabajar.

Ref: arxiv.org/abs/1506.03022 : The Majority Illusion in Social Networks
Los comportamientos sociales son a menudo contagiosos, se difunden a través de una población a medida que individuos imitan las decisiones y elecciones de los demás. Una variedad de fenómenos globales, desde la adopción de innovación a la aparición de las normas sociales y movimientos políticos, surgen como resultado de personas que siguen una regla local sencillo, como copiar lo que otros están haciendo. Sin embargo, las personas a menudo carecen de conocimiento global de los comportamientos de los demás y deben estimarlos a partir de las observaciones de las conductas de sus amigos. En algunos casos, la estructura de la red social subyacente puede sesgar dramáticamente observaciones locales de un individuo, por lo que aparece un comportamiento mucho más común de lo que es localmente a nivel mundial. Trazamos los orígenes de este fenómeno, lo que llamamos "la ilusión de la mayoría," a la paradoja de amistad en las redes sociales. Como resultado de esta paradoja, un comportamiento que es globalmente raro puede ser excesivamente sistemáticamente en los barrios de muchas personas, es decir, entre sus amigos. Por lo tanto, la "ilusión mayoría" puede facilitar la propagación de contagios sociales en redes y también explicar por qué sesgos sistemáticos en las percepciones sociales, por ejemplo, de los comportamientos de riesgo, surgen. El uso de las redes sintéticas y reales, se explora cómo la "ilusión mayoría" depende de la estructura de la red y desarrollamos un modelo estadístico para calcular su magnitud en una red.

jueves, 2 de julio de 2015

ARS en acción: Identificando gestores del cambio social en comunidades

RSA muestra cómo las redes sociales pueden apoyar Changemakers


En los últimos años el proyecto Comunidades Conectadas del RSA [RSA’s Connected Communities] ha desarrollado métodos para el mapeo saber quién es quién en los barrios, y cómo pueden formar una red social. Es fascinante ver los mapas que emergen ... pero ¿cómo puede este enfoque se dirigió a la ventaja de la comunidad?



El análisis de redes sociales (ARS) ahora constituye la base de un programa innovador en Peterborough, donde el proyecto del Poder Ciudadano de la RSA ha utilizado ARS para identificar Changemakers (gestionadores del cambio) que podrían trabajar juntos en beneficio de la ciudad. Su informe recientemente publicado dice:
Entre los que se identificaron fueron miembros del clero, artistas, directores, empresarios sociales, oficiales de vivienda, trabajadores de la caridad, policías, empresarios y funcionarios del consejo de todos los días. Los resultados de nuestra topografía indican que estas personas son expertos en conducción de un cambio positivo en sus áreas locales. Parecen arraigada en sus comunidades, tienen un impresionante repertorio de capacidades, y están inculcado con un apetito para aplicar sus habilidades y conocimientos para hacer frente a los problemas locales.


Como Ben Dellot explica aquí, es particularmente importante identificar personas que pueden impulsar el cambio en momentos en que los servicios públicos se están reduciendo. Algunos se conocen entre sí - pero muchos no se han conectado a través de los sectores público, privado y voluntario.
Juntos deben ser capaces de lograr más de lo que podían sin el beneficio de las conexiones de red más amplios.
La red ya está cumpliendo, como se puede ver en este informe en el sitio de la comunidad online de ort Citizen Power [Poder Ciudadano]. En cierto estilo enredado, corrieron el evento como sesión de espacio abierto en lugar de un comité



El objetivo es que la red sea auto-sostenible, a medida que se retira la RSA. La iniciativa ha sido apoyada por RSA Fellows (miembros), y esto hace que sea más fácil para replicar el proceso en otras áreas y, finalmente, construir una red de redes a través del cual Changemakers puede encontrar a otros con intereses similares.
Creo que va a ser fascinante ver cómo las personas de diferentes orígenes organizativos funcionan como organizar dentro de un contexto en red ... y cómo los proyectos equipos forman sobre una base de igual a igual entonces puede trabajar con más organizaciones formales en el ciudad.
¿Van a operar sobre una base puramente voluntaria? Si lo hacen necesitar fondos, ¿cómo será eso ser manejado? ¿Cómo se solicitud de adhesión a la red hizo? ¿Van a ser criticados como un grupo elitista? ¿Cómo se toman las decisiones?
Todas estas son cuestiones que creo que vamos a tener que enfrentar más ampliamente como tratamos de sacar el máximo provecho de los activos humanos y sociales en nuestras comunidades, e ir más allá, o re-inventar, las estructuras cívicas desarrolladas durante el siglo pasado .



Por supuesto, no siempre han sido las redes sociales en la sociedad civil. Lo que es tal vez diferente aquí es el intento de desarrollar otras que conectan deliberadamente todos los sectores y disciplinas. Como el director ejecutivo de RSA Matthew Taylor escribió en su blog recientemente:
Es en los espacios y procesos que reúnen a personas con diferentes intereses, experiencia y recursos que la innovación es más probable que ocurra. También es aquí donde podemos identificar 'la riqueza oculta' (una capacidad para la creatividad, la generosidad, la confianza y la solidaridad) que a menudo permanece latente atrapado entre especialidades y jerarquías y aplastado por los incentivos estrechas.
La red Changemakers en Peterborough parece que será una excelente prueba de tan sólo lo que es posible a través de este enfoque.

Social Reporter

martes, 30 de junio de 2015

La masa crítica de diferentes industrias

Le tomó el teléfono 75 años hacer lo que Angry Birds hizo en 35 días. Pero ¿qué significa eso?
 
Por Timothy Aeppel - The Wall Street Journal


1883: Una ilustración de una central telefónica en Londres, publicado por primera vez en El Gráfico. Getty Images

Entra en una tienda de Apple o cualquier otro proveedor de electrónica y que te van a venir lejos tecnología convencido está avanzando más rápido que nunca.

Eso portátil que parecía imposiblemente delgadas de un año o dos atrás es cosa del pasado, sustituyó opciones mucho más esbeltas. Los últimos teléfonos toman imágenes más nítidas y las aplicaciones ahora parecen no tener fin y en constante cambio.

Estas riquezas electrónicos son sólo parte de una ola más grande de innovación que se está dando un vuelco economías y la creación de nuevos desafíos para los trabajadores, de acuerdo con un nuevo informe de Carl Benedikt Frey y Michael Osborne, dos economistas de la Universidad de Oxford que crearon un gran revuelo hace dos años al predecir que casi la mitad de los empleos en Estados Unidos podría automatizarse de distancia en las próximas dos décadas.

"Nos llevó un promedio de 119 años para el cabezal de difundir fuera de Europa", señalan los autores. "Por el contrario, la Internet se ha extendido en todo el mundo en sólo siete años."

La idea de que la nueva tecnología se está extendiendo más rápidamente que nunca antes se ha convertido en la sabiduría convencional. El informe señala que tomó 75 años para los teléfonos para alcanzar 50 millones de usuarios, mientras que Angry Birds alcanzaron ese objetivo en tan sólo 35 días. Una de las comparaciones más coloridos, señalan, apareció en Forbes-que recientemente señaló que WhatsApp gana más adeptos en sus primeros seis años que el cristianismo hizo en sus primeros 19 siglos.

Pero no todas las innovaciones son iguales. Una nueva aplicación informática que puede propagarse hoy porque hay una red -que electrónico tardó décadas en construir, por cierto, capaz de conectar a millones de usuarios durante la noche.

"Si bien hay algunas pruebas de que el ritmo de difusión ha aumentado, sobre todo en áreas de medios de comunicación y la electrónica, es menos cierto que en muchos aspectos de difusión es un proceso muy lento", dice Scott Stern, economista del MIT que estudia cómo los nuevos inventos propagan . Los cambios se producen más lentamente, señala, cuando una nueva invención es más fundamental. La adopción de teléfonos, por ejemplo, requiere la construcción de una red masiva de cables y conmutadores.

"Contamos con la infraestructura necesaria para obtener Angry Birds", dice. "Pero eso no se traduce necesariamente en el caso de las tecnologías que representan un cambio más fundamental, tales como máquinas autónomas".