Análisis de redes sociales

lunes, 6 de julio de 2015

Sentimiento en las redes: Homofilia de felices e infelices en Milán

La aflicción ama la compañía: la felicidad y la comunicación en la ciudad
Aamena Alshamsi(1), Edmond Awad(1), Maryam Almehrezi(1), Vahan Babushkin(1), Pai-Ju Chang(1), Zakariyah Shoroye(1), Atila-Péter Tóth(1) e Iyad Rahwan(1)(2) *

Afiliaciones de los autores
1 Instituto Masdar de Ciencia y Tecnología, Abu Dhabi, Emiratos Árabes Unidos
2 Massachusetts Institute of Technology, Cambridge, EE.UU.

EPJ Data Science 2015, 4:7 doi:10.1140/epjds/s13688-015-0044-2

La versión electrónica de este artículo es el que completa y se puede encontrar en línea en: http://www.epjdatascience.com/content/4/1/7

Recibido: 21 de julio 2014
Aceptado: 10 de junio 2015
Publicado: 02 de julio 2015
© 2015 Alshamsi et al.

Open Access Este artículo se distribuye bajo los términos de la licencia Creative Commons Reconocimiento 4.0 Licencia Internacional (http://creativecommons.org/licenses/by/4.0/), que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre le das crédito correspondiente al autor (s) original y la fuente, proporcionan un enlace a la licencia Creative Commons, e indicar si se introdujeron cambios.

Resumen

La alta densidad de población en las ciudades confiere muchas ventajas, incluyendo la mejora de la interacción social y el intercambio de información. Sin embargo, a menudo se argumenta que la vida urbana se produce a expensas de la reducción de la felicidad. El objetivo de esta investigación es arrojar luz sobre la relación entre la comunicación urbana y la felicidad urbana. Analizamos mensajes geo-localizada de medios sociales (Tweets) dentro de un gran centro urbano (Milán) para producir un mapa espacial detallada de los sentimientos urbanos. Combinamos estos datos con los datos de intensidad de comunicaciones móviles de alta resolución entre diferentes áreas urbanas. Nuestros resultados revelan que las áreas felices (respectivamente infelices) comunican preferentemente con otras áreas de su tipo. Esta observación constituye evidencia de comunidades homofícilas a escala de toda una ciudad (Milán), y tiene implicaciones sobre las intervenciones que tienen como objetivo mejorar el bienestar urbano.

Palabras clave: medios de comunicación social; el sentimiento; la felicidad; ciudades; homofilia

1. Introducción

Por primera vez en la historia, la mayoría de los seres humanos vive en ciudades. Una teoría completa de que se trate con el crecimiento y la dinámica de las ciudades es todavía un trabajo en progreso [1]. Sin embargo, nuestra comprensión fenomenológica de las ciudades está creciendo de manera significativa gracias a los avances en nuestra capacidad de percibir la dinámica del comportamiento humano [2], y el medio ambiente urbano y la infraestructura [3], [4].

La alta densidad de población en las ciudades se asocia con ambos indicadores urbanos deseables tales como la innovación, el crecimiento económico y las oportunidades de empleo, y con consecuencias no deseadas como crímenes, enfermedades y contaminación [5], [6]. En particular, las ciudades exhiben consistente sub-lineal y escalado super-lineal de muchos de estos indicadores [7].

Estas características de las ciudades se atribuyen a varios factores [8], [9]. Entre ellos, especial atención se da a menudo el papel de la interacción social [10], [11]. Las características de la interacción social humana, tales como el papel de los lazos débiles [12], agujeros estructurales [13] y la diversidad en la interacción [14] se ven a menudo como facilitadores importantes del éxito en las ciudades. Recientemente, se ha sugerido que las ciudades son especiales debido a que el aumento de la densidad de población urbana conduce a escala super-lineal en la densidad de vínculo social, facilitando así la escala super-lineal de difusión de información [15].

Por otra parte, el éxito de la sociedad de las ciudades es también una función de bienestar y la felicidad urbano. Los responsables políticos están interesados en la comprensión de las causas de la felicidad en las ciudades con el fin de mantener o incrementar ella [16]. Por lo tanto, es importante comprender la interacción entre la comunicación urbana, por un lado, y la felicidad urbano en el otro. Esto ayudaría a entender, por ejemplo, si y cómo urbana estructuras de comunicación facilitan o inhiben el bienestar de los ciudadanos. En este artículo, echamos un primer paso hacia la investigación de este tema.

Los estudios tradicionales se basan en la auto-informes a través de encuestas para medir la felicidad a nivel de ciudades enteras [16] - [18]. A pesar de la omnipresencia de las encuestas en la cuantificación o medidas felicidad indexación, sufren de una serie de limitaciones, como la falta de fiabilidad de los datos subjetivos [19].

Recientemente, los investigadores mostraron que la abundancia de datos personales emitidos a través de los medios de comunicación social (por ejemplo, a corto mensaje medios de difusión como Twitter) puede cuantificar de manera fiable la felicidad individual [20] - [22]. Cuando se combina con la información geográfica, esta técnica puede ser utilizado para caracterizar la distribución geográfica de la felicidad través de grandes áreas, tales como la continental de los Estados Unidos [23].

Motivados por los resultados recientes sobre la geografía de la felicidad y la estructura de comunicación en las ciudades, estamos interesados en la comprensión de la relación entre la felicidad urbana y la comunicación urbana. Nos aprovechamos de datos proporcionados por el Gran Desafío de datos que fue organizado por Telecom Italia [24]. Se utilizaron los datos de intensidad de comunicación para construir una red dirigida de las zonas urbanas por lo que los pesos de los bordes indican la fuerza de la comunicación entre las áreas. Para estimar el nivel de felicidad de las zonas urbanas, se utilizó Dodds et al. Método [22] para analizar el sentimiento de las emisiones a corto mensajes geolocalizados (también conocidos como tweets) iniciado en estas áreas, que después de la agregación (de promedio) nos dio una aproximación fiable.

Después de pre-procesamiento de los datos, hemos demostrado la eficacia de los medios de comunicación social en la felicidad de mapeo con una resolución espacial mucho más fino (dentro de una zona urbana). A continuación, se determinó la relación entre la comunicación entre las diferentes áreas geográficas y sus niveles de felicidad. Encontramos que los patrones de comunicación de las zonas urbanas presentan un comportamiento homophilous. Más precisamente, las áreas urbanas felices tienden a interactuar con otras áreas felices más que ellos interactúan con áreas infelices. Del mismo modo, las zonas urbanas infelices tienden a interactuar con otras áreas infelices más interactúan con áreas felices. El homofilia urbano en la felicidad que hemos sido testigos en nuestra base de datos compatible con los hallazgos previos sobre homofilia en la felicidad entre los seres humanos individuales [25], y muestra que este fenómeno persiste a escalas más grandes. Nuestro resultado es relevante para los responsables políticos para guiarlos en el establecimiento de estrategias que aumentan la felicidad, que es en sí correlacionada con resultados importantes que van desde el crimen y la salud, a la productividad y la innovación.

2 Los métodos y datos

2.1 El conjunto de datos

Este trabajo utiliza cuatro conjuntos de datos publicados por Telecom Italia para el Reto Big Data 2014 [24]. Los datos fueron recolectados durante noviembre y diciembre de 2013. Entre los conjuntos de datos publicados, se utilizaron los siguientes cuatro.

'Milano Red'. La ciudad de Milán se dividió en una cuadrícula espacial de 100x100 células. Este conjunto de datos contiene la ID de cada celda de la cuadrícula junto con la geometría de la célula. Vamos a utilizar el celular y el área términos indistintamente.

'Telecomunicaciones - SMS, llamadas, Internet - MI'. Este conjunto de datos contiene la actividad de las llamadas / SMS e Internet tráfico entrante y saliente, agregada sobre las células y en intervalos de 10 minutos. La Figura 1 muestra la distribución de las llamadas salientes y el tráfico de Internet a través de las células. Se puede observar que sus distribuciones están parcialmente caracterizan por una ley de potencia. Sin embargo, la cola de la distribución exhibe un punto de corte exponencial, probablemente causado por la saturación cognitiva en la capacidad de comunicación de las personas dentro de las células individuales [26]. Distribuciones similares se pueden encontrar para las llamadas entrantes y los SMS entrantes / salientes (marque la sección E de archivo adicional 1).

Figura 1. Distribución de las llamadas y el tráfico de Internet. (a) La distribución de las llamadas salientes por área: La distribución es amplio (cola larga) y parte de ella es bien aproximada por una ley de potencia. Muchas áreas reciben pocas llamadas, mientras que algunas áreas reciben muchas llamadas. (b) Distribución del tráfico de Internet por área: También se larga cola y sigue una ley de potencia mediante el cual algunas áreas colocan muchas llamadas, mientras que muchas áreas colocan algunas llamadas. Observar el punto de corte exponencial en la cola de la distribución, lo que probablemente se atribuye a las limitaciones en el tiempo, la atención, el ancho de banda, etc.

'Telecomunicaciones - MI a MI'. Este conjunto de datos contiene la fuerza de interacción direccional entre las diferentes celdas de la cuadrícula. Esto se basa en las llamadas intercambiados entre los usuarios de teléfonos móviles en Milán entre el 01 de noviembre y 31 de diciembre de 2013. Se utilizó este conjunto de datos para la construcción de la red dirigida ponderado de la interacción entre las células.

'Geo tweets'. Contiene alrededor de 500.000 tweets que se encuentran geo-en Milán. La figura 2 muestra la distribución de los tweets en Milán, destacando variabilidad entre diferentes zonas, y en horas pico en el centro.

Figura 2. Mapa de calor del número de tweets en Milán. La figura muestra la intensidad de tweets con todo Milán. El rojo oscuro indica alto número de tweets, mientras que el azul oscuro indica bajo número de tweets. Podemos ver que la mayor parte de los tweets se encuentra cerca del centro de Milán.

2.2 El Preprocesamiento de los Tweets

De conjunto de datos 'Geo Tweets', se extrajeron los tweets escritos en italiano y en Inglés. Estos tuits constituyeron alrededor del 80% de los tweets en general (marque la Sección H de archivo adicional 1). Luego, utilizando la libre Google Translate API (Goslate), tradujimos los tweets italianos al Inglés.

2.3 Medición de la felicidad de las células

Para medir la felicidad en los tweets y en consecuencia en las células, se utilizó un total de 10.000 palabras con sus puntuaciones felicidad en una escala de 1 (infeliz) a 9 (feliz). Estos datos se utilizó en varios estudios [22], [23], [27], y está disponible en línea [22]. Siguiendo la metodología existente [22], [23], hemos eliminado todas las palabras con una puntuación felicidad entre 4 y 6, a continuación, se calculó la puntuación de felicidad para cada tweet en función de las palabras que contiene. Para un tweet dado T, que contiene N palabras únicas, la felicidad media se calcula utilizando la siguiente fórmula [22]:

donde

es la frecuencia de la palabra iésima

en T y

es la felicidad media de la palabra

. Palabras que no tienen puntuaciones de felicidad se les da el valor de la felicidad cero. Tweets con puntuaciones de felicidad cero se descartaron porque no proporcionan ninguna información sobre el sentimiento de la zona al que pertenecen. Entre los tweets de cuentas, el 14% de los tweets (55K de 382K) tiene la felicidad puntaje cero. Figura 3 (a) muestra un histograma de las puntuaciones de felicidad de los tweets 'en nuestros datos.

Figura 3. Distribución de la felicidad. (a) Histograma de la felicidad de un tweet. El histograma muestra la distribución de la puntuación de la felicidad por tweet. Se descartaron los tweets con la felicidad puntaje cero. Al igual que en la distribución de la felicidad media en ciudades de Estados Unidos se encuentran en [23], se puede ver que más tuits tienen puntuación de felicidad por encima de la media. (b) histograma de la felicidad de una célula. El histograma muestra la distribución de la puntuación de la felicidad por área. Se descartaron las áreas con la felicidad puntaje cero y áreas que contienen menos de diez usuarios únicos. Es interesante observar que, si bien la distribución de los tweets individuales de la felicidad es negativamente sesgada, la distribución de las áreas "felicidad (es decir, la felicidad total de estos tuits) parece simétrica.

Se utilizó la aplicación de la inclusión del punto en la prueba Polígono de W. Randolph Franklin [28] para asignar los tweets a las células. Tweets que no se asignan a la red (es decir, no son geo-localizada en Milán) fueron descartados. También descartamos células con puntajes felicidad cero. Una célula tiene una felicidad cero puntuación sea porque no tiene los tweets (es decir, no hay tweets son asignadas a él), o porque todos sus tuits tienen puntuaciones felicidad cero. Luego, las células con menos de diez usuarios únicos de Twitter se descartaron ya que proporcionan una medida muy ruidoso de la felicidad. Nos quedamos con 1213 células, cuya distribución de las puntuaciones de felicidad se muestra en la Figura 3 (b). Un mapa de calor para la puntuación felicidad células en Milán se visualiza en la figura 4 (a).

Figura 4. Mapa de calor de la felicidad en Milán. (a) El mapa muestra la intensidad de la puntuación de felicidad de cada área. Zonas rojas tienen puntajes altos de felicidad, mientras que las zonas azules tienen puntuaciones bajas felicidad. (b) La cifra identifica la categoría de la felicidad (feliz, triste, o neutral) de cada célula. Nos discretiza la puntuación felicidad por áreas. Se consideraron las áreas con las más altas puntuaciones de 15% de la felicidad como áreas felices, mientras que las áreas con los 15% más bajas puntuaciones de felicidad como áreas infelices. Áreas restantes se consideran como zonas neutras.

Nuestra investigación de homofilia basa en una red de células con categorías discretas (felices e infelices). Así que el primer paso fue clasificar cada uno células de acuerdo a su nivel de felicidad de acuerdo a lo siguiente:

Descontento: la felicidad agregada <5,91 (más bajo 15%)

Feliz: la felicidad agregada> 6,35 (superior al 15%)

Neutral: todas las demás células.

Hemos eliminado todas las células neutrales ya que sólo estamos interesados en la interacción entre las células feliz / infeliz. Un mapa de calor de las células felices, tristes y neutrales se muestra en la Figura 4 (b). Los resultados presentados en el documento se generan utilizando el percentil 15. Sin embargo, hemos probado otros percentiles diferentes (20, 25, 40 y 50) a las células de la etiqueta como felices o infelices y reportamos los resultados detallados en la sección A de la disposición 1.

2.4 Construyendo la red de comunicación

Para construir la red, hemos utilizado los datos de comunicación para toda una semana de trabajo (de 4 noviembre hasta 8 noviembre 2013) para caracterizar la red de comunicación urbana (resultados similares se obtuvieron a partir de datos de comunicación desde un solo día). Nosotros agregamos pesos las llamadas 'entre las células durante esta semana, los bordes y después se filtró en la que la llamada / llamadas células se descartaron en una etapa anterior (ya sea porque tenían menos de diez usuarios únicos de Twitter o porque tuvieron la felicidad puntaje cero). También descartamos auto-bordes que la comunicación de captura dentro de las células. Para eliminar el efecto de las comunicaciones transitorios, se utilizó el peso de bordes para filtrar los bordes con conexiones débiles (se descartó bordes con pesos agregados de menos de 0,1). También, como se observa en la Figura 1, hay una variación en términos de las proporciones de la comunicación entre las áreas. Por lo tanto, la intensidad de la comunicación entre dos zonas se puede atribuir a su población [29], [30]. Por desgracia, los datos Desafío Grande no proporcionó el tamaño de la población en cada área, y los datos de población del público no está disponible en el mismo nivel de granularidad. Por lo tanto, como sustituto de la población, se utilizó el número de usuarios de Twitter que iniciaron los tweets en cada célula [31]. Nuestro objetivo es reducir al mínimo el efecto de la población de la intensidad de la comunicación. Comprobación de la correlación entre la intensidad de la comunicación entre las dos áreas y la población en estas áreas ayudaría a determinar una buena manera de minimizar este efecto. Hemos probado la correlación entre la intensidad de la comunicación entre un par de zonas con el mínimo de las dos áreas 'población, el producto de las dos áreas' población, la media de la población de las dos áreas ', la población de la área de llamadas de, y la receptora población área. Todos ellos proporcionan valores de correlación positivos significativos (correlación de Spearman: 0,3, 0,29, 0,25, 0,22 y 0,2 respectivamente). Por lo tanto, hemos dividido la comunicación entre cada par de zonas de la población menor de las dos:

La red resultante se compone de 363 nodos que representan células / áreas, cada una de las cuales se etiquetan como feliz o infeliz. Estos nodos se conectan utilizando 52.417 enlaces dirigidos ponderados que representan la intensidad de las llamadas entre áreas.

3 Resultados

Comenzamos con una exploración visual de si las células se comunican preferentemente con células de su propio tipo, nos encontramos con un algoritmo de detección de la comunidad (el algoritmo de optimización modularidad multinivel [32]) en la red de comunicación entre las áreas urbanas que clasifica como "feliz . "y" infeliz "La salida se muestra en la Figura 5. Los nodos etiquetados con + representan áreas felices y nodos etiquetados con - representan áreas infelices. Los diferentes colores representan diferentes comunidades identificadas por el algoritmo. La mayoría de las comunidades están dominadas menor o igual a 2/3 por una clase particular (feliz o infeliz).

Figura 5. Red de llamadas entre áreas feliz / infeliz en Milán. Los nodos representan áreas, y los bordes representan llamadas entre estas áreas. Los nodos etiquetados con + representan áreas felices, mientras que los nodos etiquetados con - representan áreas infelices. Colores representan comunidades generados por el multi-nivel algoritmo de optimización modularidad [32]. Se puede observar que la mayoría de las comunidades están dominadas menor o igual a 2/3 por una clase particular (feliz o infeliz).

Para cuantificar aún más este efecto, que estadísticamente investigó la variación en la comunicación entre áreas de diferentes niveles de felicidad. Se realizó un análisis de dos vías de varianza (ANOVA) para comparar el efecto de los niveles de felicidad (es decir felices frente infeliz) de las zonas de origen y destino en la fuerza de la comunicación, una relación que puede ser descrita por el siguiente modelo lineal:

La variable dependiente es la comunicación direccional global entre las dos áreas (número continuo). Las variables independientes son: (1) Fuente, un factor con dos niveles de felicidad que representa el área que inicia la comunicación, (2) Objetivo, un factor con dos niveles de felicidad que representa el área que recibe la comunicación (feliz o infeliz), (3) la interacción entre estos dos factores Fuente x Objetivo.

Los resultados del ANOVA muestran que la interacción entre el origen y el destino es significativa

. El efecto de interacción podría indicar la existencia de homofilia o heterofilia en los patrones de comunicación de las zonas urbanas en Milán. La homofilia significa que las áreas de un mismo nivel de felicidad tienden a interactuar más entre sí que interactúan con las áreas del otro nivel de felicidad, mientras que heterofilia significa que las áreas tienden a interactuar con las áreas del otro nivel de felicidad más de lo que hacen con áreas de un mismo nivel.

Hemos producido un complot de la interacción de visualizar el efecto de interacción. La Figura 6 muestra una tendencia a que homofilia en la comunicación. Teniendo en cuenta todo el volumen de la comunicación, áreas felices tienden a llamar a las zonas más felices que ellos llaman áreas infelices. Del mismo modo, las áreas infelices tienden a llamar áreas infelices más de lo que llaman áreas felices. El mismo comportamiento se puede también notó con respecto a la recepción de las llamadas. Áreas felices reciben más llamadas de áreas felices que desde áreas infelices y desdichados áreas reciben más llamadas de áreas infelices que desde áreas felices.

Figura 6. Presencia de homofilia en los patrones de comunicación de las zonas. El eje x denota los niveles de felicidad de las zonas de recepción de llamadas y el eje y indica la suma de las llamadas agregados. (a) La interacción parcela. La línea de puntos negro indica las áreas felices que colocan las llamadas mientras que la línea continua de color rojo indica las áreas infelices que colocan las llamadas. (b) Otra forma de visualizar los resultados. El color oscuro representa las áreas felices que colocan las llamadas, mientras que el color de la luz representa las áreas infelices que colocan las llamadas.

Con el fin de estudiar la importancia de las observaciones anteriores, se realizó comparaciones post hoc utilizando la prueba de Tukey HSD [33] para comparar todas las seis posibles combinaciones de los pesos de las interacciones. Tukey HSD es una prueba estadística que se utiliza con un ANOVA (un ANOVA de dos vías en nuestro caso) para hacer comparaciones por pares entre las medias de los diferentes tratamientos (en nuestro caso, tenemos cuatro tratamientos, como se muestra en la Tabla 1, y por lo tanto tenemos seis comparaciones por pares).

Tabla 1. Peso de las comunicaciones de las células feliz / infeliz (Fuente) a células feliz / infeliz (Meta)

Desde	Hacia	Media	desvío estándar
Happy	Happy	0.039	0.1
Unhappy	Unhappy	0.041	0.1
Unhappy	Happy	0.033	0.075
Happy	Unhappy	0.033	0.075

Alshamsi et al.

La Tabla 1 muestra los valores de la desviación estándar para las interacciones entre las células feliz / infeliz y media. La media de los pesos de comunicación de las áreas infelices llamar y recibir llamadas a / desde otras áreas infelices es estadísticamente significativamente diferente de los ponderadores de comunicación media de las áreas infelices que se comunican con las zonas felices

. Del mismo modo, la media de los pesos de comunicación de las zonas feliz que llama y recibir llamadas a / desde otras áreas feliz es estadísticamente significativamente diferente de los pesos de comunicación media de las áreas felices que comunican con las zonas infeliz

.

También hemos cuantificado el nivel de mezcla asortatividad en la red de áreas mediante el uso de una versión ponderada del coeficiente de asortatividad definido por [34]. Para obtener más información acerca de cómo se implementó, por favor refiérase a la sección D de archivo adicional 1. Se encontró que el coeficiente es 0,21 asortatividad que podría considerarse relativamente alta. Por lo tanto, esta es otra evidencia del comportamiento selectivo en los patrones de comunicación de las zonas urbanas en Milán.

4 Homofilia en el nivel de la comunidad

Teniendo en cuenta estos resultados, sería interesante saber si existe homofilia en el nivel de la comunidad. Para investigar esto, hemos utilizado la salida del algoritmo de detección de comunidad (es decir, multi-nivel algoritmo de optimización modularidad [32]). Este algoritmo utiliza la noción de modularidad, que es una medida de calidad para el gráfico de agrupamiento propuesto por Newman [35]. Después encontramos comunidades, se estudió el efecto del tamaño de la comunidad sobre la media y la desviación estándar de la puntuación de la felicidad de una comunidad. En general, si la desviación estándar es pequeño, entonces se podría concluir la existencia de homofilia el nivel de la comunidad. Además, estamos interesados en la búsqueda de si el promedio y la desviación estándar de la puntuación de la felicidad de una comunidad va a cambiar como el tamaño de la comunidad (medido como el número de células) cambios. Para la comparación, hemos generado las comunidades aleatorias de tamaños similares de las comunidades a las que tenemos. Una comunidad aleatoria de un tamaño h se forma mediante la asignación al azar células h en ella. El proceso se repite 200 veces y el valor medio (de promedios o de desviaciones estándar) se calcula para la comunidad. Para más detalles, consulte la sección G de la disposición 1.

La Figura 7 (a) muestra que las comunidades de pequeño tamaño tienen ligeramente superior felicidad promedio que una comunidad azar del mismo tamaño. A medida que aumenta el tamaño de la comunidad, su puntuación de felicidad disminuye a ser menos que el de una comunidad al azar del mismo tamaño. Esto sugiere que las comunidades más pequeñas gozan de un mayor nivel de felicidad que las grandes. Figura 7 (b) muestra que las comunidades tienen detectados desviación estándar inferior a las comunidades al azar, lo que sugiere cierta evidencia de homofilia dentro de las comunidades. Además, muestra que la desviación estándar de la felicidad puntuación aumenta a medida que el tamaño de la comunidad aumenta. Sin embargo, las comunidades aleatorios muestran un patrón similar de aumento de la desviación estándar. Esto sugiere que el aumento en la desviación estándar es sólo ligeramente debido a la disminución en homofilia. Es decir, homofilia dentro de una comunidad está ligeramente influenciada por el tamaño de la comunidad.

Figura 7. La media (a) y (b) la desviación estándar de la felicidad de una comunidad en función de su tamaño. Cada punto representa una sola comunidad. Los puntos verdes representan comunidades detectadas mediante un algoritmo de maximización modularidad aplicado en la red de comunicaciones construido, mientras que los puntos rojos representan las comunidades aleatorios. Los puntos azules en (b) representan la diferencia entre los valores de los respectivos puntos verdes y rojos. Las comunidades tienen detectados desviación estándar inferior a las comunidades al azar, lo que sugiere cierta evidencia de homofilia. Además, como el tamaño de la comunidad aumenta, la felicidad promedio disminuye y la desviación estándar de la felicidad aumenta. Sin embargo, las comunidades aleatorios muestran un patrón similar de aumento de la desviación estándar. Esto sugiere que el aumento en la desviación estándar no es principalmente debido a la disminución en homophily. A medida que la línea azul muestra, la desviación estándar aumenta sólo ligeramente ya que el tamaño de los incrementos de la comunidad. Tenga en cuenta que sólo las células dentro de la parte superior / inferior al 15% de la felicidad son considerados. El uso de otros percentiles produce parcelas similares (consulte la sección G de la disposición 1).

5 Discusión

Hemos dado un primer paso hacia la comprensión de la interacción entre la comunicación y la felicidad en las zonas urbanas con una resolución alta. Encontramos evidencia de mezcla selectivo (homofilia) en la comunicación entre las diferentes áreas urbanas en función de su nivel de felicidad. También se encontró que la media de la felicidad parece variar con el tamaño de la comunidad, donde la comunidad se define en términos de la estructura de comunicación.

La obtención de nuestro resultado principal requiere el desarrollo de un gasoducto de ciencia de datos que combina los datos de una variedad de fuentes y realiza sociales raspado de datos de medios de comunicación, la traducción, la puntuación sentimiento, agregación, geo-localización, y las pruebas de hipótesis estadísticas. Creemos que este tipo de tubería puede utilizarse más allá del alcance de este trabajo en particular. Por ejemplo, nuestras afirmaciones sobre la comunicación homofílica se limitan a un indicador en particular, a saber, la felicidad se mide a través de la producción pública de medios sociales. Puede ser posible aplicar la misma técnica para medir la homofilia basado en otros indicadores de sentimiento que se pueden extraer de los medios sociales, tales como la confianza del consumidor, ni credo político.

Ciertamente, Twitter no es la única manera de medir la felicidad en las ciudades, y que puede ser posible establecer asortatividad utilizando otras medidas de la felicidad, como la recogida de felicidad auto-reporte de una muestra de personas a través de las encuestas [36]. Sin embargo, estas medidas son caros, sobre todo en la alta resolución espacial obtenidos por este estudio. Por otra parte, el uso de los mensajes de los medios sociales como Tweets proporciona un indicador en tiempo real de la felicidad, y por lo tanto más adecuado para aplicaciones que requieren esta información al mayor resolución temporal es.

La principal limitación de este estudio es que se trata de una sola ciudad. Esto es causado por la disponibilidad limitada de datos. En el futuro, sería necesario llevar a cabo investigaciones similares para otras ciudades para ver si homofilia mantiene constantemente a través de una variedad de centros urbanos. Incluso si el patrón se sostiene, sería interesante investigar si diferentes ciudades exhiben comunicación homofílica en diferentes grados.

Otra oportunidad para seguir trabajando es explorar el papel (si lo hay) que desempeñan los otros indicadores urbanos, como los ingresos, en la mediación de nuestras observaciones. Puede ser posible, por ejemplo, que nuestro efecto observado es más (o menos) pronunciada para las zonas con similares ingresos per cápita.

Creemos que hay muchas oportunidades para una mayor exploración del papel de la comunicación urbana en el bienestar urbano. Un interesante, aunque difícil, el experimento puede implicar ejecutar las intervenciones destinadas a la manipulación de la estructura de comunicación urbana para ver si una relación de causalidad se puede hacer para el bienestar urbano.

Referencias

Bettencourt LM. The origins of scaling in cities. Science. 2013; 340(6139):1438-1441.Publisher Full Text

Eagle N, Pentland A. Reality mining: sensing complex social systems. Pers Ubiquitous Comput. 2006; 10(4):255-268. Publisher Full Text

Crane P, Kinzig A. Nature in the metropolis. Science. 2005; 308(5726):1225.Publisher Full Text

Akyildiz IF, Su W, Sankarasubramaniam Y, Cayirci E. Wireless sensor networks: a survey. Comput Netw. 2002; 38(4):393-422. Publisher Full Text

Heilig GK (2012) World urbanization prospects: the 2011 revision. United Nations, Department of Economic and Social Affairs (DESA), Population Division, Population Estimates and Projections Section, New York

Glaeser EL, Sacerdote B (1996) Why is there more crime in cities? Technical report, National Bureau of Economic Research

Bettencourt LM, Lobo J, Helbing D, Kühnert C, West GB. Growth, innovation, scaling, and the pace of life in cities. Proc Natl Acad Sci USA. 2007; 104(17):7301-7306.Publisher Full Text

Bettencourt LM, Lobo J, Strumsky D, West GB. Urban scaling and its deviations: revealing the structure of wealth, innovation and crime across cities. PLoS ONE. 2010; 5(11): Article ID e13541 Publisher Full Text

Glaeser E. Triumph of the city: how our greatest invention makes US richer, smarter, greener, healthier and happier. Pan Macmillan, London; 2011.

Audretsch DB, Feldman MP. R&D spillovers and the geography of innovation and production. Am Econ Rev. 1996; 86(3):630-640.

Jaffe AB, Trajtenberg M, Henderson R. Geographic localization of knowledge spillovers as evidenced by patent citations. Q J Econ. 1993; 108(3):577-598. Publisher Full Text

Granovetter M. The strength of weak ties. Am J Sociol. 1973; 78(6):1360-1380.Publisher Full Text

Burt RS. Structural holes: the social structure of competition. 2009.

Eagle N, Macy M, Claxton R. Network diversity and economic development. Science. 2010; 328(5981):1029-1031. Publisher Full Text

Pan W, Ghoshal G, Krumme C, Cebrian M, Pentland A. Urban characteristics attributable to density-driven tie formation. Nat Commun. 2013; 4: Article ID 1961

Leyden KM, Goldberg A, Michelbach P. Understanding the pursuit of happiness in ten major cities. Urban Aff Rev. 2011; 47(6):861-888. Publisher Full Text

Helliwell JF, Layard R, Sachs J. World happiness report 2013. 2013.

Cutler DM. Measuring national well-being. Measuring the subjective well-being of nations: national accounts of time use and well-being. 2009.107-112. Publisher Full Text

Bertrand M, Mullainathan S. Do people mean what they say? Implications for subjective survey data. Am Econ Rev. 2001; 91(2):67-72. Publisher Full Text

Davidov D, Tsur O, Rappoport A. Enhanced sentiment learning using Twitter hashtags and smileys. Proceedings of the 23rd international conference on computational linguistics: posters. 2010.241-249.

Thelwall M, Buckley K, Paltoglou G. Sentiment in Twitter events. J Am Soc Inf Sci Technol. 2011; 62(2):406-418. Publisher Full Text

Dodds PS, Harris KD, Kloumann IM, Bliss CA, Danforth CM. Temporal patterns of happiness and information in a global social network: hedonometrics and Twitter.PLoS ONE. 2011; 6(12): Article ID e26752 Publisher Full Text

Mitchell L, Frank MR, Harris KD, Dodds PS, Danforth CM. The geography of happiness: connecting Twitter sentiment and expression, demographics, and objective characteristics of place. PLoS ONE. 2013; 8(5): Article ID e64417 Publisher Full Text

Telecom Italia (2014) Big Data Challenge. http://www. telecomitalia.com/bigdatachallenge webcite

Bollen J, Gonçalves B, Ruan G, Mao H. Happiness is assortative in online social networks. Artif Life. 2011; 17(3):237-251. Publisher Full Text

Miritello G, Lara R, Cebrian M, Moro E. Limited communication capacity unveils strategies for human interaction. Sci Rep. 2013; 3: Article ID 1950 Publisher Full Text

Kloumann IM, Danforth CM, Harris KD, Bliss CA, Dodds PS. Positivity of the English language. PLoS ONE. 2012; 7(1): Article ID e29484 Publisher Full Text

Haines E. Point in polygon strategies. Graphics gems IV. 1994.24-46. Publisher Full Text

Expert P, Evans TS, Blondel VD, Lambiotte R. Uncovering space-independent communities in spatial networks. Proc Natl Acad Sci USA. 2011; 108(19):7663-7668.Publisher Full Text

Krings G, Calabrese F, Ratti C, Blondel VD. Urban gravity: a model for inter-city telecommunication flows. J Stat Mech Theory Exp. 2009; 2009(07): Article ID L07003Publisher Full Text

Botta F, Moat HS, Preis T. Quantifying crowd size with mobile phone and Twitter data.R Soc Open Sci. 2015; 2(5): Article ID 150162 Publisher Full Text

Blondel VD, Guillaume J-L, Lambiotte R, Lefebvre E. Fast unfolding of communities in large networks. J Stat Mech Theory Exp. 2008; 2008(10): Article ID P10008Publisher Full Text

Yandell BS. Practical data analysis for designed experiments. 1997.

Newman ME. Mixing patterns in networks. Phys Rev E. 2003; 67(2): Article ID 026126Publisher Full Text

Newman ME. Modularity and community structure in networks. Proc Natl Acad Sci USA. 2006; 103(23):8577-8582. Publisher Full Text

Leedle BR, Clifton J (2014) State of well-being 2013 state, community and congressional district analysis. Technical report, Gallup Inc. and Healthways Inc.

Páginas