jueves, 10 de abril de 2014

Los 4 grados de separación de Facebook

Anatomy of Facebook


Think back to the last time you were in a crowded airport or bus terminal far from home. Did you consider that the person sitting next to you probably knew a friend of a friend of a friend of yours? In the 1960s, social psychologist Stanley Milgram’s “small world experiment” famously tested the idea that any two people in the world are separated by only a small number of intermediate connections, arguably the first experimental study to reveal the surprising structure of social networks.

With the rise of modern computing, social networks are now being mapped in digital form, giving researchers the ability to study them on a much grander, even global, scale. Continuing this tradition of social network research, Facebook, in collaboration with researchers at the Università degli Studi di Milano, is today releasing two studies of the Facebook social graph.

First, we measured how many friends people have, and found that this distribution differs significantly from previous studies of large-scale social networks. Second, we found that the degrees of separation between any two Facebook users is smaller than the commonly cited six degrees, and has been shrinking over the past three years as Facebook has grown. Finally, we observed that while the entire world is only a few degrees away, a user’s friends are most likely to be of a similar age and come from the same country.

In our studies, performed earlier this year, we examined all 721 million active Facebook users (more than 10% of the global population), with 69 billion friendships among them. To date, these are the largest social network studies ever released.

How many friends?
An important basic view of any social network is the cumulative degree distribution, which shows the percentage of individuals that have less than a given number of friends. As you can see above, only 10% of people have less than 10 friends, 20% have less than 25 friends, while 50% (the median) have over 100 friends. Meanwhile, because the distribution is highly skewed, the average friend count is 190. An important finding from our study, however, is that the distribution is not nearly as skewed as earlier studies of social networks have suggested.


At first glance, the median friend count on Facebook — 100 — may seem surprisingly low; a quick survey of my own friends reveals that they almost all have more than 100 friends. But no, your friends are not atypically social – a classic paradox regarding social networks dictates that, for most people, the median friend count of their friends is higher than their own friend count. On Facebook, that’s the case for 84% of our users. Why? Scott Feld wrote about this phenomenon in his 1991 paper Why Your Friends Have More Friends than You Do, showing that the same phenomenon dictates that college students typically find that their classes to be larger than the average class size, and that when sitting on an airplane, it will typically be more crowded than the average occupancy. These effects all arise because for people, classes, and flights to be popular, you must be much more likely to choose them. So you shouldn’t feel bad if it seems like all your friends are more popular than you: it appears this way to most of us.

Four degrees of separation.
The idea of ‘six degrees of separation’ -- that any two people are on average separated by no more than six intermediate connections -- was first proposed in 1929 in a short story by Hungarian author Frigyes Karinthy, and made popular by the John Guare play and movie,Six Degrees of Separation. The idea was first put to the test by Stanley Milgram in the 1960’s. Milgram selected 296 volunteers and asked them to dispatch a message to a specific individual, a stockholder living in the Boston suburb of Sharon, Massachusetts. The volunteers were told that they couldn’t send the message directly to the target person (unless the sender knew them personally), but that they should route the message to a personal acquaintance that was more likely than the sender to know the target person. Milgram found that the average number of intermediate persons in these chains was 5.2 (representing about 6 hops). The experiment showed that not only are there few degrees of separation between any two people, but that individuals can successfully navigate these short paths, even though they have no way of seeing the entire network.

While we will never know if it was true in 1929, the scale and international reach of Facebook allows us to finally perform this study on a global scale. Using state-of-the-art algorithms developed at the Laboratory for Web Algorithmics of the Università degli Studi di Milano, we were able to approximate the number of hops between all pairs of individuals on Facebook. We found that six degrees actually overstates the number of links between typical pairs of users: While 99.6% of all pairs of users are connected by paths with 5 degrees (6 hops), 92% are connected by only four degrees (5 hops). And as Facebook has grown over the years, representing an ever larger fraction of the global population, it has become steadily more connected. The average distance in 2008 was 5.28 hops, while now it is 4.74.

Thus, when considering even the most distant Facebook user in the Siberian tundra or the Peruvian rainforest, a friend of your friend probably knows a friend of their friend. When we limit our analysis to a single country, be it the US, Sweden, Italy, or any other, we find that the world gets even smaller, and most pairs of people are only separated by 3 degrees (4 hops). It is important to note that while Milgram was motivated by the same question (how many individuals separate any two people), these numbers are not directly comparable; his subjects only had limited knowledge of the social network, while we have a nearly complete representation of the entire thing. Our measurements essentially describe the shortest possible routes that his subjects could have found.

Your friends and you.
It’s easy for me to imagine that a path from me to a random person in Siberia goes first to one of my few Russian friends in California, and then hops around the globe to a friend of theirs living in Russia. But, while I can imagine these short paths connecting all pairs of people in the world, this notion stands in sharp contrast to my day-to-day experience. Most of my friends live in the US, and the ones I am closest to live within just a few miles of me.

This is what makes social networks somewhat unique: they are both well-connected in the sense that you can reach anyone from anyone else in a relatively short number of hops, but at the same time, they are very locally clustered, with the vast majority of connections spanning a short distance. In our study, we found that 84% of all connections are between users in the same country. But this isn’t the only dimension along which people tend to cluster. We also find that people tend to have a similar, albeit typically smaller, number of friends as their neighbors, and tend to be about the same age. Somewhat surprisingly, even for individuals aged 60, the distribution of their friends’ ages is sharply peaked at exactly 60.



Conclusions
To facilitate open access within the scientific community, the two works are available for download:

J. Ugander, B. Karrer, L. Backstrom, C. Marlow.
The Anatomy of the Facebook Social Graph,
http://arxiv.org/abs/1111.4503

L. Backstrom, P. Boldi, M. Rosa, J. Ugander, S. Vigna.
Four Degrees of Separation,
http://arxiv.org/abs/1111.4570

In these two works, we show how the Facebook social network is at once both global and local. It connects people who are far apart, but also has the dense local structure we see in small communities. We show that, as Facebook has grown over the years, representing an ever larger fraction of the global population, it has become even more connected. In the years to come, we look forward to continuing to illuminate social trends and helping people understand how the world is becoming more connected.

Facebook

sábado, 5 de abril de 2014

ARS 101: Conversando con Mark Granovetter

Conversando con Mark Granovetter

Utilizando algunas de las sugerencias del último postPilar Opazo entrevista a Mark Granovetter en NYC.

Introducción: Mark Granovetter es un líder en la investigación y la teoría en Sociología Económica y Redes Sociales. Él es quizás mejor conocido por sus artículos de gran influencia, "The Strength of Weak Ties [La fuerza de los lazos débiles]" y "Economic Action and Social Structure: The Problem of Embeddedness. [Acción Económica y Estructura Social:. El problema del arraigo]". Los conceptos de arraigo y la fuerza de los lazos débiles han sido ampliamente adoptados, creando nuevas áreas de investigación. En este momento el profesor Granovetter es un miembro del cuerpo docente en el Departamento de Sociología de la Universidad de Stanford.

1. La fortaleza de los lazos débiles

En su contribución de 1973 la definición de "la fuerza de un lazo" es la siguiente: "la fuerza de un lazo es una combinación (probablemente lineal) de la cantidad de tiempo, la intensidad emocional, la intimidad (confianza mutua), y el servicios recíprocos que caracterizan al enlace. Queríamos preguntarle, ¿hizo esta definición deliberadamente ambigua para permitir el surgimiento de diferentes medidas que se podrían probar, validar y desafiar a su teoría? ¿Usted sabe sobre estudios empíricos que las hayan explorado? ¿Puede su noción de "fuerza de los lazos" abrazar niveles de diferencia de análisis (individuos, grupos sociales, organizaciones, industrias, etc)?




2. Inserción o Embeddedness

-       Durante la década de 1980, la "nueva sociología económica" surgió en oposición a la disciplina de la economía y como un nuevo subcampo de estudio que tenía que justificarse a sí misma . Durante su visita, Viviana Zelizer reafirmó esta visión señalando que el foco inicial de la sociología económica en modelos cuantitativos, los mercados y las empresas, seguido o derivado de un intento de criticar e incluso convencer a los economistas de la inexactitud de sus teorías y suposiciones. Su trabajo en "arraigo" [embeddedness] en 1985 sugiere que la actividad económica no sólo comprenden los individuos aislados , sino también las interconexiones entre esos individuos... Hoy en día, la situación parece ser diferente, la sociología económica ya se ha ganado la consolidación como un subcampo y existe amplia evidencia no sólo desde la sociología, sino también de la antropología, la historia y las ciencias sociales en general, que apoya la importancia de las relaciones sociales en la comprensión de la actividad económica. En esta línea, ¿cree que sigue siendo importante para la economía de dirección? ¿Diría usted que un espacio fructífero de la colaboración y el diálogo que se ha generado con los economistas?
-          Al situarse en oposición a la economía, el subcampo de la sociología económica parece haber perdido la conexión con las teorías sociológicas clásicas que intentaron entender los procesos sociales más amplios, como la racionalización, diferenciación, integración/orden, etc. En su lugar, la "nueva sociología económica" está centrada en revelar los mecanismos sociales que son realmente en juego en la economía, junto con el examen de las formas específicas de coordinación, como los mercados o las empresas. En primer lugar, ¿comparte este punto de vista? Y en segundo lugar, de qué manera cree usted que la "nueva sociología económica" tiene el potencial de arrojar luz en cuestiones sociológicas más generales?






3. Últimos trabajos y nuevas redes

En su trabajo más tarde usted se ha involucrado con el tema de la innovación y las nuevas empresas de Silicon Valley. Al mismo tiempo, las nuevas nociones de redes habían tenido influencia en la teoría sociológica, como la teoría del actor-red de Callon y Latour y "Nueva Ciencia de las Redes" de Duncan Watt. ¿Cómo son estos nuevos enfoques informando a su trabajo posterior?




4. Enseñando sociología económica

En su opinión, ¿cuáles son el conjunto de teorías, conceptos y técnicas con las que cada estudiante de sociología económica debe estar equipado?



Estudios de la Economía

jueves, 3 de abril de 2014

Anatomía estructural de la red Tumblr

La anatomía de una red social olvidada
Mientras que los científicos de la red se han estudiando detenidamente los datos de Twitter y Facebook, se han olvidado de Tumblr. Ahora que han comenzado a preguntar cómo esta red se diferencia del resto.



El estudio de las redes sociales se ha apoderado de los informáticos en los últimos años. En particular, los investigadores se han centrado en algunas de las más grandes redes que han hecho de sus datos disponibles, como algunas redes de telefonía móvil, Wikipedia y Twitter.

Pero con las prisas, una red ha sido más o menos ignorado por los investigadores: Tumblr, una plataforma de microblogging similar a Twitter. Por lo tanto una cuestión interesante es cómo la red asociada con Tumblr es diferente de la red Twitter.

Hoy se recibe una respuesta, gracias al trabajo de Yi Chang y sus amigos en Yahoo Labs en Sunnyvale. Estos chicos señalan que se sabe relativamente poco sobre Tumblr comparación con otras redes como Twitter y se dispuso a cambiar esta situación.

Las estadísticas básicas son sencillas. Tumblr es un servicio de microblogueo con cerca de 160 millones de usuarios que juntos han publicado más de 70 mil millones puestos.

La diferencia más significativa entre Tumblr y su primo mayor, Twitter, es que no hay límite para el tamaño de los mensajes que los usuarios pueden crear. Por el contrario, Twitter impone el famoso límite de 140 caracteres en todos sus mensajes. Tumblr también es compatible con los mensajes multimedia, como imágenes, audio y video.

Otra diferencia importante es que Tumblr no requiere que los usuarios ingresar su información básica de perfil, como el género o ubicación. Así que esto hace que el análisis un poco más complicado de lo que es con otras redes que recogen esta información. Sin embargo, Chang y sus colegas dicen que los usuarios de Tumblr tienden a ser mucho más joven que la gente en otras redes, con la mayoría de los usuarios son menores de 25.

Chang y coautor del estudio, la naturaleza de Tumblr usando un subconjunto de casi 600 millones de mensajes publicados en la red entre agosto y septiembre del año pasado. Ellos dicen que más del 90 por ciento de estos mensajes implican fotos o texto. A pesar de apoyar a otros tipos de medios de comunicación, éstos han claramente no ha llegado a ser popular en Tumblr.

Una pregunta interesante es si Tumblr se asemeja más a una red blogosfera que una red de microblogging como la de Twitter.

Hay diferencias significativas entre estos tipos de red. Una característica clave de Twitter es que hay una buena cantidad de reciprocidad entre los usuarios. La reciprocidad es la probabilidad de que si el usuario sigue un usuario b, entonces b también sigue a.

En la blogosfera, la reciprocidad es casi inexistente. Sólo el 3 por ciento de los bloggers tienen este tipo de enlace recíproco. En Twitter, sin embargo, la proporción es mucho mayor : un 22 por ciento de los altavoces de agudos tienen vínculos recíprocos.

En este sentido, Tumblr es aún más densa que Twitter, con casi el 30 por ciento de las conexiones de ser correspondido. Lo que es más, la distancia media entre dos usuarios de Tumblr es de 4,7, es decir un usuario puede conectarse a otro en un promedio de 4,7 pasos. Eso es la mitad de la distancia de la blogosfera y casi lo mismo que las distancias en Facebook y Twitter.

¿Por cuánto tiempo son puestos en Tumblr, dado que no hay límite de longitud ? El cargo promedio es de 427 caracteres de longitud y una cuarta parte de ellos son más de 140 límite de caracteres de Twitter. Por el contrario, la duración media de un tweet se encuentra a sólo 68 caracteres.

Finalmente, Chang y sus colegas dicen que el contenido tiende a ser vuelto a publicar con mayor rapidez en Tumblr. "Aproximadamente 3/4 de los primeros reblogs ocurren dentro de la primera hora y 95,84 por ciento aparecen en un solo día ", dicen. Por el contrario, en twitter alrededor de la mitad de retweeting se produce dentro de una hora y 75 por ciento en un día, dicen. " Tumblr es más vibrante y más rápido", dicen los investigadores de Yahoo.

Este trabajo proporciona una visión útil de Tumblr, ya que fue a finales de 2013. Como tal, se permitirá a los investigadores a entender cómo la red consiste en el futuro.

Eso será importante para Yahoo. Es importante tener en cuenta que en mayo de 2013, que pagó más de $ 1 mil millones para Tumblr. Así que no es en absoluto sorprendente que quieren entender lo que han comprado.

Lo que es un poco más desconcertante, sin embargo, es que han esperado hasta ahora para averiguar.

Ref : arxiv.org/abs/1403.5206 : ¿Qué es Tumblr?: un panorama estadístico y comparativo

miércoles, 2 de abril de 2014

Usando Gephi para analizar centralidad geográfica

Juguemos con Gephi: Comprendiendo centralidad de grado, de grado ponderado e intermediación
Matthieu Totet - Koumin

Hola a todos,

Hoy voy a tratar de explicar algunas noción clásica cuando usted está buscando en su gráfico. El Grado y Licenciatura ponderado son bastante simples de entender y es casi la base del análisis gráfico. Centralidad betweeness pedir un poco de enfoque mente para entender, pero cuando explique con un ejemplo expresivo, es sencillo !

El conjunto de datos

Me quedo con la relación de los países por las fronteras. Es muy simple y concreto para entender, cambia de la Tradicional « Redes sociales » y el conjunto de datos es lo suficientemente diferentes para ver con claridad el concepto que queremos estudiar.

Por supuesto, los animo y propongo a utilizar el archivo gexf para hacerlo y explorar por ustedes mismos [Archivo Gexf]

Aquí está la cartografía con sólo un poco de visualización de diseño. No tocamos sin embargo, el tamaño de los nodos.



 Grado : Graduame soy famoso.

 

El grado de un nodo es el número de relación (enlace) que tiene, de forma independiente si es una en o una relación fuera. Es la suma de bordes para un nodo. Es idea muy simple de entender.

No tenemos un grado de entrada y grado de salida en nuestro gráfico, es porque tenemos un grafo no dirigido. Estas estadísticas son exactamente los mismos que el Grado, pero « In» contar sólo enlaces entrantes y « Out» cuenta sólo los enlaces salientes.

Para mostrar el tamaño del nodo por grado : Ranking >> Nodos >> Elige un rango de parámetros Grado y haz clic en " Aplicar »


¿Qué quiere decir aquí?


Una relación (borde ) es una frontera entre los 2 países, por lo que si un país tiene un alto grado, que significa que tiene una gran cantidad de países vecinos.

En la cartografía anterior, vemos que Rusia y China son muy grandes, es porque tienen una gran cantidad de países vecinos, 14 para ser exactos.

Grado ponderado: Más grande es mejor


El grado ponderado de un nodo es como el título. Se basa en el número de enlaces para un nodo, pero ponderado por el peso de cada enlace. Se está haciendo la suma del peso de los enlaces.
Por ejemplo, un nodo con 4 bordes que el peso 1 (1 +1 +1 +1= 4) es equivalente a :

  • un nodo con bordes 2 que el peso 2 (2 +2= 4) o
  • un nodo con bordes 2 que el peso 1 y 1 borde que el peso 2 (1 +1 +2= 4) o
  • un nodo con 1 punta que peso 4 etc...

El grado ponderado tiene que ser calculado antes, ir a Estadísticas >> Media. Grado ponderado >> Ejecutar. Después de un tiempo rápido, tendrá el resultado de cálculo y usted será capaz de hacer Clasificacion >> Nodos >> Elija un rango de parámetros Grado >> Grado ponderado y haga clic en « Aplicar »


¿Qué quiere decir aquí?

Usted puede haber notado que algunos bordes son más grandes que otros, es porque en los datos recogidos, el peso del borde representa la longitud de la frontera en kilómetros. Así el grado ponderada aquí es equivalente al número total de kilómetros de frontera para un país.

Aquí, de nuevo a Rusia y China son grandes porque tienen grandes fronteras. Pero si se compara con la cartografía anterior, verá que todos los países europeos eran grandes antes, pero ahora es muy poco. Es porque esos países gozan muy pequeñas fronteras.

Centralidad de intermediación: Maestro de Marionetas

Para visualizar el concepto, se toma todo el camino más corto de todos los nodos a todos los nodos en el gráfico. En cada ruta, si un nodo está recorrida, agrega él « un punto ». Cuando se llevan a cabo todos los caminos, tiene un ranking donde algunos nodos se viajaba mucho y algunos pocos ( casi nunca). Esto describe la centralidad betweeness, si un nodo tiene un número alto, tiene una alta centralidad de intermediación.

Si está navegando en el gráfico, lo más probable viajado nodos que tienen un alto betweeness. Y si se quita tesis nodos primero, hay una alta probabilidad de reducir su gráfico en múltiples componentes conectados.

La centralidad betweeness tiene que ser calculado antes, ir a Estadísticas >> Diámetro Red >> Ejecutar. Después de un tiempo rápido, tendrá el resultado de cálculo y usted será capaz de hacer Clasificacion >> Nodos >> Elija un rango de parámetros Grado >> betweeness Centralidad y haga clic en « Aplicar »


¿Qué quiere decir aquí?

La centralidad de intermediación aquí significa que, si quieres ir de un país a otro, lo más probable es que tenga que viajar a través de los grandes nodos. Lo que se ve es que hay un conjunto de países que son muy «centrales», ya que se están ligando (indirectamente ) a casi todos los países del mundo.

Y si nos fijamos en el caso de Francia, que tiene la mayor centralidad de intermediación. ¿Por qué? Es principalmente debido al hecho de que es el único país que está haciendo el enlace entre América y resto del mundo.


¡Aquí está! Espero haber sido claro en mi explicación y te ha gustado este tutorial.

martes, 1 de abril de 2014

Redes de flujos de inmigración mundial

¿Cuántas personas han migrado todo el mundo en los últimos 24 años?
GEOFFREY GILLER, Scientific American


La gente está constantemente migrando todo el mundo. Pero los científicos han tenido durante mucho tiempo problemas para cuantificar cuántas personas se están moviendo y donde están viniendo y yendo a.

Parte del problema es que los países varían ampliamente en la cantidad y calidad de los datos que recogen a los inmigrantes que ha recibido, a nivel mundial, estos datos son a menudo difíciles de comparar directamente.

Un informe del año pasado por las Naciones Unidas con el fin de solucionar ese problema mediante la combinación de todos los datos disponibles sobre las poblaciones de inmigrantes en un amplio conjunto de datos, armonizado.

Ahora, un nuevo estudio acaba de ser publicado en la revista Science ha tomado ese conjunto de datos y se ha ido un paso más allá mediante la generación de más datos y visualizar el flujo mundial de personas de una manera nueva.

El conjunto de datos de las Naciones Unidas incluyó información para los años 1990, 2000 y 2010. Sin embargo, los autores del nuevo estudio querían ver cómo la migración mundial cambió en escalas de tiempo más finos. El uso de técnicas similares a las de la ONU utilizarse para rellenar las lagunas de datos, los investigadores generaron datos para 1995 y 2005, así, dándoles cuatro períodos de cinco años.


Imagen cortesía de Abel et al., Science / AAAS

La trama circular de los flujos migratorios entre y dentro de las regiones del mundo durante el año 2005 y 2010. Las marcas de graduación muestran el número de migrantes (entradas y salidas) en millones. Sólo flujos que contiene al menos 170.000 inmigrantes se muestran

El nuevo conjunto de datos reveló algunos patrones esperados y algunos sorprendentes, dice Nikola Sander, un investigador en el Centro de Wittgenstein de Demografía y Global Human Capital en Viena y un co- autor del nuevo estudio. "Lo que vemos es que los eventos repentinos de ejemplo, la caída de la Cortina de Hierro en la década de los noventa, los conflictos violentos en Ruanda y en Afganistán en la década de los noventa... provocaron un gran número de movimientos", dice ella.
Sin embargo, los datos no muestran un aumento general en el número o el porcentaje de inmigrantes en todo el mundo, a pesar de la idea generalizada de que la inmigración se ha ido incrementando en los últimos 20 años.

Sander también quiso mostrar estos nuevos datos de una manera que sea fácil de entender y comprender. "La visualización típica de datos de flujo ha sido un mapa del mundo y después de diez o 15 flechas negras impresas en la parte superior de la misma," dice ella. "Tiene un atractivo visual muy bajo, y sólo puede ir a un cierto nivel de complejidad."

Frustrado, se dio cuenta de que tenía que tomar ideas de visualización de datos de " fuera de la disciplina", como ella dice, para representar mejor los resultados.

Mientras que la búsqueda en línea se encontró con Circos, una herramienta de software que utiliza un diseño circular para visualizar diferentes tipos de datos, como los genomas y las mutaciones del cáncer. Sander dio cuenta de que una parcela similar también mostraría las complejidades de los datos de migración.

Ella publicó el gráfico de arriba en el papel de la ciencia y se asoció con otra empresa, Null2, para codificar una versión interactiva, a continuación.





Sander espera continuar analizando los datos. "Esto es sólo el primer conjunto de estimaciones" del movimiento mundial de personas que se derivan del conjunto de datos de las Naciones Unidas, dice ella. Ella espera que otros se unan en el esfuerzo por mejorar las estimaciones, así, ella y su co -autor de Guy J. Abel publicamos el código que utilizan para generar los conjuntos de datos de 1995 y 2005.

Como las lagunas en los datos de la ONU se llenan y métodos de armonización de los datos mejoran, Sander dice, las estimaciones serán cada vez más precisa.

Business Insider