jueves, 3 de abril de 2014

Anatomía estructural de la red Tumblr

La anatomía de una red social olvidada
Mientras que los científicos de la red se han estudiando detenidamente los datos de Twitter y Facebook, se han olvidado de Tumblr. Ahora que han comenzado a preguntar cómo esta red se diferencia del resto.



El estudio de las redes sociales se ha apoderado de los informáticos en los últimos años. En particular, los investigadores se han centrado en algunas de las más grandes redes que han hecho de sus datos disponibles, como algunas redes de telefonía móvil, Wikipedia y Twitter.

Pero con las prisas, una red ha sido más o menos ignorado por los investigadores: Tumblr, una plataforma de microblogging similar a Twitter. Por lo tanto una cuestión interesante es cómo la red asociada con Tumblr es diferente de la red Twitter.

Hoy se recibe una respuesta, gracias al trabajo de Yi Chang y sus amigos en Yahoo Labs en Sunnyvale. Estos chicos señalan que se sabe relativamente poco sobre Tumblr comparación con otras redes como Twitter y se dispuso a cambiar esta situación.

Las estadísticas básicas son sencillas. Tumblr es un servicio de microblogueo con cerca de 160 millones de usuarios que juntos han publicado más de 70 mil millones puestos.

La diferencia más significativa entre Tumblr y su primo mayor, Twitter, es que no hay límite para el tamaño de los mensajes que los usuarios pueden crear. Por el contrario, Twitter impone el famoso límite de 140 caracteres en todos sus mensajes. Tumblr también es compatible con los mensajes multimedia, como imágenes, audio y video.

Otra diferencia importante es que Tumblr no requiere que los usuarios ingresar su información básica de perfil, como el género o ubicación. Así que esto hace que el análisis un poco más complicado de lo que es con otras redes que recogen esta información. Sin embargo, Chang y sus colegas dicen que los usuarios de Tumblr tienden a ser mucho más joven que la gente en otras redes, con la mayoría de los usuarios son menores de 25.

Chang y coautor del estudio, la naturaleza de Tumblr usando un subconjunto de casi 600 millones de mensajes publicados en la red entre agosto y septiembre del año pasado. Ellos dicen que más del 90 por ciento de estos mensajes implican fotos o texto. A pesar de apoyar a otros tipos de medios de comunicación, éstos han claramente no ha llegado a ser popular en Tumblr.

Una pregunta interesante es si Tumblr se asemeja más a una red blogosfera que una red de microblogging como la de Twitter.

Hay diferencias significativas entre estos tipos de red. Una característica clave de Twitter es que hay una buena cantidad de reciprocidad entre los usuarios. La reciprocidad es la probabilidad de que si el usuario sigue un usuario b, entonces b también sigue a.

En la blogosfera, la reciprocidad es casi inexistente. Sólo el 3 por ciento de los bloggers tienen este tipo de enlace recíproco. En Twitter, sin embargo, la proporción es mucho mayor : un 22 por ciento de los altavoces de agudos tienen vínculos recíprocos.

En este sentido, Tumblr es aún más densa que Twitter, con casi el 30 por ciento de las conexiones de ser correspondido. Lo que es más, la distancia media entre dos usuarios de Tumblr es de 4,7, es decir un usuario puede conectarse a otro en un promedio de 4,7 pasos. Eso es la mitad de la distancia de la blogosfera y casi lo mismo que las distancias en Facebook y Twitter.

¿Por cuánto tiempo son puestos en Tumblr, dado que no hay límite de longitud ? El cargo promedio es de 427 caracteres de longitud y una cuarta parte de ellos son más de 140 límite de caracteres de Twitter. Por el contrario, la duración media de un tweet se encuentra a sólo 68 caracteres.

Finalmente, Chang y sus colegas dicen que el contenido tiende a ser vuelto a publicar con mayor rapidez en Tumblr. "Aproximadamente 3/4 de los primeros reblogs ocurren dentro de la primera hora y 95,84 por ciento aparecen en un solo día ", dicen. Por el contrario, en twitter alrededor de la mitad de retweeting se produce dentro de una hora y 75 por ciento en un día, dicen. " Tumblr es más vibrante y más rápido", dicen los investigadores de Yahoo.

Este trabajo proporciona una visión útil de Tumblr, ya que fue a finales de 2013. Como tal, se permitirá a los investigadores a entender cómo la red consiste en el futuro.

Eso será importante para Yahoo. Es importante tener en cuenta que en mayo de 2013, que pagó más de $ 1 mil millones para Tumblr. Así que no es en absoluto sorprendente que quieren entender lo que han comprado.

Lo que es un poco más desconcertante, sin embargo, es que han esperado hasta ahora para averiguar.

Ref : arxiv.org/abs/1403.5206 : ¿Qué es Tumblr?: un panorama estadístico y comparativo

miércoles, 2 de abril de 2014

Usando Gephi para analizar centralidad geográfica

Juguemos con Gephi: Comprendiendo centralidad de grado, de grado ponderado e intermediación
Matthieu Totet - Koumin

Hola a todos,

Hoy voy a tratar de explicar algunas noción clásica cuando usted está buscando en su gráfico. El Grado y Licenciatura ponderado son bastante simples de entender y es casi la base del análisis gráfico. Centralidad betweeness pedir un poco de enfoque mente para entender, pero cuando explique con un ejemplo expresivo, es sencillo !

El conjunto de datos

Me quedo con la relación de los países por las fronteras. Es muy simple y concreto para entender, cambia de la Tradicional « Redes sociales » y el conjunto de datos es lo suficientemente diferentes para ver con claridad el concepto que queremos estudiar.

Por supuesto, los animo y propongo a utilizar el archivo gexf para hacerlo y explorar por ustedes mismos [Archivo Gexf]

Aquí está la cartografía con sólo un poco de visualización de diseño. No tocamos sin embargo, el tamaño de los nodos.



 Grado : Graduame soy famoso.

 

El grado de un nodo es el número de relación (enlace) que tiene, de forma independiente si es una en o una relación fuera. Es la suma de bordes para un nodo. Es idea muy simple de entender.

No tenemos un grado de entrada y grado de salida en nuestro gráfico, es porque tenemos un grafo no dirigido. Estas estadísticas son exactamente los mismos que el Grado, pero « In» contar sólo enlaces entrantes y « Out» cuenta sólo los enlaces salientes.

Para mostrar el tamaño del nodo por grado : Ranking >> Nodos >> Elige un rango de parámetros Grado y haz clic en " Aplicar »


¿Qué quiere decir aquí?


Una relación (borde ) es una frontera entre los 2 países, por lo que si un país tiene un alto grado, que significa que tiene una gran cantidad de países vecinos.

En la cartografía anterior, vemos que Rusia y China son muy grandes, es porque tienen una gran cantidad de países vecinos, 14 para ser exactos.

Grado ponderado: Más grande es mejor


El grado ponderado de un nodo es como el título. Se basa en el número de enlaces para un nodo, pero ponderado por el peso de cada enlace. Se está haciendo la suma del peso de los enlaces.
Por ejemplo, un nodo con 4 bordes que el peso 1 (1 +1 +1 +1= 4) es equivalente a :

  • un nodo con bordes 2 que el peso 2 (2 +2= 4) o
  • un nodo con bordes 2 que el peso 1 y 1 borde que el peso 2 (1 +1 +2= 4) o
  • un nodo con 1 punta que peso 4 etc...

El grado ponderado tiene que ser calculado antes, ir a Estadísticas >> Media. Grado ponderado >> Ejecutar. Después de un tiempo rápido, tendrá el resultado de cálculo y usted será capaz de hacer Clasificacion >> Nodos >> Elija un rango de parámetros Grado >> Grado ponderado y haga clic en « Aplicar »


¿Qué quiere decir aquí?

Usted puede haber notado que algunos bordes son más grandes que otros, es porque en los datos recogidos, el peso del borde representa la longitud de la frontera en kilómetros. Así el grado ponderada aquí es equivalente al número total de kilómetros de frontera para un país.

Aquí, de nuevo a Rusia y China son grandes porque tienen grandes fronteras. Pero si se compara con la cartografía anterior, verá que todos los países europeos eran grandes antes, pero ahora es muy poco. Es porque esos países gozan muy pequeñas fronteras.

Centralidad de intermediación: Maestro de Marionetas

Para visualizar el concepto, se toma todo el camino más corto de todos los nodos a todos los nodos en el gráfico. En cada ruta, si un nodo está recorrida, agrega él « un punto ». Cuando se llevan a cabo todos los caminos, tiene un ranking donde algunos nodos se viajaba mucho y algunos pocos ( casi nunca). Esto describe la centralidad betweeness, si un nodo tiene un número alto, tiene una alta centralidad de intermediación.

Si está navegando en el gráfico, lo más probable viajado nodos que tienen un alto betweeness. Y si se quita tesis nodos primero, hay una alta probabilidad de reducir su gráfico en múltiples componentes conectados.

La centralidad betweeness tiene que ser calculado antes, ir a Estadísticas >> Diámetro Red >> Ejecutar. Después de un tiempo rápido, tendrá el resultado de cálculo y usted será capaz de hacer Clasificacion >> Nodos >> Elija un rango de parámetros Grado >> betweeness Centralidad y haga clic en « Aplicar »


¿Qué quiere decir aquí?

La centralidad de intermediación aquí significa que, si quieres ir de un país a otro, lo más probable es que tenga que viajar a través de los grandes nodos. Lo que se ve es que hay un conjunto de países que son muy «centrales», ya que se están ligando (indirectamente ) a casi todos los países del mundo.

Y si nos fijamos en el caso de Francia, que tiene la mayor centralidad de intermediación. ¿Por qué? Es principalmente debido al hecho de que es el único país que está haciendo el enlace entre América y resto del mundo.


¡Aquí está! Espero haber sido claro en mi explicación y te ha gustado este tutorial.

martes, 1 de abril de 2014

Redes de flujos de inmigración mundial

¿Cuántas personas han migrado todo el mundo en los últimos 24 años?
GEOFFREY GILLER, Scientific American


La gente está constantemente migrando todo el mundo. Pero los científicos han tenido durante mucho tiempo problemas para cuantificar cuántas personas se están moviendo y donde están viniendo y yendo a.

Parte del problema es que los países varían ampliamente en la cantidad y calidad de los datos que recogen a los inmigrantes que ha recibido, a nivel mundial, estos datos son a menudo difíciles de comparar directamente.

Un informe del año pasado por las Naciones Unidas con el fin de solucionar ese problema mediante la combinación de todos los datos disponibles sobre las poblaciones de inmigrantes en un amplio conjunto de datos, armonizado.

Ahora, un nuevo estudio acaba de ser publicado en la revista Science ha tomado ese conjunto de datos y se ha ido un paso más allá mediante la generación de más datos y visualizar el flujo mundial de personas de una manera nueva.

El conjunto de datos de las Naciones Unidas incluyó información para los años 1990, 2000 y 2010. Sin embargo, los autores del nuevo estudio querían ver cómo la migración mundial cambió en escalas de tiempo más finos. El uso de técnicas similares a las de la ONU utilizarse para rellenar las lagunas de datos, los investigadores generaron datos para 1995 y 2005, así, dándoles cuatro períodos de cinco años.


Imagen cortesía de Abel et al., Science / AAAS

La trama circular de los flujos migratorios entre y dentro de las regiones del mundo durante el año 2005 y 2010. Las marcas de graduación muestran el número de migrantes (entradas y salidas) en millones. Sólo flujos que contiene al menos 170.000 inmigrantes se muestran

El nuevo conjunto de datos reveló algunos patrones esperados y algunos sorprendentes, dice Nikola Sander, un investigador en el Centro de Wittgenstein de Demografía y Global Human Capital en Viena y un co- autor del nuevo estudio. "Lo que vemos es que los eventos repentinos de ejemplo, la caída de la Cortina de Hierro en la década de los noventa, los conflictos violentos en Ruanda y en Afganistán en la década de los noventa... provocaron un gran número de movimientos", dice ella.
Sin embargo, los datos no muestran un aumento general en el número o el porcentaje de inmigrantes en todo el mundo, a pesar de la idea generalizada de que la inmigración se ha ido incrementando en los últimos 20 años.

Sander también quiso mostrar estos nuevos datos de una manera que sea fácil de entender y comprender. "La visualización típica de datos de flujo ha sido un mapa del mundo y después de diez o 15 flechas negras impresas en la parte superior de la misma," dice ella. "Tiene un atractivo visual muy bajo, y sólo puede ir a un cierto nivel de complejidad."

Frustrado, se dio cuenta de que tenía que tomar ideas de visualización de datos de " fuera de la disciplina", como ella dice, para representar mejor los resultados.

Mientras que la búsqueda en línea se encontró con Circos, una herramienta de software que utiliza un diseño circular para visualizar diferentes tipos de datos, como los genomas y las mutaciones del cáncer. Sander dio cuenta de que una parcela similar también mostraría las complejidades de los datos de migración.

Ella publicó el gráfico de arriba en el papel de la ciencia y se asoció con otra empresa, Null2, para codificar una versión interactiva, a continuación.





Sander espera continuar analizando los datos. "Esto es sólo el primer conjunto de estimaciones" del movimiento mundial de personas que se derivan del conjunto de datos de las Naciones Unidas, dice ella. Ella espera que otros se unan en el esfuerzo por mejorar las estimaciones, así, ella y su co -autor de Guy J. Abel publicamos el código que utilizan para generar los conjuntos de datos de 1995 y 2005.

Como las lagunas en los datos de la ONU se llenan y métodos de armonización de los datos mejoran, Sander dice, las estimaciones serán cada vez más precisa.

Business Insider

lunes, 31 de marzo de 2014

Redes basados en roles sociales en grupos de discusión online

Redes basadas en Roles Sociales

crmblog
Los diagramas de red siempre han sido interesantes para mí. Trazar y analizar el flujo de diálogo basado en los roles sociales nos da un poco más penetración en el fenómeno de las redes sociales. He estado haciendo mi camino a través de un poco de trabajo que un gurú de la comunidad y comunicador maestro Marc Smith:

"... presentada en la ICWSM 2008 en Seattle (Conferencia Internacional sobre la Web Logs y Medios de Comunicación Social) y las Comunidades y Tecnologías de la conferencia de 2007 en la Universidad Estatal de Michigan.
Un documento que publicamos recientemente en el Journal of Social Structure: "Visualizing the Signatures of Social Roles in Online Discussion Groups [La visualización de las firmas de los roles sociales en los grupos de discusión en línea]" está disponible en: http://www.cmu.edu/joss/content/articles/volume8/Welser/ "

NetworkSocialTypes


Como hago mi camino a través del plan de estudios Marc siempre veo esta visualización de la red que es más que analítico, es verdaderamente una obra de arte también :

NetworkExcelAddin


Esta es una red grafo dirigido recientemente publicado trazar los add-in para Excel. Estas herramientas y otros están disponibles en nuestro sitio Web: (http://www.research.microsoft.com/community/projects.aspx). Tengo mucho más para leer, pero utilizando los centros de investigación en este post hasta ahora, sospecho que podría pasar la mayor parte de su fin de semana de fiesta hacerse una idea.

Saludos ,

Jaag

Microsoft Dynamics CRM

sábado, 29 de marzo de 2014

¿Pueden predecirse las cascadas en Facebook?

La naturaleza curiosa de las cascadas de compartir en Facebook
La mayoría del contenido en Facebook se comparte un par de veces, pero algunos pueden ser millones de veces compartida. Ahora científicos de la computación están empezando a comprender la diferencia.




Una de las características definitorias de contenido social es la forma en imágenes, vídeo y texto es compartida entre muchos usuarios. Inevitablemente, parte del contenido se hace más popular que otros y esto lleva a las cascadas en el que el número de publicaciones compartidas puede ser enorme. Aunque la mayoría de las piezas de los medios de comunicación tienen sólo unas pocas acciones, algunas se ha compartido muchos millones de veces.

Así que hay mucho interés en saber cómo predecir algo que es probable que sea muy popular en comparación con algo que no es. En la cara de ella, es fácil pensar que la predicción de la popularidad de los contenidos es casi imposible. Eso es porque depende de muchos factores que son difíciles de medir, como la naturaleza de los contenidos y la conectividad de las personas que lo ven.

Sin embargo, varios equipos han afirmado haber encontrado la manera de predecir de un puesto eventual de popularidad mediante el análisis de su popularidad poco después de su publicación. Sin embargo, dada la ausencia de una manera confiable de hacer esto en la web, se puede juzgar por sí mismo lo bien que estos mecanismos deben trabajar.

Hoy en día, tenemos una opinión diferente sobre el tema de la previsibilidad gracias al trabajo de Justin Cheng de la Universidad de Stanford en California, así como un par de amigos en Facebook y la Universidad de Cornell. Estos chicos muestran por qué su popularidad es tan difícil de predecir en el abordaje convencional de estudiar las primeras etapas de la popularidad.

Pero al mismo tiempo, que muestran que diversas características de una cascada se pueden predecir con exactitud notable y que esto se puede utilizar para hacer juicios exitosos sobre el comportamiento futuro de cascadas, una vez que han comenzado. El resultado es una visión mucho más profunda de la naturaleza de las cascadas de lo que podría pensarse inicialmente posible.

Cheng y colegas llegan a sus conclusiones mediante el análisis de la forma en que las fotografías fueron compartidos en Facebook durante un período de 28 días después de su carga inicial en junio de 2013. Los miró por encima de 150 000 fotos que fueron juntos ha compartido más de 9 millones de veces. Los datos les dijeron que las personas (nodos) volvió a compartir cada fotografía y en qué momento y esto les permitió reconstruir exactamente las redes por las que se produjeron las publicaciones compartidas.

En el pasado, los investigadores han observado cómo comienzan las grandes cascadas y luego trató de utilizar esa información para detectar grandes cascadas en el futuro, con resultados mixtos.

Cheng y colegas adoptan un enfoque diferente. Comienzan con una foto que se ha vuelto a compartir un cierto número de veces, digamos k. A continuación, determinar la probabilidad de que esta foto será compartida dos veces tantas veces. En otras palabras, su tarea consiste en predecir si la cascada se duplicará en tamaño.

Eso es una buena opción de la pregunta porque la distribución de tamaño de la cascada sigue un cierto tipo de ley de energía. Esta ley asegura que para cascadas de un dado tamaño, la mitad será más del doble en tamaño, mientras que la otra mitad no. Así que para decidir si una cascada dado se duplicará, una estimación aleatoria recibirá la respuesta correcta alrededor de la mitad de las veces.

La pregunta es si es posible distinguir características del conjunto de datos que permiten un algoritmo de aprendizaje de máquina para hacer algo mejor que esto. Así Cheng y sus amigos usan una porción de sus datos para entrenar a un algoritmo de aprendizaje automático para buscar características de cascadas que hacen predecible.

Estas características incluyen el tipo de imagen, ya sea un primer plano o al aire libre o tener un título y así sucesivamente, el número de seguidores del cartel original tiene, la forma de la cascada que se forma, ya sea un gráfico simple estrella o estructuras más complejas ; y, finalmente, la rapidez con la cascada tiene lugar, su velocidad.

Después de haber entrenado su algoritmo, la usaban para ver si se podía hacer predicciones sobre otras cascadas. Comenzaron con imágenes que habían sido compartidos sólo cinco veces, así que la pregunta era si finalmente se compartirían más de 10 veces.

Resulta que este es sorprendentemente predecible. " Para esta tarea, adivinar al azar obtendría un rendimiento de 0,5, mientras que nuestro método logra un rendimiento sorprendentemente fuerte : la precisión de clasificación de 0.795 ", dicen.

Y algunas de las características de la cascada de unos mucho mejores predictores y otros. De hecho, el rendimiento temporal de la cascada, la rapidez con que se propaga, es el mejor indicador de todos. Así que algo se propaga rápidamente, para empezar, es probable que se propague más.

Otro factor importante son los temas mencionados en el título asociado con una imagen, por ejemplo si el interés periodístico o asociado con un meme actual.

Cheng y coautores también dicen que es más fácil hacer una predicción que el número de re-acciones aumenta." Esto demuestra que más información es siempre mejor : cuanto mayor es el número de publicaciones compartidas observadas, mejor es la predicción ", dicen.

Y es por eso que los esfuerzos anteriores han fracasado - que en gran parte siempre comienzan con muy poca información.

Existen limitaciones para el trabajo, por supuesto. La más obvia es que se hizo sólo con las fotos compartidas en su totalidad dentro de Facebook. Puede ser que compartidas en Facebook son algo diferentes de los que ocurren en otros lugares en la web y que las fotos son tratados de manera diferente de los enlaces de la historia, por ejemplo.

Pero Cheng y coautores confían en que gran parte de lo que encontraron serán útiles en otros lugares. "A pesar de estas limitaciones, creemos que los resultados dan ideas generales que serán de utilidad en otros ámbitos ", dicen.

Y deja mucho de interés para otros investigadores a seguir. Cheng y colegas han tropezado con una rica veta de información sobre la naturaleza de las cascadas en las redes sociales. Y hay más oro que las colinas de Thar.

Ref : arxiv.org/abs/1403.4608 : ¿Puede predecirse las Cascadas?

MIT Technology Review