lunes, 30 de julio de 2018

Prediciendo Wall Street con Twitter

Predecir indicadores del mercado de valores a través de Twitter "Espero que no sea tan malo como temo"

Hemos estado trabajando en tratar de predecir los indicadores del mercado durante bastante tiempo analizando Web Buzz, prediciendo quién ganará un Oscar, o qué tan bien las películas lo hacen en taquilla. Entre otras cosas, hemos correlacionado publicaciones sobre una acción en Yahoo Finance y Motley's Fool con el precio real de las acciones, prediciendo el precio de cierre de las acciones al día siguiente en base a lo que la gente dice hoy en Yahoo Finance, en la Web y Blogs sobre un título de acciones.

La creciente popularidad de Twitter nos brinda una nueva forma de capturar la mente colectiva hasta el último minuto. En nuestro proyecto actual, analizamos el estado de ánimo positivo y negativo de las masas en Twitter, y lo comparamos con índices bursátiles amplios como Dow Jones, S & P 500 y NASDAQ. Recopilamos los feeds de Twitter de una IP de la lista blanca durante seis meses desde el 30 de marzo de 2009 hasta el 4 de septiembre de 2009, que van desde 5680 a 42820 tweets por día. Según Twitter, esto corresponde a una submuestra aleatorizada de alrededor de un centésimo del volumen total de todos los tweets, ya que el volumen total en 2009 fue de aproximadamente 2,5 millones de tweets por día. Intentamos medir la esperanza colectiva y el miedo cada día aplicando la métrica simple de contar todos los tweets que contenían las palabras "esperanza": había 54 a 467 tweets por día y "miedo" o "preocupación": había de 9 a 100 tweets por día. Esto nos dice que las personas prefieren las palabras optimistas (esperanza) a las palabras pesimistas (miedo o preocupación).

Como punto de referencia externo del temor de los inversionistas utilizamos el Chicago Board Options Exchange Volatility Index VIX, que tiene una fuerte correlación negativa con Dow, S & P 500 y NASDAQ, lo que no es sorprendente, ya que el margen de opciones de acciones en un día determinado se usa para calcular VIX. Inicialmente, esperábamos la cantidad de tweets con la esperanza de que se correlacionen negativamente con VIX, y la cantidad de tweets con miedo o preocupación se correlacionen positivamente con VIX. Sorprendentemente, encontramos una correlación positiva débil pero insignificante para "esperanza" (0.135) y "miedo" o "preocupación" (0.172) con VIX, y una correlación negativa significativa con "miedo" y "preocupación" y "esperanza" con Dow NASDAQ y S & P500 (Esto significa que las personas comienzan a usar palabras más emocionales como esperanza, miedo, preocupación en tiempos de incertidumbre económica. Por lo tanto, creamos un índice simple de volatilidad de Twitter combinando menciones de esperanza, miedo y preocupación, normalizándolo con la cantidad total de tweets por día como referencia. Este índice muestra fuertes correlaciones negativas significativas con Dow, NASDAQ y S & P500, y una fuerte correlación positiva significativa con VIX (consulte la tabla a continuación).

La siguiente imagen muestra la correlación negativa entre Dow (azul) y "esperanza, miedo y preocupación" (verde) en el período del 30 de marzo de 2009 al 4 de septiembre de 2009.

Para poner esto en palabras simples, cuando las emociones en Twitter vuelan alto, es cuando las personas expresan mucha esperanza, miedo y preocupación, el Dow cae al día siguiente. Cuando las personas tienen menos esperanzas, temores y preocupaciones, sube el Dow. Por lo tanto, parece que el simple hecho de consultar en Twitter los estallidos emocionales de cualquier tipo da un pronosticador de cómo se comportará la bolsa de valores al día siguiente.

Para ser claros, lo que hemos presentado aquí son resultados preliminares muy tempranos, y se necesita mucho más trabajo para verificarlo científicamente.

Swarm Creativity

sábado, 28 de julio de 2018

Amplificación de cascadas por asortatividad

Las correlaciones de grado amplifican el crecimiento de las cascadas en las redes

Xin-Zeng Wu, Peter G. Fennell, Allon G. Percus, Kristina Lerman

Las redes facilitan la propagación de cascadas, permitiendo que una perturbación local se filtre a través de interacciones entre nodos y sus vecinos. Investigamos cómo la estructura de la red afecta la dinámica de una cascada en expansión. Contabilizando la distribución conjunta de grados de una red dentro de un marco de funciones generadoras, podemos cuantificar cómo las correlaciones de grados afectan tanto el inicio de las cascadas globales como la propensión de los nodos de clase de grado específica para desencadenar grandes cascadas. Sin embargo, no todas las correlaciones de grados son igualmente importantes en un proceso de expansión. Presentamos una nueva medida de grado de surtido que da cuenta de las correlaciones entre los nodos relevantes para una cascada de propagación. Mostramos que el punto crítico que define el inicio de las cascadas globales tiene una relación monótona con esta nueva medida de surtido. Además, mostramos que la elección de los nodos para sembrar las cascadas más grandes se ve fuertemente afectada por las correlaciones de grados. Contrariamente a la sabiduría tradicional, cuando la sutitud de grados es positiva, es más probable que los nodos de bajo grado generen las cascadas más grandes. Nuestro trabajo sugiere que puede ser posible adaptar los procesos de difusión manipulando la estructura de orden superior de las redes.

(o arXiv:1807.05472v1 [physics.soc-ph] para esta versión)

1807 05472

Leer más publicaciones en Calaméo

jueves, 26 de julio de 2018

Red de comunicación de redes de colaboración en innovación 2012

Analizando la Red de Comunicación del Seminario 2012 de COINs

Swarm Creativity

En este seminario, cerca de 50 estudiantes de las cinco universidades MIT / SCAD / Aalto University / Universidad de Colonia / Universidad de Bamberg trabajaron juntos durante cinco meses en equipos multinacionales de proyectos virtuales como COIN (Collaborative Innovation Networks). Se formaron diez equipos que varían en tamaño de tres a seis estudiantes de al menos dos ubicaciones, que trabajan en un proyecto relacionado con los medios sociales y el análisis de redes sociales (sitio web de 2012 cursos). Se les pidió a los estudiantes que registraran toda su comunicación por correo electrónico relacionada con el proyecto en un buzón ficticio. Esto nos permitió construir un espejo virtual de la comunicación continua dentro y entre los equipos. Al final del curso, cada equipo presentó sus resultados a sus compañeros de clase en una reunión virtual. Cada una de las diez presentaciones fue clasificada por los estudiantes en las tres categorías "calidad de presentación, calidad del contenido y creatividad". La comparación del espejo virtual de la comunicación con las calificaciones de los compañeros y los instructores nos permitió identificar los patrones de comunicación que conducen a la salida de trabajo mejor clasificada.

Analisis cualitativo

Mirando la red del grupo a continuación, los diferentes equipos pueden ser claramente reconocidos. La comunicación de cada equipo se muestra en un color diferente, por lo general los miembros del equipo se agrupan como una COIN, con colaboradores externos y otros estudiantes en posiciones más periféricas.

El análisis del índice de contribución entre los miembros del equipo muestra que los miembros del mismo equipo tienden a mostrar un comportamiento similar con respecto a la proporción de correos electrónicos enviados a los correos electrónicos recibidos. Los grupos de puntos del mismo color son miembros del mismo grupo, en general encontramos que los equipos de mayor rendimiento tienden a comunicarse más activamente, con relaciones de envío / recepción más similares.

La superficie social temporal indica creatividad, ya que hay un grupo relativamente grande de miembros de la clase de alto intervalo que cambia constantemente a lo largo del tiempo, en trabajos anteriores encontramos que este es un predictor confiable de la creatividad.

Las 6 instantáneas de las redes de comunicación de los 10 equipos durante los 5 meses muestran las cuatro fases de Tuckman en la vida de un equipo: formación, asalto, normalización y actuación. Vemos cómo el instructor principal en la imagen más alta a la derecha es más central, pero cómo los equipos comienzan a conectarse en la fila del medio y cómo luego se agrupan equipo por equipo para centrarse en su trabajo en las imágenes de abajo.

La curva de centralidad de intermediación grupal así como el número absoluto de mensajes enviados y recibidos que se muestran a continuación ilustran el mayor tráfico en la fase de formación, asalto y normalización, seguido del tráfico más bajo en la segunda fase de ejecución.

La curva de sentimiento ilustra el mismo fenómeno, con mayor emocionalidad (definida como la suma de positividad y negatividad) en la fase de formación y asalto en la primera mitad del curso. El eje X siempre es días en estas imágenes.

Análisis cuantitativo

En la segunda mitad de este análisis investigamos qué patrones de comunicación serán indicativos de trabajo de alta calidad. El primer patrón es "oscilaciones en las curvas de centralidad intermedia".

La imagen de arriba ilustra el equipo clasificado como el más creativo por los instructores (líneas sombreadas azules, cada línea titulada "Serie X" es la intersección de un actor durante 115 días), y el equipo clasificado menos creativo (líneas sombreadas rojas). Como se puede ver fácilmente, la centralidad de la mayoría de los actores en el equipo de bajo rango ronda las líneas cero: estos actores serán periféricos en la red social de correo electrónico que se muestra en la primera imagen de este documento.

Como ilustran las siguientes correlaciones, la calificación de creatividad del instructor (cada uno de los instructores en cada una de las cinco ubicaciones participantes clasificó las 10 presentaciones) se correlaciona altamente (0,83 **) con la oscilación en la centralidad de la intermediación. Como muestra la imagen de arriba, el equipo calificado como el más creativo tuvo 80 oscilaciones, es decir, traspasos en el liderazgo, en comparación con el equipo de menor calificación con menos de 40 oscilaciones.

Se identificó una correlación similar para la velocidad de respuesta. Cuanto más rápido se comunicaban los miembros de un equipo con el instructor principal, más alto era el rendimiento del trabajo del equipo evaluado por los otros estudiantes.

La correlación entre la calificación entre pares del contenido de un equipo y su balance de comunicación con el instructor principal (Peter) es -0.719 **, es decir, cuanto mayor sea el balance de comunicación, mayor será la comunicación con Peter, mejor será el contenido del equipo.

Mientras más emotivo sea el idioma de un equipo en los correos electrónicos que intercambian, mayor es el contenido calificado por sus compañeros.

La positividad en los correos electrónicos enviados al instructor principal también es altamente predictiva de altas calificaciones en todos los criterios que han sido calificados (Presentación, Contenido, Creatividad).

Las conclusiones para los equipos de alto funcionamiento son por lo tanto:
1. Pase el bastón con frecuencia: cuanto más liderazgo gire entre los miembros del equipo, más creativo será el resultado
2. Comuníquese rápidamente con el instructor y entre los miembros del equipo
3. Use lenguaje emocional: elogie cuando se debe alabanza, pero también diga cuando algo no está bien.

martes, 24 de julio de 2018

Visualización de grandes redes dinámicas en NodeXL

Visualization of Anomalies in Dynamic Networks with NodeXL from Jacopo Cirrone

domingo, 22 de julio de 2018

Caída de fertilidad afecta la creación de confianza vía redes de parentesco

Fertilidad, parentesco y la evolución de las ideologías de masas

Tamas David-Barrett y Robin I.M.Dunbar

Journal of Theoretical Biology
Volume 417, 21 March 2017, Pages 20-27
https://doi.org/10.1016/j.jtbi.2017.01.015

Resultados principales

Las redes de parentesco facilitan la acción colectiva a gran escala.
La caída de la fertilidad produce menos parentesco y una agrupación de parentesco local más fuerte.
El modelo de linajes de parentesco simula las redes de parentesco y la eficiencia de la coordinación.
La caída de la fertilidad crea una crisis ya que muy pocos parientes pueden unirse al proyecto comunitario.
La transición de la fertilidad desencadena el surgimiento de sistemas culturales que reemplazan a los parientes.

Resumen

Las sociedades humanas tradicionales se organizan en torno al parentesco y utilizan redes de parentesco para generar proyectos comunitarios a gran escala. Esto es posible gracias a una combinación de reconocimiento de parentesco lingüístico, un rasgo exclusivamente humano, que está mediado por la fiabilidad de los parientes como colaboradores. Cuando la fecundidad efectiva disminuye, esto resulta en dos efectos simultáneos en las redes sociales: hay menos parientes en los que se puede confiar, y el efecto limitante de la agrupación de parentesco local se vuelve más fuerte. Para capturar este fenómeno, utilizamos un modelo de linajes de parentesco para construir poblaciones con un rango de niveles de fertilidad combinados con un modelo de sincronía conductual para medir la eficiencia de la acción colectiva generada en redes de parentesco dentro de las poblaciones. Nuestros hallazgos sugieren que, siempre que la cooperación efectiva dependa del parentesco, la caída de la fertilidad crea una crisis cuando resulta en muy pocos parientes para unirse al proyecto comunitario. Concluimos que, cuando las sociedades cambien a pequeñas redes de parentesco efectivas, debido a la caída de la fertilidad, el aumento de la distancia relativa a los parientes debido a la urbanización o la alta mortalidad debida a guerras o epidemias, solo podrán permanecer cohesivas socialmente si reemplazan las redes de parentesco desaparecidos con alternativas cuasi-familiares basadas en la membresía de gremios o clubes.

La caída de la fertilidad crea brecha en la confianza: el cambio de la estructura de la red social en la transición demográfica.

Resumen ampliado

En los últimos 70 años, la fertilidad global ha disminuido. Con esta caída en la fertilidad, el número de familiares en la misma generación también ha disminuido. El Prof. Tamás Dávid-Barrett dio una conferencia sobre la brecha de confianza creada por las tasas más bajas de fertilidad y los cambios en la estructura de las redes sociales.

Las sociedades humanas tradicionales se basaron en dos soluciones biológicas para reducir la conducción libre y promover la acción colectiva: mecanismos de selección de parentesco y redes de parentesco sociales muy agrupadas. Como humanos, utilizamos las dos soluciones: interactuamos con otros mientras preferimos interactuar con aquellos con los que estamos relacionados.

Cuando disminuye la fertilidad, también disminuye el número de parientes en la misma generación, lo que significa que tenemos más amigos que hermanos. El cambio en los datos demográficos también tiene cambios en la estructura de las redes sociales: las reducciones de clusters locales, la distancia gráfica promedio disminuye, aumentando el conjunto del contacto social indirecto a dos pasos de distancia.

Ejemplos de grafos de parentesco, con reconocimiento de parentesco hasta primo hermano (θ = 2). Panel (a): caso de alta fertilidad (κ = 7), panel (b): caso de baja fertilidad (κ = 2.5). Fuente: https://www.sciencedirect.com/science/article/pii/S0022519317300152#f0015

Los cambios en la estructura de las redes sociales también disminuyen la velocidad a la que se extiende la reputación en la red, debido a la disminución de la fertilidad y al aumento del tamaño del grupo social. Por lo tanto, la transición demográfica debilita las dos soluciones biológicas de la reducción del free-rider: hay menos familiares para coordinar la acción social a lo largo de las líneas de parentesco, y la reputación se extiende lentamente.

La proporción de descendientes dentro de toda la población (a) una generación hacia abajo y (b) cinco generaciones hacia abajo, como una función del rango percentil de riqueza en la generación base. Línea azul: κ = 2.5, línea roja: κ = 7.0. Promedio de 20,000 repeticiones de simulación; tamaño del grupo: 200 en la generación base. Tenga en cuenta que el extremo superior de la curva azul es de pendiente descendente: esto se debe a que los miembros del grupo con la clasificación más alta comparten un número mayor de ancestros comunes que los miembros del grupo de rango medio.

Los hallazgos de Dávid-Barrett sugieren que han surgido diferentes mecanismos para llenar la brecha de confianza cuando las sociedades hacen la transición a redes de parentesco pequeñas y efectivas. Para seguir siendo socialmente cohesivos, las sociedades reemplazan las redes de parentesco que desaparecen con un sistema alternativo que facilita la acción colectiva, y en algunos casos, la brecha se llena con la ley o la membresía de gremios o clubes.

Network Data Science

viernes, 20 de julio de 2018

Análisis dinámico de redes: Introducción

Análisis dinámico de redes

Un ejemplo de diagrama de red multi-entidad, multi-red dinámico

El análisis dinámico de redes (DNA o ADR en español) es un campo científico emergente que reúne el análisis tradicional de redes sociales (ARS), el análisis de enlaces (LA), la simulación social y los sistemas multiagente (MAS) dentro de la ciencia de redes y la teoría de redes. Hay dos aspectos de este campo. El primero es el análisis estadístico de los datos de ADR. El segundo es la utilización de la simulación para abordar problemas de dinámica de red. Las redes de ADR varían de las redes sociales tradicionales en que son redes más grandes, dinámicas, multimodo y multiplex, y pueden contener distintos niveles de incertidumbre. La principal diferencia entre el ADR y el ARS es que el ADR tiene en cuenta las interacciones de las características sociales que condicionan la estructura y el comportamiento de las redes. El ADR está ligado al análisis temporal, pero el análisis temporal no está necesariamente relacionado con el ADR, ya que los cambios en las redes a veces resultan de factores externos que son independientes de las características sociales que se encuentran en las redes. Uno de los casos más notables y más antiguos en el uso del ADR está en el estudio del monasterio de Sampson, donde tomó instantáneas de la misma red de diferentes intervalos y observó y analizó la evolución de la red. [1] Un estudio temprano de la dinámica de la utilización del enlace en redes complejas a gran escala proporciona evidencia de centralidad dinámica, motivos dinámicos y ciclos de interacciones sociales. [2] [3]

Las herramientas estadísticas de ADR generalmente están optimizadas para redes a gran escala y admiten el análisis simultáneo de múltiples redes en las que existen múltiples tipos de nodos (multinodo) y múltiples tipos de enlaces (multiplex). Las redes multi-nodo multiplex se conocen generalmente como meta-redes o redes de alta dimensión. Por el contrario, las herramientas estadísticas de ARS se centran en datos únicos o, como máximo, en dos modos y facilitan el análisis de un solo tipo de enlace a la vez.

Las herramientas estadísticas de ADR tienden a proporcionar más medidas al usuario, porque tienen medidas que usan datos extraídos de múltiples redes simultáneamente. Los modelos espaciales latentes (Sarkar y Moore, 2005) [4] y la simulación basada en agentes se utilizan a menudo para examinar redes sociales dinámicas (Carley et al., 2009). [5] Desde la perspectiva de la simulación por computadora, los nodos en el ADR son como átomos en la teoría cuántica, los nodos pueden ser tratados, aunque no necesariamente, como probabilísticos. Mientras que los nodos en un modelo de ARS tradicional son estáticos, los nodos en un modelo de ADR tienen la capacidad de aprender. Las propiedades cambian con el tiempo; los nodos se pueden adaptar: los empleados de una empresa pueden aprender nuevas habilidades y aumentar su valor para la red; o capturar a un terrorista y tres más se ven obligados a improvisar. El cambio se propaga de un nodo al siguiente y así sucesivamente. El ADR agrega el elemento de la evolución de una red y considera las circunstancias bajo las cuales es probable que ocurra el cambio.

Hay tres características principales para el análisis de red dinámico que lo distinguen del análisis de red social estándar. En primer lugar, en lugar de simplemente usar las redes sociales, el ADR examina las meta redes. En segundo lugar, los modelos basados en agentes y otras formas de simulación se utilizan a menudo para explorar cómo las redes evolucionan y se adaptan, así como el impacto de las intervenciones en esas redes. En tercer lugar, los enlaces en la red no son binarios; de hecho, en muchos casos representan la probabilidad de que haya un enlace.

Meta-red

Una meta-red es una red multimodo, multivínculo y multinivel. El modo múltiple significa que hay muchos tipos de nodos; por ejemplo, personas y ubicaciones de nodos. Multi-link significa que hay muchos tipos de enlaces; por ejemplo, amistad y consejo. Varios niveles significa que algunos nodos pueden ser miembros de otros nodos, como una red compuesta por personas y organizaciones y uno de los enlaces es quién es miembro de la organización.

Mientras que diferentes investigadores usan diferentes modos, los modos comunes reflejan quién, qué, cuándo, dónde, por qué y cómo. Un ejemplo simple de una meta-red es la formulación de PCANS con personas, tareas y recursos. [6] Una formulación más detallada considera personas, tareas, recursos, conocimiento y organizaciones. [7] La herramienta ORA fue desarrollada para soportar el análisis meta-red. [8]

Problemas ilustrativos en los que las personas en el área de ADN trabajan

Desarrollar métricas y estadísticas para evaluar e identificar el cambio dentro de las redes y entre ellas.
Desarrollar y validar simulaciones para estudiar el cambio de red, la evolución, la adaptación, la decadencia. Ver simulación por computadora y estudios organizacionales
Desarrollar y probar la teoría del cambio de red, la evolución, la adaptación, la descomposición [9]
Desarrollar y validar modelos formales de generación y evolución de redes
Desarrollo de técnicas para visualizar el cambio de red en general o a nivel de nodo o grupo
Desarrollar técnicas estadísticas para ver si las diferencias observadas en el tiempo en las redes se deben simplemente a muestras diferentes de una distribución de enlaces y nodos o cambios a lo largo del tiempo en la distribución subyacente de enlaces y nodos
Desarrollar procesos de control para redes a lo largo del tiempo
Desarrollar algoritmos para cambiar distribuciones de enlaces en redes a lo largo del tiempo
Desarrollar algoritmos para rastrear grupos en redes a lo largo del tiempo
Desarrollar herramientas para extraer o localizar redes de varias fuentes de datos, como textos
Desarrollar mediciones estadísticamente válidas en redes a lo largo del tiempo
Examinar la solidez de las métricas de red bajo varios tipos de datos faltantes
Estudios empíricos de redes multi-modo multibloque de periodos múltiples
Examinar las redes como fenómenos probabilísticos variables en el tiempo
Pronosticar el cambio en las redes existentes
Identificando rastros a través del tiempo dada una secuencia de redes
Identificar los cambios en la criticidad del nodo dada una secuencia de redes, todo lo demás relacionado con las redes multimodo multi-link multi-time
Estudiar caminatas aleatorias en redes temporales [10]
La cuantificación de las propiedades estructurales de las secuencias de contacto en redes dinámicas, que influyen en los procesos dinámicos [11]
Evaluación de la actividad encubierta [12] y redes oscuras [13]
Análisis de citas [14]
Análisis de redes sociales [15]
Evaluación de los sistemas de salud pública [16]
Análisis de los resultados de seguridad hospitalaria [17]
Evaluación de la estructura de la violencia étnica a partir de datos de noticias [18]
Evaluación de grupos terroristas [19]
Deterioro social en línea de las interacciones sociales [20]
Visualización de grandes redes financieras a lo largo del tiempo [21]
Modelado de las interacciones en el aula en las escuelas [22]

Referencias

Harrison C. White, 1992, Identity and control: A structural theory of social action. Princeton University Press.
Dan Braha, Yaneer Bar‐Yam, 2006, “From centrality to temporary fame: Dynamic centrality in complex networks,” Complexity, 12(2), 59-63.
Dan Braha, Yaneer Bar-Yam 2009, Time-dependent complex networks: Dynamic centrality, dynamic motifs, and cycles of social interactions. In Adaptive Networks (pp. 39-50). Springer, Berlin, Heidelberg.
Purnamrita Sarkar and Andrew W. Moore. 2005. Dynamic social network analysis using latent space models. SIGKDD Explor. Newsl. 7, 2 (December 2005), 31-40.
Kathleen M. Carley, Michael K. Martin and Brian Hirshman, 2009, "The Etiology of Social Change," Topics in Cognitive Science, 1.4:621-650
David Krackhardt and Kathleen M. Carley, 1998, "A PCANS Model of Structure in Organization," In proceedings of the 1998 International Symposium on Command and Control Research and Technology, Monterey, CA, June 1998, Evidence Based Research, Vienna, VA, Pp. 113-119.
Kathleen M. Carley, 2002, "Smart Agents and Organizations of the Future," The Handbook of New Media. Edited by Leah Lievrouw and Sonia Livingstone (Eds.), Thousand Oaks, CA, Sage, Ch. 12: 206-220.
Kathleen M. Carley. 2014. "ORA: A Toolkit for Dynamic Network Analysis and Visualization," In Reda Alhajj and Jon Rokne (Eds.) Encyclopedia of Social Network Analysis and Mining, Springer.
Majdandzic, A.; et al. (2013). "Spontaneous recovery in dynamical networks". Nature Physics. doi:10.1038/nphys2819.
Michele Starnini, Andrea Baronchelli, Alain Barrat, 2012, Random walks on temporal networks. Phys. Rev. E 85, 056115, http://link.aps.org/doi/10.1103/PhysRevE.85.056115
René Pfitzner, Ingo Scholtes, Antonios Garas, Claudio Juan Tessone, Frank Schweitzer, 2012, "Betweenness Preference: Quantifying Correlations in the Topological Dynamics of Temporal Networks", Physical Review Letters, Vol. 110, May 10, 2013.
Carley, Kathleen M., Michael K., Martin and John P. Hancock, 2009, "Dynamic Network Analysis Applied to Experiments from the Decision Architectures Research Environment," Advanced Decision Architectures for the Warfigher: Foundation and Technology, Ch. 4.
Everton, Sean, 2012, Disrupting Dark Networks, Cambridge University Press, New York, NY
Kas, Miray, Kathleen M. Carley and L. Richard Carley, 2012, "Who was Where, When? Spatiotemporal Analysis of Researcher Mobility in Nuclear Science," In proceedings of the International Workshop on Spatio Temporal data Integration and Retrieval (STIR 2012), held in conjunction with ICDE 2012, April 1, 2012, Washington D.C.
Carley, Kathleen. M., Jürgen Pfeffer, Huan Liu, Fred Morstatter, Rebecca Goolsby, 2013, Near Real Time Assessment of Social Media Using Geo-Temporal Network Analytics, In Proceedings of 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM), August 25–28, 2013, Niagara Falls, Canada.
Merrill, Jacqueline, Mark G. Orr, Christie Y. Jeon, Rosalind V. Wilson, Jonathan Storrick and Kathleen M. Carley, 2012, "Topology of Local Health Officials’ Advice Networks: Mind the Gaps," Journal of Public Health Management Practice, 18(6): 602–608
Effken, Judith A.,Sheila Gephart and Kathleen M. Carley, 2013, "Using ORA to Assess the Relationship of Handoffs to Quality and Safety Outcomes," CIN: Computers, Informatics, Nursing. 31(1): 36-44.
Van Holt, Tracy, Jeffrey C. Johnson, Jamie Brinkley, Kathleen M. Carley and Janna Caspersen, 2012, "Structure of ethnic violence in Sudan: an automated content, meta-network and geospatial analytical approach," Computational and Mathematical Organization Theory, 18:340-355.
Kenney, Michael J., John Horgan, Cale Horne, Peter Vining, Kathleen M. Carley, Michael Bigrigg, Mia Bloom, Kurt Braddock, 2012, Organizational adaptation in an activist network: Social networks, leadership, and change in al-Muhajiroun, Applied Ergonomics, 44(5):739-747.
M. Abufouda, K. A. Zweig ."A Theoretical Model for Understanding the Dynamics of Online Social Networks Decay". arXiv preprint arXiv:1610.01538.
Heijmans, Ronald; Heuver, Richard; Levallois, Clement; van Lelyveld, Iman (2016). "Dynamic visualization of large financial networks". The Journal of Network Theory in Finance. 2 (2): 57–79. doi:10.21314/JNTF.2016.017. ISSN 2055-7795.
Christian Bokhove, 2016, "Exploring classroom interaction with dynamic social network analysis", International Journal of Research & Method in Education, doi:10.1080/1743727X.2016.1192116.

Wikipedia

miércoles, 18 de julio de 2018

Blogósfera singapuresa

Imágenes SVG con Pajek

Dr. Steven McDermott

Los nodos / vértices de la Blogosfera de Singapur 1239 representados usando svg export on pajek.

La blogósfera de Singapur

Blogósfera de Singapur: el tamaño del nodo denota la centralidad de la interrelación

lunes, 16 de julio de 2018

Emociones atraen amigos a las páginas de Facebook

Emociones atraen amigos cercanos: Análisis de la estructura de red social de las páginas de fans de Facebook

Swarm Creativity

Recientemente nos preguntamos si la estructura de las redes sociales de los fanáticos de una marca, una estrella o una causa nos dice cuán apasionados son los fanáticos. Para ser más precisos, estábamos viendo la estructura de red de la red de amistad de las páginas de fans de Facebook. Esto significa que recopilamos, en la medida de lo que se puede acceder públicamente, la red de amistad de las personas que hicieron clic en el botón "Me gusta" en la página de un fan.
Para empezar, mira la página de fans de nuestra propia conferencia COINs2010 (por cierto, la conferencia será próximamente en Savannah del 7 al 9 de octubre en SCAD, esperamos ver a muchos de ustedes allí).

Los puntos oscuros en la red son los fanáticos de COINs2010, los puntos verdes son sus amigos. Esto significa que para este análisis inicial vimos cuántos y cuán bien conectados están los amigos de un fan de COINs2010. Ignoramos los enlaces directos entre los fanáticos, pero nos concentramos en su red de amistad externa.

En este primer intento, observamos un total de 15 grupos de fanáticos en 5 categorías, consulte la tabla a continuación:

Nosotros (admitidamente subjetivamente) clasificamos la emotividad de 1 (marcas de producto) a 5 (causas médicas). Encontramos una correlación positiva de 0.33 (aunque no significativa) entre la densidad de la red y la emocionalidad. Esto significa que cuanto más conectados están los amigos de una causa o marca, más emocionados están por su causa. Aún más interesante, encontramos una correlación negativa significativa entre el coeficiente de agrupamiento de -0.57. Esto significa que cuanto más se agrupen los amigos de los fanáticos en subgrupos, menos emocionales son.

Las conclusiones serían que las causas con los partidarios más emotivos tienen una red densa, pero uniformemente repartida, con pocos subgrupos claramente separados.

Con base en este análisis ciertamente muy preliminar, ¿qué medidas puede tomar para promover su causa? La respuesta es simple: ayude a tejer la red de sus seguidores.
1. conexiones del intermediario entre los partidarios
2. luchar contra la fragmentación de los partidarios mediante la conexión de subgrupos
En resumen, ¡ayuda a construir una gran familia feliz!

sábado, 14 de julio de 2018

Visualizando Facebook con Gephi

Visualizando su red de Facebook con Gephi

Esta es una visualización de mi propia red de Facebook que hice usando el software (gratuito) Gephi y la aplicación de Facebook netvizz. Cada nodo en la red es uno de mis amigos de Facebook, y dos amigos están conectados entre sí si son amigos de Facebook entre sí. El tamaño del nodo corresponde al "grado" del nodo, lo que significa cuántas conexiones tiene. En este caso, eso significa cuántos de mis amigos de Facebook esa persona es amigo de Facebook. (Nota: eliminé los nombres de los nodos para proteger la privacidad de mis amigos de Facebook).

Los colores de los nodos indican comunidades de amigos que se encuentran utilizando un algoritmo de agrupamiento basado en la "modularidad" de la red. Básicamente, lo que hace el algoritmo es intentar agrupar los nodos en comunidades con muchas conexiones dentro de cada comunidad y no demasiadas conexiones entre las comunidades. Aunque el algoritmo no sabe nada sobre mis amigos, aparte de la red de conexiones (ni siquiera sabe que son personas), hace un buen trabajo seleccionando grupos de mis amigos que pertenecen a las mismas comunidades. en la vida real. Por ejemplo, el grupo púrpura en la esquina superior derecha son personas que conozco de la escuela de posgrado, el pequeño grupo verde en la esquina inferior derecha son personas del Instituto Noroeste de Sistemas Complejos. El gran grupo en el medio es gente que conozco de la escuela secundaria, con la gente de la banda (o groupies de la banda) en verde en el lado derecho. Mi esposa es el nodo violeta que cierra la brecha entre mis amigos de la escuela de postgrado y mis amigos de la escuela.

Hicimos esto como un ejercicio en el curso de Dinámicas Sociales y Redes que enseño en Kellogg. Si desea ver cómo puede mapear su red, puede encontrar instrucciones en mi sitio web Kellogg aquí.

Social Dynamics

jueves, 12 de julio de 2018

Estados de ánimos en Twitter predicen el precio de las acciones

El estado de ánimo de Twitter predice el mercado de valores

Un análisis de casi 10 millones de tweets de 2008 muestra cómo se pueden usar para predecir los movimientos del mercado de valores hasta 6 días antes
MIT Technology Review

No faltan personas que dicen saber cómo predecir si la bolsa subirá o bajará un día en particular. Pero hay pocos, si es que hay alguno, que puedan hacerlo consistentemente mejor que lanzar una moneda.

Para muchos economistas es fácil de explicar. La teoría económica convencional sostiene que el movimiento de los precios en un mercado perfecto debe seguir una caminata aleatoria y debe ser imposible de predecir con una precisión superior al 50 por ciento.

Sin embargo, hay una mosca en este ungüento económico. Numerosos estudios muestran que los precios en el mercado bursátil no son aleatorios y esto implica que deben ser predecibles. La pregunta es cómo hacerlo de manera consistente.

Hoy, Johan Bollen, de la Universidad de Indiana, y un par de amigos dicen que encontraron justo ese predictor enterrado en la corriente de palabras aparentemente sin sentido que emana del Twitterverse.

Desde hace algún tiempo, los investigadores han intentado extraer información útil de este firehose. Una idea es que la corriente de pensamiento es representativa del estado mental de la humanidad en cualquier instante. Varios grupos han ideado algoritmos para analizar este flujo de datos con la esperanza de utilizarlo para tomar la temperatura de varios estados humanos.

Un algoritmo, llamado Google-Profile of Mood States (GPOMS), registra el nivel de seis estados: felicidad, amabilidad, estado de alerta, seguridad, vitalidad y calma.

La pregunta que hacen Bollen y sus colegas es si alguno de estos estados se correlaciona con los precios del mercado de valores. Después de todo, dicen, no es del todo inconcebible que el aumento y la caída de los precios bursátiles estén influenciados por el estado de ánimo del público.

Así que estos chicos tomaron 9.7 millones de tweets publicados por 2.7 millones de tweeters entre marzo y diciembre de 2008 y buscaron correlaciones entre los índices de GPOMS y si Dow Jones Industrial Average subía o bajaba cada día.

Su conclusión extraordinaria es que realmente existe una correlación entre el Dow Jones Industrial Average y uno de los índices de GPOMS: la calma.

De hecho, el índice de calma parece ser un buen predictor de si el Promedio Industrial Dow Jones sube o baja entre 2 y 6 días después. "Encontramos una precisión del 87,6% en la predicción de los cambios diarios de subida y bajada en los valores de cierre del Promedio Industrial Dow Jones", dicen Bollen y compañía.

Es un resultado increíble, que un estado de ánimo de Twitter puede predecir el mercado de valores, pero las cifras parecen apuntar de esa manera.

¿Es realmente posible que el índice de calma esté correlacionado con el mercado de valores? Tal vez. En abril vimos algunos trabajos que muestran cómo se pueden usar los tweets sobre películas para predecir las recaudaciones de taquilla.

Pero hay al menos dos buenas razones para sospechar que este resultado puede no ser todo lo que parece. El primero es la falta de un mecanismo plausible: ¿cómo podría el estado de ánimo de Twitter medido por el índice de calma afectar realmente el promedio industrial Dow Jones hasta seis días después? Nadie lo sabe.

El segundo es que los feeds de Twitter que Bollen y sus colegas usaron no fueron solo de los EE. UU. sino de todo el mundo. Aunque es probable que se suponga que una buena proporción de estos tweeters se basaron en los EE. UU. En 2008, no hay forma de saber qué proporción. Según este cálculo, los tweeters en Timbuktu de alguna manera ayudan a predecir el Promedio Industrial Dow Jones.

De cualquier forma, este trabajo seguramente atraerá interés. Y tomado al pie de la letra, podría ser muy influyente. Si la tranquilidad tiene un valor predictivo real del mercado accionario, veremos una explosión de interés en el análisis financiero de Twitter. Y Bollen y compañía pronto se convertirán en individuos extremadamente ricos.

Ref: arxiv.org/abs/1010.3003: Twitter Mood Predicts The Stock Market

martes, 10 de julio de 2018

20 años del paper de Watts y Strogatz

Veinte años de ciencia de redes

La idea de que todos en el mundo están conectados con todos los demás por solo seis grados de separación fue explicada por el modelo de red del 'mundo pequeño' hace 20 años. Lo que parecía ser un hallazgo de nicho resultó tener enormes consecuencias.

Alessandro Vespignani | Nature
Nature 558, 528-529 (2018)
doi: 10.1038/d41586-018-05444-y

En 1998, Watts y Strogatz[1] introdujeron el modelo de redes de "mundo pequeño", que describe la agrupación y las breves separaciones de nodos que se encuentran en muchas redes de la vida real. Aún recuerdo vívidamente la discusión que tuve con mis colegas físicos estadísticos en ese momento: el modelo fue visto como algo interesante, pero parecía ser simplemente una salida exótica de las estructuras de red regulares, parecidas a grillas, a las que estábamos acostumbrados. Pero cuanto más asimilados fueron los científicos de diferentes campos, más evidente fue su profunda implicación para nuestra comprensión del comportamiento dinámico y las transiciones de fase en fenómenos del mundo real que van desde los procesos de contagio a la difusión de la información. Pronto se hizo evidente que el documento había iniciado una nueva era de investigación que conduciría al establecimiento de la ciencia de redes como un campo multidisciplinario.

Antes de que Watts y Strogatz publicaran su artículo, los algoritmos arquetípicos de generación de redes se basaban en procesos de construcción como los descritos por el modelo Erdös-Rényi[2]. Estos procesos se caracterizan por una falta de conocimiento de los principios que guían la creación de conexiones (enlaces) entre los nodos en las redes, y hacen la suposición simple de que los pares de nodos se pueden conectar al azar con una probabilidad de conexión dada. Tal proceso genera redes aleatorias, en las que la longitud de camino promedio entre dos nodos cualquiera de la red, medida como el menor número de aristas necesarias para conectar los nodos, se escala como el logaritmo del número total de nodos. En otras palabras, la aleatoriedad es suficiente para explicar el fenómeno del mundo pequeño popularizado como "seis grados de separación" 3,4: la idea de que todos en el mundo están conectados con todos los demás a través de una cadena de, como máximo, seis conocidos mutuos.

Sin embargo, la construcción aleatoria no alcanzó a capturar el carácter local de los nodos observados en las redes del mundo real. La exclusividad se mide cuantitativamente mediante el coeficiente de agrupamiento de un nodo, que se define como la relación entre el número de enlaces entre los vecinos de un nodo y el número máximo de dichos enlaces. En las redes del mundo real, la agrupación de nodos se ejemplifica claramente con el axioma "los amigos de mis amigos son mis amigos": la probabilidad de que tres personas sean amigos entre sí en una red social, por ejemplo, es generalmente mucho más alta de lo que sería predicho por una red modelo construida usando el proceso simple y estocástico.

Para superar la dicotomía entre aleatoriedad y clichishness, Watts y Strogatz propusieron un modelo cuyo punto de partida es una red regular que tiene un gran coeficiente de agrupamiento. La estocasticidad se introduce luego al permitir que los enlaces se vuelvan a cablear al azar entre los nodos, con una probabilidad fija de recableado (p) para todos los enlaces. Al sintonizar p, el modelo interpola efectivamente entre una red regular (p → 0) y una red completamente aleatoria (p → 1).

En valores de p muy pequeños, la red resultante es una retícula regular y, por lo tanto, tiene un alto coeficiente de agrupamiento. Sin embargo, incluso a una p pequeña, aparecen atajos entre los nodos distantes de la red, lo que reduce drásticamente la longitud promedio del camino más corto (Fig. 1). Watts y Strogatz demostraron que, dependiendo del número de nodos5, es posible encontrar redes que tengan un gran coeficiente de agrupamiento y distancias medias cortas entre nodos para una amplia gama de valores p, reconciliando así el fenómeno del mundo pequeño con el carácter complejo de la red.

Figura 1 | El modelo de red de mundo pequeño. En 1998, Watts y Strogatz1 describieron un modelo que ayuda a explicar las estructuras de las redes en el mundo real. a. Comenzaron con una red regular, representada aquí como nodos conectados en una red triangular en la que cada nodo está conectado a otros seis nodos. b. Luego permitieron que los enlaces entre nodos se reconectaran al azar, con una probabilidad fija de volver a cablear todos los enlaces. A medida que aumenta la probabilidad, un número creciente de atajos (líneas rojas) conecta nodos distantes en la red. Esto genera el efecto del mundo pequeño: todos los nodos de la red se pueden conectar pasando a lo largo de una pequeña cantidad de enlaces entre nodos, pero los nodos vecinos se conectan entre sí, formando camarillas agrupadas.

El modelo de Watts y Strogatz fue inicialmente considerado simplemente como la explicación de seis grados de separación. Pero posiblemente su impacto más importante fue allanar el camino para estudios sobre el efecto de la estructura de red en una amplia gama de fenómenos dinámicos. Otro documento fue también fundamental: en 1999, Barabási y Albert propusieron el modelo de red de "acoplamiento preferencial" 6, que destacó que la distribución de probabilidad que describe el número de conexiones que se forman entre los nodos en las redes reales a menudo se caracteriza por "cola pesada". 'distribuciones, en lugar de la distribución de Poisson predicha por redes aleatorias. El amplio espectro de comportamientos emergentes y transiciones de fase encapsuladas en redes que tienen conectividad agrupada (como en el modelo de Watts y Strogatz) y una conexión heterogénea (como en el modelo de conexión preferencial) atrajeron la atención de científicos de muchos campos.

Siguieron una serie de descubrimientos, destacando cómo la compleja estructura de tales redes sustenta los sistemas del mundo real, con implicaciones para la robustez de la red, la propagación de epidemias, el flujo de información y la sincronización del comportamiento colectivo a través de las redes7,8. Por ejemplo, el patrón de conectividad del mundo pequeño demostró ser la clave para comprender la estructura de la World Wide Web9 y cómo las áreas anatómicas y funcionales del cerebro se comunican entre sí10. Otras propiedades estructurales de las redes se analizaron poco después del 11-13, como la modularidad y el concepto de motivos estructurales, que ayudaron a los científicos a caracterizar y comprender la arquitectura de sistemas vivos y artificiales, desde redes subcelulares hasta ecosistemas e Internet.

La generación actual de investigación en red fertiliza áreas que se benefician de una potencia de cómputo sin precedentes, grandes conjuntos de datos y nuevas técnicas de modelado computacional, y así proporciona un puente entre la dinámica de los nodos individuales y las propiedades emergentes de las redes macroscópicas. Pero la inmediatez y la simplicidad de los modelos de pequeño tamaño y de conexión preferencial todavía sustentan nuestra comprensión de la topología de red. De hecho, la relevancia de estos modelos para diferentes áreas de la ciencia sentó las bases del campo multidisciplinario ahora conocido como ciencia de redes.

Integrar conocimientos y metodologías de campos tan dispares como las ciencias sociales, la física, la biología, la informática y las matemáticas aplicadas no fue fácil. Tomó varios años encontrar un terreno común, acordar definiciones y conciliar y apreciar los diferentes enfoques que cada campo había adoptado para estudiar redes. Este es todavía un trabajo en progreso, que presenta todas las dificultades y trampas inherentes al trabajo interdisciplinario. Sin embargo, en los últimos 20 años ha surgido una vibrante comunidad de ciencia de redes, con sus propias prestigiosas revistas, institutos de investigación y conferencias a las que asistieron miles de científicos.

En el vigésimo aniversario del documento, más de 18,000 documentos han citado el modelo, que ahora se considera una de las topologías de red de referencia. Watts y Strogatz cerraron su periódico diciendo: "Esperamos que nuestro trabajo estimule más estudios de las redes del mundo pequeño". Tal vez ninguna afirmación haya sido nunca más profética.

domingo, 8 de julio de 2018

Software: Análisis de redes sociales en R

Análisis de redes sociales en R: una revisión de software

Samrachana Adhikari
Escuela Médica de Harvard
Beau Dabbs
Laboratorio Nacional Lawrence Livermore

En la investigación educativa, el análisis de redes sociales se está utilizando ampliamente para estudiar diferentes interacciones y sus implicaciones generales. Recientemente, también ha habido un aumento en el desarrollo de herramientas de software para implementar el análisis de redes sociales. En este artículo, revisamos dos populares paquetes R, igraph y statnet suite, en el contexto del resumen y modelado de redes. Discutimos diferentes aspectos de estos paquetes y demostramos algunas de sus funcionalidades mediante el análisis de una red de abogados de amistad. Finalmente, finalizamos con recomendaciones para usar estos paquetes junto con punteros a recursos adicionales para el análisis de redes en R.

Palabras clave: análisis de red; Paquetes R; igraph; statnetsuite; Abogados en Lazega
red

Snain R Jebs

Leer más publicaciones en Calaméo

viernes, 6 de julio de 2018

Desinformación, sesgos y complejidad de la viralidad

La desinformación y los sesgos infectan las redes sociales, tanto intencionalmente como accidentalmente

Las personas que comparten una posible información errónea en Twitter (en morado) rara vez llegan a ver correcciones o verificación de datos (en naranja). Shao et al., CC BY-ND

Giovanni Luca Ciampaglia y Filippo Menczer | The Conversation

Las redes sociales se encuentran entre las principales fuentes de noticias en los EE. UU. Y en todo el mundo. Sin embargo, los usuarios están expuestos a contenido de precisión cuestionable, que incluye teorías de conspiración, clickbait, contenido hiperpartidista, pseudociencia e incluso informes inventados de "noticias falsas".

No es de extrañar que haya tanta desinformación publicada: el spam y el fraude en línea son lucrativos para los delincuentes, y la propaganda gubernamental y política produce beneficios tanto partidarios como financieros. Pero el hecho de que el contenido de baja credibilidad se propague tan rápida y fácilmente sugiere que las personas y los algoritmos detrás de las plataformas de medios sociales son vulnerables a la manipulación.

Explicando las herramientas desarrolladas en el Observatorio de Redes Sociales.

Nuestra investigación ha identificado tres tipos de prejuicios que hacen que el ecosistema de las redes sociales sea vulnerable a la desinformación intencional y accidental. Es por eso que nuestro Observatorio de Redes Sociales de la Universidad de Indiana está creando herramientas para ayudar a las personas a tomar conciencia de estos prejuicios y protegerse de las influencias externas diseñadas para explotarlas.

Sesgo en el cerebro

Los sesgos cognitivos se originan en la forma en que el cerebro procesa la información que cada persona encuentra todos los días. El cerebro puede manejar solo una cantidad finita de información, y demasiados estímulos entrantes pueden causar sobrecarga de información. Eso en sí mismo tiene serias implicaciones para la calidad de la información en las redes sociales. Hemos descubierto que la fuerte competencia por la atención limitada de los usuarios significa que algunas ideas se vuelven virales a pesar de su baja calidad, incluso cuando las personas prefieren compartir contenido de alta calidad.

Para evitar sentirse abrumado, el cerebro usa una serie de trucos. Estos métodos generalmente son efectivos, pero también pueden convertirse en sesgos cuando se aplican en contextos incorrectos.

Un acceso directo cognitivo ocurre cuando una persona decide si comparte una historia que aparece en su feed de redes sociales. Las personas se ven muy afectadas por las connotaciones emocionales de un titular, a pesar de que no es un buen indicador de la precisión de un artículo. Mucho más importante es quién escribió la pieza.

Para contrarrestar este sesgo y ayudar a las personas a prestar más atención a la fuente de un reclamo antes de compartirlo, desarrollamos Fakey, un juego de alfabetización móvil de noticias (gratuito para Android e iOS) que simula un medio de noticias típico de las redes sociales, con una mezcla de noticias artículos de fuentes principales y de poca credibilidad. Los jugadores obtienen más puntos por compartir noticias de fuentes confiables y marcar contenido sospechoso para verificar los hechos. En el proceso, aprenden a reconocer señales de credibilidad de la fuente, como reclamos hiperpartidistas y titulares con carga emocional.

Screenshots del Fakey game. Mihai Avram and Filippo Menczer

Sesgo en la sociedad

Otra fuente de sesgo proviene de la sociedad. Cuando las personas se conectan directamente con sus pares, los sesgos sociales que guían su selección de amigos influyen en la información que ven.

De hecho, en nuestra investigación hemos descubierto que es posible determinar las tendencias políticas de un usuario de Twitter simplemente observando las preferencias partidistas de sus amigos. Nuestro análisis de la estructura de estas redes de comunicación partidistas encontró que las redes sociales son particularmente eficientes en la diseminación de información, precisa o no, cuando están estrechamente vinculadas y desconectadas de otras partes de la sociedad.

La tendencia a evaluar la información de forma más favorable si proviene de sus propios círculos sociales crea "cámaras de eco" que están maduras para la manipulación, ya sea consciente o involuntariamente. Esto ayuda a explicar por qué tantas conversaciones en línea se convierten en confrontaciones de "nosotros contra ellos".

Para estudiar cómo la estructura de las redes sociales en línea hace que los usuarios sean vulnerables a la desinformación, creamos Hoaxy, un sistema que rastrea y visualiza la propagación del contenido desde fuentes de baja credibilidad, y cómo compite con el contenido de verificación de datos. Nuestro análisis de los datos recopilados por Hoaxy durante las elecciones presidenciales de EE. UU. En 2016 muestra que las cuentas de Twitter que compartieron información falsa quedaron casi completamente aisladas de las correcciones hechas por los inspectores de hechos.

Cuando profundizamos en las cuentas que difunden información errónea, encontramos un grupo central de cuentas muy denso retwitteándose casi exclusivamente, incluidos varios bots. Las únicas veces que los usuarios del grupo desinformado citaron o mencionaron organizaciones de verificación de hechos fueron cuando cuestionaron su legitimidad o afirmaron lo contrario de lo que escribieron.

Una captura de pantalla de una búsqueda de Hoaxy muestra cómo los bots comunes, en rojo y rosa oscuro, están difundiendo una historia falsa en Twitter. Hoaxy

Sesgo en la máquina

El tercer grupo de sesgos surge directamente de los algoritmos utilizados para determinar lo que las personas ven en línea. Tanto las plataformas de redes sociales como los motores de búsqueda los emplean. Estas tecnologías de personalización están diseñadas para seleccionar solo el contenido más atractivo y relevante para cada usuario individual. Pero al hacerlo, puede terminar reforzando los sesgos cognitivos y sociales de los usuarios, lo que los hace aún más vulnerables a la manipulación.
Por ejemplo, las herramientas de publicidad detalladas integradas en muchas plataformas de redes sociales permiten a los activistas de la desinformación explotar el sesgo de confirmación adaptando los mensajes a las personas que ya están inclinadas a creer en ellos.
Además, si un usuario a menudo hace clic en los enlaces de Facebook desde una fuente de noticias en particular, Facebook tenderá a mostrar a esa persona más del contenido de ese sitio. Este efecto llamado "burbuja de filtro" puede aislar a las personas desde perspectivas diversas, lo que fortalece el sesgo de confirmación.

Nuestra propia investigación muestra que las plataformas de redes sociales exponen a los usuarios a un conjunto de fuentes menos diversas que los sitios de medios no sociales como Wikipedia. Debido a que esto está al nivel de una plataforma completa, no de un solo usuario, llamamos a esto el sesgo de homogeneidad.

Otro ingrediente importante de las redes sociales es la información que está en tendencia en la plataforma, de acuerdo con lo que obtiene la mayor cantidad de clics. Llamamos a este sesgo de popularidad, porque hemos descubierto que un algoritmo diseñado para promover contenido popular puede afectar negativamente la calidad general de la información en la plataforma. Esto también alimenta el sesgo cognitivo existente, reforzando lo que parece ser popular independientemente de su calidad.

Todos estos sesgos algorítmicos pueden ser manipulados por bots sociales, programas informáticos que interactúan con los humanos a través de cuentas de redes sociales. La mayoría de los bots sociales, como el Big Ben de Twitter, son inofensivos. Sin embargo, algunos ocultan su naturaleza real y se utilizan con fines maliciosos, como aumentar la desinformación o crear falsamente la apariencia de un movimiento de base, también llamado "astroturfing". Encontramos pruebas de este tipo de manipulación en el período previo al 2010 Elecciones de medio término en los EE. UU.

Para estudiar estas estrategias de manipulación, desarrollamos una herramienta para detectar bots sociales llamada Botometer. Botometer utiliza el aprendizaje automático para detectar cuentas de bots, mediante la inspección de miles de características diferentes de las cuentas de Twitter, como los tiempos de sus publicaciones, la frecuencia de los tweets y las cuentas que sigue y los retweets. No es perfecto, pero reveló que hasta el 15 por ciento de las cuentas de Twitter muestran signos de ser bots.

Usando Botometer junto con Hoaxy, analizamos el núcleo de la red de desinformación durante la campaña presidencial 2016 en Estados Unidos. Encontramos muchos bots explotando los sesgos cognitivos, de confirmación y de popularidad de sus víctimas y los sesgos algorítmicos de Twitter.

Estos robots pueden construir burbujas de filtro alrededor de usuarios vulnerables, proporcionándoles falsas afirmaciones y desinformación. En primer lugar, pueden atraer la atención de los usuarios humanos que apoyan a un candidato en particular al tuitear los hashtags de ese candidato o al mencionar y retuitear a la persona. Luego, los bots pueden amplificar las afirmaciones falsas que manchan a los oponentes retwitteando artículos de fuentes de poca credibilidad que coinciden con ciertas palabras clave. Esta actividad también hace que el algoritmo destaque para otros usuarios historias falsas que se comparten ampliamente.

Comprender vulnerabilidades complejas

A pesar de que nuestra investigación, y la de otros, muestra cómo las personas, las instituciones e incluso sociedades enteras pueden ser manipuladas en las redes sociales, quedan muchas preguntas por responder. Es especialmente importante descubrir cómo estos diferentes sesgos interactúan entre sí, creando potencialmente vulnerabilidades más complejas.

Herramientas como la nuestra ofrecen a los usuarios de Internet más información sobre desinformación y, por lo tanto, cierto grado de protección contra sus daños. Las soluciones probablemente no sean solo tecnológicas, aunque probablemente haya algunos aspectos técnicos para ellas. Pero deben tener en cuenta los aspectos cognitivos y sociales del problema.

miércoles, 4 de julio de 2018

Otra introducción al ARS

Análisis de redes sociales: estado del arte

Contribuido por: Bart Baesens | datamining apps

Introducción

En las últimas décadas, el uso de sitios web de redes sociales en la vida cotidiana de todos está en auge. Las personas pueden continuar sus conversaciones en sitios de redes sociales como Facebook, Twitter, LinkedIn, Google+, Instagram, etc., y compartir sus experiencias con sus conocidos, amigos, familiares, etc. Solo hace falta un clic para actualizar su ubicación al resto de el mundo. Hay muchas opciones para transmitir sus actividades actuales: por una imagen, video, ubicación geográfica, enlaces o simplemente texto sin formato.

Los usuarios de los sitios de redes sociales en línea revelan explícitamente sus relaciones con otras personas. En consecuencia, los sitios de redes sociales son un mapeo casi perfecto de las relaciones que existen en el mundo real. Saben quién eres, cuáles son tus aficiones e intereses, con quién te casas, cuántos hijos tienes, tus amigos con los que trabajas todas las semanas, tus amigos del club del vino, etc. Esta red interconectada de gente que sabe el uno al otro de alguna manera es una fuente de información y conocimiento extremadamente interesante. Los gerentes de marketing ya no necesitan adivinar quién podría influir en quién crear la campaña adecuada. Está todo allí ... cuál es el problema. Los sitios de redes sociales reconocen la riqueza de las fuentes de datos que tienen y no están dispuestos a compartirlos sin costo. Esos datos a menudo se privatizan y regulan, y están bien ocultos para uso comercial. Por otro lado, los sitios de redes sociales ofrecen muchas facilidades incorporadas a los gerentes y otras partes interesadas para lanzar y administrar sus campañas de mercadotecnia explotando la red social, sin publicar la representación exacta de la red.

Sin embargo, las empresas a menudo se olvidan de que pueden reconstruir una parte de la red social utilizando datos internos. Los proveedores de telecomunicaciones, por ejemplo, tienen una base de datos transaccional masiva donde registran el comportamiento de llamadas de sus clientes. Bajo el supuesto de que los buenos amigos se llaman entre sí más a menudo, podemos recrear la red e indicar la fuerza de enlace entre las personas en función de la frecuencia y / o duración de las llamadas. Los proveedores de infraestructura de Internet pueden mapear las relaciones entre las personas que usan las direcciones IP de sus clientes. Las direcciones IP que se comunican frecuentemente están representadas por una relación más fuerte. Al final, la red de IP contemplará la estructura relacional entre las personas desde otro punto de vista, pero hasta cierto punto, como se observa en la realidad. Se pueden encontrar muchos más ejemplos en las industrias de banca, venta minorista y juegos en línea. En este artículo, discutimos cómo se pueden aprovechar las redes sociales para el análisis.

Definiciones de redes sociales

Una red social se compone de nodos (vértices) y enlaces. Ambos deben estar claramente definidos al comienzo del análisis. Un nodo (vértice) podría definirse como un cliente (privado / profesional), hogar / familia, paciente, médico, papel, autor, terrorista, página web ... Un enlace puede definirse como la relación de un amigo, una llamada, la transmisión de un enfermedad, una relación de "seguimiento", una referencia, etc. Tenga en cuenta que los enlaces también se pueden ponderar según la frecuencia de interacción, la importancia del intercambio de información, la intimidad, la intensidad emocional, etc. Por ejemplo: en una configuración de predicción de abandono, el enlace puede ponderarse de acuerdo con el tiempo (total) en que dos clientes se llamaron durante un período específico. Las redes sociales se pueden representar como un sociograma. Esto se ilustra en la figura siguiente por la cual el color de los nodos corresponde a un estado específico (por ejemplo, revuelto o no revuelto).

Ejemplo de sociograma.

Los sociogramas son útiles para representar redes de pequeña escala. Para redes de gran escala, la red se representa típicamente como una matriz (ver a continuación). Estas matrices serán simétricas [1] y típicamente muy dispersas (con muchos ceros). La matriz también puede contener los pesos si se producen conexiones ponderadas.

	C1	C2	C3	C4
C1	–	1	1	0
C2	1	–	0	1
C3	1	0	–	0
C4	0	1	0	–

Representación matricial de una red social.

En lo que sigue, discutimos cómo se pueden aprovechar las redes sociales para los análisis descriptivos y predictivos.

Análisis descriptivo: métricas de redes sociales y minería comunitaria

Recuerde, el objetivo del análisis descriptivo es describir un conjunto de datos utilizando un conjunto de estadísticas o métricas clave. Una red social se puede caracterizar por varias métricas de centralidad. Las medidas de centralidad más importantes se muestran en la siguiente tabla.

Geodésica Ruta más corta entre dos nodos en la red.
Grado Número de conexiones de un nodo (dentro versus fuera de grado si las conexiones están dirigidas).
Cercanía La distancia promedio de un nodo a todos los demás nodos de la red (recíproco de lejanía).
Intermediación Cuenta el número de veces que un nodo o enlace se encuentra en la ruta más corta entre dos nodos de la red.
Centro teórico de grafos El nodo con la distancia máxima más pequeña a todos los otros nodos de la red.

Medidas de centralidad de red común.

Estas métricas ahora se pueden ilustrar con el ejemplo de juguete de red Kite representado en la siguiente figura [2]:

La red barrilete.

Grado		Cercanía		Intermediación
6	Diane	0.64	Fernando	14	Heather
5	Fernando	0.64	Garth	8.33	Fernando
5	Garth	0.6	Diane	8.33	Garth
4	Andre	0.6	Heather	8	Ike
4	Beverly	0.53	Andre	3.67	Diane
3	Carol	0.53	Beverly	0.83	Andre
3	Ed	0.5	Carol	0.83	Beverly
3	Heather	0.5	Ed	0	Carol
2	Ike	0.43	Ike	0	Ed
1	Jane	0.31	Jane	0	Jane

Medidas de centralidad para la red Kite.

La tabla anterior informa las medidas de centralidad para la red Kite. Según el grado, Diane es la más importante ya que tiene la mayoría de las conexiones. Ella trabaja como un conector o concentrador. Sin embargo, tenga en cuenta que solo conecta a los que ya están conectados entre sí. Fernando y Garth son los más cercanos a todos los demás. Son los mejor posicionados para comunicar mensajes que deben fluir rápidamente a todos los demás nodos de la red. Heather tiene la mayor intersección. Ella se sienta entre dos comunidades importantes (Ike y Jane contra el resto). Ella juega un rol de intermediario entre ambas comunidades, pero también es un punto único de falla. Tenga en cuenta que la medida de intersección a menudo se utiliza para la minería comunitaria. Una técnica popular aquí es el algoritmo de Girvan-Newman que funciona de la siguiente manera [3]:

La intersección de todos los enlaces existentes en la red se calcula primero.
El enlace con la mayor intersección se elimina.
La interdependencia de todos los enlaces afectados por la eliminación se vuelve a calcular.
Los pasos 2 y 3 se repiten hasta que no quedan enlaces.

El resultado es esencialmente un dendrograma (similar a, por ejemplo, agrupamiento jerárquico), que luego se puede utilizar para decidir el número óptimo de comunidades. La minería comunitaria sirve para varios propósitos. Permite comprender el comportamiento de subconjuntos homogéneos en su red que pueden ser especialmente relevantes en análisis de marketing (por ejemplo, para recomendaciones específicas) o detección de fraude (para detectar, por ejemplo, anillos de fraude). Además, la información de la comunidad también puede aprovecharse para el análisis predictivo, utilizando, p. procedimientos de producción como explicamos a continuación.

Análisis predictivo: aprendizaje de redes sociales

En el análisis predictivo, el objetivo es medir una variable objetivo de interés. Los ejemplos podrían ser abandono, fraude, valor predeterminado o valor de vida del cliente (CLV). En el aprendizaje de redes sociales, el objetivo es calcular la probabilidad de membresía de clase (por ejemplo, probabilidad de abandono) de un nodo específico, dado el estado de los otros nodos de la red. Varios desafíos importantes surgen cuando se aprende en las redes sociales. Un desafío clave es que los datos no son independientes y están distribuidos de forma idéntica (IID), una suposición que a menudo se hace en modelos estadísticos clásicos (por ejemplo, regresión lineal y logística). El comportamiento de correlación entre los nodos implica que la pertenencia a la clase de un nodo puede influir en la pertenencia a la clase de un nodo relacionado. A continuación, no es fácil crear una división en un conjunto de capacitación para el desarrollo del modelo y un conjunto de prueba para la validación del modelo, ya que toda la red está interconectada y no se puede cortar en dos partes. Además, muchas redes son de gran escala (por ejemplo, un gráfico de llamadas de un proveedor de telecomunicaciones) y es necesario desarrollar procedimientos computacionales eficientes para hacer el aprendizaje. Finalmente, no se debe olvidar la forma tradicional de hacer análisis utilizando solo información específica de nodo (es decir, sin los aspectos de red) ya que esta información puede ser muy valiosa para la predicción también.

Una forma directa de aprovechar las redes sociales para el análisis predictivo es resumir la red en un conjunto de características que luego se pueden combinar con características que no sean de red (es decir, locales) para el modelado predictivo. Un ejemplo popular de esto es la regresión logística relacional según lo introducido por Lu y Getoor (2003) [4]. Este enfoque básicamente parte de un conjunto de datos con características locales específicas del nodo y le agrega características de red de la siguiente manera:

La clase de vecino más frecuente (modo-enlace);
Frecuencia de las clases de los vecinos (enlace de frecuencia);
Indicadores binarios que indican presencia de clase (enlace binario).

Esto se ilustra en la figura siguiente para el cliente Bart.

Regresión logística relacional.

Luego, se puede estimar un modelo de regresión logística o árbol de decisión utilizando el conjunto de datos con características locales y de red. Tenga en cuenta que existe una cierta correlación entre las características de red agregadas, que deben filtrarse durante un procedimiento de selección de entrada. La creación de características de red también se llama Featurization, ya que las características de la red se agregan básicamente como características especiales al conjunto de datos. Estas características pueden medir el comportamiento de los vecinos en términos de la variable objetivo (por ejemplo, abandono o no) o en términos de las características específicas del nodo local (por ejemplo, edad, promociones, etc.). La figura a continuación proporciona un ejemplo en el que se agrega una característica que describe la cantidad de contactos con churners. La columna final etiquetada 'Churn' es la variable objetivo.

Ejemplo de Caracterización con características que describen el comportamiento objetivo de los vecinos.

La figura a continuación proporciona un ejemplo donde se agregan características que describen el comportamiento del nodo local de los vecinos.

Ejemplo de Caracterización con características que describen el comportamiento del nodo local de los vecinos.

Privacidad

Obviamente, el uso de datos de redes sociales para fines analíticos también requiere una reflexión exhaustiva sobre la privacidad. Con frecuencia, los clientes desconocen sus rastreos de datos, tanto en línea como fuera de línea, y cómo pueden analizarse. Por lo tanto, especialmente bajo la regulación GDPR actual, es de vital importancia que las empresas siempre divulguen adecuadamente qué datos recopilan y cómo los usan. Al hacerlo, no solo deben enfocarse en posibles beneficios de privacidad sino también en los beneficios para el cliente, de modo que los clientes puedan tomar una decisión bien informada sobre si, cuándo y cómo se pueden usar sus datos.

Conclusión

En este artículo, nos acercamos al análisis de redes sociales. Comenzamos brindando definiciones clave de redes sociales. A continuación, ilustramos cómo se pueden aprovechar las redes sociales para el análisis descriptivo resumiéndolos mediante métricas de redes sociales como cercanía, interdependencia, etc. A continuación, desarrollamos el uso de redes sociales para el análisis predictivo utilizando varios procedimientos de presentación. Es importante señalar que aunque las redes sociales representan un nuevo tipo de información, definitivamente no se debe sobreestimar su poder. Más específicamente, uno no debería abandonar los datos tradicionales que no pertenecen a la red para hacer análisis. A lo largo de nuestra investigación, encontramos que los mejores modelos analíticos para, p. Predicción de abandono de pagos: la detección de fraudes generalmente se genera utilizando una combinación de datos de red y no de red. Finalmente, es importante tener en cuenta que siempre que se analicen datos de redes sociales, la privacidad siempre debe respetarse.

Referencias y notas

[1] Tenga en cuenta que este es solo el caso de las redes no dirigidas. Para redes dirigidas, que representan p. una relación 'siguiente' que no es necesariamente recíproca, la matriz no será simétrica.
[2] Krackhardt, D, Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, 35, pp. 342-369, 1990.
[3] Girvan M., Newman M. E. J., Community structure in social and biological networks, Proceedings of the National Academy of Sciences, USA 99, pp. 7821–7826, 2002.
[4] Lu Q., Getoor L., Link-based Classification, Proceeding of the Twentieth Conference on Machine Learning (ICML-2003), Washington DC, 2003.

Páginas