lunes, 16 de julio de 2018

Emociones atraen amigos a las páginas de Facebook

Emociones atraen amigos cercanos: Análisis de la estructura de red social de las páginas de fans de Facebook

Swarm Creativity


Recientemente nos preguntamos si la estructura de las redes sociales de los fanáticos de una marca, una estrella o una causa nos dice cuán apasionados son los fanáticos. Para ser más precisos, estábamos viendo la estructura de red de la red de amistad de las páginas de fans de Facebook. Esto significa que recopilamos, en la medida de lo que se puede acceder públicamente, la red de amistad de las personas que hicieron clic en el botón "Me gusta" en la página de un fan.
Para empezar, mira la página de fans de nuestra propia conferencia COINs2010 (por cierto, la conferencia será próximamente en Savannah del 7 al 9 de octubre en SCAD, esperamos ver a muchos de ustedes allí).



Los puntos oscuros en la red son los fanáticos de COINs2010, los puntos verdes son sus amigos. Esto significa que para este análisis inicial vimos cuántos y cuán bien conectados están los amigos de un fan de COINs2010. Ignoramos los enlaces directos entre los fanáticos, pero nos concentramos en su red de amistad externa.

 En este primer intento, observamos un total de 15 grupos de fanáticos en 5 categorías, consulte la tabla a continuación:



Nosotros (admitidamente subjetivamente) clasificamos la emotividad de 1 (marcas de producto) a 5 (causas médicas). Encontramos una correlación positiva de 0.33 (aunque no significativa) entre la densidad de la red y la emocionalidad. Esto significa que cuanto más conectados están los amigos de una causa o marca, más emocionados están por su causa. Aún más interesante, encontramos una correlación negativa significativa entre el coeficiente de agrupamiento de -0.57. Esto significa que cuanto más se agrupen los amigos de los fanáticos en subgrupos, menos emocionales son.

Las conclusiones serían que las causas con los partidarios más emotivos tienen una red densa, pero uniformemente repartida, con pocos subgrupos claramente separados.

Con base en este análisis ciertamente muy preliminar, ¿qué medidas puede tomar para promover su causa? La respuesta es simple: ayude a tejer la red de sus seguidores.
1. conexiones del intermediario entre los partidarios
2. luchar contra la fragmentación de los partidarios mediante la conexión de subgrupos
En resumen, ¡ayuda a construir una gran familia feliz!

sábado, 14 de julio de 2018

Visualizando Facebook con Gephi

Visualizando su red de Facebook con Gephi

Esta es una visualización de mi propia red de Facebook que hice usando el software (gratuito) Gephi y la aplicación de Facebook netvizz. Cada nodo en la red es uno de mis amigos de Facebook, y dos amigos están conectados entre sí si son amigos de Facebook entre sí. El tamaño del nodo corresponde al "grado" del nodo, lo que significa cuántas conexiones tiene. En este caso, eso significa cuántos de mis amigos de Facebook esa persona es amigo de Facebook. (Nota: eliminé los nombres de los nodos para proteger la privacidad de mis amigos de Facebook).



Los colores de los nodos indican comunidades de amigos que se encuentran utilizando un algoritmo de agrupamiento basado en la "modularidad" de la red. Básicamente, lo que hace el algoritmo es intentar agrupar los nodos en comunidades con muchas conexiones dentro de cada comunidad y no demasiadas conexiones entre las comunidades. Aunque el algoritmo no sabe nada sobre mis amigos, aparte de la red de conexiones (ni siquiera sabe que son personas), hace un buen trabajo seleccionando grupos de mis amigos que pertenecen a las mismas comunidades. en la vida real. Por ejemplo, el grupo púrpura en la esquina superior derecha son personas que conozco de la escuela de posgrado, el pequeño grupo verde en la esquina inferior derecha son personas del Instituto Noroeste de Sistemas Complejos. El gran grupo en el medio es gente que conozco de la escuela secundaria, con la gente de la banda (o groupies de la banda) en verde en el lado derecho. Mi esposa es el nodo violeta que cierra la brecha entre mis amigos de la escuela de postgrado y mis amigos de la escuela.

Hicimos esto como un ejercicio en el curso de Dinámicas Sociales y Redes que enseño en Kellogg. Si desea ver cómo puede mapear su red, puede encontrar instrucciones en mi sitio web Kellogg aquí.

Social Dynamics

jueves, 12 de julio de 2018

Estados de ánimos en Twitter predicen el precio de las acciones

El estado de ánimo de Twitter predice el mercado de valores

Un análisis de casi 10 millones de tweets de 2008 muestra cómo se pueden usar para predecir los movimientos del mercado de valores hasta 6 días antes
MIT Technology Review




No faltan personas que dicen saber cómo predecir si la bolsa subirá o bajará un día en particular. Pero hay pocos, si es que hay alguno, que puedan hacerlo consistentemente mejor que lanzar una moneda.

Para muchos economistas es fácil de explicar. La teoría económica convencional sostiene que el movimiento de los precios en un mercado perfecto debe seguir una caminata aleatoria y debe ser imposible de predecir con una precisión superior al 50 por ciento.

Sin embargo, hay una mosca en este ungüento económico. Numerosos estudios muestran que los precios en el mercado bursátil no son aleatorios y esto implica que deben ser predecibles. La pregunta es cómo hacerlo de manera consistente.

Hoy, Johan Bollen, de la Universidad de Indiana, y un par de amigos dicen que encontraron justo ese predictor enterrado en la corriente de palabras aparentemente sin sentido que emana del Twitterverse.

Desde hace algún tiempo, los investigadores han intentado extraer información útil de este firehose. Una idea es que la corriente de pensamiento es representativa del estado mental de la humanidad en cualquier instante. Varios grupos han ideado algoritmos para analizar este flujo de datos con la esperanza de utilizarlo para tomar la temperatura de varios estados humanos.

Un algoritmo, llamado Google-Profile of Mood States (GPOMS), registra el nivel de seis estados: felicidad, amabilidad, estado de alerta, seguridad, vitalidad y calma.

La pregunta que hacen Bollen y sus colegas es si alguno de estos estados se correlaciona con los precios del mercado de valores. Después de todo, dicen, no es del todo inconcebible que el aumento y la caída de los precios bursátiles estén influenciados por el estado de ánimo del público.

Así que estos chicos tomaron 9.7 millones de tweets publicados por 2.7 millones de tweeters entre marzo y diciembre de 2008 y buscaron correlaciones entre los índices de GPOMS y si Dow Jones Industrial Average subía o bajaba cada día.

Su conclusión extraordinaria es que realmente existe una correlación entre el Dow Jones Industrial Average y uno de los índices de GPOMS: la calma.

De hecho, el índice de calma parece ser un buen predictor de si el Promedio Industrial Dow Jones sube o baja entre 2 y 6 días después. "Encontramos una precisión del 87,6% en la predicción de los cambios diarios de subida y bajada en los valores de cierre del Promedio Industrial Dow Jones", dicen Bollen y compañía.

Es un resultado increíble, que un estado de ánimo de Twitter puede predecir el mercado de valores, pero las cifras parecen apuntar de esa manera.

¿Es realmente posible que el índice de calma esté correlacionado con el mercado de valores? Tal vez. En abril vimos algunos trabajos que muestran cómo se pueden usar los tweets sobre películas para predecir las recaudaciones de taquilla.

Pero hay al menos dos buenas razones para sospechar que este resultado puede no ser todo lo que parece. El primero es la falta de un mecanismo plausible: ¿cómo podría el estado de ánimo de Twitter medido por el índice de calma afectar realmente el promedio industrial Dow Jones hasta seis días después? Nadie lo sabe.

El segundo es que los feeds de Twitter que Bollen y sus colegas usaron no fueron solo de los EE. UU. sino de todo el mundo. Aunque es probable que se suponga que una buena proporción de estos tweeters se basaron en los EE. UU. En 2008, no hay forma de saber qué proporción. Según este cálculo, los tweeters en Timbuktu de alguna manera ayudan a predecir el Promedio Industrial Dow Jones.

De cualquier forma, este trabajo seguramente atraerá interés. Y tomado al pie de la letra, podría ser muy influyente. Si la tranquilidad tiene un valor predictivo real del mercado accionario, veremos una explosión de interés en el análisis financiero de Twitter. Y Bollen y compañía pronto se convertirán en individuos extremadamente ricos.


Ref: arxiv.org/abs/1010.3003: Twitter Mood Predicts The Stock Market




martes, 10 de julio de 2018

20 años del paper de Watts y Strogatz

Veinte años de ciencia de redes

La idea de que todos en el mundo están conectados con todos los demás por solo seis grados de separación fue explicada por el modelo de red del 'mundo pequeño' hace 20 años. Lo que parecía ser un hallazgo de nicho resultó tener enormes consecuencias.

Alessandro Vespignani | Nature
Nature 558, 528-529 (2018)
doi: 10.1038/d41586-018-05444-y

En 1998, Watts y Strogatz[1] introdujeron el modelo de redes de "mundo pequeño", que describe la agrupación y las breves separaciones de nodos que se encuentran en muchas redes de la vida real. Aún recuerdo vívidamente la discusión que tuve con mis colegas físicos estadísticos en ese momento: el modelo fue visto como algo interesante, pero parecía ser simplemente una salida exótica de las estructuras de red regulares, parecidas a grillas, a las que estábamos acostumbrados. Pero cuanto más asimilados fueron los científicos de diferentes campos, más evidente fue su profunda implicación para nuestra comprensión del comportamiento dinámico y las transiciones de fase en fenómenos del mundo real que van desde los procesos de contagio a la difusión de la información. Pronto se hizo evidente que el documento había iniciado una nueva era de investigación que conduciría al establecimiento de la ciencia de redes como un campo multidisciplinario.

Antes de que Watts y Strogatz publicaran su artículo, los algoritmos arquetípicos de generación de redes se basaban en procesos de construcción como los descritos por el modelo Erdös-Rényi[2]. Estos procesos se caracterizan por una falta de conocimiento de los principios que guían la creación de conexiones (enlaces) entre los nodos en las redes, y hacen la suposición simple de que los pares de nodos se pueden conectar al azar con una probabilidad de conexión dada. Tal proceso genera redes aleatorias, en las que la longitud de camino promedio entre dos nodos cualquiera de la red, medida como el menor número de aristas necesarias para conectar los nodos, se escala como el logaritmo del número total de nodos. En otras palabras, la aleatoriedad es suficiente para explicar el fenómeno del mundo pequeño popularizado como "seis grados de separación" 3,4: la idea de que todos en el mundo están conectados con todos los demás a través de una cadena de, como máximo, seis conocidos mutuos.

Sin embargo, la construcción aleatoria no alcanzó a capturar el carácter local de los nodos observados en las redes del mundo real. La exclusividad se mide cuantitativamente mediante el coeficiente de agrupamiento de un nodo, que se define como la relación entre el número de enlaces entre los vecinos de un nodo y el número máximo de dichos enlaces. En las redes del mundo real, la agrupación de nodos se ejemplifica claramente con el axioma "los amigos de mis amigos son mis amigos": la probabilidad de que tres personas sean amigos entre sí en una red social, por ejemplo, es generalmente mucho más alta de lo que sería predicho por una red modelo construida usando el proceso simple y estocástico.

Para superar la dicotomía entre aleatoriedad y clichishness, Watts y Strogatz propusieron un modelo cuyo punto de partida es una red regular que tiene un gran coeficiente de agrupamiento. La estocasticidad se introduce luego al permitir que los enlaces se vuelvan a cablear al azar entre los nodos, con una probabilidad fija de recableado (p) para todos los enlaces. Al sintonizar p, el modelo interpola efectivamente entre una red regular (p → 0) y una red completamente aleatoria (p → 1).

En valores de p muy pequeños, la red resultante es una retícula regular y, por lo tanto, tiene un alto coeficiente de agrupamiento. Sin embargo, incluso a una p pequeña, aparecen atajos entre los nodos distantes de la red, lo que reduce drásticamente la longitud promedio del camino más corto (Fig. 1). Watts y Strogatz demostraron que, dependiendo del número de nodos5, es posible encontrar redes que tengan un gran coeficiente de agrupamiento y distancias medias cortas entre nodos para una amplia gama de valores p, reconciliando así el fenómeno del mundo pequeño con el carácter complejo de la red.




Figura 1 | El modelo de red de mundo pequeño. En 1998, Watts y Strogatz1 describieron un modelo que ayuda a explicar las estructuras de las redes en el mundo real. a. Comenzaron con una red regular, representada aquí como nodos conectados en una red triangular en la que cada nodo está conectado a otros seis nodos. b. Luego permitieron que los enlaces entre nodos se reconectaran al azar, con una probabilidad fija de volver a cablear todos los enlaces. A medida que aumenta la probabilidad, un número creciente de atajos (líneas rojas) conecta nodos distantes en la red. Esto genera el efecto del mundo pequeño: todos los nodos de la red se pueden conectar pasando a lo largo de una pequeña cantidad de enlaces entre nodos, pero los nodos vecinos se conectan entre sí, formando camarillas agrupadas.



El modelo de Watts y Strogatz fue inicialmente considerado simplemente como la explicación de seis grados de separación. Pero posiblemente su impacto más importante fue allanar el camino para estudios sobre el efecto de la estructura de red en una amplia gama de fenómenos dinámicos. Otro documento fue también fundamental: en 1999, Barabási y Albert propusieron el modelo de red de "acoplamiento preferencial" 6, que destacó que la distribución de probabilidad que describe el número de conexiones que se forman entre los nodos en las redes reales a menudo se caracteriza por "cola pesada". 'distribuciones, en lugar de la distribución de Poisson predicha por redes aleatorias. El amplio espectro de comportamientos emergentes y transiciones de fase encapsuladas en redes que tienen conectividad agrupada (como en el modelo de Watts y Strogatz) y una conexión heterogénea (como en el modelo de conexión preferencial) atrajeron la atención de científicos de muchos campos.

Siguieron una serie de descubrimientos, destacando cómo la compleja estructura de tales redes sustenta los sistemas del mundo real, con implicaciones para la robustez de la red, la propagación de epidemias, el flujo de información y la sincronización del comportamiento colectivo a través de las redes7,8. Por ejemplo, el patrón de conectividad del mundo pequeño demostró ser la clave para comprender la estructura de la World Wide Web9 y cómo las áreas anatómicas y funcionales del cerebro se comunican entre sí10. Otras propiedades estructurales de las redes se analizaron poco después del 11-13, como la modularidad y el concepto de motivos estructurales, que ayudaron a los científicos a caracterizar y comprender la arquitectura de sistemas vivos y artificiales, desde redes subcelulares hasta ecosistemas e Internet.

La generación actual de investigación en red fertiliza áreas que se benefician de una potencia de cómputo sin precedentes, grandes conjuntos de datos y nuevas técnicas de modelado computacional, y así proporciona un puente entre la dinámica de los nodos individuales y las propiedades emergentes de las redes macroscópicas. Pero la inmediatez y la simplicidad de los modelos de pequeño tamaño y de conexión preferencial todavía sustentan nuestra comprensión de la topología de red. De hecho, la relevancia de estos modelos para diferentes áreas de la ciencia sentó las bases del campo multidisciplinario ahora conocido como ciencia de redes.

Integrar conocimientos y metodologías de campos tan dispares como las ciencias sociales, la física, la biología, la informática y las matemáticas aplicadas no fue fácil. Tomó varios años encontrar un terreno común, acordar definiciones y conciliar y apreciar los diferentes enfoques que cada campo había adoptado para estudiar redes. Este es todavía un trabajo en progreso, que presenta todas las dificultades y trampas inherentes al trabajo interdisciplinario. Sin embargo, en los últimos 20 años ha surgido una vibrante comunidad de ciencia de redes, con sus propias prestigiosas revistas, institutos de investigación y conferencias a las que asistieron miles de científicos.

En el vigésimo aniversario del documento, más de 18,000 documentos han citado el modelo, que ahora se considera una de las topologías de red de referencia. Watts y Strogatz cerraron su periódico diciendo: "Esperamos que nuestro trabajo estimule más estudios de las redes del mundo pequeño". Tal vez ninguna afirmación haya sido nunca más profética.

domingo, 8 de julio de 2018

Software: Análisis de redes sociales en R


Análisis de redes sociales en R: una revisión de software

Samrachana Adhikari
Escuela Médica de Harvard
Beau Dabbs
Laboratorio Nacional Lawrence Livermore


En la investigación educativa, el análisis de redes sociales se está utilizando ampliamente para estudiar diferentes interacciones y sus implicaciones generales. Recientemente, también ha habido un aumento en el desarrollo de herramientas de software para implementar el análisis de redes sociales. En este artículo, revisamos dos populares paquetes R, igraph y statnet suite, en el contexto del resumen y modelado de redes. Discutimos diferentes aspectos de estos paquetes y demostramos algunas de sus funcionalidades mediante el análisis de una red de abogados de amistad. Finalmente, finalizamos con recomendaciones para usar estos paquetes junto con punteros a recursos adicionales para el análisis de redes en R.

Palabras clave: análisis de red; Paquetes R; igraph; statnetsuite; Abogados en Lazega
red

viernes, 6 de julio de 2018

Desinformación, sesgos y complejidad de la viralidad



La desinformación y los sesgos infectan las redes sociales, tanto intencionalmente como accidentalmente


Las personas que comparten una posible información errónea en Twitter (en morado) rara vez llegan a ver correcciones o verificación de datos (en naranja). Shao et al., CC BY-ND

Giovanni Luca Ciampaglia y Filippo Menczer | The Conversation


Las redes sociales se encuentran entre las principales fuentes de noticias en los EE. UU. Y en todo el mundo. Sin embargo, los usuarios están expuestos a contenido de precisión cuestionable, que incluye teorías de conspiración, clickbait, contenido hiperpartidista, pseudociencia e incluso informes inventados de "noticias falsas".

No es de extrañar que haya tanta desinformación publicada: el spam y el fraude en línea son lucrativos para los delincuentes, y la propaganda gubernamental y política produce beneficios tanto partidarios como financieros. Pero el hecho de que el contenido de baja credibilidad se propague tan rápida y fácilmente sugiere que las personas y los algoritmos detrás de las plataformas de medios sociales son vulnerables a la manipulación.



Explicando las herramientas desarrolladas en el Observatorio de Redes Sociales.

Nuestra investigación ha identificado tres tipos de prejuicios que hacen que el ecosistema de las redes sociales sea vulnerable a la desinformación intencional y accidental. Es por eso que nuestro Observatorio de Redes Sociales de la Universidad de Indiana está creando herramientas para ayudar a las personas a tomar conciencia de estos prejuicios y protegerse de las influencias externas diseñadas para explotarlas.

Sesgo en el cerebro

Los sesgos cognitivos se originan en la forma en que el cerebro procesa la información que cada persona encuentra todos los días. El cerebro puede manejar solo una cantidad finita de información, y demasiados estímulos entrantes pueden causar sobrecarga de información. Eso en sí mismo tiene serias implicaciones para la calidad de la información en las redes sociales. Hemos descubierto que la fuerte competencia por la atención limitada de los usuarios significa que algunas ideas se vuelven virales a pesar de su baja calidad, incluso cuando las personas prefieren compartir contenido de alta calidad.

Para evitar sentirse abrumado, el cerebro usa una serie de trucos. Estos métodos generalmente son efectivos, pero también pueden convertirse en sesgos cuando se aplican en contextos incorrectos.

Un acceso directo cognitivo ocurre cuando una persona decide si comparte una historia que aparece en su feed de redes sociales. Las personas se ven muy afectadas por las connotaciones emocionales de un titular, a pesar de que no es un buen indicador de la precisión de un artículo. Mucho más importante es quién escribió la pieza.

Para contrarrestar este sesgo y ayudar a las personas a prestar más atención a la fuente de un reclamo antes de compartirlo, desarrollamos Fakey, un juego de alfabetización móvil de noticias (gratuito para Android e iOS) que simula un medio de noticias típico de las redes sociales, con una mezcla de noticias artículos de fuentes principales y de poca credibilidad. Los jugadores obtienen más puntos por compartir noticias de fuentes confiables y marcar contenido sospechoso para verificar los hechos. En el proceso, aprenden a reconocer señales de credibilidad de la fuente, como reclamos hiperpartidistas y titulares con carga emocional.






Screenshots del Fakey game. Mihai Avram and Filippo Menczer

Sesgo en la sociedad

Otra fuente de sesgo proviene de la sociedad. Cuando las personas se conectan directamente con sus pares, los sesgos sociales que guían su selección de amigos influyen en la información que ven.

De hecho, en nuestra investigación hemos descubierto que es posible determinar las tendencias políticas de un usuario de Twitter simplemente observando las preferencias partidistas de sus amigos. Nuestro análisis de la estructura de estas redes de comunicación partidistas encontró que las redes sociales son particularmente eficientes en la diseminación de información, precisa o no, cuando están estrechamente vinculadas y desconectadas de otras partes de la sociedad.

La tendencia a evaluar la información de forma más favorable si proviene de sus propios círculos sociales crea "cámaras de eco" que están maduras para la manipulación, ya sea consciente o involuntariamente. Esto ayuda a explicar por qué tantas conversaciones en línea se convierten en confrontaciones de "nosotros contra ellos".

Para estudiar cómo la estructura de las redes sociales en línea hace que los usuarios sean vulnerables a la desinformación, creamos Hoaxy, un sistema que rastrea y visualiza la propagación del contenido desde fuentes de baja credibilidad, y cómo compite con el contenido de verificación de datos. Nuestro análisis de los datos recopilados por Hoaxy durante las elecciones presidenciales de EE. UU. En 2016 muestra que las cuentas de Twitter que compartieron información falsa quedaron casi completamente aisladas de las correcciones hechas por los inspectores de hechos.

Cuando profundizamos en las cuentas que difunden información errónea, encontramos un grupo central de cuentas muy denso retwitteándose casi exclusivamente, incluidos varios bots. Las únicas veces que los usuarios del grupo desinformado citaron o mencionaron organizaciones de verificación de hechos fueron cuando cuestionaron su legitimidad o afirmaron lo contrario de lo que escribieron.



Una captura de pantalla de una búsqueda de Hoaxy muestra cómo los bots comunes, en rojo y rosa oscuro, están difundiendo una historia falsa en Twitter. Hoaxy


Sesgo en la máquina


El tercer grupo de sesgos surge directamente de los algoritmos utilizados para determinar lo que las personas ven en línea. Tanto las plataformas de redes sociales como los motores de búsqueda los emplean. Estas tecnologías de personalización están diseñadas para seleccionar solo el contenido más atractivo y relevante para cada usuario individual. Pero al hacerlo, puede terminar reforzando los sesgos cognitivos y sociales de los usuarios, lo que los hace aún más vulnerables a la manipulación.
Por ejemplo, las herramientas de publicidad detalladas integradas en muchas plataformas de redes sociales permiten a los activistas de la desinformación explotar el sesgo de confirmación adaptando los mensajes a las personas que ya están inclinadas a creer en ellos.
Además, si un usuario a menudo hace clic en los enlaces de Facebook desde una fuente de noticias en particular, Facebook tenderá a mostrar a esa persona más del contenido de ese sitio. Este efecto llamado "burbuja de filtro" puede aislar a las personas desde perspectivas diversas, lo que fortalece el sesgo de confirmación.

Nuestra propia investigación muestra que las plataformas de redes sociales exponen a los usuarios a un conjunto de fuentes menos diversas que los sitios de medios no sociales como Wikipedia. Debido a que esto está al nivel de una plataforma completa, no de un solo usuario, llamamos a esto el sesgo de homogeneidad.

Otro ingrediente importante de las redes sociales es la información que está en tendencia en la plataforma, de acuerdo con lo que obtiene la mayor cantidad de clics. Llamamos a este sesgo de popularidad, porque hemos descubierto que un algoritmo diseñado para promover contenido popular puede afectar negativamente la calidad general de la información en la plataforma. Esto también alimenta el sesgo cognitivo existente, reforzando lo que parece ser popular independientemente de su calidad.

Todos estos sesgos algorítmicos pueden ser manipulados por bots sociales, programas informáticos que interactúan con los humanos a través de cuentas de redes sociales. La mayoría de los bots sociales, como el Big Ben de Twitter, son inofensivos. Sin embargo, algunos ocultan su naturaleza real y se utilizan con fines maliciosos, como aumentar la desinformación o crear falsamente la apariencia de un movimiento de base, también llamado "astroturfing". Encontramos pruebas de este tipo de manipulación en el período previo al 2010 Elecciones de medio término en los EE. UU.



Para estudiar estas estrategias de manipulación, desarrollamos una herramienta para detectar bots sociales llamada Botometer. Botometer utiliza el aprendizaje automático para detectar cuentas de bots, mediante la inspección de miles de características diferentes de las cuentas de Twitter, como los tiempos de sus publicaciones, la frecuencia de los tweets y las cuentas que sigue y los retweets. No es perfecto, pero reveló que hasta el 15 por ciento de las cuentas de Twitter muestran signos de ser bots.

Usando Botometer junto con Hoaxy, analizamos el núcleo de la red de desinformación durante la campaña presidencial 2016 en Estados Unidos. Encontramos muchos bots explotando los sesgos cognitivos, de confirmación y de popularidad de sus víctimas y los sesgos algorítmicos de Twitter.

Estos robots pueden construir burbujas de filtro alrededor de usuarios vulnerables, proporcionándoles falsas afirmaciones y desinformación. En primer lugar, pueden atraer la atención de los usuarios humanos que apoyan a un candidato en particular al tuitear los hashtags de ese candidato o al mencionar y retuitear a la persona. Luego, los bots pueden amplificar las afirmaciones falsas que manchan a los oponentes retwitteando artículos de fuentes de poca credibilidad que coinciden con ciertas palabras clave. Esta actividad también hace que el algoritmo destaque para otros usuarios historias falsas que se comparten ampliamente.

Comprender vulnerabilidades complejas

A pesar de que nuestra investigación, y la de otros, muestra cómo las personas, las instituciones e incluso sociedades enteras pueden ser manipuladas en las redes sociales, quedan muchas preguntas por responder. Es especialmente importante descubrir cómo estos diferentes sesgos interactúan entre sí, creando potencialmente vulnerabilidades más complejas.

Herramientas como la nuestra ofrecen a los usuarios de Internet más información sobre desinformación y, por lo tanto, cierto grado de protección contra sus daños. Las soluciones probablemente no sean solo tecnológicas, aunque probablemente haya algunos aspectos técnicos para ellas. Pero deben tener en cuenta los aspectos cognitivos y sociales del problema.

miércoles, 4 de julio de 2018

Otra introducción al ARS

Análisis de redes sociales: estado del arte


Contribuido por: Bart Baesens | datamining apps


Introducción

En las últimas décadas, el uso de sitios web de redes sociales en la vida cotidiana de todos está en auge. Las personas pueden continuar sus conversaciones en sitios de redes sociales como Facebook, Twitter, LinkedIn, Google+, Instagram, etc., y compartir sus experiencias con sus conocidos, amigos, familiares, etc. Solo hace falta un clic para actualizar su ubicación al resto de el mundo. Hay muchas opciones para transmitir sus actividades actuales: por una imagen, video, ubicación geográfica, enlaces o simplemente texto sin formato.

Los usuarios de los sitios de redes sociales en línea revelan explícitamente sus relaciones con otras personas. En consecuencia, los sitios de redes sociales son un mapeo casi perfecto de las relaciones que existen en el mundo real. Saben quién eres, cuáles son tus aficiones e intereses, con quién te casas, cuántos hijos tienes, tus amigos con los que trabajas todas las semanas, tus amigos del club del vino, etc. Esta red interconectada de gente que sabe el uno al otro de alguna manera es una fuente de información y conocimiento extremadamente interesante. Los gerentes de marketing ya no necesitan adivinar quién podría influir en quién crear la campaña adecuada. Está todo allí ... cuál es el problema. Los sitios de redes sociales reconocen la riqueza de las fuentes de datos que tienen y no están dispuestos a compartirlos sin costo. Esos datos a menudo se privatizan y regulan, y están bien ocultos para uso comercial. Por otro lado, los sitios de redes sociales ofrecen muchas facilidades incorporadas a los gerentes y otras partes interesadas para lanzar y administrar sus campañas de mercadotecnia explotando la red social, sin publicar la representación exacta de la red.

Sin embargo, las empresas a menudo se olvidan de que pueden reconstruir una parte de la red social utilizando datos internos. Los proveedores de telecomunicaciones, por ejemplo, tienen una base de datos transaccional masiva donde registran el comportamiento de llamadas de sus clientes. Bajo el supuesto de que los buenos amigos se llaman entre sí más a menudo, podemos recrear la red e indicar la fuerza de enlace entre las personas en función de la frecuencia y / o duración de las llamadas. Los proveedores de infraestructura de Internet pueden mapear las relaciones entre las personas que usan las direcciones IP de sus clientes. Las direcciones IP que se comunican frecuentemente están representadas por una relación más fuerte. Al final, la red de IP contemplará la estructura relacional entre las personas desde otro punto de vista, pero hasta cierto punto, como se observa en la realidad. Se pueden encontrar muchos más ejemplos en las industrias de banca, venta minorista y juegos en línea. En este artículo, discutimos cómo se pueden aprovechar las redes sociales para el análisis.

Definiciones de redes sociales

Una red social se compone de nodos (vértices) y enlaces. Ambos deben estar claramente definidos al comienzo del análisis. Un nodo (vértice) podría definirse como un cliente (privado / profesional), hogar / familia, paciente, médico, papel, autor, terrorista, página web ... Un enlace puede definirse como la relación de un amigo, una llamada, la transmisión de un enfermedad, una relación de "seguimiento", una referencia, etc. Tenga en cuenta que los enlaces también se pueden ponderar según la frecuencia de interacción, la importancia del intercambio de información, la intimidad, la intensidad emocional, etc. Por ejemplo: en una configuración de predicción de abandono, el enlace puede ponderarse de acuerdo con el tiempo (total) en que dos clientes se llamaron durante un período específico. Las redes sociales se pueden representar como un sociograma. Esto se ilustra en la figura siguiente por la cual el color de los nodos corresponde a un estado específico (por ejemplo, revuelto o no revuelto).


Ejemplo de sociograma.

Los sociogramas son útiles para representar redes de pequeña escala. Para redes de gran escala, la red se representa típicamente como una matriz (ver a continuación). Estas matrices serán simétricas [1] y típicamente muy dispersas (con muchos ceros). La matriz también puede contener los pesos si se producen conexiones ponderadas.


C1 C2 C3 C4
C1 1 1 0
C2 1 0 1
C3 1 0 0
C4 0 1 0

Representación matricial de una red social.

En lo que sigue, discutimos cómo se pueden aprovechar las redes sociales para los análisis descriptivos y predictivos.


Análisis descriptivo: métricas de redes sociales y minería comunitaria


Recuerde, el objetivo del análisis descriptivo es describir un conjunto de datos utilizando un conjunto de estadísticas o métricas clave. Una red social se puede caracterizar por varias métricas de centralidad. Las medidas de centralidad más importantes se muestran en la siguiente tabla.


Geodésica Ruta más corta entre dos nodos en la red.
Grado Número de conexiones de un nodo (dentro versus fuera de grado si las conexiones están dirigidas).
Cercanía La distancia promedio de un nodo a todos los demás nodos de la red (recíproco de lejanía).
Intermediación Cuenta el número de veces que un nodo o enlace se encuentra en la ruta más corta entre dos nodos de la red.
Centro teórico de grafos El nodo con la distancia máxima más pequeña a todos los otros nodos de la red.



Medidas de centralidad de red común.

Estas métricas ahora se pueden ilustrar con el ejemplo de juguete de red Kite representado en la siguiente figura [2]:




La red barrilete.


Grado CercaníaIntermediación
6 Diane 0.64 Fernando 14 Heather
5 Fernando 0.64 Garth 8.33 Fernando
5 Garth 0.6 Diane 8.33 Garth
4 Andre 0.6 Heather 8 Ike
4 Beverly 0.53 Andre 3.67 Diane
3 Carol 0.53 Beverly 0.83 Andre
3 Ed 0.5 Carol 0.83 Beverly
3 Heather 0.5 Ed 0 Carol
2 Ike 0.43 Ike 0 Ed
1 Jane 0.31 Jane 0 Jane

Medidas de centralidad para la red Kite.

La tabla anterior informa las medidas de centralidad para la red Kite. Según el grado, Diane es la más importante ya que tiene la mayoría de las conexiones. Ella trabaja como un conector o concentrador. Sin embargo, tenga en cuenta que solo conecta a los que ya están conectados entre sí. Fernando y Garth son los más cercanos a todos los demás. Son los mejor posicionados para comunicar mensajes que deben fluir rápidamente a todos los demás nodos de la red. Heather tiene la mayor intersección. Ella se sienta entre dos comunidades importantes (Ike y Jane contra el resto). Ella juega un rol de intermediario entre ambas comunidades, pero también es un punto único de falla. Tenga en cuenta que la medida de intersección a menudo se utiliza para la minería comunitaria. Una técnica popular aquí es el algoritmo de Girvan-Newman que funciona de la siguiente manera [3]:
  • La intersección de todos los enlaces existentes en la red se calcula primero.
  • El enlace con la mayor intersección se elimina.
  • La interdependencia de todos los enlaces afectados por la eliminación se vuelve a calcular.
  • Los pasos 2 y 3 se repiten hasta que no quedan enlaces.
El resultado es esencialmente un dendrograma (similar a, por ejemplo, agrupamiento jerárquico), que luego se puede utilizar para decidir el número óptimo de comunidades. La minería comunitaria sirve para varios propósitos. Permite comprender el comportamiento de subconjuntos homogéneos en su red que pueden ser especialmente relevantes en análisis de marketing (por ejemplo, para recomendaciones específicas) o detección de fraude (para detectar, por ejemplo, anillos de fraude). Además, la información de la comunidad también puede aprovecharse para el análisis predictivo, utilizando, p. procedimientos de producción como explicamos a continuación.


Análisis predictivo: aprendizaje de redes sociales


En el análisis predictivo, el objetivo es medir una variable objetivo de interés. Los ejemplos podrían ser abandono, fraude, valor predeterminado o valor de vida del cliente (CLV). En el aprendizaje de redes sociales, el objetivo es calcular la probabilidad de membresía de clase (por ejemplo, probabilidad de abandono) de un nodo específico, dado el estado de los otros nodos de la red. Varios desafíos importantes surgen cuando se aprende en las redes sociales. Un desafío clave es que los datos no son independientes y están distribuidos de forma idéntica (IID), una suposición que a menudo se hace en modelos estadísticos clásicos (por ejemplo, regresión lineal y logística). El comportamiento de correlación entre los nodos implica que la pertenencia a la clase de un nodo puede influir en la pertenencia a la clase de un nodo relacionado. A continuación, no es fácil crear una división en un conjunto de capacitación para el desarrollo del modelo y un conjunto de prueba para la validación del modelo, ya que toda la red está interconectada y no se puede cortar en dos partes. Además, muchas redes son de gran escala (por ejemplo, un gráfico de llamadas de un proveedor de telecomunicaciones) y es necesario desarrollar procedimientos computacionales eficientes para hacer el aprendizaje. Finalmente, no se debe olvidar la forma tradicional de hacer análisis utilizando solo información específica de nodo (es decir, sin los aspectos de red) ya que esta información puede ser muy valiosa para la predicción también.

Una forma directa de aprovechar las redes sociales para el análisis predictivo es resumir la red en un conjunto de características que luego se pueden combinar con características que no sean de red (es decir, locales) para el modelado predictivo. Un ejemplo popular de esto es la regresión logística relacional según lo introducido por Lu y Getoor (2003) [4]. Este enfoque básicamente parte de un conjunto de datos con características locales específicas del nodo y le agrega características de red de la siguiente manera:
  • La clase de vecino más frecuente (modo-enlace);
  • Frecuencia de las clases de los vecinos (enlace de frecuencia);
  • Indicadores binarios que indican presencia de clase (enlace binario).

Esto se ilustra en la figura siguiente para el cliente Bart.


Regresión logística relacional.


Luego, se puede estimar un modelo de regresión logística o árbol de decisión utilizando el conjunto de datos con características locales y de red. Tenga en cuenta que existe una cierta correlación entre las características de red agregadas, que deben filtrarse durante un procedimiento de selección de entrada. La creación de características de red también se llama Featurization, ya que las características de la red se agregan básicamente como características especiales al conjunto de datos. Estas características pueden medir el comportamiento de los vecinos en términos de la variable objetivo (por ejemplo, abandono o no) o en términos de las características específicas del nodo local (por ejemplo, edad, promociones, etc.). La figura a continuación proporciona un ejemplo en el que se agrega una característica que describe la cantidad de contactos con churners. La columna final etiquetada 'Churn' es la variable objetivo.


Ejemplo de Caracterización con características que describen el comportamiento objetivo de los vecinos.

La figura a continuación proporciona un ejemplo donde se agregan características que describen el comportamiento del nodo local de los vecinos.


Ejemplo de Caracterización con características que describen el comportamiento del nodo local de los vecinos.

Privacidad

Obviamente, el uso de datos de redes sociales para fines analíticos también requiere una reflexión exhaustiva sobre la privacidad. Con frecuencia, los clientes desconocen sus rastreos de datos, tanto en línea como fuera de línea, y cómo pueden analizarse. Por lo tanto, especialmente bajo la regulación GDPR actual, es de vital importancia que las empresas siempre divulguen adecuadamente qué datos recopilan y cómo los usan. Al hacerlo, no solo deben enfocarse en posibles beneficios de privacidad sino también en los beneficios para el cliente, de modo que los clientes puedan tomar una decisión bien informada sobre si, cuándo y cómo se pueden usar sus datos.

Conclusión

En este artículo, nos acercamos al análisis de redes sociales. Comenzamos brindando definiciones clave de redes sociales. A continuación, ilustramos cómo se pueden aprovechar las redes sociales para el análisis descriptivo resumiéndolos mediante métricas de redes sociales como cercanía, interdependencia, etc. A continuación, desarrollamos el uso de redes sociales para el análisis predictivo utilizando varios procedimientos de presentación. Es importante señalar que aunque las redes sociales representan un nuevo tipo de información, definitivamente no se debe sobreestimar su poder. Más específicamente, uno no debería abandonar los datos tradicionales que no pertenecen a la red para hacer análisis. A lo largo de nuestra investigación, encontramos que los mejores modelos analíticos para, p. Predicción de abandono de pagos: la detección de fraudes generalmente se genera utilizando una combinación de datos de red y no de red. Finalmente, es importante tener en cuenta que siempre que se analicen datos de redes sociales, la privacidad siempre debe respetarse.


Referencias y notas

  • [1] Tenga en cuenta que este es solo el caso de las redes no dirigidas. Para redes dirigidas, que representan p. una relación 'siguiente' que no es necesariamente recíproca, la matriz no será simétrica.
  • [2] Krackhardt, D, Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, 35, pp. 342-369, 1990.
  • [3] Girvan M., Newman M. E. J., Community structure in social and biological networks, Proceedings of the National Academy of Sciences, USA 99, pp. 7821–7826, 2002.
  • [4] Lu Q., Getoor L., Link-based Classification, Proceeding of the Twentieth Conference on Machine Learning (ICML-2003), Washington DC, 2003.