sábado, 21 de abril de 2018

Radiografía ARS de un ataque de bots en Twitter

¡Cuando los bots atacan!

Alguien compró a mi cuenta de Twitter unos 10 mil seguidores falsos / bots, y esto es lo que aprendí sobre las herramientas de detección de spam de Twitter

Geoff Golberg | Medium
Cofundador de Elementus | Presentado en Adweek, Forbes, IB Times y Huffington Post, entre otros | geoffgolberg.com



Representación de grafo de red de mis seguidores de Twitter (¡gran punto gris soy yo, Geoff Golberg!). Cada punto es uno de mis seguidores de Twitter. La versión interactiva es fantástica cuando se ve en el escritorio (use el touchpad / mouse para moverse / acercarse, pase el cursor sobre los puntos para revelar la cuenta, haga clic para observar la interconectividad). Crédito gráfico: Max Galka

La historia primero, los datos después

A menos que haya estado viviendo bajo una roca, es probable que haya leído el informe de investigación de The New York Times, "The Follower Factory". La pieza se sumerge profundamente en la compra de seguidores de Twitter falsos / bot. Yo también tengo algo de experiencia con seguidores de Twitter falsos / bot. Tengo una historia Tengo algunos datos.

Supongo que un buen lugar para comenzar sería este tweet del profesor de Stanford, Johan Ugander: es parte de una tormenta de tweets conectado a "The Follower Factory" y te animo a leer el hilo en su totalidad:


Escribir una publicación sobre cuentas de Twitter falsas / bot es algo que he pospuesto por demasiado tiempo. Puedo relacionarme con el escenario hipotético que describe Johan, ya que fui atacado de esta manera hace un par de años. Descubrir ese tweet fue el empujón que necesitaba para finalmente abordar esta publicación (¡gracias, Johan!).

En enero de 2016 noté que mi cuenta de Twitter estaba ganando seguidores a un ritmo ridículo:


Estoy seguro de que mi cuenta fue "maliciosamente [dirigida] por alguien con seguidores de bot para hacer que [me] se vea mal".

Dejame explicar.

El ataque de los Bots

Unos días antes del aumento en los seguidores de Twitter, twitteé lo siguiente:


MeVee surgió de la nada, lanzando una aplicación de video en vivo a principios de 2016, en lo que era un sector muy caliente en ese momento. El seguimiento en Twitter de MeVee (15K +) fue una señal de alerta inmediata para mí, considerando que acababan de lanzarse, así que decidí revisar manualmente los seguidores de Twitter más recientes de la cuenta. Después de encontrar lo que parecía ser principalmente cuentas falsas / bot, ejecuté la cuenta a través de TwitterAudit. TwitterAudit ciertamente no es perfecto, pero me ha impresionado su precisión (más sobre esto más adelante). Como sospechaba, TwitterAudit reveló que la mayoría (93%) de los seguidores de Twitter de MeVee eran falsos.

¿Por qué una aplicación lanzada recientemente compraría seguidores de Twitter? La respuesta es simple: la prueba social (es decir, tener más seguidores en Twitter puede afectar la percepción de MeVee).

Para su crédito, MeVee respondió a mi tweet en lugar de ignorarlo:




La cuenta de Twitter de MeVee ha cambiado su manejador de @MeVeeApp a @buildwithcrane. La cuenta ahora está asociada con Crane AI, que no tiene nada que ver con el video en vivo (MeVee ya no existe)
La respuesta ("alguien desde el principio accidentalmente compró algunos seguidores") me dio una buena risa. Varias personas nombradas en el informe del New York Times señalaron de manera similar con el dedo en otro lugar (empleados, familiares, agentes, compañías de relaciones públicas, amigos) cuando se enfrentaron.

Si bien no puedo decir definitivamente que alguien con vínculos de MeVee atacó mi cuenta, lo que definitivamente puedo decir es que no compré los seguidores. Muy fácilmente podría haber sido un tercero que se encontró con nuestro intercambio de Twitter y pensó que sería divertido inundar mi cuenta con seguidores falsos / bot. En cualquier caso, la identidad del culpable no es central en la historia / datos que estoy compartiendo.

En última instancia, cualquiera puede comprar seguidores de Twitter falsos / bot en su cuenta de Twitter. ¿Sabía usted eso?

Mientras que unos días antes estaba recomendando herramientas para facilitar la eliminación de MeVee de seguidores de Twitter falsos / bot, ahora me encontré en una posición en la que mi cuenta de Twitter estaba siendo "maliciosamente [apuntada] por alguien con seguidores de bot para hacer que me viera mal "

En ese momento, trabajaba como creador / consultor de contenido de video en vivo. Fue un trabajo que realmente disfruté, especialmente cuando se trataba de viajes, como fue el caso cuando me asocié con Heineken durante los Juegos Olímpicos de Río, por ejemplo:


Trabajando como un "influencer" (prefiero mucho "creador"), me sentí muy orgulloso de asegurar que mi seguimiento de Twitter fuera limpio / de fiar. En otras palabras, no quería que mi cuenta fuera seguida por cuentas de Twitter falsa / bot, lo que podría ser malo para los negocios.

Los expertos en marketing están investigando / analizando las audiencias de los creadores con quienes se asocian más allá de simplemente mirar el alcance (es decir, el número de seguidores). La mayoría de los especialistas en marketing, sin embargo, no emplean procesos sofisticados para garantizar que se mantengan alejados de los socios que a sabiendas juegan con el sistema mediante la compra de seguidores / compromisos sociales. Mi deseo de mantener un seguimiento limpio / legítimo de Twitter fue impulsado por la necesidad. No quería perder ningún trabajo por la apariencia de que estaba representando falsamente mi alcance / influencia.

Desde que me uní a Twitter (marzo de 2009), de hecho, y mucho antes de ingresar al video en vivo, regularmente revisaba mis seguidores para asegurarme de que fueran cuentas reales. Como resultado, puedo decir con confianza que probablemente tengo más cuentas de Twitter bloqueadas que tú. (~ 3.3K cuentas, para ser precisos)

El marketing de Influencer está completamente roto, por cierto, pero lo guardaré para una futura publicación.

Bueno, Mierda. Esto apesta

No me llevó mucho tiempo darme cuenta de que mi cuenta de Twitter estaba siendo atacada (en lo que a mí respecta) por cuentas falsas / bot.

Después de frustrarme con el bloqueo de las cuentas infinitas de bots falsos / bots, opté por cambiar mi configuración para "Proteger [mis] tweets". Al suscribirse a Twitter, los tweets son públicos por defecto y cualquiera puede seguir cualquier cuenta. Cuando los tweets están protegidos, las personas deben hacer una solicitud para seguir. Por lo tanto, cambiar mi cuenta a privado aliviaría la carga de bloquear cuentas.

La protección de tweets no es una solución ideal, ya que los tweets de cuentas privadas solo pueden ser vistos por los seguidores. Esto limita la visibilidad y, por extensión, dificulta el compromiso / la interacción. Otra desventaja de tener una cuenta privada es que tus tweets ya no pueden ser retuiteados. Twitter funciona como un vehículo fantástico para amplificar contenido (mediante descubrimiento / retweets); sin embargo, ese valor no puede ser capturado por cuentas privadas de Twitter. Estar limitado a la utilización de Twitter en el marco de una red privada degrada enormemente tanto la utilidad como la experiencia del usuario. Tener una cuenta privada significaba que ya no podía aprovechar Twitter de manera efectiva.

A continuación, llamé a varios empleados de Twitter para ver si podían ofrecer consejos / soluciones. El resultado de esos intercambios fue este: no se preocupen por los seguidores falsos / bot, ya que Twitter friega regularmente su ecosistema y las cuentas falsas / bots serán eliminadas, eventualmente. También archivé un boleto con el Centro de ayuda de Twitter, pero no recibí una respuesta (vale la pena señalar que no se proporcionó un número de ticket ni un correo electrónico de confirmación).

Poco tiempo después cambié mi cuenta a pública, dando a Twitter el beneficio de la duda. Durante las próximas semanas, mi cuenta de Twitter creció de ~ 4.6K seguidores a ~ 11.7K "seguidores" (del 7 de enero de 2016 al 29 de enero de 2016):



Fuente: TwitterCounter.com (Feb '18)
Más de dos años después, todavía estoy esperando que se eliminen miles de cuentas falsas / bot de Twitter / mi lista de seguidores.

Ya es suficiente con la historia, vayamos a los datos

(Llévame de vuelta a la historia)

Como ilustraré, y aplicando múltiples enfoques / herramientas, es relativamente fácil identificar cuentas de Twitter falsas / bot. Además, contrariamente a la creencia popular, Twitter es bastante efectivo para identificar cuentas de spam.

Según Nick Bilton (autor de "Hatching Twitter"): "Twitter sabía acerca de todos sus seguidores falsos, y siempre lo ha hecho, eliminando suficientes bots para que parezca que les importa, pero no lo suficiente como para afectar la cantidad percibida de activos. usuarios en la plataforma ".

Luego de una inspección más cercana de lo que ocurre bajo el capó de Twitter, resulta evidente que la afirmación de Nick describe perfectamente el enfoque de Twitter para lidiar con cuentas falsas / bot.

1) Representación de grafo de red



@ seguidores de geoffgolberg (a partir de mayo '17)

Una vez más, esta es una representación gráfica de red de mis seguidores de Twitter. Cada punto es uno de mis seguidores de Twitter. Los colores representan las comunidades (determinadas por la interconexión) y el tamaño de cada círculo representa cuán central es el seguidor / cuenta en la comunidad.

Dado que esta es mi propia red de Twitter, rápidamente queda claro lo que cada comunidad representa. Cuando se realizan análisis similares para otras cuentas, donde uno carece del mismo nivel de familiaridad, puede requerir un poco más de trabajo de campo.

El gráfico anterior incluye una leyenda para evitarle el dolor (personalmente, ¡me gusta este proceso!) De intentar identificar a cada comunidad. Lo que inmediatamente se destaca son los racimos verdes. Mientras que los clusters no verdes reflejan una conectividad significativa entre las comunidades, los clusters verdes están, en su mayor parte, desconectados del resto de las comunidades. Los seguidores falsos / bot que se compraron para mi cuenta comprenden la gran mayoría de los puntos verdes. Una pequeña porción de los puntos verdes son seguidores reales, simplemente cuentas que no están conectadas con el resto de mis seguidores de Twitter (algunos amigos de la escuela secundaria, por ejemplo, aparecen en los clusters verdes).

¡Dirígete a la versión interactiva para buscar tu cuenta y explorar!

2) TwitterAudit.com

TwitterAudit se fundó en 2012. De forma gratuita, uno puede auditar sus propias / otras cuentas de Twitter. TwitterAudit toma una muestra aleatoria de (hasta) 5K de los seguidores de una cuenta y luego puntúa a cada uno de esos seguidores. Su algoritmo evalúa un conjunto de variables (algunas de las cuales incluyen: número de tweets, fecha del último tweet, proporción de seguidores y seguidores) y luego determina si cada seguidor es real o falso. Su oferta paga (PRO) le permite a uno ejecutar su cuenta a través de un mayor número de sus seguidores, en lugar de estar limitado por 5K, como es el caso de la oferta gratuita.

Un puntaje de auditoría del 98%, por ejemplo, significa que TwitterAudit ha determinado que el 98% de los seguidores de la cuenta es real. Antes de comenzar una ronda de bloqueo de seguidores falsos / bot en septiembre de 2015, tenía un puntaje de TwitterAudit del 98% (78 seguidores falsos de ~ 4K seguidores):


En febrero de 2018, más de dos años después de que mi cuenta de Twitter fue atacada por cuentas falsas / bot, TwitterAudit determinó que ~ 4K de mis seguidores eran falsos (70% de puntaje de auditoría):




Aquí está el crecimiento de esos seguidores falsos, en relación con el crecimiento de mis seguidores en Twitter en general:



@ seguidores de geoffgolberg (seguidores "falsos" según lo determinado por TwitterAudit, Feb '18)

Como mencioné anteriormente, mantener un seguimiento limpio / legítimo de Twitter siempre ha sido importante para mí. Esto se evidencia por el hecho de que el primer seguidor falso identificado por TwitterAudit fue mi seguidor 1.680 (en otras palabras, evité seguidores falsos durante mis primeros ~ 6 años como usuario de Twitter). A continuación se muestra una tabla que resume los datos de TwitterAudit:


3) API de Twitter

El informe del New York Times empleó una táctica muy inteligente para identificar a los seguidores falsos / bot. Su enfoque implica trazar los seguidores de una cuenta (primero a más reciente) en la fecha en que se creó cada cuenta (seguidor) respectiva. El siguiente ejemplo, cortesía del editor gráfico del New York Times, Rich Harris, hace un excelente trabajo al ilustrar patrones que señalan a los seguidores falsos / bot:


El profesor de Credit Columbia, Mark Hansen, con el descubrimiento de la huella dactilar

Poco después de leer "The Follower Factory", me encontré con una publicación de Elaine Ou, donde aplica el mismo análisis a su propia cuenta de Twitter. Elaine revisa los seguidores del columnista del New York Times Paul Krugman ("por el bien de la objetividad periodística") y Eric Schneiderman, el Fiscal General de Nueva York, también (Schneiderman abrió una investigación tras el informe del New York Times). Elaine escribió un código de Python para reproducir los diagramas de dispersión del estilo del New York Times, y tuvo la amabilidad de vincularlo al final de su publicación.

Estos son los resultados de ejecutar el script de Elaine para mi cuenta de Twitter:


@ seguidores de geoffgolberg (Feb '18; excluye "cuentas sospechosas de spam")

Aquí es donde las cosas se ponen interesantes.

A pesar de tener más de 13K seguidores en ese momento, el script solo devolvió ~ 9.4K seguidores (el ataque del seguidor falsa / bot puede verse desde ~ 3.6K a ~ 5.1K seguidores). Decidí buscar en el Centro de ayuda de Twitter y encontré la sección "Mi conteo de seguidores está equivocado". Una frase que decía "Para ver la lista completa de sus seguidores, incluidas las cuentas sospechosas de spam, apague el filtro de calidad en su configuración" me llamó la atención. Aquí hay más información sobre el filtro de calidad (también desde el Centro de ayuda de Twitter):



Cada cuenta de Twitter tiene un filtro de calidad (que se lanzó en agosto de 2016) activado por defecto. Traducido: Twitter quiere ocultar las cuentas que han identificado como "cuentas sospechosas de correo no deseado" de su lista de seguidores. Si un usuario desea ver la lista completa de sus seguidores, debe desactivar el filtro de calidad en su configuración. Este hallazgo me llevó a twittear las siguientes preguntas:


Con el filtro de calidad ahora desactivado, el script de Elaine todavía devolvió ~ 9.4K seguidores para mi cuenta. Su secuencia de comandos está utilizando la llamada a la API GET followers / list para obtener una lista de seguidores de la cuenta. Alternativamente, esto se puede hacer usando la llamada a la API GET followers / ids.

Este último devolvió mi lista completa de seguidores, haciendo coincidir el número que aparece en mi perfil de Twitter (más de 13K).

Aquí está el diagrama de dispersión del estilo del New York Times (reproducido usando Excel) para mi lista completa de seguidores:


Los seguidores de @ geoffgolberg (Feb '18; incluye "cuentas sospechosas de spam")

El ataque comprendió ~ 1.5K cuentas en el primer diagrama de dispersión, mientras que aquí, que refleja el conteo de seguidores reales mostrado por Twitter, el ataque recoge unas cuentas adicionales de 4K (el ataque falso / seguidor del robot ahora se puede ver desde ~ 3.7K a ~ 9.2K seguidores). Esas cuentas ~ 4K han sido identificadas por Twitter como "cuentas sospechosas de spam"; sin embargo, por alguna razón, las cuentas no se suspenden ni eliminan.

A continuación, decidí comparar la lista parcial de mis seguidores (OBTENER seguidores / enumerar llamada API) con mi lista completa de seguidores (GET seguidores / ids llamada API). Estas son las "cuentas sospechosas de correo no deseado" (es decir, no devueltas por la API llamada GET followers / list) expresadas como un porcentaje de mi lista completa de seguidores (es decir, cuentas devueltas por la API de ID / seguidores de GET):



Con la excepción del ataque, la API de Twitter siempre devolvió ~ 1% de seguidores como cuentas identificadas por Twitter como "cuentas sospechosas de correo no deseado" (cada período de tiempo abarca al menos un año y entre miles de seguidores). Sin embargo, durante el mes de enero de 2016, Twitter ha marcado el 73% de las cuentas que siguieron a mi cuenta como "cuentas sospechosas de correo no deseado" (nuevamente, más de 4K cuentas / seguidores). En otras palabras, más de 4K de los 13.600 seguidores reflejados en mi perfil de Twitter son "cuentas sospechosas de spam", al menos, según las herramientas de detección de spam de Twitter.

Esto no es un error ni está aislado de mi cuenta. La plataforma completa de Twitter se basa en recuentos engañosos / inflados de seguidores / seguidores, que incluyen cuentas que los mismos Twitter han identificado como "cuentas sospechosas de correo no deseado" (y se han identificado como tales durante años).

Discutiré por qué eso importa más adelante en la publicación; primero analizaremos más de cerca los datos de los diversos enfoques / herramientas.

Comparando los tres enfoques

Para esta sección, el análisis se centrará en el período de tiempo de ataque (del 7 de enero de 2016 al 29 de enero de 2016).

En el contexto del ataque, el enfoque del grafo de red es el más preciso para identificar seguidores falsos / bot. Ciertamente hay muchos puntos verdes / seguidores que son cuentas reales; sin embargo, es mucho más probable que esas cuentas sigan fuera de las fechas de ataque.

Traducido: los amigos de la escuela secundaria mencionados anteriormente, por ejemplo, que forman parte de los clusters verdes, están allí porque están desconectados del resto de mis comunidades, no porque sean cuentas falsas / bot. Es mucho más probable que lo hayan seguido en el primer período de tiempo (marzo de 2009 a diciembre de 2014) que 7 años después de que me uní a Twitter durante el ataque que duró solo unas semanas en enero de 2016. Durante el período de ataque, los grupos verdes desconectados tienden a señalar cuentas falsas / bot, en lugar de cuentas más amplias que están desconectadas del resto de mis comunidades.

Antes de saltar a los datos, aquí hay una visualización de ~ 200 cuentas que siguieron durante el período de ataque (¡encienda su audio mientras mira!). La primera columna es roja cuando la representación del gráfico de red refleja estar en los clústeres verdes (es decir, cuentas falsas / bot). La segunda columna es roja cuando la API de Twitter refleja ser una "cuenta sospechosa de spam". La tercera columna es roja cuando TwitterAudit refleja que es una cuenta falsa. Las cuentas que fueron suspendidas por Twitter (entre junio de 2017 y febrero de 2018) son de color naranja, mientras que las cuentas que fueron eliminadas por Twitter (el mismo período de tiempo) son de color gris:

Tenga en cuenta la cadena de ~ 30 seguidores donde los tres enfoques indican que las cuentas que siguen son reales. Esto sucedió el 19 de enero de 2016, después de haber sido nominado por los premios Shorty Awards para Periscoper of the Year (recogiendo esos seguidores reales, en sucesión, como resultado):


El enfoque del grafo de red identifica el 97% de las cuentas que siguieron durante el ataque (5,419 de 5,583) para ser cuentas falsas / bot (puntos verdes). Entre junio de 2017 y febrero de 2018 (9 meses), Twitter suspendió solo 50 de esas cuentas, mientras que otras 36 fueron eliminadas.

La API de Twitter identifica 4.013 "cuentas sospechosas de correo no deseado" que siguieron durante el ataque. El 98.7% de esas cuentas también fueron determinadas como cuentas falsas / bot por el gráfico de red. En otras palabras, Twitter aplica el identificador de "cuenta sospechosa de correo no deseado" solo una vez que tienen un alto nivel de confianza.

TwitterAudit identifica 3.903 cuentas falsas que siguieron durante el ataque. El 98.8% de esas cuentas también fueron determinadas como cuentas falsas / bot por el gráfico de la red. Al igual que Twitter, cuando TwitterAudit identifica una cuenta como spam / falso, hay una gran probabilidad de que sea, de hecho, una cuenta falsa / bot.

Tanto Twitter como Twitter Audit no identifican ~ 1.5K cuentas falsas / bot contra el gráfico de red.

Cuando Twitter marcó una cuenta como spam, hubo una probabilidad del 76.6% de que TwitterAudit también identificara la cuenta como una cuenta falsa / bot. Cuando TwitterAudit determinó que una cuenta era falsa, había un 78.8% de posibilidades de que la cuenta también fuera identificada como una cuenta de spam / falsa por Twitter.

Hubo 3,049 cuentas donde los tres enfoques determinaron que la cuenta es una cuenta falsa / bot.

Aquí hay otra forma de visualizar el conjunto de datos (las cuentas suspendidas por Twitter son amarillas, las cuentas eliminadas por Twitter son azules):


Sentido de todo

Anteriormente, hice la siguiente afirmación: la plataforma completa de Twitter se basa en seguidores engañosos / inflados / siguientes recuentos

La presencia de cuentas falsas / bot no debería ser la clave de esta publicación. Lo que es notable es que Twitter es bastante bueno para identificar cuentas de spam, simplemente eligen eliminar una fracción de estas cuentas falsas / bot.

¿Por qué no eliminarlos a todos?

Twitter es una compañía que cotiza en bolsa. Cada trimestre, entre otras cosas, Twitter informa sus MAU (usuarios activos mensuales). Es una medida clave que los accionistas (potenciales) evalúan al tomar decisiones de inversión. Durante la llamada a las ganancias del tercer trimestre de Twitter, se reveló que Twitter había exagerado su recuento de MAU durante los últimos tres años.

En el caso de mi cuenta de Twitter, Twitter actualmente refleja tener 13.500 seguidores:



Este número, sin embargo, incluye ~ 4K cuentas que los mismos Twitter han identificado como "cuentas sospechosas de correo no deseado". Desde la perspectiva de un usuario de Twitter, me sentiría mucho más cómodo usando la plataforma sabiendo que los seguidores / siguientes conteos presentados son más precisos representación de la realidad. Además, cuando se interactúa con otras cuentas, es posible que los usuarios incluyan estos recuentos como señales que procesan cuando evalúan la credibilidad de las cuentas con las que interactúan.

Desde la perspectiva de un anunciante, tener recuentos de seguidores / seguidores que reflejen cuentas que en realidad están siendo utilizadas por seres humanos (es decir, menos "cuentas sospechosas de correo no deseado" de Twitter) es críticamente importante. Lo que es más importante, ¿filtra Twitter los compromisos / acciones que involucran "cuentas sospechosas de correo no deseado" al determinar qué eventos / acciones son facturables a los anunciantes? Si los anunciantes no reciben una factura en esos casos, ¿por qué esas cuentas se reflejan en los seguidores / conteos siguientes?

OK, ¿cuál es tu punto?

Las implicaciones de la decisión de Twitter de eliminar solo una fracción de las cuentas falsas / bot son mucho más amplias que las de un solo usuario (yo, en este caso), molesto.

A principios de este mes, mientras revisaba las cuentas que seguían las mías, simplemente ordenaba a mis seguidores por la cantidad de tweets que cada cuenta publicaba. Después de notar que uno de mis seguidores tenía una cantidad alarmantemente grande de tweets, decidí investigar un poco más, luego compartí mis hallazgos en este hilo:

¡Asegúrate de leer el hilo completo!

Al día siguiente noté que Twitter había suspendido la cuenta de Twitter @nine_oh. Twitter habría (probablemente) continuado contando la cuenta como un usuario activo mensual si no se hubiera puesto en su conocimiento, y esa es la parte más problemática. Vale la pena señalar que la cuenta fue marcada por Twitter como una "cuenta sospechosa de spam" antes de ser suspendida.

En este caso particular, se estaba utilizando una cuenta que reflejaba tener más de un millón de seguidores para amplificar los tweets conservadores de Trump. Es de suponer que el algoritmo de Twitter ve los retweets de cuentas con gran cantidad de seguidores como una señal favorable, ya sea que Twitter haya determinado que muchos de esos seguidores son "sospechosos de cuentas de spam". A menudo, lo que sucede es que las redes de cuentas retuitean los mismos tweets / tweets un corto período de tiempo. Esto probablemente se haga como un intento de juego del algoritmo de Twitter, dando a los tweets / tweets más visibilidad en las líneas de tiempo de los usuarios. En otras palabras, es un esfuerzo coordinado para impactar el flujo de información a través de la plataforma de Twitter:


El problema no es específico de Trump / tweets conservadores. Sucede en todo el espectro político y se extiende a muchos países.

Todo se reduce a esto: Twitter tomó la decisión de poner la rentabilidad por delante de la democracia.

Responsabilidad

A principios de este mes, Twitter emitió una RFP (solicitud de propuesta) en la que buscaba la dirección del público para ayudarlo a "definir qué significa la salud para Twitter y cómo [ellos] deberían abordar la medición".

La salud de Twitter mejoraría tremendamente si Twitter hiciera una cosa (aparentemente simple): eliminar el 100% de las cuentas que identificaron como "sospechosas de cuentas de spam"

¿Cómo podemos nosotros, como usuarios, anunciantes y accionistas, asegurarnos de que Twitter se considere "públicamente responsable" para hacerlo? ¿Cómo podemos garantizar que Twitter adopte un enfoque más proactivo para controlar su ecosistema en el futuro?


jueves, 19 de abril de 2018

¿Cambridge Analytica realmente afectó las decisiones de los votantes?

La ciencia detrás de Cambridge Analytica: ¿Funciona el perfilado psicológico?

Los investigadores que advirtieron sobre los abusos de los datos de Facebook muestran cómo los perfiles psicológicos obtienen resultados.
Stanford Graduates School of Business | por Edmund L. Andrews


 
  Un hombre aturdido con una superposición de símbolos de ojos, carros de compras, computadoras y otros símbolos de marketing | Fotografía de Tricia Seibold con iStock / izusek y iStock / axel2001
Los anuncios en línea son sensiblemente más persuasivos cuando se dirigen a los rasgos psicológicos de un usuario. | Fotografía de Tricia Seibold con iStock / izusek y iStock / axel2001


Silicon Valley y Washington están en un alboroto por las revelaciones de que Cambridge Analytica, una firma de consultoría "psicográfica" a favor de Trump, obtuvo datos personales detallados sobre 87 millones de usuarios de Facebook.

Pero si bien gran parte del furor ha tenido que ver con la privacidad y la ética, una pregunta práctica sigue siendo: ¿la focalización psicológica es una herramienta efectiva de propaganda digital?

La respuesta, de acuerdo con un investigador de Stanford que fue pionero en muchas de las técnicas originales, es "sí".

"He estado advirtiendo sobre estos riesgos durante años", dice Michal Kosinski, psicólogo y profesor asistente de comportamiento organizacional en la Stanford Graduate School of Business. "Nuestra última investigación confirma que este tipo de focalización psicológica no solo es posible sino que también es eficaz como herramienta de persuasión digital masiva".

Kosinski nunca trabajó para Cambridge Analytica y nunca adquirió datos de Facebook sin el permiso de los usuarios.

Aprovechando los "me gusta" de Facebook

Como estudiante de doctorado y subdirector del Centro de Psicometría de la Universidad de Cambridge de 2008 a 2014, Kosinski trabajó con un colega para investigar si era posible identificar los rasgos psicológicos de las personas a partir de sus "me gusta" de Facebook.

Las personas que "les gustaban" Battlestar Galactica eran probablemente introvertidas, por ejemplo, mientras que las personas que "gustaban" de Lady Gaga eran probablemente extrovertidas. Kosinski y su colega de Cambridge, David Stillwell, pudieron correlacionar "me gusta" con otros rasgos básicos de la personalidad: apertura, escrupulosidad, amabilidad y neuroticismo. Armados con solo 10 "me gusta", podían evaluar los rasgos de una persona con mayor precisión que los compañeros de esa persona. Con 70 "Me gusta", podrían hacerlo mejor que los amigos cercanos de una persona.

Y ahora, en un nuevo estudio, Kosinski y sus colegas, entre ellos Stillwell, Sandra Matz de Columbia Business School y Gideon Nave de la Wharton School of Business (1), confirman el siguiente paso lógico: los anuncios son más persuasivos cuando se adaptan a las necesidades psicológicas. rasgos.

La investigación quería advertir

Kosinski no se jacta de esto.

"La mayoría de mis estudios han sido concebidos como advertencias", dice. "Se pueden imaginar aplicaciones que son para bien, pero es mucho más fácil pensar en aplicaciones que manipulen a las personas en decisiones que van en contra de sus propios intereses".

Él y sus colegas crearon una aplicación de Facebook que permitió a las personas completar un cuestionario de personalidad que mide cinco rasgos básicos de personalidad. Luego les pidieron a los usuarios acceso a sus "me gusta", y eventualmente acumularon una base de datos con 3 millones de perfiles.

Al correlacionar los "me gusta" de las personas con sus puntajes en el cuestionario de personalidad, Kosinski y Stillwell desarrollaron algoritmos para inferir con precisión una serie de rasgos de personalidad de la actividad de Facebook de una persona.

Los fundadores de Cambridge Analytica adoptaron técnicas similares y las aplicaron a la política. También dieron un gran paso adelante al usar su propia aplicación para recopilar en secreto la actividad de Facebook en decenas de millones de usuarios que simplemente habían sido amigos de personas que habían tomado el cuestionario de la aplicación.

En su nuevo estudio, Kosinski y sus colegas querían ver si la orientación psicológica realmente entrega mejores resultados en publicidad. Los investigadores realizaron tres campañas publicitarias experimentales en Facebook.

Midiendo el Efecto de los Anuncios Especificados

Al promocionar una línea de cosméticos, por ejemplo, publicaron anuncios de duelo dirigidos a introvertidos y extrovertidos. En total, los anuncios llegaron a 3 millones de personas.

"La mayoría de mis estudios han sido pensados como advertencias. Puedes imaginar aplicaciones que son para el bien, pero es mucho más fácil pensar en aplicaciones que manipulen a las personas en decisiones que van en contra de sus propios intereses.
Michal Kosinski


El anuncio para extrovertidos presentaba a una mujer bailando y el eslogan "Baila como si nadie estuviera mirando (pero lo son totalmente)". Por el contrario, el anuncio para introvertidos presentaba a una mujer que se contemplaba en un espejo y un lema silencioso: "La belleza no tiene que gritar ".

Efectivamente, las personas tenían un 50% más de probabilidades de comprar los cosméticos si veían el anuncio dirigido a su tipo particular.

Los resultados fueron similares cuando los investigadores promovieron una aplicación de crucigramas para teléfonos inteligentes con anuncios dirigidos a los usuarios en función de su apertura a cosas nuevas.

Se instó a las personas que habían sido identificadas como muy abiertas a "dar rienda suelta a su creatividad" en "un número ilimitado" de acertijos. Las personas identificadas como propensas a aferrarse a lo familiar recibieron la orden de "conformarse con un favorito de todos los tiempos".

Aquellos que vieron el anuncio dirigido a su nivel particular de apertura tuvieron un 30% más de probabilidades de descargar el juego que aquellos que no lo hicieron.

En una tercera prueba, Kosinski y sus colegas probaron anuncios rivales para un videojuego que ya sabían que atraía mucho a los introvertidos. El primer anuncio presentaba un tono estándar lleno de acción: "¿Listo? ¡Fuego! ... "El segundo anuncio se diseñó para introvertidos:" ¡Uf! ¿Día duro? ¿Qué tal un rompecabezas con el que relajarse? ". Aquí, los anuncios para introvertidos generaron un 30% más de clics y un 20% más de descargas.

Kosinski dice que probablemente sea imposible prohibir los ataques psicológicos como una herramienta de propaganda política, pero dice que las personas pueden defenderse al darse cuenta de cómo funciona. También pueden promulgar políticas que eviten los abusos.

"Es un poco como el fuego", dice. "Puedes usar fuego tanto para calentar tu casa como para quemarla. No se puede prohibir el fuego, y no se puede evitar que algunas personas cometan incendios premeditados. Lo que necesitas son bomberos y equipo de seguridad contra incendios ".

(1) Psychological Targeting as an Effective Approach to Digital Mass Persuasion
By S.C. Matz, Michal Kosinski, G. Nave, D. J. Stillwell
Proceedings of the National Academy of Sciences of the United States of America. November 2017, Vol. 114, Issue 48, Pages 12714-12719
Organizational Behavior

martes, 17 de abril de 2018

Los bots dominan 2/3 del tráfico de Twitter

Los bots en Twitter comparten dos tercios de los enlaces a sitios web populares: Pew

Natasha Lomas | Tech Crunch




Es oficial: los Bots están haciendo mucho trabajo de RR.PP. en Twitter, especialmente cuando se trata de promover sitios web pornográficos.

Esa conclusión, quizás poco sorprendente, sobre qué cuentas de Twitter automatizadas son compartir enlaces proviene de un nuevo estudio del Centro de Investigación Pew que se propuso cuantificar un aspecto de la actividad basada en bots en la Twittosfera.

Específicamente, los investigadores querían saber qué proporción de enlaces twitteados a sitios web populares son publicados por cuentas automáticas, en lugar de usuarios humanos.

La respuesta que se les ocurrió fue que alrededor de dos tercios de los enlaces twitteados a sitios web populares son publicados por robots en lugar de humanos.

Los investigadores dicen que estaban interesados ​​en tratar de entender un poco más acerca de cómo la información se propaga en Twitter. Aunque para este estudio no trataron de profundizar directamente en preguntas más complicadas (y complicadas) sobre bots, como si la información que es propagada por estos robots es en realidad desinformación.

Los investigadores de Pew tampoco trataron de determinar si la actividad de relaciones públicas con enlaces automáticos realmente llevó a niveles significativos de participación humana con el contenido en cuestión. (Algo que puede ser difícil de determinar para los investigadores externos porque Twitter no brinda acceso completo a la forma en que da forma a la visibilidad de los tweets en su plataforma, ni datos sobre cómo los usuarios individuales hacen uso de controles y configuraciones que pueden influir en lo que ven o no lo haga en su plataforma).

Por lo tanto, es seguro decir que muchas preguntas relacionadas con los robots aún no se han investigado exhaustivamente.

Pero aquí hay al menos otra información sobre qué cuentas automáticas están enfrentadas con los principales sitios web de medios, aunque, como siempre, estos resultados son calificados como "bots sospechosos" como consecuencia de lo difícil que es identificar definitivamente si una entidad en línea es humana o no. (Pew utilizó la herramienta de aprendizaje automático Botometer de la Universidad de Indiana para identificar bots sospechosos, basándose en un puntaje de 0,43 o superior para declarar una probable automatización, en base a una serie de sus propios ejercicios de validación).

La conclusión principal de Pew es que las cuentas automatizadas sospechadas desempeñaron un papel destacado al tuitear enlaces a contenido en el ecosistema de Twitter, con un 66% de todos los enlaces tuiteados a los sitios web más populares probablemente publicados por cuentas automáticas, en lugar de usuarios humanos.

Los investigadores determinaron la popularidad del sitio web al realizar primero un análisis de 1,2 millones de tweets en inglés que contenían enlaces (extrayendo datos de tweets de muestra aleatoria a través de la API de transmisión de Twitter), que se redujeron a una lista de 2.315 sitios populares, es decir, duplicados y enlaces muertos. eliminados.

A continuación, los clasificaron en dominios de contenido, con todos los enlaces que apuntaban a cualquier otro contenido en Twitter (es decir, no en forma externa) recopilados en una sola categoría de Twitter.com.

Después de eso, pudieron comparar cómo (sospechosos) los bots frente a los (probables) humanos compartían diferentes categorías de contenido.

A continuación, se muestran los resultados del contenido que muestran los bots sospechosos: como se mencionó anteriormente, no es de sorprender que esté dominado por contenido para adultos. Aunque se descubrió que los bots responden por la mayoría de los enlaces compartidos a los sitios web populares en toda la categoría. Ergo, los robots ya están haciendo una gran cantidad de trabajo duro de RR.PP. ...

(Considerando eso, una buena regla general parece ser que si una cuenta de Twitter comparte enlaces a sitios pornográficos, probablemente no sea humana). O bien, es una cuenta humana que ha sido pirateada.

Los investigadores también descubrieron que un número relativamente pequeño de cuentas automatizadas eran responsables de una parte sustancial de los enlaces a los medios populares en Twitter. "Las 500 cuentas de bots sospechosos más activas por sí solas fueron responsables del 22% de todos los enlaces a estos sitios de noticias y eventos actuales durante el período en que se realizó este estudio. Por el contrario, las 500 cuentas humanas más activas fueron responsables de solo el 6% de todos los enlaces a dichos sitios ", escriben.

Claramente, los bots no son retenidos por las debilidades humanas en relaciones públicas, como la necesidad de dejar de trabajar para comer o dormir.

Pew dice que su análisis también sugiere que ciertos tipos de sitios de noticias y eventos actuales aparecen como "especialmente probables" de ser twitteados por cuentas automáticas. "Entre los más destacados se encuentran sitios de agregación o sitios que compilan principalmente contenido de otros lugares de la web. Se estima que el 89% de los enlaces a estos sitios de agregación durante el período de estudio fueron publicados por cuentas bot ", escriben.

tl; dr: los Bots parecen estar menos interesados ​​en promocionar los informes originales. O, para decirlo de otra manera, a menudo se despliega el trabajo de bot grunt para tratar de obtener visualizaciones baratas del contenido de otras personas.

Otra observación interesante: "Las cuentas automatizadas también proporcionan una proporción algo superior a la media de enlaces a sitios que carecen de una página de contacto público o dirección de correo electrónico para ponerse en contacto con el editor u otro personal.

"La gran mayoría (90%) de los sitios populares de noticias y eventos actuales examinados en este estudio tenía una página de contacto pública, no Twitter. La pequeña minoría de sitios que carecen de este tipo de página de contacto fueron compartidos por bots sospechosos a mayor velocidad que aquellos con páginas de contacto. Alrededor del 75% de los enlaces a dichos sitios fueron compartidos por cuentas de bots sospechosos durante el período de estudio, en comparación con el 60% de los sitios con una página de contacto ".

Sin leer demasiado sobre ese hallazgo, es posible teorizar que los sitios sin ninguna página de contenido público o correo electrónico podrían ser más propensos a la desinformación. (Los investigadores de Pew no llegan tan lejos como para unirse a esos puntos exactamente, pero sí señalan: "Este tipo de información de contacto puede usarse para enviar comentarios de los lectores que pueden servir como base de correcciones o informes adicionales").

Dicho esto, Pew también descubrió que el contenido político tiene un interés relativamente menor para los bots frente a otros tipos de noticias y contenido de actualidad, al menos a juzgar por esta instantánea de tweets en inglés (tomada el verano pasado).

"[C] ciertos tipos de sitios de noticias y eventos actuales reciben una participación inferior a la media de sus enlaces de Twitter desde cuentas automatizadas", escriben los investigadores. "En particular, este análisis indica que las noticias populares y los sitios de eventos actuales que presentan contenido político tienen el nivel más bajo de tráfico de enlace de las cuentas bot entre los tipos de noticias y contenido de eventos actuales que analizó el Centro, manteniendo constantes otros factores. De todos los enlaces a fuentes de medios populares que presentan prominentemente contenido político o político durante el período del estudio, se estima que el 57% se originó a partir de cuentas de bot ".

Los investigadores también analizaron la afiliación política, para tratar de determinar si los bots sospechosos se tuercen hacia la izquierda o hacia la derecha en términos del contenido que están compartiendo.

(Para determinar la inclinación ideológica del contenido al que se está vinculado en Twitter, Pew dice que utilizaron una técnica estadística conocida como análisis de correspondencia, que examina el comportamiento del público de Twitter de las publicaciones para compartir el contenido en un espectro ideológico que va desde "Muy liberal" a "más conservador").

De hecho, encontraron que las cuentas automáticas publicaban una mayor proporción de contenido de sitios que tenían "audiencias humanas mixtas o centristas ideológicamente". Al menos en lo que concierne a los sitios populares de noticias y eventos actuales "con una orientación hacia noticias y asuntos políticos".

"El análisis del Centro encuentra que las cuentas autónomas sospechosas publican una mayor proporción de enlaces a sitios que son principalmente compartidos por usuarios humanos que puntúan cerca del centro del espectro ideológico, en lugar de aquellos compartidos más a menudo por un público más liberal o más conservador ," escriben. "Las cuentas automatizadas comparten aproximadamente entre el 57% y el 66% de los enlaces a sitios políticos que son compartidos por una audiencia humana ideológicamente mixta o centrista, según el análisis".

Pew agrega que las diferencias de derecha a izquierda en la proporción de tráfico bot "no eran sustanciales".

Aunque, sobre esto, vale la pena enfatizar que esta parte del análisis se basa en un subconjunto bastante pequeño de una instantánea de la Twittersfera que ya se enfoca exclusivamente en el idioma inglés y en los EE. UU. así que leer demasiado en esta parte del análisis parece imprudente.

Pew señala: "Este análisis se basa en un subgrupo de noticias populares y puntos de venta de eventos actuales que presentan historias políticas en sus titulares o tienen una sección de política, y que sirven principalmente a la audiencia de los EE. UU. Un total de 358 sitios web de nuestra muestra completa de 2,315 sitios populares cumplieron con estos criterios ".

Realmente, el estudio subraya una verdad fundamental acerca de los bots de Twitter: a menudo se utilizan con fines de spam / relaciones públicas: para tratar de dirigir el tráfico a otros sitios web. La esencia de lo que están promoviendo varía, aunque a menudo puede ser contenido para adultos.

Los Bots también se usan a menudo para tratar de generar clics de forma barata a un agregador de contenido barato o sitios de productos para que las entidades externas puedan cobrar de forma económica gracias a las vistas de anuncios y los ingresos mejorados.

Las campañas de desinformación política pueden resultar en un menor volumen de spam / PR generados por bot que las granjas de pornografía o contenido. Aunque el daño potencial - a los procesos democráticos y las instituciones sociales - es posiblemente mucho más serio. Además de ser muy difícil de cuantificar.

Y, bueno, en lo que respecta a la influencia de los bots, todavía tenemos muchas más preguntas que respuestas.

domingo, 15 de abril de 2018

Teoría económica: Centralidad en juegos cooperativos en redes

Centralidad en teoría de juegos de un vistazo (una nueva clase de herramientas de análisis de red).

Game Theoretic Centrality


La idea clave detrás de las medidas de centralidad de la teoría del juego es tratar a los nodos como jugadores en un juego cooperativo, donde el valor de cada coalición de nodos está determinado por ciertas propiedades de teoría de gráficos. La ventaja clave de este enfoque es que los nodos se clasifican no solo según sus roles individuales en la red, sino también de acuerdo con la forma en que contribuyen al rol desempeñado por todos los posibles subconjuntos (o grupos) de nodos. Esto es importante en diversas aplicaciones en las que el rendimiento de un grupo no puede describirse simplemente como la suma de las actuaciones individuales de los nodos implicados.



Considere, por ejemplo, una aplicación de epidemiología, cuyo objetivo es contener la propagación de una enfermedad. Si nos preguntamos si la vacunación de un nodo individual es suficiente para detener la propagación de la enfermedad, probablemente la respuesta sea No. Una forma mucho más probable de contener la enfermedad es vacunar simultáneamente a un grupo (posiblemente relativamente pequeño) de nodos. En base a esto, para cuantificar la importancia de un nodo, debemos considerar la ganancia potencial de vacunarlo como parte de un grupo más grande, en lugar de solo considerar la ganancia potencial de vacunarlo solo.

Tal análisis de grupos de nodos en la red corresponde directamente a la teoría de juegos de coalición, donde el rendimiento de los jugadores se estudia en `` coaliciones '' (es decir, subconjuntos de jugadores). Es importante destacar que, al imponer la estructura combinatoria de un juego de coalición a través de una red, es posible analizar el rendimiento de los nodos usando una gran cantidad de conceptos de soluciones teóricas de juegos desarrolladas durante décadas para analizar el rendimiento de los jugadores. Un concepto de solución teórico-juego bien conocido es el valor de Shapley, que recibió amplia atención en la literatura debido a sus propiedades deseables. Otro es el índice de poder de Banzhaf.

Una ventaja particular de esta perspectiva teórica de juego del análisis de redes es que expone la posibilidad de extender una amplia variedad de medidas de centralidad. Esto se debe a que un juego cooperativo generalmente no establece suposiciones o restricciones sobre cómo se evalúan los grupos. Esta evaluación se puede adaptar para ajustarse mejor a la medida de centralidad en cuestión. Por ejemplo, un grupo de nodos se puede evaluar en función del grado promedio en el mismo, o en función de su diámetro, o su cercanía a otros nodos, etc.

Una posible desventaja de las centralidades de red teóricas de juegos es que se basan en conceptos de solución que son difíciles de calcular. Por ejemplo, dado un juego de coalición definido sobre una red de nodos O(|V|), un cálculo directo del valor de Shapley requiere considerar todas las posibles coaliciones O(2|V|) (es decir, grupos) de nodos. Esto es claramente prohibitivo para redes con cientos, o incluso decenas, de nodos. De hecho, se ha demostrado que en algunos casos el número exponencial de cálculos no se puede evitar, es decir, es imposible calcular ciertas centralidades de red teóricas de juegos en polinomios temporales en el tamaño de la red. Este resultado negativo se cumple, por ejemplo, para las centralidades de redes teóricas de juegos en el espíritu de los juegos restringidos por gráficos de Myerson (1977).

Afortunadamente, también se han encontrado varios resultados computacionales positivos. En particular, Michalak et al. (2013) analizaron varias extensiones basadas en el valor de Shapley de la centralidad de grados y mostraron que es posible aprovechar el hecho de que los valores de los grupos de nodos dependen de la topología de la red. Como resultado, mostraron que algunas medidas de centralidad de la teoría del juego pueden ser computables en tiempo polinomial. De manera similar, los resultados del tiempo polinomial son conocidos por la centralidad de interrelación basada en el valor de Shapley (Szczepański et al., 2012).

Principales resultados computacionales (qué tan rápido podemos calcular las centralidades teóricas de juegos).

En general, los conceptos de soluciones teóricas de juegos como el valor de Shapley o el índice de poder de Banzhaf son desafiantes desde el punto de vista informático; el número de cálculos requeridos es exponencial en la cantidad de jugadores. Afortunadamente, este no es necesariamente el caso cuando la evaluación de coaliciones (es decir, grupos de nodos) depende de la topología de la red. En particular, para la centralidad teórica del juego, se han encontrado varios resultados computacionales positivos. Los enumeramos a continuación:

Nombre de centralidadGrafos no ponderadasGrafos ponderadosArtículo (PDF)
Semivalue-based Degree CentralityO(|V|3)O(|V|3)Szczepański et al. (2015)
Shapley value-based Degree CentralityO(|V|+|E|)O(|V|+|E|)Michalak et al. (2013)
Coalitional Semivalue-based Degree CentralityO(|V|4)O(|V|4)Szczepański et al. (2014)
Owen value-based Degree CentralityO(|V|+|E|)O(|V|+|E|)Szczepański et al. (2014)
Semivalue-based Betweenness CentralityO(|V|2|E|)O(|V|3|E| + |V|3log|V|)mimeo, University of Oxford
Shapley value-based Betweenness CentralityO(|V||E|)O(|V|2|E| + |V|2log|V|)Szczepański et al. (2012)
Semivalue-based Closeness CentralityO(|V|5)O(|V|5)Szczepański et al. (2015)
Shapley value-based Closeness CentralityO(|V||E|)O(|V||E| + |V|2log|V|)Michalak et al. (2013)

Aplicaciones de la centralidad teórica de juegos para el análisis de redes sociales.


Capital social.

El valor de Owen (Owen 1977) es una extensión del valor de Shapley a situaciones en las que los jugadores han acordado a priori dividirse en uniones. En este contexto, los miembros de un sindicato interactúan con otros sindicatos en su conjunto (es decir, no es posible que solo algunos de los miembros colaboren o unan fuerzas con otro sindicato). Los jugadores en cualquier unión colaboran estrictamente en el juego. De forma similar al valor de Shapley, el valor de Owen cuantifica el rol de un jugador individual, pero ahora teniendo en cuenta el papel de la unión a priori a la que pertenece este jugador. Por ejemplo, un jugador puede ser débil por sí mismo, pero si él / ella pertenece a una unión importante, entonces su rol se fortalecerá de acuerdo con el valor de Owen.

Recientemente, Szczepanski et al. (2014) propuso la extensión teórica de juego de la centralidad de grado basada en el valor de Owen. Curiosamente, esta centralidad tiene una interpretación no trivial como medida del capital social. En particular, el capital social de un individuo aumenta (disminuye) si pertenece a una comunidad que es rica (pobre) en términos de capital social. Por ejemplo, si un abogado no está particularmente bien conectado, su capital social todavía se incrementa por el hecho de que pertenece a la comunidad de abogados bien conectada. Por lo tanto, esta es la primera medida de capital social que evalúa a los actores individuales tanto en el contexto de sus relaciones con el mundo externo como en el contexto del rol externo de la comunidad a la que pertenecen.



Como una aplicación de muestra de esta medida, Szczepanski et al. (2014) estudió una red que consta de artículos conectados por citas de relaciones. Aquí, todas las publicaciones de una revista en particular, o la serie de actas de una conferencia en particular, pueden verse como una comunidad científica naturalmente definida. El objetivo de Szczepanski et al. fue estudiar cómo la importancia de una determinada comunidad científica influye en el papel de un solo artículo en la red de citas. La red de la vida real utilizada para simulaciones es una red de citas que consta de 2.084.055 publicaciones y 2.244.018 relaciones de citas. Todas las publicaciones están clasificadas en 22,954 comunidades únicas que representan revistas, actas de congresos o títulos de libros individuales. En lo que sigue, de los 2.084.055 nodos, la Figura 1 se centra en los primeros 11 según la centralidad de grado. Más específicamente, la Figura 1 (a) ilustra el poder relativo de las comunidades a las que pertenecen estos nodos (cuanto más grande es el círculo, más poderosa es la comunidad). Como se puede ver, los nodos clasificados 5, 6 y 8 pertenecen a comunidades significativamente menos poderosas que los nodos 1, 2, 3, 4, 7, 9, 10 y 11. La Figura 1 (b) muestra cómo cambia el ranking de esos 11 nodos de acuerdo con las centralidades basadas en valores de Shapley y Owen. Mientras que para la mayoría de los nodos las perturbaciones no son tan intensas, observamos una degradación significativa de la posición de los nodos 5, 6 y 8 en el ranking Owen, que demuestra cómo es capaz de reconocer el hecho de que estos tres nodos pertenecen a comunidades más débiles .

En cuanto a los problemas computacionales, Szczepanski et al. (2014) mostraron que la centralidad de grados basada en el valor de Owen puede calcularse en O(|V|+|E|) tiempo, lo que hace que este concepto sea práctico incluso para redes grandes de la vida real.

Aplicaciones de la centralidad teórica de juegos a la biología.

En biología e investigación médica, se utilizan diversas tecnologías experimentales de alto rendimiento para recopilar una gran cantidad de datos sobre funciones biológicas interactivas. En muchos casos, las interacciones entre estas características se pueden representar como una red, cuyo análisis implica la definición de medidas apropiadas de relevancia para los nodos y para los enlaces. Para este propósito, varias medidas de centralidad basadas en la teoría de juegos de coalición se han aplicado con éxito a diferentes tipos de redes biológicas.

Redes cerebrales.

Las observaciones clínicas de las funciones cerebrales se representan actualmente en la actualidad como una red que consta de regiones y estructuras cerebrales (por ejemplo, estructuras neuronales) y sus interconexiones. Por ejemplo, las redes cerebrales están representadas por gráficos dirigidos cuyos nodos son estructuras neuronales (núcleos o regiones corticales) y cuyo conjunto de arcos dirigidos representa el conjunto de conexiones dirigidas (proyecciones) entre estas estructuras. En Kötter et al. (2007), los juegos de coalición y el valor de Shapley se han utilizado para medir la importancia de las estructuras cerebrales individuales para la conectividad de la gráfica derivada de las propiedades globales de las redes formadas por las neuronas y sus interconexiones. El valor de cada coalición no vacía de estructuras neuronales en el juego se define como la cantidad de componentes conectados en la red cerebral y el valor de Shapley de este juego se utiliza para comprender las consecuencias funcionales de una lesión en las diferentes áreas del cerebro. Las aplicaciones del valor de Shapley para el análisis de redes cerebrales reales que representan áreas corticales visuales y áreas corticales prefrontales del macaco, respectivamente, se presentan y discuten en Kötter et al. (2007).

Redes de genes.

Las redes génicas (p. Ej., Que representan las interacciones proteína-proteína, coexpresión de genes, etc.) se utilizan cada vez más para explorar la funcionalidad a nivel de sistema de proteínas y genes. Recientemente, se ha introducido un nuevo método basado en juegos de coalición en Moretti et al. (2010) para evaluar la centralidad en las redes de genes, teniendo en cuenta las interacciones entre los genes. La idea básica del enfoque en Moretti et al. (2010) se basa en el análisis de dos juegos de coalición: un juego de asociación, definido como un juego de coalición sobre un conjunto de genes donde el valor de cada coalición S mide la "interacción" entre los genes en S y un conjunto dado de un una familia a priori de genes clave, y un juego restringido por gráficos, donde la interacción genética se restringe a las conexiones proporcionadas por una red genética. La diferencia de los valores de Shapley calculados en los dos juegos de coalición antes mencionados se usa en Moretti et al. (2010) como una medida de centralidad génica en una red de genes real derivada de datos de expresión génica.




La figura anterior muestra la red de interacción entre los genes (nodos) de las células sanguíneas de los niños de la región de Teplice (TP) en la República Checa, un distrito minero caracterizado por altos niveles de contaminantes transportados por el aire que incluyen carcinógenos. Las interacciones entre pares de genes están representadas por aristas. Los bordes más gruesos muestran los caminos más cortos entre los genes más asociados. Fuente: Moretti et al. (2010).

Redes metabólicas

Las redes metabólicas representan sistemas biológicos complejos compuestos de reacciones bioquímicas a través de las cuales se transforman los metabolitos. El análisis de balance de flujo (FBA) de redes metabólicas se ha utilizado en Sajitz-Hermstein y Zoran (2012) para introducir juegos de FBA, que son juegos de coalición donde el conjunto de jugadores es el conjunto de reacciones que forman la red metabólica y una coalición S corresponde a la subred inducida por las reacciones incluidas en S. El valor dado a la coalición S por la función característica de un juego FBA es entonces el valor óptimo de la función objetivo determinada por FBA en la subred correspondiente en S. El valor de Shapley solo considerando el conjunto restringido de subredes capaces de realizar la función bioquímica investigada se ha utilizado en Sajitz-Hermstein y Zoran (2012) como una medida de centralidad funcional para cuantificar las contribuciones de las reacciones individuales a las capacidades de conversión bioquímica. Las aplicaciones a redes metabólicas reales, como un modelo de glicólisis y vía de la pentosa fosfato, se presentan en [Sajitz-Hermstein y Zoran (2012), Sajitz-Hermstein y Zoran (2013)].

Redes quimiosensoriales.

El Multi-perturbation Shapley Value Analysis (MSA) (Keinan et al., 2004) es un método para deducir la localización de la función causal a partir de múltiples datos de perturbaciones, donde el valor de Shapley se utiliza para cuantificar la importancia de cada uno de los elementos de un complejo sistema en la realización de diferentes funciones. Siguiendo este enfoque, el valor de cada coalición de elementos del sistema es una medida del rendimiento del sistema biológico para una determinada función (por ejemplo, la capacidad del sistema para sobrevivir a la radiación UV). Los autores en Kaufman et al. (2005) utilizaron el método MSA para analizar la localización de funciones en el sistema nervioso, basándose en los experimentos de ablación con láser de las neuronas quimiosensoriales en C. elegans.

Aplicaciones de la centralidad teórica de juegos a la tecnología de las comunicaciones de información.

Red de computadoras.

Con el fin de reducir su huella de carbono, las TIC emergentes están integradas con protocolos de consumo de energía y técnicas de ahorro de energía. Un enfoque de enrutamiento consciente de la energía se estudia en [Bianzino et al. (2011), Bianzino et al. (2012)] con el objetivo de resumir la contribución de dispositivos que usan índices de poder (y en particular el valor de Shapley) de determinados juegos de coalición definidos sobre el conjunto de los elementos de una red troncal. Tales juegos de coalición incorporan la información sobre la estructura de la red (por ejemplo, la conectividad de subredes), la cantidad de tráfico que enrutan los dispositivos y la robustez de la red (es decir, posibles escenarios de falla). La clasificación proporcionada por el valor de Shapley de tales juegos se ha utilizado para impulsar la selección de dispositivos menos críticos que deberían desconectarse primero a fin de reducir el consumo de energía y tener en cuenta el rendimiento global esperado de la red. La clasificación proporcionada por el valor de Shapley se ha comparado en escenarios de red realistas con clasificaciones dadas por métodos basados ​​en nociones de centralidad clásica. Esta comparación muestra que la clasificación de valores de Shapley puede proporcionar un alto ahorro de energía con un impacto menor en los niveles de QoS (calidad de servicio) esperados en la red.



En la figura anterior: Izquierda: vista del grafo de criticidad de los enlaces según el índice de Shapley para el escenario de la red de referencia durante el tráfico de la hora punta: cuanto más grueso es un enlace, mayor es su importancia. Derecha: Ahorro de energía alcanzable para el escenario de referencia de la red, para diferentes clasificaciones de enlaces. Fuente: Bianzino et al. (2012)


viernes, 13 de abril de 2018

Machine learning y redes de textos detectan cambios en los estereotipos

Los investigadores de Stanford usan el algoritmo de aprendizaje automático para medir los cambios en el sesgo étnico y de género en los EE. UU.

La nueva investigación de Stanford muestra que, durante el siglo pasado, los cambios lingüísticos en los estereotipos de género y étnicos se correlacionaron con los principales movimientos sociales y los cambios demográficos en los datos del censo de los EE. UU.


Alex Shashkevich | Stanford News




Un equipo de Stanford usó algoritmos especiales para detectar la evolución de los sesgos étnicos y de género entre los estadounidenses desde 1900 hasta el presente. (Crédito de la imagen: mousitj / Getty Images)

Los sistemas de inteligencia artificial y los algoritmos de aprendizaje automático han sido criticados recientemente porque pueden recoger y reforzar los prejuicios existentes en nuestra sociedad, según los datos con los que están programados.

Pero un grupo interdisciplinario de académicos de Stanford resolvió este problema en un nuevo documento de Procedimientos de la Academia Nacional de Ciencias publicado el 3 de abril.

Los investigadores usaron incrustaciones de palabras, una técnica algorítmica que puede mapear relaciones y asociaciones entre palabras, para medir los cambios en los estereotipos de género y étnicos durante el siglo pasado en los Estados Unidos. Analizaron grandes bases de datos de libros, periódicos y otros textos estadounidenses y observaron cómo esos cambios lingüísticos se correlacionaban con los datos demográficos del Censo de EE. UU. y los grandes cambios sociales como el movimiento de mujeres en la década de 1960 y el aumento de la inmigración asiática, según la investigación.

"Las incrustaciones de palabras se pueden usar como un microscopio para estudiar los cambios históricos en los estereotipos en nuestra sociedad", dijo James Zou, profesor asistente de ciencia de datos biomédicos. "Nuestra investigación previa ha demostrado que las incrustaciones capturan de manera efectiva los estereotipos existentes y que esos sesgos se pueden eliminar sistemáticamente. Pero creemos que, en lugar de eliminar esos estereotipos, también podemos utilizar las incrustaciones como un objetivo histórico para los análisis cuantitativos, lingüísticos y sociológicos de los sesgos ".

Zou es coautor del artículo con historia del profesor Londa Schiebinger, del profesor de lingüística e informática Dan Jurafsky y del estudiante graduado en ingeniería eléctrica Nikhil Garg, quien fue el autor principal.

"Este tipo de investigación nos abre todo tipo de puertas", dijo Schiebinger. "Proporciona un nuevo nivel de evidencia que permite a los especialistas en humanidades responder preguntas sobre la evolución de los estereotipos y los sesgos a una escala que nunca antes se había hecho".

La geometría de las palabras

Una palabra incrustada es un algoritmo que se usa o se entrena en una colección de texto. El algoritmo luego asigna un vector geométrico a cada palabra, representando cada palabra como un punto en el espacio. La técnica utiliza la ubicación en este espacio para capturar asociaciones entre palabras en el texto fuente.

"Las incrustaciones son una poderosa herramienta lingüística para medir aspectos sutiles del significado de las palabras, como el prejuicio", dijo Jurafsky.

Tome la palabra "honorable". Usando la herramienta de incrustación, investigaciones previas encontraron que el adjetivo tiene una relación más cercana a la palabra "hombre" que a la palabra "mujer".

En su nueva investigación, el equipo de Stanford utilizó incrustaciones para identificar ocupaciones y adjetivos específicos que fueron sesgados hacia las mujeres y grupos étnicos particulares por década desde 1900 hasta el presente. Los investigadores formaron esas incrustaciones en bases de datos de periódicos y también usaron incrustaciones previamente entrenadas por el estudiante de posgrado en informática Stanford Will Hamilton en otros conjuntos de datos de gran tamaño, como el corpus de libros estadounidenses de libros de Google, que contiene más de 130 mil millones de palabras publicadas durante los días 20 y 21 siglos.

Los investigadores compararon los sesgos encontrados por esas incrustaciones con los cambios demográficos en los datos del censo de EE. UU. Entre 1900 y el presente.

Cambios en los estereotipos

Los resultados de la investigación mostraron cambios cuantificables en las representaciones de género y los prejuicios hacia los asiáticos y otros grupos étnicos durante el siglo XX.

Uno de los hallazgos clave que surgieron fue cómo los sesgos hacia las mujeres cambiaron para mejor, de alguna manera, con el tiempo.

Por ejemplo, adjetivos como "inteligente", "lógico" y "reflexivo" se asociaron más con los hombres en la primera mitad del siglo XX. Pero desde la década de 1960, las mismas palabras se han asociado cada vez más con las mujeres en cada década siguiente, lo que se correlaciona con el movimiento de mujeres en la década de 1960, aunque todavía existe una brecha.

La investigación también mostró un cambio dramático en los estereotipos hacia los asiáticos y asiáticos americanos.

Por ejemplo, en la década de 1910, palabras como "bárbaro", "monstruoso" y "cruel" fueron los adjetivos más asociados con los apellidos asiáticos. En la década de 1990, esos adjetivos fueron reemplazados por palabras como "inhibido", "pasivo" y "sensible". Este cambio lingüístico se correlaciona con un fuerte aumento de la inmigración asiática a los Estados Unidos en las décadas de 1960 y 1980 y un cambio en los estereotipos culturales. dijeron los investigadores

"Me llamó la atención la crudeza del cambio en los estereotipos", dijo Garg. "Cuando estudias la historia, aprendes acerca de las campañas de propaganda y estos puntos de vista obsoletos de los grupos extranjeros. Pero lo que la literatura producida en ese momento reflejaba esos estereotipos era difícil de apreciar ".

En general, los investigadores demostraron que los cambios en las incrustaciones de palabras seguían de cerca los cambios demográficos medidos por el censo de Estados Unidos.

Fructífera colaboración

La nueva investigación ilumina el valor del trabajo en equipo interdisciplinario entre las humanidades y las ciencias, dijeron los investigadores.

Schiebinger dijo que se acercó a Zou, quien se unió a Stanford en 2016, después de leer su trabajo anterior sobre la despersonalización de los algoritmos de aprendizaje automático.

"Esto llevó a una colaboración muy interesante y fructífera", dijo Schiebinger, y agregó que los miembros del grupo están trabajando en una mayor investigación conjunta.

"Subraya la importancia de que los humanistas y los científicos informáticos trabajen juntos. Hay un poder para estos nuevos métodos de aprendizaje automático en la investigación de humanidades que recién se está entendiendo ", dijo.