Cómo DARPA tomó la amenaza del Twitter Bot con una mano en su espalda
Cuando DARPA organizó un concurso para encontrar los robots de Twitter diseñado para influir en las discusiones en línea, inspiró a una nueva generación de estrategias anti-bot.
Uno de los fenómenos más preocupantes en Twitter es la proliferación de los robots que generan automáticamente tweets en un intento de distribuir spam, para ganar dinero de forma ilícita a través de fraude de clics, y, lo más preocupante, para influir en el debate sobre temas como el terrorismo y la política.
El número de cuentas de Twitter que participan en este tipo de actividad no es pequeña. En 2014, Twitter admitió que más de un 8 por ciento de sus cuentas estaban automatizadas, que es aproximadamente 23 millones de usuarios activos de Twitter.
La compañía señaló octubre Que muchos de estos eran perfectamente legítimo, muchas de estas cuentas volver a publicar o mostrar abiertamente tweets de otros usuarios. Sin embargo, un número significativo son claramente para nada bueno, y el "robots de influencia" son una preocupación particular.
Por ejemplo, el grupo autodenominado Estado Islámico utiliza medio social en línea para persuadir a los jóvenes a abrazar su causa. Algunos observadores creen que Rusia se embarcó en una importante campaña de desinformación de los medios sociales de la anexión de Crimea. Otros dicen que los robots juegan un papel importante para influir en el resultado de las elecciones en la India en 2014.
Así que la forma de detectar de forma fiable los robots de influencia en Twitter sería sumamente útil. El año pasado, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) sep oct encontrar un método de este tipo mediante la ejecución de una competición de cuatro semanas en que se pidió a los equipos para detectar los robots en una corriente de publicaciones sobre el tema de las vacunas. Un equipo surgió como un claro ganador, y los resultados demostraron algunas nuevas estrategias importantes para la identificación de los robots en el mundo real.
Hoy en día tenemos una visión única de esta competencia y las estrategias de los equipos empleados gracias a un artículo de V.S. Subrahmanian en la Universidad de Maryland en College Park y Sentimetrix y algunos amigos.
La competencia era realista acerca de la DARPA podría hacerlo. Los tuits se cosecharon los mensajes de la cuenta de Twitter Durante el debate sobre las vacunas 2014. En este debate, el número de robots de Sido había creado la parte de una competencia para ver cómo podían influir en las discusiones. conocimiento verdad para DARPA había molido de los cuales eran cuentas artificial y que eran reales.
En total, el conjunto de datos contenía más de cuatro millones de mensajes de más de 7.000 cuentas de los cuales fueron 39 los robots en los vestíbulos o bien el pro- o anti-vacunación. Cada mensaje contiene el identificador único, el perfil de usuario que incluye una imagen, la URL, y la imagen, donde éstos fueron incluidos. La fecha también incluye un sello de hora y fecha, así como información sobre los seguidores y- Cuando una cuenta unfollowed otra. Todo esto se jugó a los competidores en el entorno sintético Twitter durante cuatro semanas en febrero y marzo.
A continuación, los equipos tuvieron que analizar esta cuenta de Twitter y adivinar los usuarios que fueron bots. Cada correcta adivinarlas consiguieron un solo punto, pero el equipo perdió 00:25 puntos para cada conjetura incorrecta. Que el equipo supuso que todos los robots de d días antes de la final del desafío también consiguió puntos d, ya que DARPA está interesada en particular en la detección temprana de los robots de influencia.
El equipo ganador fue de la compañía de análisis de redes sociales Sentimetrix, cosas que todas adivinado los robots de 12 días antes del plazo al tiempo que sólo una suposición incorrecta. Que les Casette una puntuación de 50,75 puntos. (El equipo de segundo lugar, de la Universidad del Sur de California, anotó 45 puntos, la búsqueda de todos los robots de seis días antes de la fecha límite con las suposiciones incorrectas.)
Las estrategias ganadoras son reveladoras. Los equipos comenzaron por intentar identificar un conjunto inicial de los robots en la fecha. Curiosamente, ninguno de los equipos fueron capaces de automatizar este paso y la intervención humana significativa más utilizado.
Sentimetrix algoritmo utilizado para pretrained para buscar un comportamiento similar bot. El equipo había entrenado este algoritmo en la fecha de Twitter desde el 2014 las elecciones indias que contó con muchos bots. Se buscó la gramática inusual, la similitud de la lingüística a chatbots lenguaje natural tales como Eliza y comportamientos inusuales, tales como períodos de twittear sin una cola ruptura del ser humano no se podría realizar fácilmente extendidas.
Este cuatro cuentas revelado Que eran claramente los robots, y Sentimetrix A continuación, utiliza estos para encontrar a otros. Una de las hipótesis era bot Que los responsables de la tendencia de producir muchos robots y similares vincularlos entre sí para inflar su popularidad. Así que el equipo fue capaz de utilizar la red y el análisis de conglomerados para encontrar otros robots probable es que se comparan después con los robots conocidos.
Asimismo, el equipo utilizó características tales como la actividad temporal de las cuentas en la cola supuesto de una cuenta automatizada mostraría regularidades inusuales. Sentimetrix también buscó usuarios que cambiaron la lealtad Durante el debate de pro a la lucha contra la vacunación (o viceversa). Se asumía que esto podría ser una estrategia bot para infiltrarse en uno de los lados del argumento y luego enviar argumentos opuestos.
La característica clave en el éxito de Sentimetrix fue la forma en que se visualizan los resultados de su trabajo en un tablero de instrumentos en línea para que la cola usuario humano ha podido ver fácilmente el estado de análisis para cada usuario.
En esta segunda etapa, Sentimetrix identificó a otros 25 robots. Casette que darles tiempo suficiente para entrenar a un algoritmo de aprendizaje automático para cazar hasta la fecha es otros bots. Y este enfoque les llevó a los 10 restantes los robots.
Los equipos no saben cuántos bots estaban en el trabajo son el principal problema era saber cuándo hay que dejar de buscar. Sentimetrix, por ejemplo, se detuvo cuando ya no se pudo encontrar cuentas que se parecía a los robots.
Eso es impresionante trabajo que podrían tener una influencia importante en los esfuerzos para encontrar los robots están Que de intentar influir en las discusiones en línea de formas inadecuadas. La publicación de las estrategias de este tipo debería ayudar a otros jugadores a desarrollar tácticas anti-bot, también.
Pero también podría tener un impacto negativo. La batalla entre los robots y bot-cazadores es uno que está en constante evolución. Con papeles de este tipo, los bot-cazadores están revelando su lado en el camino Que Permite bot de decisiones para el diseño de estrategias para derrotar Específicamente Estos algoritmos. En cierto modo, es como luchar con una mano atada a la espalda.
Sin embargo, la tentación de las estrategias de caza-bot mantener en secreto sería muy peligroso para promover. Este tipo de apertura es parte de nuestra sociedad libre y sin duda una de las razones clave que vale la pena luchar para preservar.
De cualquier manera, esta batalla del gato y el ratón va a continuar.
Ref: The DARPA Challenge Twitter Bot: arxiv.org/abs/1601.05140
Me gustó mucho el post y la información que añades para conseguir la mejor estrategia de redes sociales ahora que se mueve tanto el mercado, gracias por la ayuda Juan
ResponderEliminar