miércoles, 16 de marzo de 2016

Algoritmo de aprendizaje detecta tweets de borrachos

Algoritmo de aprendizaje de máquinas identifica tweets enviados bajo la influencia del alcohol
Un análisis de piar mientras está bebiendo revela patrones de comportamiento relacionados con el alcohol en un detalle sin precedentes.

por Emerging Technology from the arXiv

El envío de su ex pareja un tweet con los ojos llorosos al 1 a.m. después de una botella de chardonnay no es necesariamente la mejor de manera de lograr la reconciliación. Todos sabemos que el alcohol y los tweets no siempre son una buena combinación.



Sin embargo, un número sorprendente de nosotros se entregan a esta peculiar forma de indiscreción. Y esta práctica ha dado Nabil Hossain y sus amigos de la Universidad de Rochester una idea interesante.

Hoy en día, estos chicos muestran la forma en que han entrenado una máquina de detectar los tweets relacionados con el alcohol. Y también muestran cómo utilizar estos datos para monitorear la actividad relacionada con el alcohol y la forma en que se distribuye en toda la sociedad. Dicen que el método podría tener un impacto significativo en la forma de entender y responder a las cuestiones de salud pública que el alcohol y otras actividades plantean.

Hossain y compañeros de trabajo se basa en dos descubrimientos. La primera es una manera de entrenar a un algoritmo de aprendizaje automático para detectar los tweets que se relacionan con el alcohol y los enviados por la gente que bebe alcohol en el momento. La segunda es una manera de encontrar la ubicación de inicio de un usuario de Twitter con una precisión mucho mayor de lo que ha sido nunca posible y, por tanto, para determinar si están bebiendo en casa o no.

El equipo comenzó mediante la recopilación de los tweets etiqueta geográfica enviados durante el año hasta julio de 2014, frente la ciudad de Nueva York y del condado de Monroe, en la frontera norte del estado, que incluye la ciudad de Rochester. De este conjunto, que filtran todos los tweets que mencionan el alcohol o las palabras relacionadas con el alcohol, como borracho, cerveza, fiesta, y así sucesivamente.

A continuación, utilizaron los trabajadores en el servicio Bing para Mechanical Turk de Amazon para analizar los tweets con más detalle. Para cada tweet, pidieron tres Turkers para decidir si el mensaje se refiere al alcohol y si es así si se refería al alcohol potable altavoz de agudos. Por último, se les preguntó si el tweet fue enviado al mismo tiempo, el altavoz de agudos se embeben.

Este proceso implicó algunos de tweets geolocalizados 11.000 asociados con el alcohol (aunque los detalles sobre el tamaño de este estudio, y por lo tanto su importancia, son tristemente deficientes en el trabajo). Eso es un gran conjunto de datos suficientes para entrenar a un algoritmo de aprendizaje automático para detectar los tweets relacionados con el alcohol en sí.

Eso los llevó a la siguiente pregunta ¿dónde están estas personas cuando están twitteando acerca de la bebida? Y en particular, ¿están en casa o en otro lugar?

Los investigadores han ideado varios métodos para la elaboración de la ubicación de inicio de la gente usando sólo sus tweets geolocalizados. Estos incluyen la elección del lugar en el que tweet de la mayoría, la elección del lugar en el que envían el último tweet del día de, o el lugar que tweet de entre y 01 a.m. y las 6 am Sin embargo, todos estos métodos tienen puntos débiles que los hacen difícil confiar en.

Hossain y coautores desarrollado otro enfoque. Elaboraron una lista de palabras y frases que los usuarios puedan utilizar en los tweets enviados desde sus hogares, tales como "Finalmente a casa!" O bañera, sofá, televisión, y así sucesivamente. Se filtran los tweets geolocalizados que contengan esas palabras y se les pidió tres Turkers si pensaban que cada tweet fue enviado desde casa o no, manteniendo sólo aquellos para los que los tres Turkers todos respondieron que sí.

Hossain y colegas designaron a estos tuits como un conjunto de datos terrestres de referencia para la ubicación de inicio y lo usaron para entrenar a un algoritmo de aprendizaje para identificar otros patrones asociados con los tweets en el hogar. El algoritmo para ver cómo se veía ubicación de inicio se correlaciona con otros indicadores tales como la ubicación del último tweet del día, el lugar más popular de un tweet, el porcentaje de tweets desde un lugar determinado, y así sucesivamente.

Basándose en varios indicadores para determinar la ubicación de inicio mejora significativamente la exactitud de la aproximación, en comparación con las que utilizan un único indicador. De hecho, Hossain y sus colegas dicen que pueden hacer ejercicio posición de casa hasta un radio de 100 metros con una precisión de hasta un 80 por ciento. Eso es significativamente mejor que el trabajo anterior.

En conjunto, estas dos técnicas permitieron al equipo para trabajar cuando y donde la gente está bebiendo. Y utilizaron esto para comparar los patrones de consumo en la ciudad de Nueva York y en la zona suburbana del condado de Monroe.

Hacen esto dividiendo cada área en 100 x 100 rejillas y marcado aquellas áreas en las que hay los tweets relacionados con el alcohol. Eso les permite elaborar y comparar "mapas de calor" del consumo de alcohol por cada área.

También se distinguen los tweets acerca de la bebida hecha de una ubicación de inicio de las realizadas en otros lugares. Y trazar los puntos de venta de alcohol en cada área. Eso permite a los investigadores para investigar la relación entre la densidad de tweets enviados desde diferentes regiones en estado de ebriedad y la densidad de puntos de venta de alcohol.

Los resultados son una lectura interesante. En primer lugar, Hossain y coautores señalan que una mayor proporción de tweets en la ciudad de Nueva York están asociados con el alcohol que en el condado de Monroe. "Una posible explicación es que es probable que tenga una mayor tasa de beber una ciudad mucha gente, como Nueva York con puntos de venta de alcohol y muchas personas socialización de alta densidad", dicen.

Lo que es más, los datos de geolocalización revela que una mayor proporción de gente bebe en casa (o dentro de los 100 metros de la casa) en la ciudad de Nueva York que en el condado de Monroe, donde un alto porcentaje de personas que beben más de un kilómetro de la casa.

Los mapas de calor también revelan patrones interesantes. Permite que el equipo de casa en el 100 x 100 metros cuadrados de rejilla donde se han producido al menos cinco tweets sobre el alcohol. "Creemos que este tipo de redes son regiones de actividades inusuales para beber," decir Hossain y colegas.

También encontraron una correlación entre la densidad de puntos de venta de alcohol en una región y el número de tweets que indican que alguien está bebiendo ahora. Esto plantea una pregunta interesante acerca de cómo correlación y causalidad están ligados en este caso. ¿Tiene una alta densidad de puntos de venta de alcohol hacen que las personas beben más? ¿O es que los bebedores acuden a las zonas con una alta densidad de puntos de venta de alcohol? Por supuesto, este tipo de datos por sí sola no puede responder a esta.

Sin embargo, el gran poder de esta técnica es que es barato y rápido. Por el contrario, para conseguir una visión similares en los patrones de consumo por otros medios es muy costoso y consume mucho tiempo.

Sería por lo general requiere de personas que ser cuidadosamente seleccionados, para rellenar cuestionarios ya predispuestas y que estos se analizan en detalle. El enfoque de aprendizaje por máquina podría incluso controlar esta actividad en tiempo real. "Nuestros resultados demuestran que los tweets pueden proporcionar señales potentes y de grano fino de actividades ocurriendo en las ciudades", dicen.

Hay advertencias de golf. Hay un claro sesgo en los datos recogidos de Twitter ya que los jóvenes y ciertas minorías están sobre representadas. Pero sesgos similares están presentes en otros métodos de recogida de datos, por ejemplo, las encuestas tienden a subrepresentar personas que no quieren llenar encuestas, como algunos inmigrantes. Identificar y hacer frente a los sesgos es una parte importante de todos los métodos de recogida de datos.

Hossain y coautores tienen grandes planes para su técnica. En el futuro, quieren estudiar cómo el consumo de alcohol varía con la edad, sexo, origen étnico, y así sucesivamente; cómo las diferentes configuraciones de influir beber-y-piar, tales como casas de sus amigos, el estadio, el parque, y así sucesivamente; y comparar la velocidad a la que los bebedores fluyen dentro y fuera de los barrios adyacentes.

El aspecto social de Twitter será útil, también. "Podemos explorar la red social de los bebedores de averiguar cómo las interacciones sociales y la presión de grupo en los medios sociales influyen en la tendencia a hacer referencia a la bebida" decir Hossain y colegas.

Todo lo que podría ayudar a informar el debate sobre los aspectos relacionados con la salud del alcohol, que es la tercera causa de muerte evitable en los EE.UU. Eso es 75.000 muertes que el alcohol causa cada año un número que pone la importancia de este trabajo en perspectiva comparada a las pruebas y tribulaciones de la vida del amor.



Ref: arxiv.org/abs/1603.03181 : Inferring Fine-grained Details on User Activities and Home Location from Social Media: Detecting Drinking-While-Tweeting Patterns in Communities




No hay comentarios:

Publicar un comentario en la entrada