Mostrando entradas con la etiqueta machine learning. Mostrar todas las entradas
Mostrando entradas con la etiqueta machine learning. Mostrar todas las entradas

martes, 5 de mayo de 2020

Usando aprendizaje automático para predicción del brote de COVID-19

Una metodología de aprendizaje automático para la predicción en tiempo real del brote COVID-19 2019-2020 mediante búsquedas en Internet, alertas de noticias y estimaciones de modelos mecanicistas

Dianbo Liu, Leonardo Clemente, Canelle Poirier, Xiyu Ding, Matteo Chinazzi, Jessica T Davis, Alessandro Vespignani, Mauricio Santillana
ArXiv


Presentamos una metodología oportuna y novedosa que combina estimaciones de enfermedades a partir de modelos mecanicistas con trazas digitales, a través de metodologías de aprendizaje automático interpretables, para pronosticar de manera confiable la actividad COVID-19 en las provincias chinas en tiempo real. Específicamente, nuestro método es capaz de producir pronósticos estables y precisos 2 días antes de la hora actual, y se utiliza como insumos (a) informes oficiales de salud del Centro Chino para el Control y la Prevención de Enfermedades (CDC de China), (b) relacionados con COVID-19 actividad de búsqueda en Internet de Baidu, (c) actividad de medios informativos informada por Media Cloud, y (d) pronósticos diarios de actividad COVID-19 de GLEAM, un modelo mecanicista basado en agentes. Nuestra metodología de aprendizaje automático utiliza una técnica de agrupamiento que permite la explotación de sincronías geoespaciales de la actividad COVID-19 en las provincias chinas, y una técnica de aumento de datos para tratar el pequeño número de observaciones históricas de actividad de la enfermedad, característica de brotes emergentes. El poder predictivo de nuestro modelo supera a una colección de modelos de referencia en 27 de las 32 provincias chinas, y podría extenderse fácilmente a otras geografías actualmente afectadas por el brote de COVID-19 para ayudar a los tomadores de decisiones.







martes, 17 de diciembre de 2019

Usando aprendizaje automático para detectar a ISIS


Cómo el aprendizaje automático puede encontrar extremistas en las redes sociales

Tauhid Zaman ||Lea el estudio completo: “Finding extremists in online social networks”

Los grupos extremistas a menudo usan las redes sociales en línea para reclutar miembros y difundir propaganda. Tauhid Zaman, profesor asociado de gestión de operaciones en Yale SOM, y sus colegas investigaron recientemente cómo la inteligencia artificial podría ayudar a los esfuerzos para detectar y suspender dichas cuentas, antes de que el usuario publique contenido dañino. Los hallazgos del equipo podrían ayudar a las agencias de aplicación de la ley a rastrear a los partidarios de ISIS o los supremacistas blancos.

Liderazgo de operaciones de tecnología de datos

Por Roberta Kwok || Yale Insights

En octubre de 2015, un partidario británico del ISIS llamado Sally Jones publicó un tweet con el hashtag #RunRobertRun. El tuit incluía un enlace a otro mensaje que contenía la supuesta dirección de Robert O’Neill, el ex SEAL de la Marina que afirma haber matado a Osama bin Laden. Cuando Twitter suspendió la cuenta de Jones, la información se había extendido a otros partidarios de ISIS.

O'Neill no vivía en esa dirección y permaneció ileso. Pero el tuit de Jones es un ejemplo preocupante de cómo los grupos extremistas explotan las redes sociales para atraer a otros a su causa e incitar a la violencia. "Twitter solía ser una broma, algo divertido para los niños", dice Tauhid Zaman, profesor asociado de gestión de operaciones en Yale SOM. "Ahora es un problema de seguridad nacional".

En un estudio reciente, el equipo de Zaman investigó cómo identificar afiliados de ISIS en Twitter para que sus cuentas puedan cerrarse rápidamente. Los investigadores utilizaron el aprendizaje automático para predecir qué usuarios tenían más probabilidades de ser extremistas, en función de características tales como a quién seguía la persona. Los usuarios suspendidos a menudo se registran nuevamente con un nombre ligeramente diferente, por lo que el equipo también desarrolló estrategias para detectar estas nuevas cuentas.

Si bien el estudio se centró en Twitter, Zaman dice que el método es lo suficientemente general como para aplicarlo a otras redes sociales en línea. Y cree que las estrategias deberían funcionar para otros grupos extremistas, como los supremacistas blancos, que exhiben un comportamiento similar, como la creación de cuentas duplicadas. "Juegan el mismo juego", dice Zaman.

En 2014, Christopher Marks, un teniente coronel del ejército de EE. UU., era estudiante de doctorado en el laboratorio de Zaman y quería estudiar redes sociales. En ese momento, ISIS tenía una presencia creciente en Twitter.

Zaman y Marks decidieron intentar detectar cuentas de ISIS incluso antes de que el usuario publicara algún mensaje. Para cuando la persona tuiteó contenido dañino, Zaman dice que "podría ser demasiado tarde".

Para investigar, colaboraron con Jytte Klausen, investigadora de la Universidad de Brandeis que estudia el yihadismo occidental. Klausen proporcionó una lista de alrededor de 100 usuarios de Twitter conocidos por estar afiliados a ISIS. Luego, el equipo identificó a los seguidores de esas personas, las personas que siguieron, las personas conectadas con los seguidores, y así sucesivamente, lo que arrojó más de 1.3 millones de cuentas. Sin embargo, no todos esos usuarios eran extremistas; Por ejemplo, algunos eran investigadores que estudiaban ISIS.
"Cuando matas una cuenta de ISIS, vuelve".

El equipo de Zaman luego rastreó alrededor de 647,000 de las cuentas durante varios meses, y en septiembre de 2015, Twitter había suspendido aproximadamente 35,000 de ellas, presumiblemente porque esos usuarios habían publicado contenido extremista. Entonces, los investigadores utilizaron IA para identificar las características típicas de las cuentas suspendidas. Por ejemplo, seguir a ciertos usuarios u ocultar la ubicación de uno estaba vinculado a una mayor probabilidad de extremismo.

Sobre la base de esas medidas, los investigadores pudieron identificar automáticamente alrededor del 60% de las cuentas que luego se suspendieron. Alrededor del 10% de los usuarios marcados eran falsos positivos. (El software se puede ajustar para establecer un umbral más estricto, dice Zaman, en cuyo caso identificaría más afiliados de ISIS y produciría más falsos positivos).

Luego, el equipo quería detectar nuevas cuentas creadas por usuarios suspendidos. A menudo, "cuando matas una cuenta de ISIS, vuelve", dice Zaman.

El software que simplemente buscaba similitudes en nombres y fotos funcionó bastante bien. Los usuarios suspendidos a menudo eligen un nombre de pantalla e imagen similares para su nueva cuenta porque quieren que los seguidores anteriores los encuentren, dice.

Pero los investigadores finalmente desarrollaron una estrategia de búsqueda más eficiente. Cuando un usuario suspendido creó una nueva cuenta, esa persona probablemente volvería a seguir a muchas de las mismas personas que habían seguido anteriormente. Entonces, una forma de encontrar a ese usuario era buscar en las redes de cuentas seguidas previamente por la cuenta suspendida.

Utilizando el aprendizaje automático, el equipo asignó a cada cuenta un puntaje, que capturó la probabilidad de que un usuario suspendido los volviera a seguir. El mejor enfoque, dice Zaman, era priorizar la búsqueda en las redes de cuentas con un puntaje alto y relativamente pocos seguidores. Después de buscar en la red de una cuenta un seguidor similar a la cuenta suspendida, el software pasó al siguiente amigo de la lista y repitió el proceso. "Eso te da la forma más rápida de encontrar estas cuentas", dice Zaman.

Zaman señala que si bien las agencias de aplicación de la ley podrían usar el software para erradicar a los extremistas, los gobiernos autoritarios podrían hacer lo mismo para sofocar la resistencia. "Si lo usa incorrectamente, es la supresión de la disidencia", dice.

Y una persona siempre debe revisar el resultado para confirmar si el software realizó la llamada correcta. "Quieres que un humano sea el último punto de control", dice Zaman.

Es probable que el software no supere los métodos internos de Twitter para señalar a los extremistas porque la empresa tiene acceso a más datos, como las direcciones IP. Pero Zaman dice que el método del equipo ayudará a cualquier red social a combatir grupos peligrosos.

"Nuevos tipos de grupos extremistas continuarán apareciendo en diferentes redes sociales y los usarán para propaganda y reclutamiento", dice. "Nuestra investigación proporciona un conjunto de herramientas que pueden detectar y monitorear estos grupos sin importar en qué red se encuentren y qué mensaje peligroso defiendan".

martes, 18 de junio de 2019

Cómo, con qué, para qué: Herramientas para investigar datos de Twitter

Uso de Twitter como fuente de datos: una visión general de las herramientas de investigación en redes sociales (2019)

LSE Impact Blog




Twitter y otras plataformas de redes sociales representan un recurso grande y en gran parte sin explotar para datos y pruebas sociales. En esta publicación, Wasim Ahmed actualiza su serie recurrente en el Blog de Impacto, para ofrecerle los últimos desarrollos en métodos y metodologías digitales para investigar Twitter y otras plataformas de medios sociales.

Esta publicación se basa en las ediciones de 2015 y 2017 de esta publicación, captura tendencias y eventos clave que están configurando la investigación en redes sociales para los científicos sociales y proporciona una colección de métodos y herramientas de investigación para el análisis de datos de redes sociales.

Desde la edición de 2017 de esta publicación de blog, he visto usos aún más únicos e interesantes de los datos de las redes sociales en una amplia variedad de disciplinas de investigación, como sociología, informática, medios y comunicación, ciencia política e ingeniería, solo por mencionar pocos. Las plataformas de medios sociales generan una gran cantidad de datos diariamente sobre una variedad de temas y, en consecuencia, representan una fuente clave de información para cualquiera que busque estudiar la sociedad del siglo XXI.

Twitter sigue siendo la plataforma más popular para la investigación académica, ya que aún proporciona sus datos a través de una serie de interfaces de programación de aplicaciones (API). En contraste, las consecuencias de la "violación de datos" de Cambridge analytica han llevado a ciertas plataformas de redes sociales a limitar los datos proporcionados a través de sus interfaces de programación de aplicaciones. Sin embargo, aunque puede que no sea posible obtener datos de todas las plataformas de redes sociales, aún es posible realizar una investigación cualitativa y cuantitativa, como entrevistas y encuestas, con miembros de comunidades en línea.

Los estudios en redes sociales se pueden encuadrar a partir de una amplia variedad de teorías, construcciones y marcos conceptuales de una amplia variedad de disciplinas y recomendaría echar un vistazo a este documento: Social media research: Theories, constructs, and conceptual frameworks, que resume muy bien algunos de estos enfoques.

También hay una serie de enfoques de investigación que se pueden utilizar como Netnography y Digital Ethnography, que proporcionan marcos para realizar investigaciones en el mundo en línea. La netnografía, por ejemplo, puede basarse en la descarga de datos directamente desde una plataforma de redes sociales, anotando observaciones personales de una comunidad en línea y entrevistando a usuarios de redes sociales. Además, también hay una serie de métodos específicos para el análisis de datos de redes sociales que se resumen en la Tabla 1 a continuación.



Tabla 1: Resumen de los métodos de investigación

La Tabla 2 a continuación proporciona una descripción general de las herramientas para recuperar datos de redes sociales


Tabla 2: Una revisión de las herramientas para 2019
*Algunas herramientas pueden permitir el acceso a otras plataformas y la capacidad de importar sus propios datos.

Recientemente, también se ha vuelto cada vez más difícil para los académicos acceder a datos históricos de Twitter con una serie de servicios para académicos que están llegando a su fin. Esto ha dado lugar a servicios como los proporcionados por ScrapeHero, que permiten a los usuarios obtener datos históricos de Twitter de forma gratuita mediante el uso de web scraping. Sin embargo, esta forma de recuperar Twitter no es recomendable.

Para investigar otras plataformas en Internet, como foros web, blogs y otras plataformas de medios sociales, existen herramientas como Scrape Storm, que es un raspador de web visual basado en la inteligencia artificial y pretende poder recuperar datos de casi cualquier plataforma.

También hay una serie de aplicaciones avanzadas de análisis de datos y estadísticas que se pueden usar para analizar datos de redes sociales, como:

Estos paquetes deben investigarse al decidir qué aplicación se utilizará para un proyecto. También me gustaría mencionar la lista de herramientas de Iniciativas de Métodos Digitales, y la lista de herramientas de la Universidad Ryerson de su Laboratorio de Medios Sociales. Para recuperar datos de Twitter también vale la pena revisar el DMI-TCAT (gratis). SAGE Ocean publicó recientemente una revisión adicional de 100 herramientas de redes sociales.

Para el análisis de imágenes, recomendaría revisar la visión de Google Cloud AI y también existen herramientas como Instaloader que le permiten descargar fotos de Instagram de cuentas públicas. Se realizó un estudio realmente interesante en Instagram y se analizó el hashtag #CheatMeal utilizando el análisis de contenido temático y se puede acceder aquí.

Otro campo en rápido desarrollo de la investigación en redes sociales se centra en la ética. Es importante realizar una investigación ética en redes sociales y recientemente publiqué un capítulo de libro de acceso abierto, que examina el uso de Twitter como fuente de datos y brinda una descripción general de los desafíos éticos, legales y metodológicos. Se puede acceder al capítulo aquí.

Debido a una serie de solicitudes, también he empezado a realizar eventos de capacitación regulares (consulte la lista aquí) con la posibilidad de asistencia virtual. El primero de estos eventos se llevó a cabo en la Escuela de Economía y Ciencias Políticas de Londres el 17 de mayo de 2019 y nuestro hashtag # SMRM19 contiene una gran cantidad de material informativo, ya que el evento fue tweeteado en vivo.

jueves, 6 de diciembre de 2018

Cómo se ve la red de aprendizaje de un proceso de machine learning


¿Qué ven las máquinas a medida que aprenden nuevas habilidades?

Por Matt Burgess | Wired

Graphcore, con sede en Bristol, utilizó su nuevo procesador y software de IA para mostrar lo que sucede dentro de los procesos de aprendizaje automático.

El aprendizaje automático está rompiendo las barreras del idioma, alimentando y combatiendo el ciberdelito, e incluso puede reconocer las emociones, pero los procesos complejos detrás de estos avances son a menudo un misterio.

El emprendimiento Graphcore quiere cambiar esto. La firma con sede en Bristol ha creado una serie de 'exploraciones cerebrales de IA', utilizando su chip y software de desarrollo, para producir imágenes de plato de Petri que revelan lo que sucede cuando se ejecutan los procesos.

La mayoría de los programas de aprendizaje automático, incluidos los sistemas propios de Google y los marcos de código abierto, funcionan mediante la capacitación de AI en gráficos computacionales.

En pocas palabras, los sistemas de aprendizaje automático pasan por una fase de construcción, durante la cual se crea un gráfico que muestra todos los cálculos necesarios. A esto le sigue una fase de ejecución en la que la máquina utiliza los cálculos (o pasos) resaltados en el gráfico para ejecutar sus procesos de capacitación. A medida que avanza a través de sus ejecuciones, hace "pases" que se ejecutan hacia adelante y hacia atrás a través de los datos. En las imágenes de Graphcore, al movimiento de estos pases y las conexiones entre ellos se les han asignado varios colores.

Esto es similar a cómo se compilan las exploraciones cerebrales, según Nigel Toon, CEO de Graphcore.

"La sorprendente similitud con las exploraciones del cerebro resalta que lo que tu cerebro está haciendo es algo muy similar", dijo Toon a WIRED. "Tu cerebro tiene neuronas y sinapsis que conectan esas neuronas, y también estás modelando efectivamente algo muy similar en este mundo de aprendizaje automático.

"Lo que estás viendo es cómo funciona la gráfica en el procesador, por lo que sería análogo a tomar una exploración de un cerebro para ver cómo funciona".

Las imágenes, proporcionadas exclusivamente a WIRED, muestran de lo que es capaz el software Poplar de la empresa cuando se combina con un procesador diseñado para aplicaciones de IA. Graphcore generó las imágenes mientras ejecutaba los procesos de aprendizaje automático utilizados para identificar las imágenes. "Estás llevando efectivamente una descripción gráfica a través de una pieza de software a un procesador gráfico", dijo Toon a WIRED.

"Lo que estás viendo son las capas de una profunda red neuronal expuesta", explicó. "Lo que está haciendo una red neuronal profunda es tratar de extraer características de los datos de forma automática, por lo que proporciona un flujo de datos y están extrayendo niveles de detalle más y más finos".

Graphcore dice que el chip utilizado para crear las imágenes se completará este año y ha desarrollado una Unidad de Procesamiento Inteligente (UIP), que argumenta que es la mejor manera de ejecutar la IA de aprendizaje automático. Explica el proceso tecnológico en una publicación de blog publicada junto con este artículo.

En comparación, las empresas como NVIDIA ejecutan programas de aprendizaje automático existentes en GPU de alta potencia. NVIDIA explica que sus GPU se están desarrollando para ejecutarse en la nube y admiten más procesamiento de datos con menos infraestructura, pero Toon argumenta que los procesadores específicos para el aprendizaje automático son mejores que los GPU.

Es algo, aparentemente, Google está de acuerdo con. Cuando el gigante de la tecnología lanzó recientemente su AI para Google Translate, se vio obligado a crear un nuevo chip: una unidad de procesamiento de tensor. El procesador está estructurado de manera diferente a las GPU y computa menos.

"Se están esforzando bastante para evolucionar a las GPU en una dirección diferente", dijo Toon. "Creemos que al comenzar a formar una hoja de papel limpia, podemos hacer algunos avances importantes y mover el paisaje"....

lunes, 3 de diciembre de 2018

Redes de similitud de acciones y predicción de riesgo financiero

Un enfoque combinado de aprendizaje automático y de red para la previsión del mercado de productos


Jingfang Fan, Keren Cohen, Louis M. Shekhtman, Sibo Liu, Jun Meng, Yoram Louzoun, Shlomo Havlin
Subjects: Physics and Society (physics.soc-ph); Social and Information Networks (cs.SI)
Cite as: arXiv:1811.10273 [physics.soc-ph]
(or arXiv:1811.10273v1 [physics.soc-ph] for this version)


Los mercados financieros sostenibles desempeñan un papel importante en el funcionamiento de la sociedad humana. Sin embargo, la detección y predicción del riesgo en los mercados financieros sigue siendo un reto y atrae mucha atención de la comunidad científica. Aquí desarrollamos un nuevo enfoque basado en la teoría de redes combinadas y el aprendizaje automático para estudiar la estructura y las operaciones de los mercados de productos financieros. Nuestros enlaces de red se basan en la similitud de los productos de las empresas y se construyen utilizando los registros de la Comisión de Bolsa de Valores (SEC) de las empresas que cotizan en Estados Unidos. Encontramos que varias características en nuestra red pueden servir como buenos precursores de los riesgos del mercado financiero. Luego combinamos la topología de la red y los métodos de aprendizaje automático para predecir empresas exitosas y fallidas. Encontramos que los pronósticos hechos usando nuestro método son mucho mejores que otras técnicas de regresión bien conocidas. El marco presentado aquí no solo facilita la predicción de los mercados financieros, sino que también proporciona información y demuestra el poder de combinar la teoría de redes y el aprendizaje automático.






jueves, 22 de noviembre de 2018

Bots difunden noticias falsas pero pueden ser combatidos

Los bots difundieron muchas falsificaciones durante las elecciones de 2016. Pero también pueden desacreditarlo.

Por Daniel Funke · Poynter





Desde las elecciones estadounidenses de 2016, ha habido mucha especulación sobre el papel que desempeñaron los robots en la difusión de información errónea en línea. Y ahora, ese papel ha sido cuantificado.

Según un estudio publicado hoy en la revista Nature Communications, las cuentas automáticas de Twitter amplían de manera desproporcionada la información errónea durante las últimas elecciones en los Estados Unidos. Descubrió que, si bien los bots solo representaban alrededor del 6 por ciento de los usuarios de Twitter en el estudio, eran responsables del 34 por ciento de todas las acciones de artículos de fuentes de "baja credibilidad" en la plataforma.

"Este estudio encuentra que los bots contribuyen significativamente a la diseminación de información errónea en línea, y también muestra la rapidez con la que se pueden propagar estos mensajes", dijo Filippo Menczer, profesor de informática y ciencias de la computación en la Universidad de Indiana, y el director del estudio, en un comunicado de prensa. enviado a Poynter.

Los investigadores analizaron 14 millones de tweets y 400,000 artículos compartidos en Twitter entre mayo de 2016 y marzo de 2017. Para determinar si algo era una fuente de baja credibilidad, se basaron en recursos de sitios como PolitiFact (propiedad de Poynter), que ha compilado una lista de sitios web conocidos por difundir información falsa o engañosa en línea.

Esas fuentes abarcan desde sitios satíricos como The Onion hasta sitios de noticias falsas como USAToday.com.co. Esa es una gran brecha, pero en las plataformas sociales como Twitter, la línea entre la desinformación y la sátira es notoriamente borrosa, y los usuarios se dividen cuando uno se convierte en el otro.

Para rastrear cómo los bots amplificaban la información errónea de estas fuentes, los autores del estudio utilizaron dos herramientas de IU: Hoaxy y Botometer. La primera es una plataforma que rastrea la propagación de reclamaciones en línea, mientras que la segunda es un algoritmo de aprendizaje automático que detecta bots en las redes sociales.

El estudio compara principalmente las distribuciones de puntajes de bot de Botometer, que identifican bots basados ​​en miles de otros ejemplos. Los autores mitigaron los falsos positivos y negativos al establecer un umbral de 2.5 / 5, una puntuación que, según Menczer, tenía el mayor grado de precisión en su algoritmo.

Aparte de su papel en la amplificación del alcance de la desinformación, los bots también desempeñan un papel crítico en su despegue en primer lugar. Según el estudio, es probable que los bots amplifiquen los tweets falsos justo después de su publicación, antes de que se vuelvan virales. Luego los usuarios los compartieron porque parecía que mucha gente ya los tenía.

"Las personas tienden a confiar más en los mensajes que parecen provenir de muchas personas", dijo el coautor Giovanni Luca Ciampaglia, profesor asistente de ciencias de la computación en la Universidad del Sur de la Florida, en el comunicado de prensa. "Los bots se aprovechan de esta confianza al hacer que los mensajes parezcan tan populares que se engaña a personas reales para que difundan sus mensajes por ellos".

El estudio sugiere que Twitter reduzca el número de cuentas automatizadas en las redes sociales para reducir la amplificación de la desinformación. La compañía ha logrado algunos avances hacia este fin, suspendiendo más de 70 millones de cuentas solo en mayo y junio. Más recientemente, la compañía derribó una red de bots que impulsó puntos de vista pro saudíes sobre la desaparición de Jamal Khashoggi y comenzó a permitir que los usuarios informen sobre posibles cuentas falsas.

No obstante, los bots siguen causando estragos en Twitter, y algunos no se utilizan para difundir información errónea en absoluto. Entonces, ¿qué deberían hacer los verificadores de datos para combatir su papel en la difusión de información errónea?

Tai Nalon ha pasado la mayor parte del año pasado tratando de responder esa pregunta, y su respuesta es vencer a los robots en su propio juego.

"Creo que la inteligencia artificial es la única forma de abordar la desinformación, y tenemos que crear bots para abordar la desinformación", dijo el director de Aos Fatos, un proyecto brasileño de verificación de hechos. “(Los periodistas) tienen que llegar a las personas donde están leyendo las noticias. Ahora en Brasil, están leyendo en las redes sociales y en WhatsApp. Entonces, ¿por qué no estar allí y automatizar los procesos utilizando las mismas herramientas que usan los malos? "

En el período previo a las elecciones del mes pasado en Brasil, Aos Fatos creó un bot de Twitter que corrige automáticamente a las personas que comparten noticias falsas. Llamada Fátima, la cuenta automatizada aprovecha AI para escanear Twitter en busca de URL que coincidan con las comprobaciones de hechos en la base de datos de artículos de Aos Fatos. Luego, el bot responde al usuario de Twitter con un enlace a la verificación de hechos. (Divulgación: Fátima ganó la donación instantánea de International Fact Checking Network para Brasil).



Desde el lanzamiento de Fátima durante el verano, Nalon le dijo a Poynter que el bot ha escaneado más de 12,000 enlaces y tuiteado casi 2,500 respuestas a una variedad de usuarios. Nalon dijo que eso es importante porque no todos los tweeters que comparten información errónea van a seguir a los verificadores de datos o incluso a las organizaciones de medios verificadas. Bots como Fátima aseguran que todos los usuarios tengan acceso a la información verificada, independientemente de sus propios silos de información.

“Creo que la tecnología puede escalar nuestro trabajo. Nuestro mayor desafío es llegar a las personas que no tienen acceso a la verificación de datos ", dijo Nalon. "Con Fátima, por ejemplo ... cada vez que tuitea un enlace con una respuesta a alguien, mucha gente va allí y le gusta y le dice cosas a las personas que compartieron la información errónea".

Aos Fatos es uno de los pocos medios de verificación de datos para construir un bot de Twitter que corrige automáticamente la información errónea. Y Nalon dijo que uno de sus objetivos para 2019 es extender la herramienta a más verificadores de hechos, comenzando con Chequeado en Argentina.

“Lo que los periodistas necesitan es construir formas de meditar, y no estaremos mediando solo usando las herramientas que Facebook y Twitter nos dan. Tenemos que construir herramientas dentro de Facebook, Twitter y WhatsApp ”, dijo Nalon. "Creo que, si estamos creando conciencia, también podemos aumentar la confiabilidad - y en realidad hackear la forma en que la gente ve a los robots".


viernes, 13 de abril de 2018

Machine learning y redes de textos detectan cambios en los estereotipos

Los investigadores de Stanford usan el algoritmo de aprendizaje automático para medir los cambios en el sesgo étnico y de género en los EE. UU.

La nueva investigación de Stanford muestra que, durante el siglo pasado, los cambios lingüísticos en los estereotipos de género y étnicos se correlacionaron con los principales movimientos sociales y los cambios demográficos en los datos del censo de los EE. UU.


Alex Shashkevich | Stanford News




Un equipo de Stanford usó algoritmos especiales para detectar la evolución de los sesgos étnicos y de género entre los estadounidenses desde 1900 hasta el presente. (Crédito de la imagen: mousitj / Getty Images)

Los sistemas de inteligencia artificial y los algoritmos de aprendizaje automático han sido criticados recientemente porque pueden recoger y reforzar los prejuicios existentes en nuestra sociedad, según los datos con los que están programados.

Pero un grupo interdisciplinario de académicos de Stanford resolvió este problema en un nuevo documento de Procedimientos de la Academia Nacional de Ciencias publicado el 3 de abril.

Los investigadores usaron incrustaciones de palabras, una técnica algorítmica que puede mapear relaciones y asociaciones entre palabras, para medir los cambios en los estereotipos de género y étnicos durante el siglo pasado en los Estados Unidos. Analizaron grandes bases de datos de libros, periódicos y otros textos estadounidenses y observaron cómo esos cambios lingüísticos se correlacionaban con los datos demográficos del Censo de EE. UU. y los grandes cambios sociales como el movimiento de mujeres en la década de 1960 y el aumento de la inmigración asiática, según la investigación.

"Las incrustaciones de palabras se pueden usar como un microscopio para estudiar los cambios históricos en los estereotipos en nuestra sociedad", dijo James Zou, profesor asistente de ciencia de datos biomédicos. "Nuestra investigación previa ha demostrado que las incrustaciones capturan de manera efectiva los estereotipos existentes y que esos sesgos se pueden eliminar sistemáticamente. Pero creemos que, en lugar de eliminar esos estereotipos, también podemos utilizar las incrustaciones como un objetivo histórico para los análisis cuantitativos, lingüísticos y sociológicos de los sesgos ".

Zou es coautor del artículo con historia del profesor Londa Schiebinger, del profesor de lingüística e informática Dan Jurafsky y del estudiante graduado en ingeniería eléctrica Nikhil Garg, quien fue el autor principal.

"Este tipo de investigación nos abre todo tipo de puertas", dijo Schiebinger. "Proporciona un nuevo nivel de evidencia que permite a los especialistas en humanidades responder preguntas sobre la evolución de los estereotipos y los sesgos a una escala que nunca antes se había hecho".

La geometría de las palabras

Una palabra incrustada es un algoritmo que se usa o se entrena en una colección de texto. El algoritmo luego asigna un vector geométrico a cada palabra, representando cada palabra como un punto en el espacio. La técnica utiliza la ubicación en este espacio para capturar asociaciones entre palabras en el texto fuente.

"Las incrustaciones son una poderosa herramienta lingüística para medir aspectos sutiles del significado de las palabras, como el prejuicio", dijo Jurafsky.

Tome la palabra "honorable". Usando la herramienta de incrustación, investigaciones previas encontraron que el adjetivo tiene una relación más cercana a la palabra "hombre" que a la palabra "mujer".

En su nueva investigación, el equipo de Stanford utilizó incrustaciones para identificar ocupaciones y adjetivos específicos que fueron sesgados hacia las mujeres y grupos étnicos particulares por década desde 1900 hasta el presente. Los investigadores formaron esas incrustaciones en bases de datos de periódicos y también usaron incrustaciones previamente entrenadas por el estudiante de posgrado en informática Stanford Will Hamilton en otros conjuntos de datos de gran tamaño, como el corpus de libros estadounidenses de libros de Google, que contiene más de 130 mil millones de palabras publicadas durante los días 20 y 21 siglos.

Los investigadores compararon los sesgos encontrados por esas incrustaciones con los cambios demográficos en los datos del censo de EE. UU. Entre 1900 y el presente.

Cambios en los estereotipos

Los resultados de la investigación mostraron cambios cuantificables en las representaciones de género y los prejuicios hacia los asiáticos y otros grupos étnicos durante el siglo XX.

Uno de los hallazgos clave que surgieron fue cómo los sesgos hacia las mujeres cambiaron para mejor, de alguna manera, con el tiempo.

Por ejemplo, adjetivos como "inteligente", "lógico" y "reflexivo" se asociaron más con los hombres en la primera mitad del siglo XX. Pero desde la década de 1960, las mismas palabras se han asociado cada vez más con las mujeres en cada década siguiente, lo que se correlaciona con el movimiento de mujeres en la década de 1960, aunque todavía existe una brecha.

La investigación también mostró un cambio dramático en los estereotipos hacia los asiáticos y asiáticos americanos.

Por ejemplo, en la década de 1910, palabras como "bárbaro", "monstruoso" y "cruel" fueron los adjetivos más asociados con los apellidos asiáticos. En la década de 1990, esos adjetivos fueron reemplazados por palabras como "inhibido", "pasivo" y "sensible". Este cambio lingüístico se correlaciona con un fuerte aumento de la inmigración asiática a los Estados Unidos en las décadas de 1960 y 1980 y un cambio en los estereotipos culturales. dijeron los investigadores

"Me llamó la atención la crudeza del cambio en los estereotipos", dijo Garg. "Cuando estudias la historia, aprendes acerca de las campañas de propaganda y estos puntos de vista obsoletos de los grupos extranjeros. Pero lo que la literatura producida en ese momento reflejaba esos estereotipos era difícil de apreciar ".

En general, los investigadores demostraron que los cambios en las incrustaciones de palabras seguían de cerca los cambios demográficos medidos por el censo de Estados Unidos.

Fructífera colaboración

La nueva investigación ilumina el valor del trabajo en equipo interdisciplinario entre las humanidades y las ciencias, dijeron los investigadores.

Schiebinger dijo que se acercó a Zou, quien se unió a Stanford en 2016, después de leer su trabajo anterior sobre la despersonalización de los algoritmos de aprendizaje automático.

"Esto llevó a una colaboración muy interesante y fructífera", dijo Schiebinger, y agregó que los miembros del grupo están trabajando en una mayor investigación conjunta.

"Subraya la importancia de que los humanistas y los científicos informáticos trabajen juntos. Hay un poder para estos nuevos métodos de aprendizaje automático en la investigación de humanidades que recién se está entendiendo ", dijo.