viernes, 13 de abril de 2018

Machine learning y redes de textos detectan cambios en los estereotipos

Los investigadores de Stanford usan el algoritmo de aprendizaje automático para medir los cambios en el sesgo étnico y de género en los EE. UU.

La nueva investigación de Stanford muestra que, durante el siglo pasado, los cambios lingüísticos en los estereotipos de género y étnicos se correlacionaron con los principales movimientos sociales y los cambios demográficos en los datos del censo de los EE. UU.


Alex Shashkevich | Stanford News




Un equipo de Stanford usó algoritmos especiales para detectar la evolución de los sesgos étnicos y de género entre los estadounidenses desde 1900 hasta el presente. (Crédito de la imagen: mousitj / Getty Images)

Los sistemas de inteligencia artificial y los algoritmos de aprendizaje automático han sido criticados recientemente porque pueden recoger y reforzar los prejuicios existentes en nuestra sociedad, según los datos con los que están programados.

Pero un grupo interdisciplinario de académicos de Stanford resolvió este problema en un nuevo documento de Procedimientos de la Academia Nacional de Ciencias publicado el 3 de abril.

Los investigadores usaron incrustaciones de palabras, una técnica algorítmica que puede mapear relaciones y asociaciones entre palabras, para medir los cambios en los estereotipos de género y étnicos durante el siglo pasado en los Estados Unidos. Analizaron grandes bases de datos de libros, periódicos y otros textos estadounidenses y observaron cómo esos cambios lingüísticos se correlacionaban con los datos demográficos del Censo de EE. UU. y los grandes cambios sociales como el movimiento de mujeres en la década de 1960 y el aumento de la inmigración asiática, según la investigación.

"Las incrustaciones de palabras se pueden usar como un microscopio para estudiar los cambios históricos en los estereotipos en nuestra sociedad", dijo James Zou, profesor asistente de ciencia de datos biomédicos. "Nuestra investigación previa ha demostrado que las incrustaciones capturan de manera efectiva los estereotipos existentes y que esos sesgos se pueden eliminar sistemáticamente. Pero creemos que, en lugar de eliminar esos estereotipos, también podemos utilizar las incrustaciones como un objetivo histórico para los análisis cuantitativos, lingüísticos y sociológicos de los sesgos ".

Zou es coautor del artículo con historia del profesor Londa Schiebinger, del profesor de lingüística e informática Dan Jurafsky y del estudiante graduado en ingeniería eléctrica Nikhil Garg, quien fue el autor principal.

"Este tipo de investigación nos abre todo tipo de puertas", dijo Schiebinger. "Proporciona un nuevo nivel de evidencia que permite a los especialistas en humanidades responder preguntas sobre la evolución de los estereotipos y los sesgos a una escala que nunca antes se había hecho".

La geometría de las palabras

Una palabra incrustada es un algoritmo que se usa o se entrena en una colección de texto. El algoritmo luego asigna un vector geométrico a cada palabra, representando cada palabra como un punto en el espacio. La técnica utiliza la ubicación en este espacio para capturar asociaciones entre palabras en el texto fuente.

"Las incrustaciones son una poderosa herramienta lingüística para medir aspectos sutiles del significado de las palabras, como el prejuicio", dijo Jurafsky.

Tome la palabra "honorable". Usando la herramienta de incrustación, investigaciones previas encontraron que el adjetivo tiene una relación más cercana a la palabra "hombre" que a la palabra "mujer".

En su nueva investigación, el equipo de Stanford utilizó incrustaciones para identificar ocupaciones y adjetivos específicos que fueron sesgados hacia las mujeres y grupos étnicos particulares por década desde 1900 hasta el presente. Los investigadores formaron esas incrustaciones en bases de datos de periódicos y también usaron incrustaciones previamente entrenadas por el estudiante de posgrado en informática Stanford Will Hamilton en otros conjuntos de datos de gran tamaño, como el corpus de libros estadounidenses de libros de Google, que contiene más de 130 mil millones de palabras publicadas durante los días 20 y 21 siglos.

Los investigadores compararon los sesgos encontrados por esas incrustaciones con los cambios demográficos en los datos del censo de EE. UU. Entre 1900 y el presente.

Cambios en los estereotipos

Los resultados de la investigación mostraron cambios cuantificables en las representaciones de género y los prejuicios hacia los asiáticos y otros grupos étnicos durante el siglo XX.

Uno de los hallazgos clave que surgieron fue cómo los sesgos hacia las mujeres cambiaron para mejor, de alguna manera, con el tiempo.

Por ejemplo, adjetivos como "inteligente", "lógico" y "reflexivo" se asociaron más con los hombres en la primera mitad del siglo XX. Pero desde la década de 1960, las mismas palabras se han asociado cada vez más con las mujeres en cada década siguiente, lo que se correlaciona con el movimiento de mujeres en la década de 1960, aunque todavía existe una brecha.

La investigación también mostró un cambio dramático en los estereotipos hacia los asiáticos y asiáticos americanos.

Por ejemplo, en la década de 1910, palabras como "bárbaro", "monstruoso" y "cruel" fueron los adjetivos más asociados con los apellidos asiáticos. En la década de 1990, esos adjetivos fueron reemplazados por palabras como "inhibido", "pasivo" y "sensible". Este cambio lingüístico se correlaciona con un fuerte aumento de la inmigración asiática a los Estados Unidos en las décadas de 1960 y 1980 y un cambio en los estereotipos culturales. dijeron los investigadores

"Me llamó la atención la crudeza del cambio en los estereotipos", dijo Garg. "Cuando estudias la historia, aprendes acerca de las campañas de propaganda y estos puntos de vista obsoletos de los grupos extranjeros. Pero lo que la literatura producida en ese momento reflejaba esos estereotipos era difícil de apreciar ".

En general, los investigadores demostraron que los cambios en las incrustaciones de palabras seguían de cerca los cambios demográficos medidos por el censo de Estados Unidos.

Fructífera colaboración

La nueva investigación ilumina el valor del trabajo en equipo interdisciplinario entre las humanidades y las ciencias, dijeron los investigadores.

Schiebinger dijo que se acercó a Zou, quien se unió a Stanford en 2016, después de leer su trabajo anterior sobre la despersonalización de los algoritmos de aprendizaje automático.

"Esto llevó a una colaboración muy interesante y fructífera", dijo Schiebinger, y agregó que los miembros del grupo están trabajando en una mayor investigación conjunta.

"Subraya la importancia de que los humanistas y los científicos informáticos trabajen juntos. Hay un poder para estos nuevos métodos de aprendizaje automático en la investigación de humanidades que recién se está entendiendo ", dijo.

miércoles, 11 de abril de 2018

Círculos sociales a través de grandes datos


Circulos sociales

El estudio del MIT detalla el grado en que el movimiento urbano está vinculado a la actividad social.

Peter Dizikes | MIT News



Si vives en una ciudad, sabes que una buena cantidad de tu movimiento por la ciudad es de naturaleza social. ¿Pero cuánto, exactamente? Un nuevo estudio en coautoría de investigadores del MIT utiliza un método novedoso para inferir que alrededor de una quinta parte del movimiento urbano es estrictamente social, un hallazgo que se mantiene sistemáticamente en múltiples ciudades.

El estudio utilizó datos telefónicos anónimos que, a diferencia de la mayoría de los datos en el campo, proporcionan información que se puede utilizar para reconstruir las ubicaciones de las personas y sus redes sociales. Al vincular esta información en conjunto, los investigadores pudieron construir una imagen que indica qué redes eran principalmente sociales, en lugar de orientadas al trabajo, y luego deducir cuánto movimiento de la ciudad se debía a la actividad social.

"Agregar dos fuentes de datos, una en el lado social y otra en el lado de la movilidad, y superponerlas una a la otra te da algo que es un poco mayor", dice Jameson Toole, estudiante de doctorado en la División de Sistemas de Ingeniería del MIT. y uno de los autores de un documento recientemente publicado que describe los resultados del estudio.

"Es una forma de ver los datos que no se había hecho antes", dice Marta González, profesora asistente en el Departamento de Ingeniería Civil y Ambiental del MIT, y otra coautora del estudio.

Al desarrollar una nueva forma de cuantificar cuánto se basan los viajes urbanos en la actividad social, los investigadores creen que han comenzado a crear una nueva herramienta analítica que podría ser útil para los planificadores y los responsables de la formulación de políticas.

"Hay mucha gente que necesita estimar cómo se mueve la gente en las ciudades: planificadores de transporte y otros planificadores urbanos", dice Toole. "Pero muchos modelos basados ​​en datos no tienen en cuenta el comportamiento social. Lo que descubrimos es que ... si intentas estimar el movimiento en una ciudad y no incluyes el componente social, tus estimaciones se reducirán en un 20% ".

Yendo móvil

El documento, “Coupling human mobility and social ties”, aparecerá esta semana en Interface, una revista revisada por pares publicada por la Royal Society. Los coautores son Toole, que es el autor principal; Carlos Herrer-Yaque, de la Universidad Politécnica de Madrid; González, quien es el investigador principal del estudio; y Christian Schneider, un investigador postdoctoral del MIT durante el curso del estudio.

Los datos del teléfono móvil anónimos del estudio provienen de tres ciudades importantes de Europa y América del Sur. Al examinar las ubicaciones de las llamadas, las redes de llamadas realizadas y los tiempos de contacto, los investigadores descubrieron que la mayoría de las personas tienen esencialmente tres tipos de redes sociales en las ciudades: compañeros sociales (que están mucho por las noches y los fines de semana) ), compañeros de trabajo (con quienes tienden a contactar durante los días de la semana) y conocidos más distantes con quienes las personas tienen un contacto más esporádico.

Después de distinguir estas redes entre sí, los investigadores pudieron cuantificar hasta qué punto la actividad social era la causa principal de un viaje urbano; su conclusión cae dentro de los límites de las estimaciones previas y más amplias, que han atribuido del 15 al 30 por ciento del movimiento urbano a la actividad social.

"Es bastante raro que estos patrones aparezcan por sí mismos en múltiples ciudades", dice Toole. "Da credibilidad a la universalidad de este [patrón]".

En el documento, los investigadores también construyen un modelo de movimiento social urbano, que denominan el modelo "GeoSim"; amplía los modelos previos de movilidad urbana al agregar una capa relacionada con las elecciones de la actividad social. El modelo se ajusta mejor a los datos en este estudio, y también podría ser probado contra conjuntos de datos futuros.

"Los grandes datos son increíbles", dice Toole, "pero esto agrega el contexto nuevamente a las redes sociales y los movimientos".

Los académicos dicen que el documento aporta una nueva visión de los estudios de movilidad urbana. La "novedad del estudio reside en el método utilizado para estudiar la relación entre la movilidad de diferentes usuarios y su relación social", explica Esteban Moro, profesor de matemáticas en la Universidad Carlos III de Madrid, en España. "Utilizando diferentes métricas de movilidad, los autores pueden conocer la naturaleza de la relación entre dos personas. ... Esto permite una comprensión cuantitativa de cómo las personas administran su tiempo, tareas, [e] interacciones en un contexto geográfico como las ciudades ".

Moro agrega que el actual proyecto de investigación abre el camino para estudios más detallados del tema, señalando que "sería interesante ver si el estado socioeconómico de las personas, su edad y / o género tienen un papel en los resultados encontrados".

La investigación fue financiada en parte por la Alianza Accenture-MIT en Business Analytics, el Centro de Sistemas de Ingeniería Complejos en el MIT y la National Science Foundation.

lunes, 9 de abril de 2018

Redes dinámicas de un hashtag en Italia

Dinámica de redes de hashtag en la competencia X-Factor en Italia


Una visualización dinámica de la interacción múltiple entre los usuarios que miran una competencia X-Factor (Italia). Los usuarios son nodos, codificados por color por la comunidad a la que pertenecen, mientras que las interacciones son enlaces, codificados por colores por tipo (mención, respuesta, retweet). El resultado es una red multiplex variable en el tiempo.


sábado, 7 de abril de 2018

Redes sociales basadas en ubicación para la planificación urbana

El futuro papel de las redes sociales en la planificación urbana

Los ciudadanos continuamente generan información sobre dónde se encuentran y qué están haciendo a través de LBSN.

Enrique Frías-Martínez |  Blogthinking.com



El concepto de ciudades inteligentes generalmente implica el despliegue de infraestructuras inteligentes utilizadas para mejorar los servicios para los ciudadanos. Varias ciudades han lanzado proyectos que van desde la optimización del transporte hasta la minimización del impacto de la actividad urbana en el medio ambiente, siendo un buen ejemplo del trabajo realizado por Telefónica en SmartSantander.

Aunque el despliegue de tales infraestructuras es clave, cualquier ciudad ya tiene una infraestructura de sensores implícita construida usando los teléfonos que llevan sus ciudadanos. En ese sentido, las capacidades cada vez mayores de los dispositivos móviles permiten a las personas dejar atrás la huella de su interacción con el entorno urbano, particularmente con el uso de las redes sociales basadas en la ubicación (LBSN).



Las LBSN tienen la propiedad de asignar una geolocalización a la actividad realizada por un individuo, por ejemplo, Twitter geolocalizado asigna las coordenadas donde estaba el usuario cuando se hizo un comentario; o FourSquare da una indicación de dónde se encuentra un usuario y cuál es la actividad de ese lugar en particular. Esta capacidad de geolocalización está siendo utilizada por un gran número de aplicaciones como Facebook Places, Urbanspoon, Yelp, Google Places, Loopt, Flickr o Instagram, entre otros.

Como resultado, una ciudad y sus ciudadanos generan continuamente información sobre dónde se encuentran y qué están haciendo a través de LBSN. Esta información proporciona una vista sin precedentes de una ciudad, especialmente con respecto a cómo los ciudadanos la usan y cuáles son sus opiniones, que tiene el potencial de ser utilizada para aplicaciones de planificación urbana.

En Telefónica I + D hemos trabajado en dos áreas que utilizan los datos proporcionados por LBSN para mostrar cómo se pueden utilizar para mejorar la planificación urbana: (1) Inferir la actividad del usuario y (2) Comprender las quejas de los ciudadanos sobre su entorno.



Utilizando la ubicación, el contexto y la información proporcionada por LBSN podemos inferir la actividad del usuario en un área urbana específica y, por extensión, podemos ayudar en el proceso de planificación urbana, ya que podemos verificar en qué medida se está utilizando un entorno urbano tal como fue planificado. las autoridades. Hemos trabajado en una serie de técnicas [1] [2] que al usar solo la ubicación de tweets geolocalizados, podemos identificar los usos de la tierra. Nuestra técnica determina automáticamente los usos del suelo en áreas urbanas al agrupar regiones geográficas con patrones similares de actividad de Twitter. Usando la actividad agregada de tweets, estudiamos el uso del suelo en Manhattan, Madrid y Londres. En los dos primeros casos identificamos cuatro usos: residencial, comercial, de ocio diurno (principalmente parques y áreas turísticas) y áreas de vida nocturna. En Londres, también establecimos usos industriales de la tierra. Estos resultados fueron validados con fuentes de datos abiertas. La principal ventaja de nuestro enfoque es que respeta la privacidad individual porque no se necesita ningún identificador del usuario real ni se usa el contenido del twitter. Como ejemplo, la Figura 1 presenta los usos del suelo identificados en Londres utilizando tweets geolocalizados.

 Utilizando la ubicación, el contexto y la información proporcionada por LBSN podemos inferir la actividad del usuario en un área urbana específica y, por extensión, podemos ayudar en el proceso de planificación urbana, ya que podemos verificar en qué medida se está utilizando un entorno urbano tal como fue planificado. las autoridades. Hemos trabajado en una serie de técnicas [1] [2] que al usar solo la ubicación de tweets geolocalizados, podemos identificar los usos de la tierra. Nuestra técnica determina automáticamente los usos del suelo en áreas urbanas al agrupar regiones geográficas con patrones similares de actividad de Twitter. Usando la actividad agregada de tweets, estudiamos el uso del suelo en Manhattan, Madrid y Londres. En los dos primeros casos identificamos cuatro usos: residencial, comercial, de ocio diurno (principalmente parques y áreas turísticas) y áreas de vida nocturna. En Londres, también establecimos usos industriales de la tierra. Estos resultados fueron validados con fuentes de datos abiertas. La principal ventaja de nuestro enfoque es que respeta la privacidad individual porque no se necesita ningún identificador del usuario real ni se usa el contenido del twitter. Como ejemplo, la Figura 1 presenta los usos del suelo identificados en Londres utilizando tweets geolocalizados.


Diseño físico de negocios, vida nocturna, ocio y clusters industriales en Londres. Las áreas no marcadas con ningún color indican el uso del suelo residencial.

Otro enfoque que hemos tomado para identificar las actividades de los usuarios y los usos de la tierra es usar FourSquare [3]. FourSquare ya contiene información sobre la actividad del lugar donde se encuentra el usuario porque los lugares se clasifican de acuerdo con categorías predefinidas. Al considerar la distribución de las categorías de FourSquare y su popularidad en términos de números de facturación, construimos un conjunto de características de aprendizaje automático que pueden explotarse para inferir las características cualitativas de las áreas urbanas. La Figura 2 presenta una clasificación de la ciudad de Madrid de acuerdo con las actividades del usuario identificadas a partir de las categorías de FourSquare. Cada celda en los mosaicos está coloreada con la actividad más popular que se caracteriza por explotar la popularidad de los lugares cercanos de FourSquare.


Clasificación de la ciudad de Madrid según las actividades del usuario identificadas a partir de las categorías FourSquare.

Con respecto a la identificación de quejas en entornos urbanos, los ciudadanos representan la primera línea al capturar el pulso de la ciudad. En ese sentido, son los primeros en identificar problemas con su entorno. Tradicionalmente, los ayuntamientos cuentan con servicios telefónicos donde las personas pueden informar estos problemas. Recientemente, las ciudades han creado cuentas de Twitter para que los usuarios puedan enviar quejas y comunicarse con el ayuntamiento y sus servicios (por ejemplo, la policía, el departamento de transporte, el metro, los servicios de limpieza, etc.) a través de Twitter.

En [4] estudiamos en qué medida las quejas expresadas por los usuarios que utilizan los servicios telefónicos tradicionales eran similares a las expresadas con las cuentas específicas de Twitter creadas por el ayuntamiento. Centramos nuestro estudio en la ciudad de Nueva York y utilizamos las fuentes de datos abiertas disponibles. Nuestros resultados indicaron que las quejas telefónicas y específicas de Twitter son muy similares, es decir, la cuenta específica de Twitter del ayuntamiento ya maneja el mismo volumen y tipo de quejas que el servicio telefónico. En cualquier caso, solo proporcionan una vista parcial de los problemas de la ciudad y se centran principalmente en el transporte y las quejas relacionadas con la calle.

Después de eso, evaluamos en qué medida estas quejas formales de Twitter representan la visión general de la ciudad al compararlas con un conjunto de tweets generales que identificamos como quejas o áreas de mejora. En este caso, mostramos que el uso de tweets genéricos (es decir, tweets no dirigidos a los departamentos del ayuntamiento) permitió una perspectiva global sobre las áreas para mejorar en la ciudad, como las quejas de ruido y la falta de limpieza.



LBSN son excelentes fuentes de información para capturar el pulso de un entorno urbano y, como tal, se pueden utilizar para una variedad de aplicaciones de planificación urbana como la identificación del uso del suelo, la identificación de áreas para mejorar en una ciudad o la planificación del transporte. Si bien cada una de estas fuentes de datos son muy poderosas por sí mismas, el principal desafío para el futuro será combinar la información provista por diferentes LBSN de una manera significativa.


Referencias

[1] “Spectral Clustering for Sensing Urban Land Use using Twitter Activity”, V. Frias-Martinez, E. Frias-Martinez, Engineering Applications of Artificial Intelligence, Vol. 35, October 2014, Pages 237–245, 2014

[2]“Characterizing Urban Landscapes using Geolocated Tweets”, V. Frias-Martinez, V. Soto, H. Hohwald, E. Frias-Martinez, 2012 Int. Conference on Social Computing (SocialCom), Amsterdam, The Nederlands, 2012

[3] “Exploiting Foursquare and Cellular Data to Infer User Activity in Urban Environments”, A. Noulas, C. Mascolo and E. Frias-Martinez, IEEE Mobile Data Management 2013 (MDM 2013)

[4] “To Call, or To Tweet? Understanding 3-1-1 Citizen Complaint Behaviors”, V. Frias-Martinez, A. Sae-Tang, E. Frias-Martinez, Sixth Int. Conf. on Social Computing, SocialCom 2014, Stanford, CA, USA

martes, 3 de abril de 2018

Análisis de hashtags brasileños de política en 2016

El escenario político

Algunos análisis rápidos
Publicado en Marzo 17, 2016

R, Python y Redes


El escenario político brasileño parece estar dentro de una licuadora con las últimas noticias publicadas ayer (16 de marzo de 2016) sobre el nombramiento de Lula como Ministro de la Casa Civil y de su conversación con la presidenta Dilma divulgada en una red nacional.

Usando los paquetes twitteR y tm, hice una búsqueda en Twitter por la palabra clave Lula para monitorear la percepción de las personas en esos medios sociales bien en el "calor del momento". En breve, publicar un post comentando el código utilizado para el análisis con un breve tutorial.

La búsqueda volvió 2000 tweets. En el caso de que se produzca un error en el sistema,



También generé otro wordcloud haciendo una búsqueda por #ocupabrasilia. Este término está en segundo lugar en las tendencias de Twitter en este momento.

 #ocupabrasilia


Después de eso, hice una agrupación jerárquica de los términos más presentes agrupándolos en 7 grandes grupos.



Después de exportar la matriz de términos a un archivo .csv, usé el software Ucinet para generar redes de palabras. La primera red fue generada a partir de los overlaps de los términos. El tamaño de los vértices representa la centralidad de grado de cada palabra.



Para generar la segunda red, he utilizado las correlaciones entre los términos. El tamaño sigue siendo la centralidad de grado.



He intentado, con esos análisis rápidos e incipientes, captar la opinión general de los usuarios de Twitter sobre ese momento político histórico que vive Brasil. Espero que los grafos sean útiles.

domingo, 1 de abril de 2018

Redes históricas de subastas parisinas

Enriquecimiento y corte: cómo visualizar redes gracias a las plataformas de datos abiertas vinculadas.


Saint-Raymond, Lea and Antoine Courtin. "Enriching and Cutting: How to Visualize Networks Thanks to Linked Open Data Platforms.." Artl@s Bulletin 6, no. 3 (2017): Article 7.


Resumen 

Las redes se desarrollan muy rápidamente en las ciencias sociales, y están comenzando a emerger en la historia del arte. Este documento explora la realización de visualizaciones de red, desde la construcción del conjunto de datos hasta el análisis de resultados. A partir de un corpus inicial sobre las ventas de subastas parisinas de pinturas modernas, desarrollamos una metodología para enriquecerlo, gracias a las plataformas de datos abiertos vinculados y las tecnologías para realinear conjuntos de datos. Entonces cuestionamos la visualización de las redes. Aunque proporciona una visión general del mercado y permite una lectura muy cercana, lo mejor es enemigo de lo bueno: demasiada información y demasiados nodos pueden representar una desventaja, de ahí la necesidad de cortar redes y combinarlas con otros modos de visualización.



Red de los artistas cuyas obras se vendieron en una misma subasta parisina en 1868. El tamaño del nodo corresponde al precio promedio del martillo, el color representa el género del artista. Cuanto más oscuro es el borde, más ventas de subastas en común.