Páginas

miércoles, 10 de octubre de 2018

Sesgo de discurso mediate análisis de redes de texto

Medición del sesgo del discurso mediante el análisis de red de texto



Dmitry Paranyushkin
http://noduslabs.com
Towards Data Science

En este artículo, propongo un método y una herramienta para medir el nivel de sesgo en el discurso basado en el análisis de red de texto. La medida se basa en la estructura del texto y utiliza parámetros cuantitativos y cualitativos de un gráfico de texto para identificar qué tan sesgado es. Por lo tanto, puede ser utilizado por humanos, así como implementarse en varias API y AI para realizar un análisis de sesgo automático.

Sesgo: lo bueno y lo malo

El sesgo se entiende comúnmente como inclinación o prejuicio hacia un cierto punto de vista. Un discurso o texto que tiene un sesgo puede tener una determinada agenda o promover cierta ideología.

En la era de las "noticias falsas", el surgimiento de ideologías extremas y varias técnicas de desinformación es importante poder identificar el nivel de sesgo en el discurso: ya sean publicaciones en redes sociales, artículos periodísticos o discursos políticos.

El sesgo no es necesariamente algo malo. A veces puede hacer que una intención sea más fuerte, impulsar una agenda, hacer un punto, persuadir, disuadir y transformar. El sesgo es un agente de cambio, sin embargo, cuando hay demasiado de él, el sesgo también puede ser destructivo. Cuando medimos el sesgo medimos qué tan cargado ideológicamente es un texto, cuánto quiere expresar un cierto punto de vista. En algunos contextos, como ficción o discursos políticos muy cargados, un sesgo fuerte puede ser preferencial. En algunos otros contextos, como noticias o no ficción, un fuerte sesgo puede revelar una agenda.

Actualmente no hay herramientas que puedan medir el sesgo de un texto. Varias API de minería de textos clasifican los textos según su contenido y sentimiento, pero no hay instrumentos que puedan medir el nivel de inclinación hacia un cierto punto de vista en el texto. El instrumento y el método propuesto en este artículo pueden servir como el primer paso en esta dirección. La herramienta en línea de código abierto para el análisis de redes de texto que desarrollé ya puede medir el sesgo en función de esta metodología, por lo que le invitamos a probarlo en sus propios textos y ver cómo funciona. A continuación describo cómo funciona el índice de sesgo y algunos detalles técnicos.

La estructura del discurso como red dinámica.


Cualquier discurso puede representarse como una red: las palabras son los nodos y sus coincidencias son las conexiones entre ellos. El gráfico resultante traza las vías de circulación de significado. Podemos hacerlo más legible alineando los grupos de nodos que están más densamente conectados (algoritmo de atlas de fuerza) en los distintos grupos marcados con un color específico. También podemos hacer que los nodos más influyentes sean más grandes en el gráfico (los nodos con la centralidad de alta intermediación). Puede leer más sobre los detalles técnicos en este documento técnico sobre análisis de red de texto.

Por ejemplo, aquí hay una visualización de la charla de TED de Julian Treasure llamada “How to Speak So People Will Want to Listen”, realizada con este método. Si está interesado en ver el gráfico interactivo real, puede abrirlo aquí.





De este grafo podemos ver claramente que los conceptos principales son las nociones de
“people”, “time”, “world”, “listen”, “voice” etc.

Estos conceptos son las uniones para la circulación del significado en ese discurso en particular. Conectan las diferentes comunidades de nodos (designadas por distintos colores).

El algoritmo funciona de una manera que emula la percepción humana (siguiendo el modelo de lectura del paisaje, la idea de cebado semántico y también el sentido común): si las palabras se mencionan con frecuencia en el mismo contexto, formarán una comunidad en el gráfico. Si aparecen en diferentes contextos, se alejarán unos de otros. Si las palabras se usan con frecuencia para conectar diferentes contextos, aparecerán más grandes en el gráfico.

Como resultado, la estructura de un grafo de red de texto puede decirnos mucho sobre la estructura del discurso.

Por ejemplo, si el gráfico tiene una estructura de comunidad pronunciada (varias comunidades de palabras diferentes), el discurso también tiene varios temas distintos, que se expresan en el texto. En nuestro ejemplo tenemos al menos 4 temas principales:

people — listen — speak (dark green)
time —talk —register (light green)
world—sound—powerful (orange)
amazing—voice (pink)

Si analizamos otros textos de la misma manera, veremos que las estructuras gráficas resultantes son diferentes. Por ejemplo, aquí hay una visualización del primer capítulo de Quaran:


Visualización de la red de texto de Quaran realizada con InfraNodus. La estructura del gráfico es menos diversificada y más centralizada. Hay solo unos pocos conceptos principales, el discurso circula alrededor de ellos, el resto del texto apoya los conceptos principales.

Se puede ver que tiene una estructura de red diferente. Es mucho más centralizado y menos diversificado. Hay algunos conceptos principales:

“god”, “people”, “believe”, “lord”, “give”

y todo el discurso circula en torno a estos conceptos. Todas las otras nociones están ahí para apoyar las principales.

Realizamos un análisis similar con los discursos de inauguración de los presidentes de EE. UU. De 1969 a 2013 y visualizamos la forma en que su narrativa cambió con el tiempo:

US Presidential Inauguration Speeches 1969-2013 from Nodus Labs on Vimeo.

Visualización de los discursos de inauguración de los presidentes de los Estados Unidos realizados con InfraNodus (TNA) y Gephi (visualización). Se puede ver que con el tiempo la estructura se mantiene más o menos igual, sin embargo, los discursos de Obama parecen tener términos influyentes más distintos, lo que indica un discurso más diversificado.

Se puede ver que mientras la estructura del discurso se mantuvo más o menos igual a lo largo de los años, mientras que los conceptos enfatizados han cambiado con cada dirección. Esto puede indicar que la estrategia retórica se mantuvo igual, mientras que el contenido se ha transformado con los años. Los discursos de Obama parecen tener un mayor número de nodos influyentes distintos, lo que puede indicar un discurso más diversificado.

El sesgo como un conducto para la ideología en las redes


Ahora que hemos mostrado cómo el discurso se puede representar como una estructura de red, podemos discutir la noción de sesgo en el contexto de la ciencia de redes. Usaremos algunas ideas para la epidemiología para demostrar cómo la topología de la red afecta la velocidad y la propagación de la información a través de los nodos.

Una red se puede ver como una representación de las interacciones que ocurren a lo largo del tiempo, un diagrama de los rastros dejados por un proceso dinámico. Si estudiamos la topología de una red, podemos obtener una gran cantidad de información sobre la naturaleza de los procesos dinámicos que representa.

En el contexto de las ciencias sociales y de la atención médica, la información sobre la estructura de la red puede proporcionar información valiosa para la epidemiología: qué tan rápido se puede propagar una enfermedad (un virus, una opinión o cualquier otra (mala) información), qué tan lejos puede propagarse, qué es lo mejor. Las estrategias inmunológicas pueden ser.

Se ha demostrado (Abramson & Kuperman 2001; PastorSatorras & Vespignani 2001) que a medida que la estructura de una red se vuelve más aleatoria, su umbral epidemiológico disminuye. Las enfermedades, los virus, la desinformación pueden propagarse más rápido y a un mayor número de nodos. En otras palabras, como la estructura de la comunidad de una red es cada vez menos pronunciada y el número de conexiones aumenta, la red propaga información a más nodos y esta propagación se produce en oscilaciones altamente pronunciadas (infectadas / no infectadas).



Una figura del estudio de Abramson y Kuperman (2001) donde se muestra la fracción de elementos infectados (n) en relación con el tiempo (t) para redes con un grado diferente de trastorno (p). Cuanto mayor es el grado de desorden, más elementos se infectan, las oscilaciones se intensifican más y más, pero también el lapso de tiempo de la infección es relativamente corto.

Al mismo tiempo, cuando la estructura de la comunidad se pronuncia mientras la red está relativamente interconectada (red de mundo pequeño), los “bolsillos” de los nodos ayudan a mantener la enfermedad epidémica durante más tiempo en la red. En otras palabras, menos nodos pueden infectarse, pero la infección puede permanecer más tiempo (estado endémico).


Representación de estructuras de red: [a] aleatoria, [b] libre de escala (comunidades mejor pronunciadas) y, [c] jerárquica (menos conectividad global) (de Stocker et al. 2001)

En otro estudio realizado en varias redes sociales (Stocker, Cornforth y Bossomaier 2002) se ha demostrado que las redes jerárquicamente planas (es decir, desordenadas) no son tan estables como las que no tienen escala (es decir, las que tienen una estructura comunitaria más pronunciada ). En otras palabras, las jerarquías pueden ser buenas para pasar las órdenes, pero las estructuras sin escala son mejores para mantener una cosmovisión determinada.

Como podemos ver, no hay una topología de red que pueda considerarse preferencial. De hecho, depende de la intención, el contexto, la situación. En algunos casos, puede ser bueno si una red puede propagar información fácilmente a todos sus elementos relativamente rápido. En algunos otros casos la estabilidad puede ser más preferencial.

En general, la topología de una red refleja qué tan bien puede propagar la información, qué tan susceptible es a las nuevas ideas, si las ideas se apoderarán de toda la red solo durante un breve período de tiempo o permanecerán durante un período más largo.

El mismo enfoque se puede aplicar cuando estudiamos el sesgo. El supuesto aquí es que una red de discurso es una estructura que propaga ideas.

Si la estructura del discurso se centra en unos pocos nodos influyentes y no hay una estructura de comunidad pronunciada, significa que el discurso es bastante homogéneo y las ideas en torno a esos nodos se propagarán mejor que las ideas de la periferia. Designamos dicho discurso como parcializado.

Si, en el otro lado, una red de discurso consta de varias comunidades distintas de palabras / nodos (red de pequeño mundo sin escala) significa que hay varios temas distintos dentro del texto y cada uno de ellos recibe la misma importancia dentro del discurso. . A este discurso lo llamamos diversificado.

Una estructura de comunidad de red se puede identificar no solo de manera cualitativa mediante una visualización gráfica, sino también a través de la medida de modularidad (consulte Blondel et al 2008). Cuanto mayor sea la modularidad (generalmente por encima de 0,4), más pronunciada es la estructura de la comunidad.

Otro criterio importante es la distribución de la influencia (a través de las palabras / nodos más influyentes) en diferentes comunidades. Para que un discurso se diversifique, los nodos más influyentes deben distribuirse entre las diferentes comunidades. Utilizamos la entropía para medir la dispersión de influencia en el gráfico y tener esto en cuenta al identificar el nivel de sesgo. También verificamos si las comunidades principales incluyen un número de nodos desproporcionadamente alto, en cuyo caso el puntaje de diversificación disminuye y el número de componentes en el gráfico.

Por lo tanto, podemos identificar los tres criterios principales que podemos usar para identificar el nivel de sesgo en el discurso:
  • Estructura de la comunidad: cuán distintos son y el% de nodos que pertenecen a las comunidades principales;
  • Distribución de la influencia: cómo los nodos / palabras más influyentes se reparten entre los diferentes temas / comunidades gráficas;
  • Número de componentes del gráfico: cómo está conectado el discurso;

El índice de sesgo basado en la estructura del discurso

Sobre la base de las proposiciones y los criterios anteriores, proponemos el Índice de sesgo que tiene en cuenta la estructura del discurso y tiene cuatro parámetros principales:
  • Dispersado (sin sesgo)
  • Diversificado (sesgado localmente)
  • Enfocado (ligeramente parcial)
  • Sesgado (muy sesgado)

El primer valor, Dispersed, es un discurso que tiene una estructura de comunidad muy pronunciada (varios temas distintos) que no están muy bien conectados o tiene varios componentes (y, por lo tanto, ningún sesgo). Nuestras pruebas muestran que dichos gráficos se producen generalmente para poesía, notas personales, tweets esquizofrénicos y varios otros esfuerzos creativos. Por ejemplo, aquí hay una visualización del poema de Lord Byron "Darkness" (también puede consultar el gráfico interactivo en InfraNodus):


Visualización de la "Darkness" de Lord Byron realizada utilizando InfraNodus. La estructura del discurso se identifica como Dispersada (vea el panel de Análisis a la derecha) debido a la alta modularidad (0.68) y la alta influencia de la dispersión (las palabras más influyentes se difunden entre las diferentes comunidades y solo el 14% de las palabras están en la parte superior comunidad).

Como podemos ver en el gráfico, es bastante escaso visualmente y nuestra herramienta ha identificado la estructura del discurso como Dispersada porque la medida de modularidad es bastante alta (comunidades / temas pronunciados) y los nodos / palabras influyentes se distribuyen bastante equitativamente entre los temas principales (80 % de dispersión y solo el 14% de las palabras en la comunidad / tema superior). Si lees el poema mismo, verás que tiene un vocabulario bastante rico y que evoca muchas imágenes diversas, sin tratar de impulsar una agenda específica (quizás solo a través de medios poéticos, no retóricos).

El siguiente valor, Diversificated, es un discurso que tiene una estructura de comunidad pronunciada pero donde las comunidades están bien conectadas. Por lo general, indica un discurso que refleja varias perspectivas diferentes y les otorga una posición más o menos igual en el nivel global (sesgo local). Muchos artículos y charlas que tienen como objetivo presentar varios puntos de vista, notas de investigación, titulares de periódicos (tomados de una variedad de fuentes) y piezas de no ficción tendrán esta estructura. Por ejemplo, aquí hay una visualización de los titulares de las noticias (con teasers) del 4 de octubre de 2018 (vea la visualización interactiva aquí):


Visualización de los titulares de noticias y teasers (a través de RSS) realizada con InfraNodus para el 4 de octubre de 2018, tomada de NYT, WSJ, FT, The Guardian y Washington Post. Como podemos ver, la selección de noticias se clasifica como Diversificada, ya que la medida de modularidad es relativamente alta y, sin embargo, los temas también están relacionados entre sí. Las palabras más influyentes se reparten entre los principales grupos / comunidades tópicas, lo que indica que la selección de noticias fue bastante diversa.

Podemos ver que la estructura del discurso está clasificada como diversificada, lo que significa que hay varios temas distintos que se desarrollan dentro de este discurso y, sin embargo, están conectados a nivel global.
El tercer valor, Focused, indica un discurso que tiene un sesgo suave hacia un tema determinado. Por lo general, esto significa que el discurso presenta varias perspectivas, pero se enfoca en una sola, y lo desarrolla aún más. Las estructuras del discurso con el puntaje Enfocado son características de los artículos periodísticos, ensayos, informes, que están diseñados para proporcionar una representación clara y concisa de una idea determinada. Por ejemplo, aquí hay una visualización de las tres partes anteriores de este artículo:


Las tres secciones anteriores de este artículo se visualizan como un gráfico de texto utilizando InfraNodus. Podemos ver que la estructura del discurso está clasificada como Enfocada, lo que indica un ligero sesgo. La estructura de la comunidad está presente, pero no son muy distintas. Casi todas las palabras más influyentes se concentran en una comunidad / tema: "red / estructura / discurso" y luego hay un tema más pequeño con "texto / sesgo / medida".

Finalmente, el cuarto tipo de estructura del discurso es parcial, que es característico de los textos que tienen una estructura de comunidad baja o nula. Las ideas principales se concentran juntas y todas las otras nociones utilizadas en el texto están ahí para apoyar la agenda principal. Dicha estructura de discurso generalmente se puede observar en textos altamente ideológicos, discursos políticos y cualquier otro texto, que recurre a la retórica para persuadir a las personas a actuar. Por ejemplo, aquí hay una visualización de El Manifiesto Comunista:


Visualización de red de texto del Manifiesto comunista utilizando InfraNodus. La estructura de la comunidad no se pronuncia y las palabras más influyentes pertenecen a los dos temas principales y están altamente interconectadas. El resto del discurso está subyugado hacia la agenda principal (lucha de clases).

Epílogo

En este artículo, propuse una medida del sesgo del discurso en función de la estructura de la visualización de la red de texto y de varios parámetros que se pueden obtener a partir del análisis gráfico.

Es importante tener en cuenta que no afirmo (todavía) que las proposiciones que hice son científicamente sólidas. Un estudio completo sobre un corpus de datos mucho más grande está en camino (es bienvenido a unirse).

Mi experiencia muestra que este índice puede ser útil al estudiar textos y ya está implementado como una característica de trabajo en la herramienta de visualización y análisis de red de texto InfraNodus.

Por lo tanto, los invito a que lo prueben usted mismo y me envíen cualquier comentario, sugerencia y propuesta que puedan tener. Por favor, siéntase libre de dejar cualquier comentario aquí, estaría muy curioso de ver lo que piensa y cómo podemos desarrollarlo más. InfraNodus es una herramienta de código abierto, por lo que le invitamos a unirse e implementar cualquier propuesta que pueda tener como código.

1 comentario:

  1. Muy interesante, aunque discrepo. Me parece que esta herramienta está diseñada para buscar algo especial en textos ideológicos, pero cuyas operaciones y algoritmos están definidas a priori con palabras que son metáforas en sí mismas y cuya definición "operativa" no se condice con lo que pensamos sobre ellas (sesgo, discurso parcializado, distribución de la influencia, etc.).
    Me gustaría ver qué pasa con la interpretación de los resultados cuando se analizan textos no ideológicos pero parcializados, cuyo contenido textual sea de comunidad baja o nula, como un diccionario técnico, glosario, libro de matemática o de química inorgánica!
    Ni hablar que quisiera ver qué pasa con textos religiosos, a ver cuánta “ideología” identifican allí.
    Para usar irónicamente el mismo vocabulario, observo que todo el análisis de texto usando esta metodología está sesgado en su lógica, para tratar de arribar a resultados significativos para las hipótesis que se proponen. Principalmente porque no analiza el valor que asume en cada caso una cierta palabra y sólo se basa en frecuencias y conexiones entre palabras.
    Falta el componente inter-subjetivo, y su función social en el análisis de los textos.

    ResponderEliminar