miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv



En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.



¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

No hay comentarios:

Publicar un comentario