Mostrando entradas con la etiqueta ley de Zipf. Mostrar todas las entradas
Mostrando entradas con la etiqueta ley de Zipf. Mostrar todas las entradas

miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv



En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.



¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

jueves, 3 de mayo de 2018

Innovación y redes en un modelo probabilístico complejo

El modelo matemático revela los patrones de cómo surgen las innovaciones

El trabajo podría conducir a un nuevo enfoque para el estudio de lo que es posible, y cómo se sigue de lo que ya existe.
por Emerging Technology from the arXiv

La innovación es una de las fuerzas impulsoras en nuestro mundo. La creación constante de nuevas ideas y su transformación en tecnologías y productos constituye una piedra angular poderosa para la sociedad del siglo XXI. De hecho, muchas universidades e institutos, junto con regiones como Silicon Valley, cultivan este proceso.

Y sin embargo, el proceso de innovación es algo así como un misterio. Una amplia gama de investigadores lo han estudiado, desde economistas y antropólogos hasta biólogos e ingenieros evolutivos. Su objetivo es comprender cómo ocurre la innovación y los factores que la impulsan para que puedan optimizar las condiciones para la innovación futura.

Sin embargo, este enfoque ha tenido un éxito limitado. La velocidad a la que las innovaciones aparecen y desaparecen se ha medido cuidadosamente. Sigue un conjunto de patrones bien caracterizados que los científicos observan en muchas circunstancias diferentes. Y, sin embargo, nadie ha sido capaz de explicar cómo surge este patrón o por qué rige la innovación.

Hoy, todo eso cambia gracias al trabajo de Vittorio Loreto en la Universidad Sapienza de Roma en Italia y algunos amigos que han creado el primer modelo matemático que reproduce fielmente los patrones que siguen las innovaciones. El trabajo abre el camino a un nuevo enfoque para el estudio de la innovación, de lo que es posible y cómo esto se sigue de lo que ya existe.

La noción de que la innovación surge de la interacción entre lo real y lo posible fue formalizada por primera vez por el teórico de la complejidad Stuart Kauffmann. En 2002, Kauffmann introdujo la idea del "posible adyacente" como una forma de pensar sobre la evolución biológica.

Lo adyacente posible es todas esas cosas (ideas, palabras, canciones, moléculas, genomas, tecnologías, etc.) que están a un paso de lo que realmente existe. Conecta la realización real de un fenómeno particular y el espacio de posibilidades inexploradas.

Adyacente posible


Pero esta idea es difícil de modelar por una razón importante. El espacio de posibilidades inexploradas incluye todo tipo de cosas que son fáciles de imaginar y esperar, pero también incluye cosas que son completamente inesperadas y difíciles de imaginar. Y mientras que el primero es difícil de modelar, este último ha parecido casi imposible.

Además, cada innovación cambia el panorama de las posibilidades futuras. Entonces, en cada instante, el espacio de posibilidades inexploradas -la posible adyacente- está cambiando.

"Aunque el poder creativo de los posibles adyacentes es ampliamente apreciado a un nivel anecdótico, su importancia en la literatura científica es, en nuestra opinión, subestimada", dicen Loreto y compañía.

Sin embargo, incluso con toda esta complejidad, la innovación parece seguir patrones predecibles y fáciles de medir que se han conocido como "leyes" debido a su ubicuidad. Una de ellas es la ley de Heaps, que establece que el número de cosas nuevas aumenta a una velocidad sublineal. En otras palabras, se rige por una ley de poder de la forma V (n) = knβ donde β está entre 0 y 1.

Las palabras a menudo se consideran como un tipo de innovación, y el lenguaje está en constante evolución a medida que aparecen nuevas palabras y las antiguas desaparecen.

Esta evolución sigue la ley de Heaps. Dado un corpus de palabras de tamaño n, el número de palabras distintas V (n) es proporcional a n elevado a la potencia β. En colecciones de palabras reales, β resulta estar entre 0.4 y 0.6.

Otro patrón estadístico bien conocido en innovación es la ley de Zipf, que describe cómo la frecuencia de una innovación se relaciona con su popularidad. Por ejemplo, en un corpus de palabras, la palabra más frecuente ocurre dos veces más que la segunda palabra más frecuente, tres veces más frecuente que la tercera palabra más frecuente, y así sucesivamente. En inglés, la palabra más frecuente es "the", que representa aproximadamente el 7 por ciento de todas las palabras, seguida de "of", que representa aproximadamente el 3,5 por ciento de todas las palabras, seguido de "and", y así sucesivamente.

Esta distribución de frecuencia es la ley de Zipf y surge en una amplia gama de circunstancias, como la forma en que las ediciones aparecen en Wikipedia, cómo escuchamos nuevas canciones en línea, y así sucesivamente.

Estos patrones son leyes empíricas; los conocemos porque podemos medirlos. Pero no está claro por qué los patrones toman esta forma. Y mientras que los matemáticos pueden modelar la innovación simplemente conectando los números observados en ecuaciones, preferirían tener un modelo que produzca estos números a partir de los primeros principios.

Volvemos a Loreto y sus amigos (uno de los cuales es el matemático de la Universidad de Cornell Steve Strogatz). Estos chicos crean un modelo que explica estos patrones por primera vez.

Comienzan con una conocida caja de arena matemática llamada la urna de Polya. Comienza con una urna llena de bolas de diferentes colores. Se retira una bola al azar, se inspecciona y se coloca de nuevo en la urna con varias otras bolas del mismo color, lo que aumenta la probabilidad de que este color se seleccione en el futuro.

Este es un modelo que utilizan los matemáticos para explorar los efectos enriquecedores y la aparición de leyes de potencia. Por lo tanto, es un buen punto de partida para un modelo de innovación. Sin embargo, no produce naturalmente el crecimiento sublineal que predice la ley de Heaps.

Esto se debe a que el modelo Polya urna permite todas las consecuencias esperadas de la innovación (de descubrir un cierto color) pero no tiene en cuenta todas las consecuencias inesperadas de cómo una innovación influye en lo adyacente posible.

Así que Loreto, Strogatz y colegas han modificado el modelo de urna de Polya para dar cuenta de la posibilidad de que descubrir un nuevo color en la urna pueda desencadenar consecuencias completamente inesperadas. Ellos llaman a este modelo "la urna de Polya con desencadenamiento de la innovación".

El ejercicio comienza con una urna llena de bolas de colores. Se retira una bola al azar, se examina y se reemplaza en la urna.

Si este color se ha visto antes, también se colocan en la urna un número de otras bolas del mismo color. Pero si el color es nuevo -nunca se había visto antes en este ejercicio-, se agregan varias bolas de colores completamente nuevos a la urna.

Luego, Loreto y coautores calculan cómo cambia el número de colores nuevos de la urna y su distribución de frecuencia a lo largo del tiempo. El resultado es que el modelo reproduce las leyes de Heaps y Zipf tal como aparecen en el mundo real: una matemática primero. "El modelo de la urna de Polya con desencadenamiento de la innovación presenta por primera vez una forma satisfactoria basada en el primer principio de reproducir observaciones empíricas", dicen Loreto y compañía.

El equipo también ha demostrado que su modelo predice cómo aparecen las innovaciones en el mundo real. El modelo predice con precisión cómo se producen los eventos de edición en las páginas de Wikipedia, la aparición de etiquetas en los sistemas de anotación social, la secuencia de palabras en los textos y cómo los humanos descubren nuevas canciones en los catálogos de música en línea.

Curiosamente, estos sistemas implican dos formas diferentes de descubrimiento. Por un lado, hay cosas que ya existen pero que son nuevas para el individuo que las encuentra, como las canciones en línea; y por el otro, cosas que nunca antes existieron y que son completamente nuevas para el mundo, como las ediciones en Wikipedia.

Loreto y compañía llaman a las primeras novedades (son nuevas para un individuo) y las últimas son innovaciones, son nuevas para el mundo.

Curiosamente, el mismo modelo explica ambos fenómenos. Parece que el patrón detrás de la forma en que descubrimos novedades -nuevas canciones, libros, etc.- es lo mismo que el patrón detrás de la manera en que las innovaciones emergen de lo adyacente posible.

Eso plantea algunas preguntas interesantes, entre ellas, por qué debería ser así. Pero también abre una forma completamente nueva de pensar acerca de la innovación y los eventos desencadenantes que conducen a cosas nuevas. "Estos resultados proporcionan un punto de partida para una comprensión más profunda de las posibles adyacentes y la naturaleza diferente de los eventos desencadenantes que probablemente sean importantes en la investigación de la evolución biológica, lingüística, cultural y tecnológica", dicen Loreto y compañía.

Esperaremos ver cómo el estudio de la innovación evoluciona en lo posible adyacente como resultado de este trabajo.

Ref: arxiv.org/abs/1701.00994: Dynamics on Expanding Spaces: Modeling the Emergence of Novelties