Mostrando entradas con la etiqueta distribución de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta distribución de datos. Mostrar todas las entradas

miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv



En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.



¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

miércoles, 22 de abril de 2015

La Ley de Benford ayuda a detectar cuentas sospechosas en Twitter

Cómo la Ley de Benford revela actividad sospechosa en Twitter

La distribución contraintuitiva de dígitos en determinados conjuntos de datos resulta ser una poderosa herramienta para la detección de comportamiento extraño en las redes sociales.

MIT Technology Review




De vuelta en la década de 1880, el astrónomo estadounidense Simon Newcomb notó algo extraño en el libro de tablas logarítmicas en su biblioteca las páginas iniciales estaban mucho más fuertemente manoseadas que los posteriores lo que implicaba que la gente miraba hacia arriba logaritmos comenzando con "1" mucho más a menudo que los " 9. "

Después de algunas investigaciones, su conclusión de que en cualquier lista de los datos, los números comienzan con el dígito "1" debe ser mucho más comunes que los números que comienzan con otras cifras. Luego pasó a formular lógica matemática detrás de este fenómeno, que más tarde se conoció como la ley de Benford, en honor del físico Frank Benford que lo descubrió independientemente unos 50 años más tarde.

La ley de Benford es muy contradictoria. Después de todo, no es claro por qué los números que comienzan con "1" deberían ser más comunes que otros. De hecho, la ley prevé que en los datos que se ajustan a esta regla, los números con el primer dígito "1" debe ocurrir alrededor del 30 por ciento del tiempo, mientras que los números que comienzan con el dígito "9" debe representar menos del 5 por ciento del total.

Eso resulta ser cierto en general para una amplia gama de conjuntos de datos y, de hecho, casi cualquier conjunto de datos que se extiende por varios órdenes de magnitud. Eso incluye a las poblaciones de las ciudades, los precios del mercado de valores, constantes físicas, números en un problema de resumen del lector, y así sucesivamente.

Aunque extraño, la ley de Benford resulta ser enormemente útil para detectar el fraude financiero. La idea es que si la gente inventa cifras, los primeros dígitos de los datos deben ser distribuidos de manera bastante uniforme. De hecho, cada vez que hay una influencia externa sobre el comportamiento de la gente, se plantea la posibilidad de una desviación de la ley de Benford.

Por supuesto, un conjunto de datos que se desvía de la ley de Benford no es a prueba de fraude, sólo una indicación de que se requiere una mayor investigación.

Pero mientras que los estadísticos han buscado la ley de Benford en muchos conjuntos de datos, nunca han aplicado al mundo de las redes sociales. Hoy que cambia gracias al trabajo de Jennifer Golbeck en la Universidad de Maryland en College Park. Ella muestra que no sólo la ley de Benford se aplica a muchos conjuntos de datos asociados con las redes sociales, pero que las desviaciones de esta ley están claramente vinculados a la actividad sospechosa en línea.

Golbeck comienza con los datos sobre los usuarios de los cinco principales redes sociales: Facebook (18.000 usuarios), Twitter (78.000 usuarios), Google Plus (20.000 usuarios), Pinterest (40 millones de usuarios) y LiveJournal (45.000 usuarios). Su método era sencillo. Miró el número de amigos y seguidores asociados a cada usuario en estos conjuntos de datos y contó la distribución de los primeros dígitos en las figuras.

Los resultados son una lectura interesante. En cada serie, excepto uno de datos, la distribución estadística de primeros dígitos sigue de cerca la ley de Benford.

Eso no es realmente una sorpresa. No hay ninguna razón por qué estos conjuntos de datos, que abarcan varios órdenes de magnitud, no deben seguir la ley de Benford. Pero un conjunto de datos no siguió la ley de Benford. Esto ocurrió en el número de la siguiente manera en Pinterest. Golbeck señala que esto por sí mismo no indica actividad fraudulenta, pero ciertamente sugiere que se necesita más investigación.

No pasó mucho tiempo para que Golbeck para identificar la causa. Resulta que cuando la gente se une Pinterest, están obligados a seguir cinco o más "intereses" antes de que puedan continuar con el proceso de registro. Esto crea al menos cinco inicial sigue para cada usuario. "Aunque los usuarios pueden entrar y después eliminar los sigue, pocos lo hacen, y este proceso de iniciación afecta a toda la distribución de los DCF", dice ella.

Eso es un ejemplo interesante de cómo una influencia externa provoca un conjunto de datos a desviarse de la ley de Benford. Contadores forenses buscan desviaciones similares en los datos financieros, pero estas desviaciones no siempre son indicativas de fraude. Por ejemplo, el número 03 de mayo surgir con más frecuencia de lo esperado en los libros de una empresa si con frecuencia compra los productos que cuestan £ 39.99.

Golbeck ha ido más allá para ver si la ley de Benford sugiere actividades sospechosas en las redes sociales. En particular, ella no era justo en el número de cada uno de los amigos, pero en las redes de sus amigos, las llamadas redes egocéntricas.

Luego mide la correlación entre la red egocéntrica de un individuo y la ley de Benford y encontró que para la gran mayoría de la gente, esta correlación es superior a 0,9. "En general, la gran mayoría de las redes egocéntricas se ajustaba a lo que la Ley de Benford predicho", dice ella.

En el caso de Twitter, sólo 170 personas de las 21.000 que ella investigó tenían una correlación inferior a 0,5. Golbeck investigó cada uno de ellos con resultados curiosos.

"Casi cada una de las cuentas de 170 parecían estar comprometido en actividades sospechosas", dice ella.

Algunas de las cuentas eran claramente el spam, pero la mayoría eran parte de una red de bots rusos que publican fragmentos aleatorios de obras literarias o citas. "Todas las cuentas rusas se comportaban de la misma manera, después de otras cuentas de su tipo, exactamente una imagen de fotos de la publicación, con una imagen de la foto diferente como foto de perfil", dice ella.

Sólo por qué existen estas cuentas, y con qué propósito, no está claro. Pero su comportamiento es muy inusual. De hecho, sólo dos de las 170 cuentas con una baja correlación con la ley de Benford parecen pertenecer a los usuarios legítimos, dice Golbeck.

Eso es un trabajo interesante que tiene implicaciones importantes para la red social forense. En los últimos años, se ha vuelto cada vez más difícil de detectar cuentas en las redes sociales que se dedican a actividades sospechosas. La comparación de un gran número de ellos en contra de la ley de Benford es una manera rápida y sencilla de encontrar los que requieren mayor investigación.

Por supuesto, este proceso no va a encontrar todas las cuentas sospechosas. Cualquier cuenta que crece en la misma forma que uno convencional permanecería oculto y es posible que los usuarios maléficos podrían emplear técnicas simples para hacer sus cuentas menos identificables ahora que este método ha sido revelado.

Pero por el momento, la ley de Benford parece ser una herramienta valiosa en la guerra contra el fraude y las actividades sospechosas en las redes sociales. "La aplicabilidad de la Ley de Benford a los medios de comunicación social es una nueva herramienta para analizar el comportamiento del usuario, la comprensión de cuándo y por qué se pueden producir desviaciones naturales, y en última instancia detectar cuando las fuerzas anormales en el trabajo", concluye Golbeck.

Ref: arxiv.org/abs/1504.04387 : Benford’s Law Applies to Online Social Networks