lunes, 6 de mayo de 2019

La información pro-vacunación gana terreno frente al terraplanismo anti-vacunación


Volverse viral: el sarampión se propaga, pero los mensajes pro-vax ganan terreno

Lisa Belkin Corresponsal Nacional
Yahoo News



Virus del sarampión y aviso de brote. (Ilustración de la foto: Yahoo News; fotos: Seth Wenig / AP, Getty Images)

Internet, el lugar donde el mensaje contra la vacuna ganó fuerza en primer lugar, podría volverse a favor de las vacunas, sugiere un estudio preliminar.

Los autores tienen la esperanza de que el mismo medio que llevó a muchos padres a retener la vacuna contra el sarampión de sus hijos, lo que conduzca a brotes de una enfermedad que antes se creía erradicada, pudiera usarse para volver a hacer que la enfermedad volviera al pasado.

"La marea puede estar cambiando contra el movimiento contra la vacunación", escribió Filippo Menczer, profesor de informática e informática de la Universidad de Indiana, sobre su investigación que cuantifica y mapea la difusión de información falsa en las redes sociales en los últimos cinco años. (Su artículo apareció la semana pasada en la revista de ideas académicas en línea The Conversation).

Al rastrear los hashtags de Twitter, él y el estudiante graduado Pik-Mai Hui han llegado a la conclusión de que "la información y la actividad pro-vax están comenzando a rechazar, e incluso a superar, la desinformación anti-vax".




A finales de 2016, el movimiento anti-vax (en verde) era mucho más grande que el movimiento pro-vax (en azul). Con el tiempo, el movimiento pro-vax se expandió y llegó a empequeñecer a los anti-vaxxers. (Gráfico: Filippo Menczer y Pik-Mai Hui, Universidad de Indiana, CC BY-ND)


El movimiento contra la vacuna nació en 1998, cuando el gastroenterólogo británico Andrew Wakefield publicó un estudio basado en datos falsificados que vinculaban las vacunas y el autismo. El documento se retrajo y la licencia médica de Wakefield se revocó en 2010. Pero los años desde la publicación del documento son también los años de crecimiento de Internet similar al kudzu; El 3,6 por ciento de la población mundial estaba en línea en 1998, en comparación con el 56 por ciento actual.

Las opiniones de Wakefield continúan siendo compartidas en línea y, como resultado, un porcentaje cada vez mayor de padres, preocupados por el posible daño a sus hijos, se han negado a darles la vacuna MMR (sarampión, paperas, rubéola). Los legisladores estatales han respondido a los temores de los padres, y mientras que los 50 estados requieren que los niños sean vacunados para asistir a la escuela, casi todos otorgan exenciones para las objeciones religiosas, y 17 también otorgan exenciones por razones filosóficas.

Las vacunas no protegen solo a la persona que las recibe. También protegen a los miembros de la población que, por razones médicas, como inmunidad deteriorada, no pueden ser inoculados. Las matemáticas de la llamada inmunidad de rebaño muestran que si el 96 por ciento de la población está vacunada contra el sarampión, entonces es esencialmente erradicada, porque el virus no tiene lugar para propagarse. Es por eso que la enfermedad fue declarada eliminada en los Estados Unidos en 2000.

Pero muy recientemente, el porcentaje de niños no vacunados ha llegado al punto en que se están produciendo nuevos brotes. A partir del 4 de abril, los Centros para el Control de Enfermedades contabilizaron 465 casos individuales de sarampión en brotes en Arizona, California, Colorado, Connecticut, Florida, Georgia, Illinois, Indiana, Kentucky, Massachusetts, Michigan, Missouri, Nevada, New Hampshire, New Jersey, Estado de Nueva York, Oregón, Texas y Washington: más alto que el total de 372 para todo el año pasado, y se acerca al récord de 667 en 2014.


* Casos al 29 de diciembre de 2018. El conteo de casos es preliminar y está sujeto a cambios. ** Casos al 4 de abril de 2019. El conteo de casos es preliminar y está sujeto a cambios. (Gráfico: CDC)

En respuesta, los funcionarios de salud en el condado de Rockland, Nueva York, prohibieron que los menores no vacunados de los lugares públicos duraran el brote. Y en la ciudad de Nueva York, el alcalde Bill de Blasio declaró una emergencia de salud en la sección de Williamsburg de Brooklyn y exigió que todos los residentes del área fueran vacunados o enfrentaran multas de hasta $ 1,000.

Mientras el CDC ha estado contando casos, Menczer y Hui han estado midiendo el flujo de información. Desde septiembre de 2016 hasta septiembre de 2018, analizaron una muestra aleatoria de más de 40,000 tweets que contenían los hashtags pro y anti-vax más utilizados. Luego clasificaron las casi 30,000 cuentas que generaron esos tweets como pro-vax o anti-vax y crearon mapas virtuales, con cuentas de pro-vax representadas por puntos azules y las de anti-vax por verdes. El resultado fue un conjunto de puntos muy apretados, como un foto negativo del distintivo sarpullido rojo del sarampión.

Las manchas cambiaron notablemente durante los dos años, cambiando de casi todo verde a mayormente azul. Y mientras que los colores habían sido manchas distintas y separadas en los días anteriores, lo que significa que las cuentas anti-vax solo retuitearon mensajes anti-vax: durante el último año "observamos algunos nodos azules conectados a los grupos verdes", escribieron los autores del estudio. "Lo que sugiere que la información pro-vax está comenzando a penetrar en la comunidad anti-vax".

Aún está por verse si este cambio en el flujo de información resulta en un cambio hacia arriba en las tasas de vacunación.

Los comentaristas políticos lamentan que la información de hoy en día se difunda en silos, lo que refuerza el debate político ya que la gente escucha solo lo que ya cree. Este único estudio inicial sugiere la posibilidad de una polinización cruzada entre silos, una inoculación metafórica de la información.

"Si [este] hallazgo preliminar es confirmado por otra investigación", escribieron los autores, "podría proporcionar evidencia de que los esfuerzos combinados de las plataformas de medios sociales, organizaciones de salud, campañas de política pública y defensa popular eventualmente pueden superar la ciencia basura anti-vax. ”

sábado, 27 de abril de 2019

Nueva ley de potencia explica mejor diversos eventos

Los investigadores encuentran una ley de potencia mejor que predice terremotos, vasos sanguíneos, cuentas bancarias

Phys.org



Debido a que las venas se ramifican en divisiones aproximadamente proporcionales, también se consideran un fractal. Crédito: Imagen de cortesía / Mitchell Newberry.

Los terremotos gigantes y la riqueza extrema pueden parecer no tener mucho en común, pero la frecuencia con la que el "Big One" llegará a San Francisco y la frecuencia con la que alguien ganará tanto dinero como Bill Gates puede predecirse con una medición estadística llamada exponente de la ley de potencia.

Durante el último siglo, los investigadores han utilizado lo que se llama una ley de potencia para predecir ciertos tipos de eventos, incluida la frecuencia con que se producen los terremotos en ciertos puntos de la escala de Richter. Pero un investigador de la Universidad de Michigan notó que esta ley de potencia no se ajusta a todas las circunstancias.

Mitchell Newberry, un compañero y profesor asistente de Michigan en el Centro para el Estudio de Sistemas Complejos de la UM, sugiere un ajuste a la ley de energía que explicaría los eventos que aumentan o disminuyen en proporciones fijas, por ejemplo, cuando un gerente hace aproximadamente el 20 por ciento. más que su empleado.

Estos ajustes afectan la forma de estimar las probabilidades de terremotos, la cantidad de capilares en el cuerpo humano y el tamaño de las megaciudades y las llamaradas solares. Y pueden revisar cuándo esperar el próximo Big One.

Cuando los científicos trazan algo como la probabilidad de riqueza extrema en un gráfico, la curva es una línea suave. Eso es porque las personas pueden tener cualquier cantidad de dinero en sus cuentas bancarias.

"La suavidad de esta curva significa que cualquier valor es posible", dijo Newberry. "Podría ganar un centavo más fácilmente que un centavo menos".

Ese no es exactamente el caso de eventos como los terremotos, debido a la forma en que se registran en la escala de Richter. La magnitud de Richter de los terremotos aumenta o disminuye en incrementos de 0.1, exponencialmente. Un terremoto de magnitud 3.1 es 1.26 veces más poderoso que los terremotos de magnitud 3.0, por lo que no todos los valores son posibles en la escala. La escala de Richter es un ejemplo de un concepto llamado "auto-similitud" o cuando un evento o cosa está hecho de copias proporcionalmente más pequeñas de sí mismo.

Puede ver la auto-similitud en la naturaleza como la ramificación de las venas en una hoja, o en la geometría como triángulos encajados dentro de triángulos más grandes de la misma forma, llamado triángulo de Sierpinski. Entonces, para explicar los eventos que cambian en proporciones exactas, Newberry y su coautor, Van Savage, de la Universidad de California en Los Ángeles, crearon la ley de potencia discreta.


La curva de Koch se repite infinitamente, mostrando auto-semejanza. Crédito: usuario de Wikimedia Leofun01

En estas ecuaciones de ley de potencia, el exponente en la ecuación es la variable que los científicos están resolviendo. En los terremotos, ese exponente, llamado el valor de Gutenberg-Richter b, se midió por primera vez en 1944 e indica con qué frecuencia es probable que ocurra un terremoto de cierta intensidad. La ley de energía discreta de Newberry produjo una corrección del 11.7% sobre las estimaciones basadas en la ley de energía continua, lo que hace que el exponente se acerque más a la frecuencia histórica de los grandes terremotos. Incluso una corrección del 5% se traduce en una diferencia de más de dos veces en cuándo esperar el próximo terremoto gigante.

"Durante 100 años, las personas han estado hablando de aproximadamente un tipo de distribución de la ley de energía. Es la distribución de la ley de poder de la riqueza y los terremotos", dijo Newberry. "Solo ahora, estamos documentando estas escalas discretas. En lugar de una curva suave, nuestra ley de energía parece una escalera infinita".

Newberry notó la falla en la ley de poder continuo en su estudio de la física del sistema circulatorio. El sistema circulatorio comienza con un gran vaso sanguíneo: la aorta. A medida que la aorta se divide en diferentes ramas (las arterias carótida y subclavia), cada nueva rama disminuye de diámetro en aproximadamente dos tercios.

Estaba utilizando la ley de energía continua para estimar los tamaños de los vasos sanguíneos a medida que continúan ramificándose. Pero la ley de poder producía tamaños de vasos sanguíneos que no podían ocurrir. Indicó que un vaso sanguíneo podría ser solo un poco más pequeño que el tronco desde el cual se ramificó en lugar de alrededor de dos tercios del tamaño de ese tronco.

"Al utilizar la ley de energía continua, solo recibíamos respuestas que sabíamos que estaban mal", dijo Newberry. "Al depurar lo que falló, descubrimos que esta distribución supone que cada tamaño de vaso sanguíneo es igualmente plausible. Sabemos que para la vasculatura real, ese no es el caso".

Así que Newberry hizo ingeniería inversa de la ley de potencia. Al observar los vasos sanguíneos, Newberry podría deducir el exponente de la ley de potencia a partir de dos constantes: cuántas ramas en cada unión (dos) y cuánto más pequeña es cada rama en relación con el tronco. Al medir el tamaño de los vasos en cada división, Newberry pudo resolver la distribución de los vasos sanguíneos.

"Hay un punto intermedio entre una ley de energía continua y la ley de energía discreta", dijo Newberry. "En la ley de poder discreta, todo se presenta en proporciones perfectamente rígidas desde la escala más alta hasta el infinitamente pequeño. En la ley de poder continuo, todo se distribuye de manera perfectamente aleatoria. Casi todo lo que se asemeja en realidad es una mezcla de estos dos . "

jueves, 18 de abril de 2019

Métricas para comparar grafos


Métricas para la comparación de grafos: una guía para profesionales

Peter Wills, Francois G. Meyer
Arxiv




La comparación de la estructura del grafo es una tarea ubicua en el análisis de datos y el aprendizaje automático, con diversas aplicaciones en campos como neurociencia, seguridad cibernética, análisis de redes sociales y bioinformática, entre otros. El descubrimiento y la comparación de estructuras como las comunidades modulares, los clubes ricos, los centros y los árboles en los datos de estos campos permite comprender los mecanismos generativos y las propiedades funcionales del grafo.



A menudo, dos grafos se comparan mediante una medida de distancia por pares, con una pequeña distancia que indica similitud estructural y viceversa. Las opciones comunes incluyen distancias espectrales (también conocidas como distancias λ) y distancias basadas en afinidades de nodo. Sin embargo, aún no se ha realizado ningún estudio comparativo de la eficacia de estas medidas de distancia para discernir entre topologías de grafos comunes y diferentes escalas estructurales.
En este trabajo, comparamos las métricas de los grafos y las medidas de distancia de uso común, y demostramos su capacidad para discernir entre las características topológicas comunes que se encuentran tanto en los modelos de grafos aleatorios como en los conjuntos de datos empíricos. Presentamos una imagen a escala múltiple de la estructura del grafo, en la que se considera el efecto de la estructura global y local sobre las medidas de distancia. Hacemos recomendaciones sobre la aplicabilidad de diferentes medidas de distancia al problema de datos de grafos empíricos basados ​​en esta vista de escala múltiple. Finalmente, presentamos la biblioteca NetComp de Python que implementa las distancias de los grafos utilizados en este trabajo.




miércoles, 10 de abril de 2019

3° Escola Luso-Brasileira de Análise de Redes Sociais





Escola Luso-Brasileira de Análise de Redes Sociais



Estão abertas as inscrições para a edição Portuguesa da 3ª Escola Luso-Brasileira de Análise de Redes Sociais, com organização do SOCIUS/CSG, Centro de Investigação em Sociologia Económica e das Organizações do ISEG - Lisbon School of Economics & Management da Universidade de Lisboa, em parceria com FIOCRUZ - Fundação Osvaldo Cruz, Faculdade de Letras da Universidade de Coimbra e ISPA - Instituto Universitário de Ciências Psicológicas, Sociais e da Vida.


A 3ª Escola Luso-Brasileira irá decorrer no ISEG, entre 15 e 20 de Julho de 2019.


Seguem abaixo as datas e informações gerais sobre cada módulo.

Módulo 1 - INTRODUÇÃO À ANÁLISE DE REDES SOCIAIS
Datas: 15 e 16 julho | 9:30-13:00 14:30-17:00
Objetivo: familiarizar os participantes com os principais conceitos, métodos e medidas da análise de redes sociais.
Software: UCINET VI e Netdraw
Docente: Marta Varanda (ISEG-ULisboa)
Valor: 165€ | Early bird (até 30 de abril): 150 €


Módulo 2 - ANÁLISE DE REDES COM LINGUAGEM DE PROGRAMAÇÃO R
Data: 17 julho | 9:30-13:00 14:30-17:00
Objetivo: Realizar pesquisas em bases de dados científicas; Avaliar e conhecer diferentes ferramentas e pacotes de software existentes relacionados a Linguagem R para o auxílio no trabalho com redes; Realizar atividades práticas de levantamento, tratamento e análise de dados científicos com uso da metodologia de análise de redes; Estudar o ambiente de programação R, RStudio e Shiny para o uso de forma adequada dos pacotes de análise de redes; Descrever o processo de análise de redes e dados, desde o levantamento até a análise e apresentação dos resultados.
Software: Rstudio (R + IDE) e pacotes igraph, sna e Bibliometrix
Docente: Ricardo Barros Sampaio (Fiocruz-Brasília)
Valor: 85€ | Early bird (até 30 de abril): 75€

MÓDULO 3 - MODELOS ESTATÍSTICOS P* PARA ANÁLISE DE REDES SOCIAIS
Data: 18 julho | 9:30-13:00 14:30-17:00
Objectivo: Introdução aos modelos p* (“exponential random graph models”) e ao software PNet. Especificação de modelos que permitem testar hipóteses explicativas acerca dos processos sociais na origem de uma determinada rede social.
Software: PNet
Docente João Daniel (ISPA)
Valor: 85€ | Early bird (até 30 de abril): 75€

MÓDULO 4 - ANÁLISE LONGITUDINAL DE REDES SOCIAIS COM RSIENA
Data: 19 julho | 9:30-13:00 14:30-17:00
Objetivo: Introdução a um tipo de modelos de análise de dados longitudinais ("stochastic actor-based models for network dynamics") e ao software RSiena. Especificação de modelos que permitem testar hipóteses explicativas acerca: (1) dos processos sociais responsáveis pela transformação de uma rede social ao longo do tempo, e (2) da modificação de atributos/comportamentos dos atores envolvidos numa rede social.
Software: RSiena
Docente: João Daniel (ISPA)
Valor: 85€ | Early bird (até 30 de abril): 75€

MÓDULO 5 - ARS APLICADO AOS MEDIA SOCIAIS
Data: 20 julho | 9:30-13:00 14:30-17:00
Objetivo: análise de dinâmicas relacionais como redes sociais online, para projetar e desenvolver análises sistemáticas de redes em media digitais.
Software: Gephi
Docente: Inês Amaral (Universidade de Coimbra)
Valor: 85€ | Early bird (até 30 de abril): 75€



TUTORIAS (discussão de projetos individuais)
Datas: 17-20 julho | Horário: a combinar com docentes
Objetivo: apoiar a elaboração ou adaptação de projetos para a utilização da perspetiva da Análise de Redes Sociais
Docentes: todos


DATAS IMPORTANTES
Inscrição Early bird: até 30 abril 2019
Inscrição: 1 Maio a 5 Julho 2019

INSCRIÇÃO ONLINE: https://formulariosocius.typeform.com/to/E7PxKd

Informação disponível em: https://socius.rc.iseg.ulisboa.pt/home.html



Para mais informações contacte-nos: escolalusobrars@socius.iseg.ulisboa.pt

miércoles, 27 de marzo de 2019

Cómo conquistar al/a la inalcanzable: Consejos desde el ARS

Cómo salir con alguien fuera de tu alcance

La minería de datos sugiere por qué las parejas tienden a coincidir en la deseabilidad y cómo mejorar sus probabilidades cuando persiguen a alguien más arriba en la escala.
por Tecnología Emergente del arXiv




Una observación curiosa sobre las asociaciones humanas es que las parejas tienden a coincidir en términos de edad, educación, actitudes e incluso atractivo físico.

Los sociólogos y los biólogos evolutivos han discutido durante mucho tiempo acerca de cómo sucede esto, con las teorías que caen en dos campos. En un campo está la hipótesis de juego. Esta es la idea de que las personas de alguna manera saben cuán deseables son y eligen un compañero al mismo nivel.

En el otro campo está la hipótesis de la competencia. Esto supone que todos, independientemente de la deseabilidad, buscan el socio más deseable. El resultado es que las personas más deseables se emparejan, seguidas de las siguientes más deseables, y así sucesivamente.

Estas dos hipótesis producen resultados similares de tipos de comportamiento completamente diferentes. La única manera de separarlos es estudiar en detalle el comportamiento de apareamiento. Eso siempre ha sido demasiado difícil de hacer en la escala necesaria.

Hoy, eso cambia, gracias al trabajo de Elizabeth Bruch y Mark Newman en la Universidad de Michigan, que han extraído los datos de un popular sitio de citas en línea para romper el punto muerto. Su avance es una forma nueva y objetiva de medir la deseabilidad y clasificar a las personas en consecuencia.

El trabajo proporciona un nuevo prisma poderoso a través del cual se puede ver el comportamiento de de las citas exitosas. Los investigadores dicen que muestra que la competencia por parejas crea una jerarquía pronunciada en la deseabilidad y que tanto hombres como mujeres buscan consecuentemente parejas más deseables que ellas mismas. También apunta a una estrategia simple que podría mejorar las posibilidades de éxito para la mayoría de las personas.




Primero, el método objetivo de Bruch y Newman para medir la deseabilidad: dicen que las personas más populares son claramente las que reciben el mayor interés en los sitios de citas, según lo cuantificado por la cantidad de mensajes que reciben.

Según esta medida, la persona más popular en el estudio es una mujer de 30 años de Nueva York, que recibió 1,504 mensajes durante el mes en que Bruch y Newman realizaron su estudio. "[Eso es] equivalente a un mensaje cada 30 minutos, día y noche, durante todo el mes", dicen.

Pero la deseabilidad no se trata solo de la cantidad de mensajes recibidos, sino de quiénes son esos mensajes. "Si te contactan personas que son deseables, entonces presumiblemente eres más deseable", afirman los investigadores.

Si este tipo de enfoque le suena familiar, es porque se basa en el famoso algoritmo PageRank de Google. Esto se ha utilizado para clasificar todo, desde páginas web hasta ganadores del Premio Nobel.

En este escenario, el algoritmo PageRank proporciona un enfoque objetivo, basado en la red, para clasificar a hombres y mujeres por su deseabilidad. Y una vez hecho esto, resulta sencillo probar las hipótesis de concordancia y competencia al monitorear si las personas buscan parejas con un nivel similar de deseabilidad o no.

Los resultados hacen para la lectura interesante. "Encontramos que tanto los hombres como las mujeres buscan parejas que en promedio son aproximadamente un 25% más deseables que ellos mismos", dice Bruch y Newman. “Mensajería de parejas potenciales que son más deseables que uno mismo no es solo un acto ocasional de ilusiones; Es la norma ".

Este enfoque no está sin sus trampas. La probabilidad de recibir una respuesta disminuye dramáticamente a medida que aumenta la brecha de deseabilidad. Es fácil imaginar que las personas que contactan a parejas más deseables harían esto más a menudo para aumentar sus posibilidades de obtener una respuesta.

"De hecho, hacen lo contrario: la cantidad de contactos iniciales que un individuo realiza se reduce rápidamente a medida que aumenta la brecha y son las personas que se acercan a los socios menos deseados los que envían la mayor cantidad de mensajes", dicen Bruch y Newman.

Así que las personas obviamente adoptan diferentes estrategias para acercarse a parejas potenciales con alta y baja deseabilidad. De hecho, los investigadores dicen que las personas dedican más tiempo a elaborar mensajes más largos y personalizados para socios más deseables: un enfoque de calidad sobre la cantidad.

El equipo también estudió el contenido de estos mensajes utilizando el análisis de sentimientos. Curiosamente, encontraron que las mujeres tienden a usar más palabras positivas en los mensajes a los hombres deseables, mientras que los hombres usan menos palabras positivas.

Ese puede ser el resultado del aprendizaje por experiencia. "Los hombres experimentan tasas de respuesta ligeramente más bajas cuando escriben mensajes redactados de manera más positiva", dicen Bruch y Newman.

Si estas diferentes estrategias funcionan está lejos de ser claro. "La variación en la recompensa de las diferentes estrategias es bastante pequeña, lo que sugiere que, en igualdad de condiciones, el esfuerzo puesto por escribirlo más largo o más mensajes positivos puede desperdiciarse", dicen.

Es un trabajo interesante, pero tiene menos relevancia para las citas fuera de línea. Las citas en línea ofrecen un gran volumen de parejas potenciales con un umbral bajo para enviar un mensaje, que es bastante diferente del mundo sin conexión.

Sin embargo, los resultados proporcionan algunas ideas importantes. Con respecto a las hipótesis de coincidencia y competencia, la evidencia sugiere que las personas usan ambas. "Son conscientes de su propia posición en la jerarquía y ajustan su comportamiento en consecuencia, mientras que al mismo tiempo compiten modestamente por compañeros más deseables", dicen Bruch y Newman.

"Nuestros resultados son consistentes con el concepto popular de "ligas" de citas, como se refleja en la idea de que alguien puede estar "fuera de tu liga" o "fuera de tu alcance".

Los hallazgos también sugieren una estrategia obvia para atraer a un compañero que está "fuera de su liga". Bruch y Newman dicen que las posibilidades de recibir una respuesta de un socio altamente deseable son bajas, pero no son nulas.

Por lo tanto, la mejor estrategia debería ser enviar más mensajes a socios altamente deseables y estar preparados para esperar más tiempo para recibir una respuesta. "Mensajear a 2 o 3 veces más parejas potenciales para obtener una cita parece una inversión bastante modesta", dicen los investigadores.

Si alguien que busca un compañero tiene tiempo libre, inténtelo y díganos cómo le va.


Ref: arxiv.org/abs/1808.04840 : Aspirational Pursuit Of Mates In Online Dating Markets


miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv



En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.



¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

martes, 12 de marzo de 2019

Patrones estructurales que predicen la conductividad de las redes

Un nuevo marco para predecir la propagación espaciotemporal de la señal en redes complejas.

por Ingrid Fadelli, función de Phys.org


Un nuevo marco para predecir la propagación de señales espaciotemporales en redes complejas.




Clasificación del zoológico de patrones de propagación. La misma red muestra diferentes patrones de propagación bajo diferentes dinámicas, por ejemplo, dinámica epidémica, regulatoria o de población. Estos diversos patrones se condensan en tres regímenes: azul, rojo y verde, cada uno con su huella dactilar de propagación distintiva. Crédito: Barzel et al.

Estudios anteriores han encontrado que una variedad de redes complejas, desde sistemas biológicos hasta redes sociales, pueden exhibir características topológicas universales. Estas características universales, sin embargo, no siempre se traducen en una dinámica de sistema similar. El comportamiento dinámico de un sistema no se puede predecir solo a partir de la topología, sino que depende de la interacción de la topología de una red con los mecanismos dinámicos que determinan la relación entre sus nodos.

En otras palabras, los sistemas con estructuras muy similares pueden mostrar comportamientos dinámicos profundamente diferentes. Para lograr una mejor comprensión de estas observaciones, un equipo de investigadores de la Universidad de Bar-Ilan y el Instituto de Estadística de la India han desarrollado recientemente un marco teórico general que podría ayudar a vincular sistemáticamente la topología de una red con su resultado dinámico, particularmente en el contexto. de propagación de la señal.

"Las redes complejas están a nuestro alrededor, desde las redes sociales, a las biológicas, neuronales y de infraestructura", dijo a Phys.org Baruch Barzel, uno de los investigadores que llevaron a cabo el estudio. "En las últimas dos décadas, hemos aprendido que a pesar de esta diversidad de campos, la estructura de estas redes es altamente universal, con diferentes redes que comparten características estructurales comunes. Por ejemplo, prácticamente todas estas redes (sociales, biológicas y tecnológicas) son extremadamente heterogéneos, con una mayoría de nodos pequeños que coexisten con una minoría de centros altamente conectados ". [Es decir que la distribución nodal sigue una ley de potencia]

El marco desarrollado por Barzel y sus colegas vincula la topología de una red a la propagación espaciotemporal observada de señales perturbativas a través de ella. Esto, en última instancia, permite a los investigadores captar el papel de la red en la propagación de información local.

"La pregunta que nos intriga en el laboratorio es: ¿Estas estructuras similares también sugieren un comportamiento dinámico similar?" Dijo Barzel. "Por ejemplo, si Facebook y nuestras redes genéticas subcelulares están conectadas por hubs, ¿significa esto que mostrarán un comportamiento similar? En términos simples, ¿la universalidad en la estructura se traduce en universalidad en el comportamiento dinámico?"


Propagación entre comunidades. ¿Qué sucede cuando las señales se cruzan entre los módulos de red? Esto depende del régimen dinámico. Azul: desbordamiento ligeramente retrasado entre los módulos. Rojo: las señales permanecen durante un tiempo extremadamente largo dentro de un módulo, luego reaparecen en el módulo vecino después de un largo retraso. Verde: las señales se cruzan libremente entre los módulos. Crédito: Barzel et al.


Los análisis realizados por los investigadores sugieren que la relación entre la estructura de un sistema y su comportamiento dinámico se basa en el equilibrio. Por un lado, a pesar de las características estructurales compartidas, las diferentes redes pueden comportarse de maneras profundamente diferentes. Por otro lado, estos comportamientos diversos están arraigados en un conjunto universal de principios matemáticos, que podrían ayudar a clasificar los sistemas en clases universales de comportamiento potencial.

"En una analogía, puedes pensar en una roca que cae y un cometa en órbita excéntrica", explicó Barzel. "Representan fenómenos extremadamente diferentes, pero las leyes de Newton muestran que ambas se rigen por la misma ecuación fundamental de la gravedad. En nuestro caso, demostramos que los diversos comportamientos dinámicos observados en redes potencialmente similares pueden predecirse mediante un conjunto de principios universales. que rigen las leyes en las que la estructura de la red se traduce en dinámica de red ".

Barzel y sus colegas comenzaron tratando de definir la palabra "comportamiento". Su paradigma, que se basa en varios años de investigación, se basa en la noción de que, si bien una red mapea los patrones de conexión entre sus nodos, su comportamiento se puede transmitir como patrones de flujo de información, lo que se conoce como propagación de señales.

Por ejemplo, una epidemia que se propaga a través de vínculos sociales podría verse como información que se propaga en forma de virus. De manera similar, según su marco, un fallo local de un componente de potencia que finalmente resulta en un apagón importante podría verse como información realizada en forma de perturbaciones de carga, mientras que un gen que activa una vía genética representa información bioquímica que viaja entre componentes subcelulares .

"Si piensa en las señales (virus, perturbaciones de carga, activación genética, etc.) como autos abstractos, entonces la red es su mapa de ruta subyacente", dijo Barzel. "Un mapa muy complejo y heterogéneo, de hecho, que admite la propagación de señales entre un nodo de origen y su objetivo. Ahora, todos sabemos que la misma red de carreteras puede exhibir patrones de tráfico altamente distintivos en diferentes condiciones. En analogía, la misma red puede llevar a reglas muy diferentes para la propagación de señales ".



La distancia temporal universal  (j → i). La 'red GPS' diseñada por los investigadores ayuda a reorganizar el 'zoológico' representado en la Imagen 1 en una propagación predecible y bien organizada. Crédito: Barzel et al.

Según Barzel, en una analogía que describe las señales como automóviles y las redes como mapas de carreteras, su marco podría verse como una "red GPS". Este "sistema GPS" puede predecir cuánto tiempo tomarán las señales para viajar a través de la red (por ejemplo, cuánto tiempo tomaría para que el virus infecte a las personas en un grupo social, para que ocurra un apagón después de una falla de alimentación inicial). para un gen para activar una ruta genética).

"Un GPS convierte una red de carreteras estática en una predicción dinámica de los tiempos de viaje dividiéndolos en segmentos y estimando el tiempo requerido para fluir a través de cada segmento", explicó Barzel. "Hacemos lo mismo aquí, utilizando herramientas matemáticas desarrolladas en nuestro laboratorio para estimar el tiempo de retraso de la señal en cada componente de la red. Al unir el rompecabezas, podemos predecir la propagación espaciotemporal a través de toda la red".

Teniendo en cuenta varios modelos dinámicos no lineales, los investigadores encontraron que las reglas de propagación de señales se pueden clasificar en tres regímenes dinámicos altamente distintivos. Estos tres regímenes se caracterizan por diferentes interacciones entre rutas de red, distribuciones de grados y dinámicas de interacción entre nodos de red.

"La física estadística es un campo bien establecido que nos ayuda a mapear cómo interactúan las partículas microscópicas. Por ejemplo, entre las moléculas de agua, conducen al comportamiento macroscópico observado del sistema, por ejemplo, fluido, transparente, etc.", dijo Barzel. "Nuestro paradigma lleva estas herramientas a un nivel completamente nuevo: las partículas son genes, neuronas, enrutadores o individuos humanos, y sus interacciones son en forma de propagación de señales. Los sistemas impulsados ​​por tales partículas / interacciones a menudo se consideran como no-sciency. no pueden predecir ni observar su comportamiento; son solo un desorden aleatorio de una mezcla no organizada. En contraste, lo que nuestro trabajo (y el de otros) está exponiendo es que tal física estadística de sistemas sociales, biológicos o tecnológicos, es de hecho alcanzable, y que detrás de sus observaciones aparentemente diversas e impredecibles se encuentra una profunda universalidad que puede ayudarnos a predecir su comportamiento ".

El estudio realizado por Barzel y sus colegas ofrece un ejemplo fascinante de cómo los marcos físicos y matemáticos podrían ayudarnos a comprender mejor los sistemas complejos de una naturaleza marcadamente diferente. La clasificación de los mecanismos de interacción del sistema en los tres regímenes principales que descubrieron podría permitir a los investigadores traducir sistemáticamente la topología de un sistema en patrones dinámicos de propagación de información, prediciendo en última instancia los patrones de comportamiento de una variedad de sistemas.

"Nuestro lema es: entender, predecir, influir", dijo Barzel. "El siguiente paso natural en nuestra investigación es la 'influencia'. ¿Podemos, por ejemplo, usar nuestras predicciones sobre la propagación para mitigar una propagación no deseada, como una epidemia o una cascada de fallas en el suministro eléctrico? Por ejemplo, utilizando intervenciones cronometradas estratégicamente en las que apague, digamos, el 15 por ciento, de los componentes para evitar la sobrecarga del 85 por ciento restante. Nuestro GPS puede ayudarnos a proyectar la propagación y, por lo tanto, diseñar un esquema de intervención inteligente ".


Léalo completo en: How community structure affects the resilience of a network
Más información: Chittaranjan Hens et al. Spatiotemporal signal propagation in complex networks, Nature Physics (2019). DOI: 10.1038/s41567-018-0409-0. https://www.nature.com/articles/s41567-018-0409-0
www.barzellab.com/ Referencia de revista: Nature Physics