Análisis de redes sociales: marzo 2019

miércoles, 27 de marzo de 2019

Cómo conquistar al/a la inalcanzable: Consejos desde el ARS

Cómo salir con alguien fuera de tu alcance

La minería de datos sugiere por qué las parejas tienden a coincidir en la deseabilidad y cómo mejorar sus probabilidades cuando persiguen a alguien más arriba en la escala.
por Tecnología Emergente del arXiv

Una observación curiosa sobre las asociaciones humanas es que las parejas tienden a coincidir en términos de edad, educación, actitudes e incluso atractivo físico.

Los sociólogos y los biólogos evolutivos han discutido durante mucho tiempo acerca de cómo sucede esto, con las teorías que caen en dos campos. En un campo está la hipótesis de juego. Esta es la idea de que las personas de alguna manera saben cuán deseables son y eligen un compañero al mismo nivel.

En el otro campo está la hipótesis de la competencia. Esto supone que todos, independientemente de la deseabilidad, buscan el socio más deseable. El resultado es que las personas más deseables se emparejan, seguidas de las siguientes más deseables, y así sucesivamente.

Estas dos hipótesis producen resultados similares de tipos de comportamiento completamente diferentes. La única manera de separarlos es estudiar en detalle el comportamiento de apareamiento. Eso siempre ha sido demasiado difícil de hacer en la escala necesaria.

Hoy, eso cambia, gracias al trabajo de Elizabeth Bruch y Mark Newman en la Universidad de Michigan, que han extraído los datos de un popular sitio de citas en línea para romper el punto muerto. Su avance es una forma nueva y objetiva de medir la deseabilidad y clasificar a las personas en consecuencia.

El trabajo proporciona un nuevo prisma poderoso a través del cual se puede ver el comportamiento de de las citas exitosas. Los investigadores dicen que muestra que la competencia por parejas crea una jerarquía pronunciada en la deseabilidad y que tanto hombres como mujeres buscan consecuentemente parejas más deseables que ellas mismas. También apunta a una estrategia simple que podría mejorar las posibilidades de éxito para la mayoría de las personas.

Primero, el método objetivo de Bruch y Newman para medir la deseabilidad: dicen que las personas más populares son claramente las que reciben el mayor interés en los sitios de citas, según lo cuantificado por la cantidad de mensajes que reciben.

Según esta medida, la persona más popular en el estudio es una mujer de 30 años de Nueva York, que recibió 1,504 mensajes durante el mes en que Bruch y Newman realizaron su estudio. "[Eso es] equivalente a un mensaje cada 30 minutos, día y noche, durante todo el mes", dicen.

Pero la deseabilidad no se trata solo de la cantidad de mensajes recibidos, sino de quiénes son esos mensajes. "Si te contactan personas que son deseables, entonces presumiblemente eres más deseable", afirman los investigadores.

Si este tipo de enfoque le suena familiar, es porque se basa en el famoso algoritmo PageRank de Google. Esto se ha utilizado para clasificar todo, desde páginas web hasta ganadores del Premio Nobel.

En este escenario, el algoritmo PageRank proporciona un enfoque objetivo, basado en la red, para clasificar a hombres y mujeres por su deseabilidad. Y una vez hecho esto, resulta sencillo probar las hipótesis de concordancia y competencia al monitorear si las personas buscan parejas con un nivel similar de deseabilidad o no.

Los resultados hacen para la lectura interesante. "Encontramos que tanto los hombres como las mujeres buscan parejas que en promedio son aproximadamente un 25% más deseables que ellos mismos", dice Bruch y Newman. “Mensajería de parejas potenciales que son más deseables que uno mismo no es solo un acto ocasional de ilusiones; Es la norma ".

Este enfoque no está sin sus trampas. La probabilidad de recibir una respuesta disminuye dramáticamente a medida que aumenta la brecha de deseabilidad. Es fácil imaginar que las personas que contactan a parejas más deseables harían esto más a menudo para aumentar sus posibilidades de obtener una respuesta.

"De hecho, hacen lo contrario: la cantidad de contactos iniciales que un individuo realiza se reduce rápidamente a medida que aumenta la brecha y son las personas que se acercan a los socios menos deseados los que envían la mayor cantidad de mensajes", dicen Bruch y Newman.

Así que las personas obviamente adoptan diferentes estrategias para acercarse a parejas potenciales con alta y baja deseabilidad. De hecho, los investigadores dicen que las personas dedican más tiempo a elaborar mensajes más largos y personalizados para socios más deseables: un enfoque de calidad sobre la cantidad.

El equipo también estudió el contenido de estos mensajes utilizando el análisis de sentimientos. Curiosamente, encontraron que las mujeres tienden a usar más palabras positivas en los mensajes a los hombres deseables, mientras que los hombres usan menos palabras positivas.

Ese puede ser el resultado del aprendizaje por experiencia. "Los hombres experimentan tasas de respuesta ligeramente más bajas cuando escriben mensajes redactados de manera más positiva", dicen Bruch y Newman.

Si estas diferentes estrategias funcionan está lejos de ser claro. "La variación en la recompensa de las diferentes estrategias es bastante pequeña, lo que sugiere que, en igualdad de condiciones, el esfuerzo puesto por escribirlo más largo o más mensajes positivos puede desperdiciarse", dicen.

Es un trabajo interesante, pero tiene menos relevancia para las citas fuera de línea. Las citas en línea ofrecen un gran volumen de parejas potenciales con un umbral bajo para enviar un mensaje, que es bastante diferente del mundo sin conexión.

Sin embargo, los resultados proporcionan algunas ideas importantes. Con respecto a las hipótesis de coincidencia y competencia, la evidencia sugiere que las personas usan ambas. "Son conscientes de su propia posición en la jerarquía y ajustan su comportamiento en consecuencia, mientras que al mismo tiempo compiten modestamente por compañeros más deseables", dicen Bruch y Newman.

"Nuestros resultados son consistentes con el concepto popular de "ligas" de citas, como se refleja en la idea de que alguien puede estar "fuera de tu liga" o "fuera de tu alcance".

Los hallazgos también sugieren una estrategia obvia para atraer a un compañero que está "fuera de su liga". Bruch y Newman dicen que las posibilidades de recibir una respuesta de un socio altamente deseable son bajas, pero no son nulas.

Por lo tanto, la mejor estrategia debería ser enviar más mensajes a socios altamente deseables y estar preparados para esperar más tiempo para recibir una respuesta. "Mensajear a 2 o 3 veces más parejas potenciales para obtener una cita parece una inversión bastante modesta", dicen los investigadores.

Si alguien que busca un compañero tiene tiempo libre, inténtelo y díganos cómo le va.

Ref: arxiv.org/abs/1808.04840 : Aspirational Pursuit Of Mates In Online Dating Markets

1808 04840

Leer más publicaciones en Calaméo

miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv

En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.

¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

martes, 12 de marzo de 2019

Patrones estructurales que predicen la conductividad de las redes

Un nuevo marco para predecir la propagación espaciotemporal de la señal en redes complejas.

por Ingrid Fadelli, función de Phys.org

Un nuevo marco para predecir la propagación de señales espaciotemporales en redes complejas.

Clasificación del zoológico de patrones de propagación. La misma red muestra diferentes patrones de propagación bajo diferentes dinámicas, por ejemplo, dinámica epidémica, regulatoria o de población. Estos diversos patrones se condensan en tres regímenes: azul, rojo y verde, cada uno con su huella dactilar de propagación distintiva. Crédito: Barzel et al.

Estudios anteriores han encontrado que una variedad de redes complejas, desde sistemas biológicos hasta redes sociales, pueden exhibir características topológicas universales. Estas características universales, sin embargo, no siempre se traducen en una dinámica de sistema similar. El comportamiento dinámico de un sistema no se puede predecir solo a partir de la topología, sino que depende de la interacción de la topología de una red con los mecanismos dinámicos que determinan la relación entre sus nodos.

En otras palabras, los sistemas con estructuras muy similares pueden mostrar comportamientos dinámicos profundamente diferentes. Para lograr una mejor comprensión de estas observaciones, un equipo de investigadores de la Universidad de Bar-Ilan y el Instituto de Estadística de la India han desarrollado recientemente un marco teórico general que podría ayudar a vincular sistemáticamente la topología de una red con su resultado dinámico, particularmente en el contexto. de propagación de la señal.

"Las redes complejas están a nuestro alrededor, desde las redes sociales, a las biológicas, neuronales y de infraestructura", dijo a Phys.org Baruch Barzel, uno de los investigadores que llevaron a cabo el estudio. "En las últimas dos décadas, hemos aprendido que a pesar de esta diversidad de campos, la estructura de estas redes es altamente universal, con diferentes redes que comparten características estructurales comunes. Por ejemplo, prácticamente todas estas redes (sociales, biológicas y tecnológicas) son extremadamente heterogéneos, con una mayoría de nodos pequeños que coexisten con una minoría de centros altamente conectados ". [Es decir que la distribución nodal sigue una ley de potencia]

El marco desarrollado por Barzel y sus colegas vincula la topología de una red a la propagación espaciotemporal observada de señales perturbativas a través de ella. Esto, en última instancia, permite a los investigadores captar el papel de la red en la propagación de información local.

"La pregunta que nos intriga en el laboratorio es: ¿Estas estructuras similares también sugieren un comportamiento dinámico similar?" Dijo Barzel. "Por ejemplo, si Facebook y nuestras redes genéticas subcelulares están conectadas por hubs, ¿significa esto que mostrarán un comportamiento similar? En términos simples, ¿la universalidad en la estructura se traduce en universalidad en el comportamiento dinámico?"

Propagación entre comunidades. ¿Qué sucede cuando las señales se cruzan entre los módulos de red? Esto depende del régimen dinámico. Azul: desbordamiento ligeramente retrasado entre los módulos. Rojo: las señales permanecen durante un tiempo extremadamente largo dentro de un módulo, luego reaparecen en el módulo vecino después de un largo retraso. Verde: las señales se cruzan libremente entre los módulos. Crédito: Barzel et al.

Los análisis realizados por los investigadores sugieren que la relación entre la estructura de un sistema y su comportamiento dinámico se basa en el equilibrio. Por un lado, a pesar de las características estructurales compartidas, las diferentes redes pueden comportarse de maneras profundamente diferentes. Por otro lado, estos comportamientos diversos están arraigados en un conjunto universal de principios matemáticos, que podrían ayudar a clasificar los sistemas en clases universales de comportamiento potencial.

"En una analogía, puedes pensar en una roca que cae y un cometa en órbita excéntrica", explicó Barzel. "Representan fenómenos extremadamente diferentes, pero las leyes de Newton muestran que ambas se rigen por la misma ecuación fundamental de la gravedad. En nuestro caso, demostramos que los diversos comportamientos dinámicos observados en redes potencialmente similares pueden predecirse mediante un conjunto de principios universales. que rigen las leyes en las que la estructura de la red se traduce en dinámica de red ".

Barzel y sus colegas comenzaron tratando de definir la palabra "comportamiento". Su paradigma, que se basa en varios años de investigación, se basa en la noción de que, si bien una red mapea los patrones de conexión entre sus nodos, su comportamiento se puede transmitir como patrones de flujo de información, lo que se conoce como propagación de señales.

Por ejemplo, una epidemia que se propaga a través de vínculos sociales podría verse como información que se propaga en forma de virus. De manera similar, según su marco, un fallo local de un componente de potencia que finalmente resulta en un apagón importante podría verse como información realizada en forma de perturbaciones de carga, mientras que un gen que activa una vía genética representa información bioquímica que viaja entre componentes subcelulares .

"Si piensa en las señales (virus, perturbaciones de carga, activación genética, etc.) como autos abstractos, entonces la red es su mapa de ruta subyacente", dijo Barzel. "Un mapa muy complejo y heterogéneo, de hecho, que admite la propagación de señales entre un nodo de origen y su objetivo. Ahora, todos sabemos que la misma red de carreteras puede exhibir patrones de tráfico altamente distintivos en diferentes condiciones. En analogía, la misma red puede llevar a reglas muy diferentes para la propagación de señales ".

La distancia temporal universal  (j → i). La 'red GPS' diseñada por los investigadores ayuda a reorganizar el 'zoológico' representado en la Imagen 1 en una propagación predecible y bien organizada. Crédito: Barzel et al.

Según Barzel, en una analogía que describe las señales como automóviles y las redes como mapas de carreteras, su marco podría verse como una "red GPS". Este "sistema GPS" puede predecir cuánto tiempo tomarán las señales para viajar a través de la red (por ejemplo, cuánto tiempo tomaría para que el virus infecte a las personas en un grupo social, para que ocurra un apagón después de una falla de alimentación inicial). para un gen para activar una ruta genética).

"Un GPS convierte una red de carreteras estática en una predicción dinámica de los tiempos de viaje dividiéndolos en segmentos y estimando el tiempo requerido para fluir a través de cada segmento", explicó Barzel. "Hacemos lo mismo aquí, utilizando herramientas matemáticas desarrolladas en nuestro laboratorio para estimar el tiempo de retraso de la señal en cada componente de la red. Al unir el rompecabezas, podemos predecir la propagación espaciotemporal a través de toda la red".

Teniendo en cuenta varios modelos dinámicos no lineales, los investigadores encontraron que las reglas de propagación de señales se pueden clasificar en tres regímenes dinámicos altamente distintivos. Estos tres regímenes se caracterizan por diferentes interacciones entre rutas de red, distribuciones de grados y dinámicas de interacción entre nodos de red.

"La física estadística es un campo bien establecido que nos ayuda a mapear cómo interactúan las partículas microscópicas. Por ejemplo, entre las moléculas de agua, conducen al comportamiento macroscópico observado del sistema, por ejemplo, fluido, transparente, etc.", dijo Barzel. "Nuestro paradigma lleva estas herramientas a un nivel completamente nuevo: las partículas son genes, neuronas, enrutadores o individuos humanos, y sus interacciones son en forma de propagación de señales. Los sistemas impulsados por tales partículas / interacciones a menudo se consideran como no-sciency. no pueden predecir ni observar su comportamiento; son solo un desorden aleatorio de una mezcla no organizada. En contraste, lo que nuestro trabajo (y el de otros) está exponiendo es que tal física estadística de sistemas sociales, biológicos o tecnológicos, es de hecho alcanzable, y que detrás de sus observaciones aparentemente diversas e impredecibles se encuentra una profunda universalidad que puede ayudarnos a predecir su comportamiento ".

El estudio realizado por Barzel y sus colegas ofrece un ejemplo fascinante de cómo los marcos físicos y matemáticos podrían ayudarnos a comprender mejor los sistemas complejos de una naturaleza marcadamente diferente. La clasificación de los mecanismos de interacción del sistema en los tres regímenes principales que descubrieron podría permitir a los investigadores traducir sistemáticamente la topología de un sistema en patrones dinámicos de propagación de información, prediciendo en última instancia los patrones de comportamiento de una variedad de sistemas.

"Nuestro lema es: entender, predecir, influir", dijo Barzel. "El siguiente paso natural en nuestra investigación es la 'influencia'. ¿Podemos, por ejemplo, usar nuestras predicciones sobre la propagación para mitigar una propagación no deseada, como una epidemia o una cascada de fallas en el suministro eléctrico? Por ejemplo, utilizando intervenciones cronometradas estratégicamente en las que apague, digamos, el 15 por ciento, de los componentes para evitar la sobrecarga del 85 por ciento restante. Nuestro GPS puede ayudarnos a proyectar la propagación y, por lo tanto, diseñar un esquema de intervención inteligente ".

Léalo completo en: How community structure affects the resilience of a network
Más información: Chittaranjan Hens et al. Spatiotemporal signal propagation in complex networks, Nature Physics (2019). DOI: 10.1038/s41567-018-0409-0. https://www.nature.com/articles/s41567-018-0409-0
www.barzellab.com/ Referencia de revista: Nature Physics

sábado, 9 de marzo de 2019

Segregación en redes religiosas en el Twitter chino

Segregación en redes religiosas

La religión es considerada como un origen notable de las relaciones interpersonales, así como una herramienta eficaz y eficiente para organizar a un gran número de personas hacia objetivos difíciles. Al mismo tiempo, un creyente prefiere hacerse amigo de otras personas de la misma fe y, por lo tanto, las personas de diferentes credos tienden a formar comunidades relativamente aisladas. La segregación entre diferentes religiones es un factor importante para muchos conflictos sociales. Sin embargo, la comprensión cuantitativa de la segregación religiosa es rara. Aquí analizamos una red social dirigida extraída de weibo.com (la red social dirigida más grande de China, similar a twitter.com), que consta de 6875 creyentes en el cristianismo, el budismo, el islam y el taoísmo. Esta red de religión es altamente segregativa. El análisis comparativo muestra que el grado de segregación para las diferentes religiones es mucho mayor que el de las diferentes razas y ligeramente mayor que el de los diferentes partidos políticos. Además, estudiamos los pocos vínculos interreligiosos y encontramos que el 46.7% de ellos probablemente están relacionados con asuntos caritativos. Nuestros hallazgos proporcionan información cuantitativa sobre la segregación religiosa y evidencia valiosa para el sincretismo religioso.

Figura 1. Estructura de la red religiosa. (a) El diseño estructural de la red descuida las direcciones de los enlaces, donde los nodos azul, naranja, verde y rojo denotan a cristianos, budistas, islamistas y taoístas, respectivamente. Esta red es visualizada por Gephi (gephi.org). (b) La distribución de grado en un gráfico log-log, con un exponente de ley de potencia estimado α≈2.93. (c) La distribución en grados en una gráfica log-log, con un exponente de ley de potencia estimado α≈2.47

Nos centramos en weibo.com, una de las plataformas sociales en línea más grandes de China. Identificamos a 6875 creyentes en el cristianismo, el budismo, el islam y el taoísmo, y construimos una red dirigida basada en la relación de seguidores y seguidores entre estos creyentes. Al analizar el patrón de mezcla de la red de religión, encontramos que la mayoría de los vínculos se crean entre los individuos que tienen la misma creencia. Este fenómeno de la homofilia [33] es más significativo en los musulmanes y taoístas. En otras palabras, la red de religión es altamente segregativa. Solo hay un 1,6% de enlaces que conectan diferentes religiones. Si bien los pocos enlaces interreligiosos son aparentemente importantes para la conectividad de la red, es sorprendente que estos enlaces sean notablemente más importantes que los enlaces con las más altas divergencias [48] o acción de puente [49]. En particular, también encontramos que el 46.7% de estos enlaces interreligiosos probablemente están relacionados con asuntos caritativos. La contribución de este trabajo es doble. En primer lugar, proporcionamos información cuantitativa sobre la segregación religiosa. En segundo lugar, afirmamos que las cuestiones de caridad podrían desempeñar un papel positivo para facilitar el sincretismo religioso.

Segregation in religion networks

Jiantao Hu,
Qian-Ming Zhang and
Tao Zhou
EPJ Data Science20198:6

https://doi.org/10.1140/epjds/s13688-019-0184-x

lunes, 4 de marzo de 2019

Estandarizando la forma de presentar visualizaciones de red

Un estándar para presentar visualizaciones de red.

Mathieu Jacomy | Reticular

Acabo de asistir a un examen sobre mapeo de controversias en la Universidad de Aalborg, donde, entre otras cosas, los estudiantes interpretaron visualizaciones de Gephi de diferentes tipos (relacionadas con la imagen de arriba). Había redes de páginas de Wikipedia sobre la crianza de los hijos. Los estudiantes fueron bastante buenos a pesar de los problemas comunes sobre cómo hablar de redes. El ejercicio es difícil, y no esperamos que la mayoría de los estudiantes lo dominen en el momento del curso (en este caso, 3 semanas a tiempo completo). Sin embargo, es cierto que, en mi opinión, existe una forma estándar de presentar la visualización de su red. Me di cuenta de que sería útil compartir mi opinión informada sobre cómo presentar su red.

Permítanme primero abordar dos posibles malentendidos.

No se trata de tu método. Hay infinitas cantidades de diseños de investigación válidos que involucran la visualización de redes. No soy la policía divertida. No voy a discutir cuáles son buenas o malas.
No se trata de evaluar la calidad del diseño. Ese es un tema muy válido, tengo mucho que decir al respecto y es algo crucial que me viene a la mente al leer algo como "el estándar de oro para la visualización de redes". Sin embargo, no es lo que quiero decir aquí.

Lo que quiero abordar en esta publicación es qué aspectos debe cubrir, en qué orden y, lo que es más importante, cómo debe cubrirlos. Si alguna vez se sintió perdido en un laberinto argumentativo al presentar su red, quédese conmigo.

Pero antes de comenzar a sugerir lo que debe decir y cómo, debo presentar lo que considero las cuatro capas clave de cualquier discurso en una visualización de red. Me tomaré el tiempo de detallarlos, por el momento solo mencionaré su existencia con la imagen de abajo. Si está familiarizado con el trabajo de Bruno Latour, puede reconocer una cadena de referencia. De lo contrario, comprenderá en el camino: la clave es reconocer las traducciones entre las capas.

Que deberias decir

Asumimos la situación clásica: estás presentando mapas de red hechos por ti mismo. Usted sabe todo lo que hay que saber sobre el proceso, desde la recolección hasta el refinado y la visualización. Tienes alguna experiencia en el tema. Su audiencia comienza con una pregunta muy abierta como "¿Puede decirnos de qué se trata?".

1. Declarar el propósito del trabajo.

Indique el tema primero, sus preguntas de investigación, si tiene alguna, y / o lo que intentó lograr.

Puede ser muy corto pero sigue siendo importante.

Nunca visualizamos una red por el simple hecho de visualizar una red. Siempre hay un motivo subyacente. Interpretar una red nunca es simple y usted y su público corren el riesgo de perderse en el proceso. Indicar hacia dónde te diriges proporciona una ayuda de bienvenida para orientarte.

2. Describe lo que traduce la visualización.

Explique de manera concisa el proceso que ha llevado a la visualización. Es una cadena con muchos pasos que requiere claridad. Use los términos apropiados y haga que cada paso lleve al siguiente explícito.

Hay dos estrategias válidas para narrar esto, dependiendo de la situación:

Describa el proceso en un orden pseudo cronológico, desde la recolección hasta la visualización.
Comience con el objeto físico (la hoja impresa, la pantalla ...) y vaya hacia su origen.

Elige lo que te haga sentir cómodo. Es posible que desee aprovechar esta ocasión para explicar el proceso, o lo ha hecho antes y desea ir directo al punto. En ambos casos hay una serie de elementos que debe proporcionar.

Debe explicar los pasos clave del proceso y usar los términos apropiados para hablar sobre cada uno de ellos. Aquí usaré la estrategia número 2, es decir. para narrar los pasos a partir del objeto físico y de ir hacia arriba a través del proceso. Habría variaciones dependiendo de su diseño de investigación, solo asumiré la situación común descrita en la mayoría de los tutoriales de Gephi.

En pocas palabras, cada paso del proceso es una de las cuatro capas que introduje anteriormente. Cada capa está traduciendo la capa justo debajo, y el objetivo es hacer que cada traducción sea explícita.

Describe cómo la imagen traduce la red.

La imagen o mapa es el objeto físico que ofrece empíricamente a su audiencia para comprender su trabajo (junto con sus explicaciones, por supuesto). Debes explicar de dónde viene todo lo visible en la imagen. En un escenario típico esto sería, por ejemplo:

La imagen ha sido producida mediante la visualización de una red.
Los círculos están representando los nodos. Todos los nodos han sido representados.
Las líneas representan los enlaces. Todos los enlaces también han sido representados.
Los textos son etiquetas de nodos, solo mostramos los más importantes.
El tamaño de cada círculo representa el grado del nodo.
El color de cada ronda representa la categoría del nodo.
El grosor de una línea representa el ponderador del enlace.
El color de las líneas se ha establecido en un gris claro para evitar el exceso de saturación visual.
La colocación de los nodos se ha decidido mediante un algoritmo que analiza sus conexiones, sin considerar otros atributos como su categoría.
La leyenda precisa el código de color de las categorías de nodos y la escala del grosor del enlace.

Explica cómo funciona el diseño

El algoritmo de diseño debe ser explicado. En el caso de Force Atlas 2 y muchos otros, los puntos importantes son:

El diseño coloca los nodos solo en función de sus enlaces, ignora todos los atributos.
Funciona de forma iterativa al hacer que todos los nodos se rechacen entre sí y los nodos conectados se atraigan entre sí. Por diseño converge a un equilibrio que depende de las posiciones de inicio aleatorias.
La proyección resultante se dice isotópica: no tiene ejes específicos y se puede girar o voltear sin perder sus características. Se supone que se debe interpretar en términos de distancias relativas.

En caso de que se utilicen dichos ajustes, también merecen ser mencionados:

Gravedad: una fuerza adicional limita la propagación de los nodos, lo que genera un sesgo menor, pero permite optimizar el espacio durante la visualización.
Prevenga la superposición: la ubicación de los nodos se ha ajustado para que no se superpongan, lo que genera un sesgo menor pero optimiza la legibilidad durante la visualización.

Nota: no creo que valga la pena formalizar una capa adicional, aquí una proyección matemática a un espacio 2D, aunque sea lo que realmente hacemos.

Describe cómo la red traduce los datos de origen.

La red o grafo es la lista de nodos y la lista de enlaces utilizados como una estructura de datos en un software como Gephi. La red se traduce visualmente por la imagen, pero no es la imagen. De manera similar, a menudo traduce datos menos refinados, pero no es esa información.

Debes explicar qué representan los nodos y los enlaces. En otros términos, debe describir cómo se relacionan con los datos sin procesar (ver más abajo). Por ejemplo:

Los nodos representan palabras mencionadas al menos 10 veces, excluyendo una lista de palabras de parada (stop words).
Los enlaces representan co-ocurrencia, es decir, cuando aparecen dos palabras en el mismo documento.
El peso de los enlaces representa en cuántos documentos aparecen las palabras juntas.

Explicar cómo los datos de origen se refieren al mundo empírico.

Debe explicar de dónde provienen los datos de origen y cómo se seleccionaron. La elección de los datos para estudiar a menudo se deriva de un interés en algo preciso en el mundo empírico. Puede ser la paternidad, #blacklivesmatter, diseño nórdico ... Sea cual sea su tema o sus preguntas de investigación, proporcionó un marco interpretativo de los datos de origen, por ejemplo, porque ciertos elementos se utilizan como representantes para obtener información sobre su objeto de interés original.

Podría ser, por ejemplo, mencionar que estaba interesado en un tema relacionado con cuestiones de género, pero por razones prácticas tenía que ser lo suficientemente específico, lo que lo llevó a elegir el tema de la crianza de los hijos que ya se ha descrito en Wikipedia.

3. Interpreta tu mapa de red

Ahora que su audiencia sabe de qué se trata todo esto, puede analizar el contenido de su mapa de red. Su interpretación consistirá en una serie de afirmaciones que se basarán primero en la imagen y atravesarán las capas hasta el mundo empírico, si es posible.

Hay muchas formas de organizar tu interpretación. Puede consultar las sugerencias que Tommaso Venturini, Debora Pereira y yo hemos propuesto para el análisis visual de la red. No abriré esa discusión aquí. Lo único importante es la esencia de cualquier argumento de ese tipo: expone las características de la red que son visibles en la imagen y argumenta que estas características se originan en los datos de origen de una manera que permite decir algo sobre el mundo empírico. Este camino interpretativo es largo, lo sé. Lamentablemente, tal es la situación a la que te enfrentas. La ciencia es dura.

Siempre debe ser claro acerca de las traducciones cuando hace sus puntos. Este es el único truco. Ten éxito en esto, y dominarás la interpretación de la red. Hacer un buen punto tiene que ver con encontrar su camino a través de las capas. Aunque es difícil. Dedicaré el resto de este post a desglosar esa pregunta.

Como deberias decirlo

Pon atención al vocabulario.

El pan y la mantequilla de tus argumentos son las conexiones lógicas entre los muchos elementos que convocarás. Hay tanto que decir que ni siquiera lo intentaré. Sin embargo, siempre comienza con el uso del vocabulario adecuado. Esta pregunta es crítica aquí porque, como veremos, usar los términos apropiados es su mejor defensa contra las líneas argumentativas traicioneras que lo llevarán a un laberinto de falacias.

Cada capa tiene su vocabulario específico, comencemos revisando esto.

Imagen / mapa

El siguiente vocabulario es apto para describir la imagen:

Círculo, forma, línea, texto
Colores, claros, oscuros.
Gran pequeño
Cerca, lejos
Ocupado / denso / lleno / áreas ocupadas, agujeros, espacios en blanco
Centro, periferia (de la imagen, de una zona…).

NO LO USE para describir la imagen en sí: nodo, enlace, hipervínculo, página web ...

Red / grafo

El siguiente vocabulario es apto para describir la red:

Nodo, vértice
Arista, enlace, conexión
Peso del nodo / enlace, atributo, modalidad de un atributo
Grado, grado, grado superior, métricas de centralidad
Densidad (de un conjunto de nodos)
Vecinos, hojas (nodos con 1 vecino), huérfanos (0 vecinos)
Equivalencia estructural (tener los mismos vecinos)
Distancia geodésica (longitud del camino más corto)
Clusters (como el resultado de un algoritmo de clustering)
Modularidad (de un clustering)
...

NO LO USE para describir la red: estar cerca o lejos, estar agrupado ...

A menudo querrá hacer conteos simples, como decir que un conjunto de nodos es grande, pequeño o mayor que ... Un conjunto de nodos puede ser un clúster, nodos donde el atributo X toma la modalidad Y, nodos de un grado de X o Más, vecinos de X ...

Fuente de datos

Este paso no siempre es solo un paso en el proceso y puede tomar muchas formas. El punto importante es que los datos siempre se han transformado: se han limpiado, filtrado, refinado ... Hay tantas posibilidades que no puedo ofrecer una visión general. Voy a elegir algunos ejemplos.

Si sus datos en bruto son páginas de Wikipedia, se aplica el siguiente vocabulario:

página web
Hipervínculo, enlace de hipertexto
En enlaces de texto, ver también enlaces.
...

Si sus datos en bruto eran un conjunto de documentos en un análisis de co-ocurrencia:

Documento de texto
Párrafo, expresión, n-grama, palabra
Co-ocurrencia
Frecuencia de término
...

Sus datos pueden provenir de una base de datos de patentes, de Twitter o Facebook, de una fuente cualitativa ... Cada uno de estos casos tiene sus propios tipos de objetos, relaciones y vocabulario.

NO LO USE para describir los datos en bruto: nodo, enlace, estar conectado, estar cerca, estar agrupado ...

Mundo empírico

El vocabulario que utiliza cuando se refiere al mundo empírico puede ser:

Personas, instituciones, actores,…
Libros, proyectos, ideas,…
Temas, ámbitos académicos, intereses,…
Amistad, apuntes, afinidades, ...
Grupos de pueblos, comunidad, cultura,…
Notoriedad, influencia, autoridad, relevancia, ...

Cuidado con las metonimias

En la práctica, usted quiere decir "el tamaño de los nodos" y no "el tamaño de las rondas". Bien, pero estás jugando con fuego. Si dominas el ejercicio, puedes usar todo tipo de atajos porque conoces los límites. Un oyente ingenuo puede tener la impresión de que la mayoría de los conceptos son intercambiables y que puede decir indistintamente línea, enlace, lazo o hipervínculo. Está muy mal. Los problemas son reales y puede que te engañes con argumentos falaces y con lógica circular.

"Esto no es un pipa"... Sea claro sobre lo que representa y lo que se representa

La línea para no cruzar se aclara al ver cómo entendemos una metonimia, una forma de hablar en la que nos referimos a algo utilizando un concepto diferente pero estrechamente relacionado. Por ejemplo, "jurar lealtad a la corona" se refiere al soberano y no al objeto físico, por supuesto. Podemos obtener el significado correcto porque no tendría sentido jurar lealtad a una corona literal. El contexto indica si la palabra es metafórica o literal, si hay una metonimia o no. Lo mismo se aplica a nuestros conceptos. En la medida en que los nodos no tienen un tamaño (son entidades de red abstractas), está claro que los "tamaños de nodo" se refieren a "el tamaño de las formas que representan los nodos". En ese sentido, el acceso directo es válido, pero sigue siendo complicado porque usamos la palabra nodo para referirnos a las formas, y este cambio peligroso es la forma en que ocurren los accidentes. La línea de no cruzar es cuando las metonimias se vuelven ambiguas.

Cómo te atrapas en el laberinto de la lógica circular

Primero dice "esos nodos están cerca", que solo puede entenderse como una metonimia para "aquellas formas que representan nodos están cerca", luego dice "por lo que forman un grupo" y ya está pisando el límite prohibido. Como profesor, a menudo le pediré que aclare la ambigüedad, por ejemplo: “¿Puede precisar por qué forman un grupo?”. Ya que conoce el proceso, comprende que la colocación de nodos se debe al algoritmo de diseño, que es de hecho lo que espero. Sin embargo, en este punto, la confusión puede hacer que te adentres en el laberinto de la lógica circular, al responder algo como: "Es un grupo porque el algoritmo de diseño coloca los nodos cerca uno del otro". Bien podría explicar cómo funciona el algoritmo, pero no importa, ya es demasiado tarde. Te has atrapado en una falacia, ¿puedes ver por qué?

El argumento es circular porque establece que los nodos cerrados hacen que los clústeres y los clústeres hagan los nodos cercanos. Desafortunadamente, ser consciente de la circularidad realmente no ayuda. Por mi experiencia, sé que solo te das cuenta de que estás perdido cuando ya es demasiado tarde, si es que alguna vez lo haces. Evitar la falacia no se trata de reconocer la zona prohibida, se trata de no entrar en el laberinto. Se trata de tener una práctica que nunca te ponga en riesgo.

¿Cuál es la práctica segura? En primer lugar, es utilizar el vocabulario adecuado. Pero no puedo ganar la lucha contra la naturaleza humana y hacer que dejes de usar atajos. Así que la práctica segura es sobre el uso de protecciones. Siempre revise la capa donde su argumento es válido. La entrada al laberinto de la lógica circular es donde las metonimias confusas dan lugar a argumentos con desajuste de capas. Pero el desajuste de capas también puede llevar a formas menos dramáticas de malos argumentos que pueden ser muy perjudiciales para usted a pesar de su bajo perfil. Veremos cómo el control de capas ayuda a desacreditarlas.

Malos argumentos

Hay diferentes grados de argumentos erróneos, correspondientes a las diferentes formas en que puede fallar en hacer circular la cadena de referencia de una capa a la siguiente.

Tautología: atrapado en una capa.

El peor tipo de argumento es cuando no hay argumento. Una descripción simple que plantea como un punto. El pintalabios de la retórica sobre el cerdo de la trivialidad. Por ejemplo: "El clúster pro-vida se separa del clúster pro-elección manteniendo una distancia sensible". El argumento es circular: los grupos son distantes porque son distantes. Diagnóstico de este mal argumento como una falla completa para circular fuera de las dos capas superiores, la imagen y la red.

Puede desacreditar dicha declaración comprobando las capas. Hacer un punto implica varios pasos donde las características de una capa están relacionadas con la siguiente. Un argumento apropiado sería algo como esto:

Los nodos pro-vida y pro-elección aparecen distantes en la imagen.
Son distantes porque tienen pocas conexiones. Así es como funciona el algoritmo de diseño, pero también podemos ver que hay menos enlaces entre grupos que dentro de cada uno.
La mayor cantidad de aristas dentro de los grupos muestra que los actores tienden a conectarse con aquellos que son similares a ellos e ignoran a los que son diferentes.
Este comportamiento revela una oposición entre las dos comunidades.

Naturalización: saltando a conclusiones.

Un tipo de argumento malo pero menos malo es saltar sobre las traducciones, haciendo un punto incompleto. Llamo a esto "naturalización" porque saltar a conclusiones a menudo usa la retórica de la evidencia, como si la visualización fuera una manifestación natural del mundo empírico. Por ejemplo: "los pro-elección se agrupan, mostrando que comparten valores comunes". La conclusión es a veces cierta, pero la argumentación es pobre. Como profesor, me preguntaría de inmediato: "¿puede explicar por qué cree que un grupo de nodos implica compartir valores comunes?", Lo que le brinda la oportunidad de mostrar su capacidad para circular entre las capas o hacer que se dé cuenta de que está perdido. En el laberinto de la argumentación. Algunos estudiantes simplemente usan atajos, y cuando se les pide que descompriman su razonamiento, pueden hacerlo.

Una vez más, la práctica segura es verificar las capas involucradas. En este ejemplo, la proximidad pertenece a la capa de imagen (número 1). Compartir valores comunes pertenece al mundo empírico (número 4). Debes avanzar de capa en capa sin saltar sobre ninguna. Respetar el vocabulario ayuda a no confundir las capas:

La proximidad de la pro-elección en la visualización ...
... proviene de la importante cantidad de enlaces entre los nodos ...
... lo que revela que estos actores se conocen y se vinculan entre sí en la web.
Nuestra hipótesis es que podría ser porque comparten valores comunes.

En este ejemplo, el último punto no es muy convincente, y probablemente es simplemente falso. El formulario es válido pero no el contenido. Eso fue solo un ejemplo, pero sigue siendo cierto que la última traducción, desde los datos de origen al mundo empírico, es la más difícil. Desafortunadamente, también es el más importante.

Correr la ultima milla

Mi último consejo es correr siempre la última milla: sus argumentos deben llevar a conclusiones sobre el mundo empírico, aunque solo sea de manera hipotética. La razón por la que analiza los datos es porque quiere entender algo sobre el mundo y debe demostrar su capacidad para hacerlo.

No correr la última milla es el escollo más trágico porque solo le sucede a los buenos estudiantes, aquellos que llegaron lejos pero no pudieron derrotar al último jefe. La mala argumentación no lo lleva a la última milla, pero puede tener todos sus argumentos válidos y aun así no alcanzar la línea final.

No correr la última milla produce declaraciones analíticamente válidas pero solo sobre los datos. Por ejemplo, no mencionando la argumentación sino solo la conclusión:

… Por lo tanto, los sitios web gubernamentales ocupan los puestos centrales en el corpus de las ONG.
… Todas las ONG se citan en la web, excepto las asociaciones humanitarias.
... los sitios web de la izquierda radical están bien conectados dentro de la esfera web de la izquierda, pero no forman un grupo, al estar mal conectados entre sí.

Esas afirmaciones pueden ser técnicamente válidas, no explican bien cómo se relaciona con el mundo empírico. El tipo de argumento que espero va un poco más allá, aunque solo sea en forma de hipótesis, por ejemplo:

... posiblemente porque muchas ONG dependen de la financiación gubernamental, que a menudo requiere vincularse con las instituciones de financiación.
... porque las asociaciones humanitarias compiten por las donaciones, lo que puede llevarlas a no citar a sus competidores.
... a pesar de estar reunidos bajo la etiqueta común de "izquierda radical", estos actores no se reconocen entre sí y no forman una comunidad, posiblemente debido a divergencias ideológicas.

Páginas