miércoles, 13 de marzo de 2019

La ley de Zipf que revela frecuencias de palabras libres de escala

La minería de datos revela un patrón fundamental del pensamiento humano.

Los patrones de frecuencia de palabras muestran que los humanos procesan palabras comunes y poco comunes de diferentes maneras, con importantes consecuencias para el procesamiento del lenguaje natural.
por Emerging Technology from the arXiv



En 1935, el lingüista estadounidense George Zipf hizo un descubrimiento notable. Zipf sentía curiosidad por la relación entre las palabras comunes y las menos comunes. Así que contó la frecuencia con que aparecen las palabras en el lenguaje común y luego las ordenó de acuerdo con su frecuencia.

Esto reveló una regularidad notable. Zipf descubrió que la frecuencia de una palabra es inversamente proporcional a su lugar en las clasificaciones. Por lo tanto, una palabra que ocupa el segundo lugar en el ranking aparece la mitad de las veces que la palabra más común. La palabra del tercer puesto aparece un tercio con la frecuencia y así sucesivamente.

En inglés, la palabra más popular es the, que constituye aproximadamente el 7 por ciento de todas las palabras, seguida por y, que ocurre el 3.5 por ciento del tiempo, y así sucesivamente. De hecho, alrededor de 135 palabras representan la mitad de todas las apariciones de palabras. Así que algunas palabras aparecen a menudo, mientras que casi nunca aparecen.



¿Pero por qué? Una posibilidad intrigante es que el cerebro procesa las palabras comunes de manera diferente y que el estudio de la distribución de Zipf debería revelar información importante sobre este proceso cerebral.

Sin embargo hay un problema. No todos los lingüistas están de acuerdo en que la distribución estadística de la frecuencia de palabras es el resultado de procesos cognitivos. En cambio, algunos dicen que la distribución es el resultado de errores estadísticos asociados con palabras de baja frecuencia, que pueden producir distribuciones similares.

Lo que se necesita, por supuesto, es un estudio más amplio en una amplia gama de idiomas. Tal estudio a gran escala sería más poderoso estadísticamente y sería tan capaz de separar estas posibilidades.

Hoy, recibimos un estudio de este tipo gracias al trabajo de Shuiyuan Yu y sus colegas de la Universidad de Comunicación de China en Beijing. Estos muchachos han encontrado la Ley de Zipf en 50 idiomas tomados de una amplia gama de clases lingüísticas, entre ellas indoeuropeas, urálicas, altaicas, caucásicas, chino-tibetanas, dravidianas, afroasiáticas, etc.

Yu y sus colegas dicen que las frecuencias de palabras en estos idiomas comparten una estructura común que difiere de la que producirían los errores estadísticos. Lo que es más, dicen que esta estructura sugiere que el cerebro procesa las palabras comunes de manera diferente a las poco comunes, una idea que tiene consecuencias importantes para el procesamiento del lenguaje natural y la generación automática de texto.

El método de Yu y sus compañeros es sencillo. Comienzan con dos grandes colecciones de texto llamadas British National Corpus y Leipzig Corpus. Estas incluyen muestras de 50 idiomas diferentes, cada muestra con al menos 30,000 oraciones y hasta 43 millones de palabras.

Los investigadores encontraron que las frecuencias de palabras en todos los idiomas siguen una Ley de Zipf modificada en la que la distribución se puede dividir en tres segmentos. "Los resultados estadísticos muestran que las leyes de Zipf en 50 idiomas comparten un patrón estructural de tres segmentos, y cada segmento demuestra propiedades lingüísticas distintivas", dicen Yu.

Esta estructura es interesante. Yu y compañía han intentado simularlo utilizando una serie de modelos para crear palabras. Un modelo es el modelo de máquina de escribir mono, que genera letras aleatorias que forman palabras cada vez que se produce un espacio.

Este proceso genera una distribución de ley de poder como la Ley de Zipf. Sin embargo, no puede generar la estructura de tres segmentos que Yu y compañía han encontrado. Esta estructura tampoco puede ser generada por errores asociados con palabras de baja frecuencia.

Sin embargo, Yu y sus colegas pueden reproducir esta estructura utilizando un modelo de la forma en que funciona el cerebro, llamado teoría del proceso dual. Esta es la idea de que el cerebro funciona de dos maneras diferentes.

El primero es un pensamiento rápido e intuitivo que requiere poco o ningún razonamiento. Se piensa que este tipo de pensamiento ha evolucionado para permitir que los humanos reaccionen rápidamente en situaciones amenazantes. En general, proporciona buenas soluciones a problemas difíciles, como el reconocimiento de patrones, pero puede ser fácilmente engañado por situaciones no intuitivas.

Sin embargo, los humanos son capaces de un pensamiento mucho más racional. Este segundo tipo de pensamiento es más lento, más calculador y deliberado. Es este tipo de pensamiento el que nos permite resolver problemas complejos, como rompecabezas matemáticos, etc.

La teoría del proceso dual sugiere que las palabras comunes como el, y, si y así sucesivamente, se procesan mediante un pensamiento rápido e intuitivo y, por lo tanto, se usan con más frecuencia. Estas palabras forman una especie de columna vertebral para las oraciones.

Sin embargo, las palabras y frases menos comunes, como la hipótesis y la Ley de Zipf, requieren un pensamiento mucho más cuidadoso. Y debido a esto ocurren con menos frecuencia.

De hecho, cuando Yu y co simulan este proceso dual, conduce a la misma estructura de tres segmentos en la distribución de frecuencia de palabras que midieron en 50 idiomas diferentes.

El primer segmento refleja la distribución de palabras comunes, el último segmento refleja la distribución de palabras no comunes y el segmento medio es el resultado del cruce de estos dos regímenes. "Estos resultados muestran que la Ley de Zipf en los idiomas está motivada por mecanismos cognitivos como el procesamiento dual que gobierna las conductas verbales humanas", dicen Yu y compañía.

Eso es un trabajo interesante. La idea de que el cerebro humano procesa la información de dos maneras diferentes ha adquirido un impulso considerable en los últimos años, entre otras cosas gracias al libro El pensamiento, rápido y lento del psicólogo ganador del Premio Nobel Daniel Kahneman, quien ha estudiado esta idea en detalle.

Un problema conocido que se usa para provocar un pensamiento rápido y lento es el siguiente:

“Un bate y una pelota cuestan $ 1.10 en total. El bate cuesta $ 1.00 más que la pelota. ¿Cuánto cuesta la pelota?

La respuesta, por supuesto, es de 5 centavos. Pero casi todos tienen la inclinación inicial a pensar 10 centavos. Eso es porque 10 centavos se sienten bien. Es el orden de magnitud correcto y lo sugiere el marco del problema. Esa respuesta proviene del lado rápido e intuitivo de tu cerebro.

Pero esta mal La respuesta correcta requiere la parte más lenta y más calculadora de tu cerebro.

Yu y compañía dicen que los mismos dos procesos están involucrados en la generación de oraciones. La parte de pensamiento rápido de su cerebro crea la estructura básica de la oración (las palabras aquí marcadas en negrita). Las otras palabras requieren la parte más lenta y más calculadora de tu cerebro.

Es este proceso dual el que conduce a la Ley Zipf de tres segmentos.

Eso debería tener consecuencias interesantes para los informáticos que trabajan en el procesamiento del lenguaje natural. Este campo se ha beneficiado de enormes avances en los últimos años. Estos provienen de algoritmos de aprendizaje automático, pero también de grandes bases de datos de texto recopiladas por compañías como Google.

Pero generar lenguaje natural sigue siendo difícil. No tienes que chatear con Siri, Cortana o el Asistente de Google por mucho tiempo para alcanzar sus límites de conversación.

Por lo tanto, una mejor comprensión de cómo los humanos generan oraciones podría ayudar significativamente. Zipf seguramente habría quedado fascinado.

martes, 12 de marzo de 2019

Patrones estructurales que predicen la conductividad de las redes

Un nuevo marco para predecir la propagación espaciotemporal de la señal en redes complejas.

por Ingrid Fadelli, función de Phys.org


Un nuevo marco para predecir la propagación de señales espaciotemporales en redes complejas.




Clasificación del zoológico de patrones de propagación. La misma red muestra diferentes patrones de propagación bajo diferentes dinámicas, por ejemplo, dinámica epidémica, regulatoria o de población. Estos diversos patrones se condensan en tres regímenes: azul, rojo y verde, cada uno con su huella dactilar de propagación distintiva. Crédito: Barzel et al.

Estudios anteriores han encontrado que una variedad de redes complejas, desde sistemas biológicos hasta redes sociales, pueden exhibir características topológicas universales. Estas características universales, sin embargo, no siempre se traducen en una dinámica de sistema similar. El comportamiento dinámico de un sistema no se puede predecir solo a partir de la topología, sino que depende de la interacción de la topología de una red con los mecanismos dinámicos que determinan la relación entre sus nodos.

En otras palabras, los sistemas con estructuras muy similares pueden mostrar comportamientos dinámicos profundamente diferentes. Para lograr una mejor comprensión de estas observaciones, un equipo de investigadores de la Universidad de Bar-Ilan y el Instituto de Estadística de la India han desarrollado recientemente un marco teórico general que podría ayudar a vincular sistemáticamente la topología de una red con su resultado dinámico, particularmente en el contexto. de propagación de la señal.

"Las redes complejas están a nuestro alrededor, desde las redes sociales, a las biológicas, neuronales y de infraestructura", dijo a Phys.org Baruch Barzel, uno de los investigadores que llevaron a cabo el estudio. "En las últimas dos décadas, hemos aprendido que a pesar de esta diversidad de campos, la estructura de estas redes es altamente universal, con diferentes redes que comparten características estructurales comunes. Por ejemplo, prácticamente todas estas redes (sociales, biológicas y tecnológicas) son extremadamente heterogéneos, con una mayoría de nodos pequeños que coexisten con una minoría de centros altamente conectados ". [Es decir que la distribución nodal sigue una ley de potencia]

El marco desarrollado por Barzel y sus colegas vincula la topología de una red a la propagación espaciotemporal observada de señales perturbativas a través de ella. Esto, en última instancia, permite a los investigadores captar el papel de la red en la propagación de información local.

"La pregunta que nos intriga en el laboratorio es: ¿Estas estructuras similares también sugieren un comportamiento dinámico similar?" Dijo Barzel. "Por ejemplo, si Facebook y nuestras redes genéticas subcelulares están conectadas por hubs, ¿significa esto que mostrarán un comportamiento similar? En términos simples, ¿la universalidad en la estructura se traduce en universalidad en el comportamiento dinámico?"


Propagación entre comunidades. ¿Qué sucede cuando las señales se cruzan entre los módulos de red? Esto depende del régimen dinámico. Azul: desbordamiento ligeramente retrasado entre los módulos. Rojo: las señales permanecen durante un tiempo extremadamente largo dentro de un módulo, luego reaparecen en el módulo vecino después de un largo retraso. Verde: las señales se cruzan libremente entre los módulos. Crédito: Barzel et al.


Los análisis realizados por los investigadores sugieren que la relación entre la estructura de un sistema y su comportamiento dinámico se basa en el equilibrio. Por un lado, a pesar de las características estructurales compartidas, las diferentes redes pueden comportarse de maneras profundamente diferentes. Por otro lado, estos comportamientos diversos están arraigados en un conjunto universal de principios matemáticos, que podrían ayudar a clasificar los sistemas en clases universales de comportamiento potencial.

"En una analogía, puedes pensar en una roca que cae y un cometa en órbita excéntrica", explicó Barzel. "Representan fenómenos extremadamente diferentes, pero las leyes de Newton muestran que ambas se rigen por la misma ecuación fundamental de la gravedad. En nuestro caso, demostramos que los diversos comportamientos dinámicos observados en redes potencialmente similares pueden predecirse mediante un conjunto de principios universales. que rigen las leyes en las que la estructura de la red se traduce en dinámica de red ".

Barzel y sus colegas comenzaron tratando de definir la palabra "comportamiento". Su paradigma, que se basa en varios años de investigación, se basa en la noción de que, si bien una red mapea los patrones de conexión entre sus nodos, su comportamiento se puede transmitir como patrones de flujo de información, lo que se conoce como propagación de señales.

Por ejemplo, una epidemia que se propaga a través de vínculos sociales podría verse como información que se propaga en forma de virus. De manera similar, según su marco, un fallo local de un componente de potencia que finalmente resulta en un apagón importante podría verse como información realizada en forma de perturbaciones de carga, mientras que un gen que activa una vía genética representa información bioquímica que viaja entre componentes subcelulares .

"Si piensa en las señales (virus, perturbaciones de carga, activación genética, etc.) como autos abstractos, entonces la red es su mapa de ruta subyacente", dijo Barzel. "Un mapa muy complejo y heterogéneo, de hecho, que admite la propagación de señales entre un nodo de origen y su objetivo. Ahora, todos sabemos que la misma red de carreteras puede exhibir patrones de tráfico altamente distintivos en diferentes condiciones. En analogía, la misma red puede llevar a reglas muy diferentes para la propagación de señales ".



La distancia temporal universal  (j → i). La 'red GPS' diseñada por los investigadores ayuda a reorganizar el 'zoológico' representado en la Imagen 1 en una propagación predecible y bien organizada. Crédito: Barzel et al.

Según Barzel, en una analogía que describe las señales como automóviles y las redes como mapas de carreteras, su marco podría verse como una "red GPS". Este "sistema GPS" puede predecir cuánto tiempo tomarán las señales para viajar a través de la red (por ejemplo, cuánto tiempo tomaría para que el virus infecte a las personas en un grupo social, para que ocurra un apagón después de una falla de alimentación inicial). para un gen para activar una ruta genética).

"Un GPS convierte una red de carreteras estática en una predicción dinámica de los tiempos de viaje dividiéndolos en segmentos y estimando el tiempo requerido para fluir a través de cada segmento", explicó Barzel. "Hacemos lo mismo aquí, utilizando herramientas matemáticas desarrolladas en nuestro laboratorio para estimar el tiempo de retraso de la señal en cada componente de la red. Al unir el rompecabezas, podemos predecir la propagación espaciotemporal a través de toda la red".

Teniendo en cuenta varios modelos dinámicos no lineales, los investigadores encontraron que las reglas de propagación de señales se pueden clasificar en tres regímenes dinámicos altamente distintivos. Estos tres regímenes se caracterizan por diferentes interacciones entre rutas de red, distribuciones de grados y dinámicas de interacción entre nodos de red.

"La física estadística es un campo bien establecido que nos ayuda a mapear cómo interactúan las partículas microscópicas. Por ejemplo, entre las moléculas de agua, conducen al comportamiento macroscópico observado del sistema, por ejemplo, fluido, transparente, etc.", dijo Barzel. "Nuestro paradigma lleva estas herramientas a un nivel completamente nuevo: las partículas son genes, neuronas, enrutadores o individuos humanos, y sus interacciones son en forma de propagación de señales. Los sistemas impulsados ​​por tales partículas / interacciones a menudo se consideran como no-sciency. no pueden predecir ni observar su comportamiento; son solo un desorden aleatorio de una mezcla no organizada. En contraste, lo que nuestro trabajo (y el de otros) está exponiendo es que tal física estadística de sistemas sociales, biológicos o tecnológicos, es de hecho alcanzable, y que detrás de sus observaciones aparentemente diversas e impredecibles se encuentra una profunda universalidad que puede ayudarnos a predecir su comportamiento ".

El estudio realizado por Barzel y sus colegas ofrece un ejemplo fascinante de cómo los marcos físicos y matemáticos podrían ayudarnos a comprender mejor los sistemas complejos de una naturaleza marcadamente diferente. La clasificación de los mecanismos de interacción del sistema en los tres regímenes principales que descubrieron podría permitir a los investigadores traducir sistemáticamente la topología de un sistema en patrones dinámicos de propagación de información, prediciendo en última instancia los patrones de comportamiento de una variedad de sistemas.

"Nuestro lema es: entender, predecir, influir", dijo Barzel. "El siguiente paso natural en nuestra investigación es la 'influencia'. ¿Podemos, por ejemplo, usar nuestras predicciones sobre la propagación para mitigar una propagación no deseada, como una epidemia o una cascada de fallas en el suministro eléctrico? Por ejemplo, utilizando intervenciones cronometradas estratégicamente en las que apague, digamos, el 15 por ciento, de los componentes para evitar la sobrecarga del 85 por ciento restante. Nuestro GPS puede ayudarnos a proyectar la propagación y, por lo tanto, diseñar un esquema de intervención inteligente ".


Léalo completo en: How community structure affects the resilience of a network
Más información: Chittaranjan Hens et al. Spatiotemporal signal propagation in complex networks, Nature Physics (2019). DOI: 10.1038/s41567-018-0409-0. https://www.nature.com/articles/s41567-018-0409-0
www.barzellab.com/ Referencia de revista: Nature Physics


sábado, 9 de marzo de 2019

Segregación en redes religiosas en el Twitter chino

Segregación en redes religiosas



La religión es considerada como un origen notable de las relaciones interpersonales, así como una herramienta eficaz y eficiente para organizar a un gran número de personas hacia objetivos difíciles. Al mismo tiempo, un creyente prefiere hacerse amigo de otras personas de la misma fe y, por lo tanto, las personas de diferentes credos tienden a formar comunidades relativamente aisladas. La segregación entre diferentes religiones es un factor importante para muchos conflictos sociales. Sin embargo, la comprensión cuantitativa de la segregación religiosa es rara. Aquí analizamos una red social dirigida extraída de weibo.com (la red social dirigida más grande de China, similar a twitter.com), que consta de 6875 creyentes en el cristianismo, el budismo, el islam y el taoísmo. Esta red de religión es altamente segregativa. El análisis comparativo muestra que el grado de segregación para las diferentes religiones es mucho mayor que el de las diferentes razas y ligeramente mayor que el de los diferentes partidos políticos. Además, estudiamos los pocos vínculos interreligiosos y encontramos que el 46.7% de ellos probablemente están relacionados con asuntos caritativos. Nuestros hallazgos proporcionan información cuantitativa sobre la segregación religiosa y evidencia valiosa para el sincretismo religioso.



Figura 1. Estructura de la red religiosa. (a) El diseño estructural de la red descuida las direcciones de los enlaces, donde los nodos azul, naranja, verde y rojo denotan a cristianos, budistas, islamistas y taoístas, respectivamente. Esta red es visualizada por Gephi (gephi.org). (b) La distribución de grado en un gráfico log-log, con un exponente de ley de potencia estimado α≈2.93. (c) La distribución en grados en una gráfica log-log, con un exponente de ley de potencia estimado α≈2.47 

Nos centramos en weibo.com, una de las plataformas sociales en línea más grandes de China. Identificamos a 6875 creyentes en el cristianismo, el budismo, el islam y el taoísmo, y construimos una red dirigida basada en la relación de seguidores y seguidores entre estos creyentes. Al analizar el patrón de mezcla de la red de religión, encontramos que la mayoría de los vínculos se crean entre los individuos que tienen la misma creencia. Este fenómeno de la homofilia [33] es más significativo en los musulmanes y taoístas. En otras palabras, la red de religión es altamente segregativa. Solo hay un 1,6% de enlaces que conectan diferentes religiones. Si bien los pocos enlaces interreligiosos son aparentemente importantes para la conectividad de la red, es sorprendente que estos enlaces sean notablemente más importantes que los enlaces con las más altas divergencias [48] o acción de puente [49]. En particular, también encontramos que el 46.7% de estos enlaces interreligiosos probablemente están relacionados con asuntos caritativos. La contribución de este trabajo es doble. En primer lugar, proporcionamos información cuantitativa sobre la segregación religiosa. En segundo lugar, afirmamos que las cuestiones de caridad podrían desempeñar un papel positivo para facilitar el sincretismo religioso.


Segregation in religion networks


Jiantao Hu,
Qian-Ming Zhang and
Tao Zhou
 EPJ Data Science20198:6

https://doi.org/10.1140/epjds/s13688-019-0184-x

lunes, 4 de marzo de 2019

Estandarizando la forma de presentar visualizaciones de red


Un estándar para presentar visualizaciones de red.

| Reticular



Acabo de asistir a un examen sobre mapeo de controversias en la Universidad de Aalborg, donde, entre otras cosas, los estudiantes interpretaron visualizaciones de Gephi de diferentes tipos (relacionadas con la imagen de arriba). Había redes de páginas de Wikipedia sobre la crianza de los hijos. Los estudiantes fueron bastante buenos a pesar de los problemas comunes sobre cómo hablar de redes. El ejercicio es difícil, y no esperamos que la mayoría de los estudiantes lo dominen en el momento del curso (en este caso, 3 semanas a tiempo completo). Sin embargo, es cierto que, en mi opinión, existe una forma estándar de presentar la visualización de su red. Me di cuenta de que sería útil compartir mi opinión informada sobre cómo presentar su red.

Permítanme primero abordar dos posibles malentendidos.
  1. No se trata de tu método. Hay infinitas cantidades de diseños de investigación válidos que involucran la visualización de redes. No soy la policía divertida. No voy a discutir cuáles son buenas o malas.
  2. No se trata de evaluar la calidad del diseño. Ese es un tema muy válido, tengo mucho que decir al respecto y es algo crucial que me viene a la mente al leer algo como "el estándar de oro para la visualización de redes". Sin embargo, no es lo que quiero decir aquí.
Lo que quiero abordar en esta publicación es qué aspectos debe cubrir, en qué orden y, lo que es más importante, cómo debe cubrirlos. Si alguna vez se sintió perdido en un laberinto argumentativo al presentar su red, quédese conmigo.

Pero antes de comenzar a sugerir lo que debe decir y cómo, debo presentar lo que considero las cuatro capas clave de cualquier discurso en una visualización de red. Me tomaré el tiempo de detallarlos, por el momento solo mencionaré su existencia con la imagen de abajo. Si está familiarizado con el trabajo de Bruno Latour, puede reconocer una cadena de referencia. De lo contrario, comprenderá en el camino: la clave es reconocer las traducciones entre las capas.


Que deberias decir


Asumimos la situación clásica: estás presentando mapas de red hechos por ti mismo. Usted sabe todo lo que hay que saber sobre el proceso, desde la recolección hasta el refinado y la visualización. Tienes alguna experiencia en el tema. Su audiencia comienza con una pregunta muy abierta como "¿Puede decirnos de qué se trata?".

1. Declarar el propósito del trabajo.


Indique el tema primero, sus preguntas de investigación, si tiene alguna, y / o lo que intentó lograr.

Puede ser muy corto pero sigue siendo importante.

Nunca visualizamos una red por el simple hecho de visualizar una red. Siempre hay un motivo subyacente. Interpretar una red nunca es simple y usted y su público corren el riesgo de perderse en el proceso. Indicar hacia dónde te diriges proporciona una ayuda de bienvenida para orientarte.

2. Describe lo que traduce la visualización.


Explique de manera concisa el proceso que ha llevado a la visualización. Es una cadena con muchos pasos que requiere claridad. Use los términos apropiados y haga que cada paso lleve al siguiente explícito.

Hay dos estrategias válidas para narrar esto, dependiendo de la situación:
  1. Describa el proceso en un orden pseudo cronológico, desde la recolección hasta la visualización.
  2. Comience con el objeto físico (la hoja impresa, la pantalla ...) y vaya hacia su origen.

Elige lo que te haga sentir cómodo. Es posible que desee aprovechar esta ocasión para explicar el proceso, o lo ha hecho antes y desea ir directo al punto. En ambos casos hay una serie de elementos que debe proporcionar.

Debe explicar los pasos clave del proceso y usar los términos apropiados para hablar sobre cada uno de ellos. Aquí usaré la estrategia número 2, es decir. para narrar los pasos a partir del objeto físico y de ir hacia arriba a través del proceso. Habría variaciones dependiendo de su diseño de investigación, solo asumiré la situación común descrita en la mayoría de los tutoriales de Gephi.

En pocas palabras, cada paso del proceso es una de las cuatro capas que introduje anteriormente. Cada capa está traduciendo la capa justo debajo, y el objetivo es hacer que cada traducción sea explícita.

Describe cómo la imagen traduce la red.


La imagen o mapa es el objeto físico que ofrece empíricamente a su audiencia para comprender su trabajo (junto con sus explicaciones, por supuesto). Debes explicar de dónde viene todo lo visible en la imagen. En un escenario típico esto sería, por ejemplo:
  • La imagen ha sido producida mediante la visualización de una red.
  • Los círculos están representando los nodos. Todos los nodos han sido representados.
  • Las líneas representan los enlaces. Todos los enlaces también han sido representados.
  • Los textos son etiquetas de nodos, solo mostramos los más importantes.
  • El tamaño de cada círculo representa el grado del nodo.
  • El color de cada ronda representa la categoría del nodo.
  • El grosor de una línea representa el ponderador del enlace.
  • El color de las líneas se ha establecido en un gris claro para evitar el exceso de saturación visual.
  • La colocación de los nodos se ha decidido mediante un algoritmo que analiza sus conexiones, sin considerar otros atributos como su categoría.
  • La leyenda precisa el código de color de las categorías de nodos y la escala del grosor del enlace.

Explica cómo funciona el diseño

El algoritmo de diseño debe ser explicado. En el caso de Force Atlas 2 y muchos otros, los puntos importantes son:
  • El diseño coloca los nodos solo en función de sus enlaces, ignora todos los atributos.
  • Funciona de forma iterativa al hacer que todos los nodos se rechacen entre sí y los nodos conectados se atraigan entre sí. Por diseño converge a un equilibrio que depende de las posiciones de inicio aleatorias.
  • La proyección resultante se dice isotópica: no tiene ejes específicos y se puede girar o voltear sin perder sus características. Se supone que se debe interpretar en términos de distancias relativas.
En caso de que se utilicen dichos ajustes, también merecen ser mencionados:
  • Gravedad: una fuerza adicional limita la propagación de los nodos, lo que genera un sesgo menor, pero permite optimizar el espacio durante la visualización.
  • Prevenga la superposición: la ubicación de los nodos se ha ajustado para que no se superpongan, lo que genera un sesgo menor pero optimiza la legibilidad durante la visualización.
Nota: no creo que valga la pena formalizar una capa adicional, aquí una proyección matemática a un espacio 2D, aunque sea lo que realmente hacemos.

Describe cómo la red traduce los datos de origen.

La red o grafo es la lista de nodos y la lista de enlaces utilizados como una estructura de datos en un software como Gephi. La red se traduce visualmente por la imagen, pero no es la imagen. De manera similar, a menudo traduce datos menos refinados, pero no es esa información.

Debes explicar qué representan los nodos y los enlaces. En otros términos, debe describir cómo se relacionan con los datos sin procesar (ver más abajo). Por ejemplo:
  • Los nodos representan palabras mencionadas al menos 10 veces, excluyendo una lista de palabras de parada (stop words).
  • Los enlaces representan co-ocurrencia, es decir, cuando aparecen dos palabras en el mismo documento.
  • El peso de los enlaces representa en cuántos documentos aparecen las palabras juntas.

Explicar cómo los datos de origen se refieren al mundo empírico.

Debe explicar de dónde provienen los datos de origen y cómo se seleccionaron. La elección de los datos para estudiar a menudo se deriva de un interés en algo preciso en el mundo empírico. Puede ser la paternidad, #blacklivesmatter, diseño nórdico ... Sea cual sea su tema o sus preguntas de investigación, proporcionó un marco interpretativo de los datos de origen, por ejemplo, porque ciertos elementos se utilizan como representantes para obtener información sobre su objeto de interés original.

Podría ser, por ejemplo, mencionar que estaba interesado en un tema relacionado con cuestiones de género, pero por razones prácticas tenía que ser lo suficientemente específico, lo que lo llevó a elegir el tema de la crianza de los hijos que ya se ha descrito en Wikipedia.

3. Interpreta tu mapa de red

Ahora que su audiencia sabe de qué se trata todo esto, puede analizar el contenido de su mapa de red. Su interpretación consistirá en una serie de afirmaciones que se basarán primero en la imagen y atravesarán las capas hasta el mundo empírico, si es posible.

Hay muchas formas de organizar tu interpretación. Puede consultar las sugerencias que Tommaso Venturini, Debora Pereira y yo hemos propuesto para el análisis visual de la red. No abriré esa discusión aquí. Lo único importante es la esencia de cualquier argumento de ese tipo: expone las características de la red que son visibles en la imagen y argumenta que estas características se originan en los datos de origen de una manera que permite decir algo sobre el mundo empírico. Este camino interpretativo es largo, lo sé. Lamentablemente, tal es la situación a la que te enfrentas. La ciencia es dura.

Siempre debe ser claro acerca de las traducciones cuando hace sus puntos. Este es el único truco. Ten éxito en esto, y dominarás la interpretación de la red. Hacer un buen punto tiene que ver con encontrar su camino a través de las capas. Aunque es difícil. Dedicaré el resto de este post a desglosar esa pregunta.

Como deberias decirlo

Pon atención al vocabulario.

El pan y la mantequilla de tus argumentos son las conexiones lógicas entre los muchos elementos que convocarás. Hay tanto que decir que ni siquiera lo intentaré. Sin embargo, siempre comienza con el uso del vocabulario adecuado. Esta pregunta es crítica aquí porque, como veremos, usar los términos apropiados es su mejor defensa contra las líneas argumentativas traicioneras que lo llevarán a un laberinto de falacias.

Cada capa tiene su vocabulario específico, comencemos revisando esto.

Imagen / mapa

El siguiente vocabulario es apto para describir la imagen:
  • Círculo, forma, línea, texto
  • Colores, claros, oscuros.
  • Gran pequeño
  • Cerca, lejos
  • Ocupado / denso / lleno / áreas ocupadas, agujeros, espacios en blanco
  • Centro, periferia (de la imagen, de una zona…).

NO LO USE para describir la imagen en sí: nodo, enlace, hipervínculo, página web ...

Red / grafo


El siguiente vocabulario es apto para describir la red:
  • Nodo, vértice
  • Arista, enlace, conexión
  • Peso del nodo / enlace, atributo, modalidad de un atributo
  • Grado, grado, grado superior, métricas de centralidad
  • Densidad (de un conjunto de nodos)
  • Vecinos, hojas (nodos con 1 vecino), huérfanos (0 vecinos)
  • Equivalencia estructural (tener los mismos vecinos)
  • Distancia geodésica (longitud del camino más corto)
  • Clusters (como el resultado de un algoritmo de clustering)
  • Modularidad (de un clustering)
  • ...

NO LO USE para describir la red: estar cerca o lejos, estar agrupado ...

A menudo querrá hacer conteos simples, como decir que un conjunto de nodos es grande, pequeño o mayor que ... Un conjunto de nodos puede ser un clúster, nodos donde el atributo X toma la modalidad Y, nodos de un grado de X o Más, vecinos de X ...

Fuente de datos


Este paso no siempre es solo un paso en el proceso y puede tomar muchas formas. El punto importante es que los datos siempre se han transformado: se han limpiado, filtrado, refinado ... Hay tantas posibilidades que no puedo ofrecer una visión general. Voy a elegir algunos ejemplos.

Si sus datos en bruto son páginas de Wikipedia, se aplica el siguiente vocabulario:
  • página web
  • Hipervínculo, enlace de hipertexto
  • En enlaces de texto, ver también enlaces.
  • ...

Si sus datos en bruto eran un conjunto de documentos en un análisis de co-ocurrencia:

  • Documento de texto
  • Párrafo, expresión, n-grama, palabra
  • Co-ocurrencia
  • Frecuencia de término
  • ...

Sus datos pueden provenir de una base de datos de patentes, de Twitter o Facebook, de una fuente cualitativa ... Cada uno de estos casos tiene sus propios tipos de objetos, relaciones y vocabulario.

NO LO USE para describir los datos en bruto: nodo, enlace, estar conectado, estar cerca, estar agrupado ...

Mundo empírico


El vocabulario que utiliza cuando se refiere al mundo empírico puede ser:
  • Personas, instituciones, actores,…
  • Libros, proyectos, ideas,…
  • Temas, ámbitos académicos, intereses,…
  • Amistad, apuntes, afinidades, ...
  • Grupos de pueblos, comunidad, cultura,…
  • Notoriedad, influencia, autoridad, relevancia, ...

Cuidado con las metonimias


En la práctica, usted quiere decir "el tamaño de los nodos" y no "el tamaño de las rondas". Bien, pero estás jugando con fuego. Si dominas el ejercicio, puedes usar todo tipo de atajos porque conoces los límites. Un oyente ingenuo puede tener la impresión de que la mayoría de los conceptos son intercambiables y que puede decir indistintamente línea, enlace, lazo o hipervínculo. Está muy mal. Los problemas son reales y puede que te engañes con argumentos falaces y con lógica circular.


"Esto no es un pipa"... Sea claro sobre lo que representa y lo que se representa

La línea para no cruzar se aclara al ver cómo entendemos una metonimia, una forma de hablar en la que nos referimos a algo utilizando un concepto diferente pero estrechamente relacionado. Por ejemplo, "jurar lealtad a la corona" se refiere al soberano y no al objeto físico, por supuesto. Podemos obtener el significado correcto porque no tendría sentido jurar lealtad a una corona literal. El contexto indica si la palabra es metafórica o literal, si hay una metonimia o no. Lo mismo se aplica a nuestros conceptos. En la medida en que los nodos no tienen un tamaño (son entidades de red abstractas), está claro que los "tamaños de nodo" se refieren a "el tamaño de las formas que representan los nodos". En ese sentido, el acceso directo es válido, pero sigue siendo complicado porque usamos la palabra nodo para referirnos a las formas, y este cambio peligroso es la forma en que ocurren los accidentes. La línea de no cruzar es cuando las metonimias se vuelven ambiguas.

Cómo te atrapas en el laberinto de la lógica circular

Primero dice "esos nodos están cerca", que solo puede entenderse como una metonimia para "aquellas formas que representan nodos están cerca", luego dice "por lo que forman un grupo" y ya está pisando el límite prohibido. Como profesor, a menudo le pediré que aclare la ambigüedad, por ejemplo: “¿Puede precisar por qué forman un grupo?”. Ya que conoce el proceso, comprende que la colocación de nodos se debe al algoritmo de diseño, que es de hecho lo que espero. Sin embargo, en este punto, la confusión puede hacer que te adentres en el laberinto de la lógica circular, al responder algo como: "Es un grupo porque el algoritmo de diseño coloca los nodos cerca uno del otro". Bien podría explicar cómo funciona el algoritmo, pero no importa, ya es demasiado tarde. Te has atrapado en una falacia, ¿puedes ver por qué?

El argumento es circular porque establece que los nodos cerrados hacen que los clústeres y los clústeres hagan los nodos cercanos. Desafortunadamente, ser consciente de la circularidad realmente no ayuda. Por mi experiencia, sé que solo te das cuenta de que estás perdido cuando ya es demasiado tarde, si es que alguna vez lo haces. Evitar la falacia no se trata de reconocer la zona prohibida, se trata de no entrar en el laberinto. Se trata de tener una práctica que nunca te ponga en riesgo.

¿Cuál es la práctica segura? En primer lugar, es utilizar el vocabulario adecuado. Pero no puedo ganar la lucha contra la naturaleza humana y hacer que dejes de usar atajos. Así que la práctica segura es sobre el uso de protecciones. Siempre revise la capa donde su argumento es válido. La entrada al laberinto de la lógica circular es donde las metonimias confusas dan lugar a argumentos con desajuste de capas. Pero el desajuste de capas también puede llevar a formas menos dramáticas de malos argumentos que pueden ser muy perjudiciales para usted a pesar de su bajo perfil. Veremos cómo el control de capas ayuda a desacreditarlas.

Malos argumentos


Hay diferentes grados de argumentos erróneos, correspondientes a las diferentes formas en que puede fallar en hacer circular la cadena de referencia de una capa a la siguiente.

Tautología: atrapado en una capa.


El peor tipo de argumento es cuando no hay argumento. Una descripción simple que plantea como un punto. El pintalabios de la retórica sobre el cerdo de la trivialidad. Por ejemplo: "El clúster pro-vida se separa del clúster pro-elección manteniendo una distancia sensible". El argumento es circular: los grupos son distantes porque son distantes. Diagnóstico de este mal argumento como una falla completa para circular fuera de las dos capas superiores, la imagen y la red.



Puede desacreditar dicha declaración comprobando las capas. Hacer un punto implica varios pasos donde las características de una capa están relacionadas con la siguiente. Un argumento apropiado sería algo como esto:
  • Los nodos pro-vida y pro-elección aparecen distantes en la imagen.
  • Son distantes porque tienen pocas conexiones. Así es como funciona el algoritmo de diseño, pero también podemos ver que hay menos enlaces entre grupos que dentro de cada uno.
  • La mayor cantidad de aristas dentro de los grupos muestra que los actores tienden a conectarse con aquellos que son similares a ellos e ignoran a los que son diferentes.
  • Este comportamiento revela una oposición entre las dos comunidades.

Naturalización: saltando a conclusiones.

Un tipo de argumento malo pero menos malo es saltar sobre las traducciones, haciendo un punto incompleto. Llamo a esto "naturalización" porque saltar a conclusiones a menudo usa la retórica de la evidencia, como si la visualización fuera una manifestación natural del mundo empírico. Por ejemplo: "los pro-elección se agrupan, mostrando que comparten valores comunes". La conclusión es a veces cierta, pero la argumentación es pobre. Como profesor, me preguntaría de inmediato: "¿puede explicar por qué cree que un grupo de nodos implica compartir valores comunes?", Lo que le brinda la oportunidad de mostrar su capacidad para circular entre las capas o hacer que se dé cuenta de que está perdido. En el laberinto de la argumentación. Algunos estudiantes simplemente usan atajos, y cuando se les pide que descompriman su razonamiento, pueden hacerlo.

Una vez más, la práctica segura es verificar las capas involucradas. En este ejemplo, la proximidad pertenece a la capa de imagen (número 1). Compartir valores comunes pertenece al mundo empírico (número 4). Debes avanzar de capa en capa sin saltar sobre ninguna. Respetar el vocabulario ayuda a no confundir las capas:
  • La proximidad de la pro-elección en la visualización ...
  • ... proviene de la importante cantidad de enlaces entre los nodos ...
  • ... lo que revela que estos actores se conocen y se vinculan entre sí en la web.
  • Nuestra hipótesis es que podría ser porque comparten valores comunes.

En este ejemplo, el último punto no es muy convincente, y probablemente es simplemente falso. El formulario es válido pero no el contenido. Eso fue solo un ejemplo, pero sigue siendo cierto que la última traducción, desde los datos de origen al mundo empírico, es la más difícil. Desafortunadamente, también es el más importante.

Correr la ultima milla


Mi último consejo es correr siempre la última milla: sus argumentos deben llevar a conclusiones sobre el mundo empírico, aunque solo sea de manera hipotética. La razón por la que analiza los datos es porque quiere entender algo sobre el mundo y debe demostrar su capacidad para hacerlo.

No correr la última milla es el escollo más trágico porque solo le sucede a los buenos estudiantes, aquellos que llegaron lejos pero no pudieron derrotar al último jefe. La mala argumentación no lo lleva a la última milla, pero puede tener todos sus argumentos válidos y aun así no alcanzar la línea final.

No correr la última milla produce declaraciones analíticamente válidas pero solo sobre los datos. Por ejemplo, no mencionando la argumentación sino solo la conclusión:
  • … Por lo tanto, los sitios web gubernamentales ocupan los puestos centrales en el corpus de las ONG.
  • … Todas las ONG se citan en la web, excepto las asociaciones humanitarias.
  • ... los sitios web de la izquierda radical están bien conectados dentro de la esfera web de la izquierda, pero no forman un grupo, al estar mal conectados entre sí.

Esas afirmaciones pueden ser técnicamente válidas, no explican bien cómo se relaciona con el mundo empírico. El tipo de argumento que espero va un poco más allá, aunque solo sea en forma de hipótesis, por ejemplo:

  • ... posiblemente porque muchas ONG dependen de la financiación gubernamental, que a menudo requiere vincularse con las instituciones de financiación.
  • ... porque las asociaciones humanitarias compiten por las donaciones, lo que puede llevarlas a no citar a sus competidores.
  • ... a pesar de estar reunidos bajo la etiqueta común de "izquierda radical", estos actores no se reconocen entre sí y no forman una comunidad, posiblemente debido a divergencias ideológicas.

jueves, 28 de febrero de 2019

La red social de Sócrates (vía NodeXL)

La red social de Sócrates [1]

Publicado por Diane Harris Cline


Identificador persistente con cita: Harris Cline, Diane. "La red social de Sócrates". CHS Research Bulletin 7 (2019). http://nrs.harvard.edu/urn-3:hlnc.essay:ClineD.The_Social_Network_of_Socrates.2018

Para ampliar una figura, haga clic directamente en la imagen.

La hoja de cálculo mencionada a continuación está disponible para descargar.

En los últimos años, el análisis de redes sociales se ha convertido en una herramienta para analizar una amplia gama de redes sociales, no solo dentro de las redes sociales (Facebook, Twitter) sino en todos los entornos imaginables. [2] Hay varias razones para que los historiadores antiguos estudien las redes sociales. Nos interesan los patrones generativos que comienzan una red a partir del primer par de relaciones, nos interesa comprender mejor por qué algunas ideas se difunden a través de las redes y otras no se entienden. Nos interesa la estructura de la red y sus subcomunidades, y para la historia, queremos entender mejor las relaciones sociales del período de tiempo de nuestra especialidad. A nivel macro, tenemos curiosidad acerca de cómo las nuevas ideas y cambios se filtran y, en última instancia, transforman una sociedad lo suficiente como para dar a una era o período de tiempo un nuevo nombre.

Cómo construir una red social para la biografía histórica.


Una cosa que el análisis de redes sociales hace muy bien es identificar grupos dentro de un grupo más grande. Utilizo el análisis de redes sociales para comprender las diversas comunidades en la mitad de la quincena de Atenas y ver a quién conocía Sócrates y encontrar a quienes tenía vínculos más cercanos. Suspenda por el momento las cuestiones de si los diálogos de Platón son ficticios o fácticos, y si realmente todas estas personas existieron. Este puede ser un estudio de la red social de la construcción imaginaria de Sócrates de Platón en lugar de la Sócrates de mediados del siglo V real. Este es un experimento para ver si el mundo pintado por Platón se mantiene unido. El mundo social de Sócrates, según lo informado por Platón, tiene cohesión.

El análisis de redes sociales mapea y mide el tejido de la sociedad, revela los subconjuntos dentro del conjunto y nos permite identificar quién tiene el mayor prestigio, o quiénes sirvieron como centros, corredores, puentes o conectores entre los grupos dentro de la red. El primer paso en el método es reunir las fuentes a partir de las cuales construir la base de datos. Para la red social de Sócrates, decidí usar todos los diálogos y cartas de Platón. Para empezar, busqué menciones de individuos que tenían relaciones sociales con Sócrates y entre ellos.


Figura 1. Construyendo la base de datos

En una hoja de cálculo, registré estas relaciones, anotando quiénes eran las parejas, la cita, de qué ciudad o aldea eran y cuál era su papel en la vida de Sócrates en el momento del diálogo: si eran conocidos, estudiantes o compañeros Filósofos, o padres de alumnos, y así sucesivamente. El mínimo que se necesita para registrar es simplemente los dos nombres en la relación, pero la documentación es importante para justificar y volver a investigar esas relaciones más adelante. Recolecté esta información yendo página por página a través de los diálogos de Platón, recolectando pares de nombres de personas vinculadas entre sí socialmente y grabándolas en una hoja de cálculo con dos columnas. Luego busqué a cada persona en Debra Nails, The People of Plato [3] para asegurarme de que había desambiguado a quienes compartían el mismo nombre. La hoja de cálculo con estos pares de nombres que tienen algún tipo de relación se denomina "lista de enlace" en el Análisis de redes sociales y es la columna vertebral del análisis (fig. 1). [4]

Para demostrar el método para recopilar los pares de nombres, veamos un breve texto, el Simposio de Xenophon.

Una tarde, hace unos 2450 años (421/420 aC), Sócrates caminaba por una calle de Atenas con algunos amigos, incluidos los estudiantes y sus familiares. Al acercarse a ellos había otro grupo de personas que Sócrates conocía, incluyendo a Calias, uno de los hombres más ricos de Atenas, que había invitado a un filósofo de otra ciudad para que diera algunas conferencias y se reuniera con sus hijos y sus compañeros de estudios. Cuando se acercan, Calias se detiene e invita a Sócrates a unirse a él para cenar y asistir a un simposio. Al principio, de mala gana, Sócrates y sus compañeros finalmente se unen al grupo de Callias y todos se dirigen juntos. ¿El resultado? El Simposio de Jenofonte lo registra. Cuando miremos los primeros párrafos, le pido que imagine en su mente la lista de enlaces que tendría que hacer para registrar estas relaciones.
La ocasión fue una carrera de caballos en el gran festival panatenaico. Callias, el hijo de Hipóntero, que era amigo y amante del niño Autolycus, había traído al muchacho, él mismo ganador de la pankration, para ver el espectáculo. Tan pronto como la carrera de caballos terminó, Callias procedió a acompañar a Autolycus y su padre, Lycon, a su casa en el Pireo, a la que también asistió Niceratus. Pero al ver a Sócrates junto con algunos otros (Critobulus, Hermogenes, Antisthenes y Charmides), le ordenó a un asistente que dirigiera la fiesta con Autolycus, mientras él mismo se acercaba al grupo, exclamando: "Una oportunidad feliz me lleva por su camino, simplemente cuando estoy a punto de entretener a Autolycus y su padre en una fiesta. El esplendor del entretenimiento será mucho mayor, no necesito decirle, si mi salón debe alegrarse con dignidad como ustedes, que han alcanzado la pureza de alma, en lugar de los generales y los comandantes de caballería y una multitud de cazadores de lugares. . "Whereat Socrates:" ¿Cuándo habrás terminado con tus burlas, Calias? ¿Por qué? Porque te has gastado sumas de dinero en Protágoras, Gorgias y Prodicus, y muchos otros, para aprender sabiduría, debes desprecialarnos a los pobres, que somos pensadores autodidactas en filosofía comparados contigo. ? ”“ Hasta ahora, sin duda ”(replicó Calias),“ aunque tenía muchas cosas sabias que decir, me he guardado mi sabiduría; pero si solo me honra con su compañía hoy, prometo presentarme de otra manera; verás que soy una persona de poca importancia después de todo ”. Sócrates y los demás, al tiempo que agradecían cortésmente a Callias por la invitación, al principio no estaban dispuestos a unirse a la cena; pero la molestia del otro para que se desanimara fue tan evidente que al final se convenció al grupo para que acompañara a su anfitrión. Después de un intervalo dedicado al ejercicio gimnástico (y posterior unción de las extremidades) por parte de algunos, mientras que otros tomaron un baño, los invitados fueron presentados al maestro de la casa. Jenofonte, Simposio 1.1-8 [5]


Figura 2. Extracto de la recopilación de datos para el Simposio de Xenophon

A partir de estos pasajes podemos desarrollar un buen comienzo en la lista de enlaces. La Figura 2 muestra el comienzo de la lista de enlaces para los primeros tres párrafos de lo que acabamos de leer.


Figura 3. Métricas generales para el Simposio de Xenophon

Una vez que se completa la lista de enlaces, cortamos y pegamos los pares de nombres (dos columnas) en el programa ARS. En este caso, utilizando NodeXL, podemos ver las métricas generales de la red (Figura 3). Para todo el Simposio de Xenophon, tenemos 36 actores, 53 aristas, en un componente conectado. Esto último significa que todos están conectados de alguna manera dentro de la red, sin díadas o tríadas por sí mismos. Las métricas de la red también nos dicen que la red tiene una distancia geodésica máxima de 7 y un diámetro promedio de 3.13. Esto significa que la mayoría de los nodos periféricos están a una distancia de siete saltos entre sí, pero en promedio solo se necesitan tres saltos (3.13) para que las personas se encuentren entre sí o para que la información se difunda a través de la red.

Figura 4. La red social del Simposio de Jenofonte.

Este extracto del Simposio de Xenophon ilustra varias características del análisis de redes sociales. Los dos grupos que se reúnen en la calle son grupos, y cuando se fusionan en la casa de Callias, se unen en un componente conectado. En la Figura 4 anterior, tenemos la red compuesta para todo el Simposio de Xenophon. El tamaño de los nodos es proporcional al número de vínculos (o "medida de centralidad de grado") de cada actor. Los colores significan a qué grupo de actores individuales pertenecen. Comenzando desde el centro del cuadro, tenemos el gran grupo azul oscuro alrededor de Sócrates, delimitado por Antistenes en la parte inferior, Zeuxippus a la izquierda y Critobulus a la derecha. El segundo grupo en verde se enfoca en Calias, ubicado directamente a la izquierda de Sócrates, y cuyo grupo incluye los cinco nodos debajo de él. Un tercer grupo tiene un punto focal en Niceratus I, uno de los invitados, situado en la parte superior izquierda de Calias en verde oscuro. Niceratus I es el centro de una estrella de seis puntos, dos de los cuales son Callias y Lycon. Ambos tienen vínculos directos con Sócrates, pero Niceratus no, por lo que se encuentra a dos grados de separación, dependiendo de un camino que pase por Lycon o por Calias. Los animadores de la noche forman su propio grupo en el extremo derecho del sociograma en azul claro, con Critobulus y Philip the Jester actuando como puentes. Ese grupo tiene ocho miembros, pero el hombre de Syracusan y Philip el bufón desempeñan los roles más importantes en la red, conectando a tres actores cada uno.

Ahora es el momento de discutir los límites de nuestras redes y cómo discernir si una persona pertenece al conjunto de datos o no. Todos los lazos no son iguales. Algunos solo se reunieron en la fiesta, otros son miembros de la familia, pero otros son estudiantes de Sócrates. Debido a la variedad de vínculos, llamaríamos a esto una red multiplex. Si bien Sócrates, Calias y sus amigos se encuentran con los artistas, es probable que no mantengan una relación duradera con ellos. Hay que tomar decisiones difíciles. Esta es una red de ego con el propósito de descubrir la red social de Sócrates. ¿Las relaciones con los artistas de la noche (contratados por Calias y presentes en su casa) son realmente parte de la red social de Sócrates? ¿Son relaciones significativas o son simplemente interacciones fugaces? Tales juicios deben basarse en el propósito del estudio: si el propósito del Análisis de redes sociales es mapear a todos los que aparecen en el Simposio de Xenophon's, deberíamos incluirlos, pero si estamos utilizando este texto como una de las muchas fuentes para el Con el fin de buscar a aquellos que estaban más cerca de Sócrates o que son al menos parte de su red personal de ego, podríamos elegir excluirlos.

Este es el método para construir la lista de enlaces. [6]

Resultados

Para toda la red que construí utilizando todo Plato, obtenemos una lista de enlaces que tiene 481 filas o relaciones entre 186 personas. Sócrates está en el centro, y donde vemos líneas rojas tenemos una relación de primer salto o de primer grado entre él y su conocido. A continuación, tenemos algunas de las personas más conocidas y sus vínculos destacados en .gif. Observe el agrupamiento a medida que avanzamos por la red. Los filósofos, sofistas y personas que aparecen en los diálogos como interlocutores tienden a estar en el lado izquierdo y en la parte superior. Los socráticos están situados más a la derecha y debajo de Sócrates.


Figura 5. La red social de Sócrates.


Figura 6. La red social de Sócrates se muestra para mostrar el núcleo y la periferia

Aquí, en las Figuras 5 y 6, observamos la red mediante un algoritmo de diseño que nos permite explorar el núcleo y la periferia de la red. Los enlaces de las relaciones de primer grado de Sócrates están en rojo (fig. 6), y tiene 120 relaciones directas. Hay unos pocos nodos que forman un tercer grado fuera de Sócrates, visibles al mirar un nodo de primer grado en rojo, y luego trazar los lazos a un nodo azul que debe ser de un segundo grado por lo menos. Un ejemplo es Heroscamander en el extremo izquierdo, conectado a Sócrates a través de Laches y Nicias de Tebas.


Figura 7. La red social de Sócrates, mostrada como una onda sinusoidal.

En la Figura 7, tenemos una vista de la red utilizando un diseño de onda sinusoidal, nuevamente con Sócrates iluminado en rojo. Esto nos permite tener una idea de la densidad y la cohesión de los lazos. Buscando los nodos que no tienen enlaces rojos, descubrimos a las personas de segundo grado, que aparecen en los diálogos como un amigo de un amigo desde la perspectiva de Sócrates.


Figura 8. Pantalla usando color para mostrar hombres (azul oscuro) y mujeres (rojo)

Las mujeres no son comunes en la red de Sócrates, de hecho, solo hay siete (aunque una de ellas es "mujeres sin nombre en el hogar de Sócrates"). Podemos demostrar esto mediante el uso de colores. En la Figura 7, el azul se usa para hombres y el rojo para mujeres, para que podamos identificar rápidamente sus posiciones en la red. Cuando como grupo se encienden, los vemos extendidos a través de la red, conectados entre sí (con la excepción de Perictione). Este podría ser un buen lugar para mencionar que incluí a Diotima, y ​​probablemente a otras personas que pueden no ser personas reales, pero parece estar aislada y su presencia no está distorsionando nuestros resultados de manera significativa.

Métricas


Además de las visualizaciones, en NodeXL y en todos los programas de análisis de redes sociales, obtenemos algunas mediciones para la red en su conjunto y para cada individuo dentro de ella. Aprendemos, por ejemplo, que la distancia geodésica promedio de la red es seis, lo que significa que, como máximo, toma seis saltos desde el origen hasta otro nodo en la periferia. Otra forma de decirlo es que a lo sumo hay seis grados de separación. El promedio está por debajo de tres saltos, sin embargo, calculado en 2.6. Este es un grupo muy cercano, también llamado "un mundo pequeño".

Podemos ver los puntajes de cada individuo en la red. El programa calcula la posición de cada nodo y la utilidad estructural relativa en términos de su grado, centralidad de Intermedio y centralidad del vector propio, además de otras medidas. Ahora veremos cada uno de estos para ver qué significan.


Figura 9. Visualización de NodeXL resaltando las estadísticas de Sócrates, ordenadas por puntajes de centralidad de grado

NodeXL presenta dos paneles simultáneamente, los datos y la visualización. La figura 9 tiene a cada persona en una fila con sus puntuaciones. La primera columna sombreada más oscura en la ventana izquierda proporciona el puntaje de Grado de una persona (número de vecinos), y si miramos la fila con las estadísticas solo para Sócrates (fila 3), nos dice cuántos vínculos tiene Sócrates, 121. Recuerde Que en toda la red tenemos 481 aristas, por lo que sus conocidos también se conocen. La siguiente columna nos muestra sus puntuaciones en Betweeness Centrality, 14,784. A lo largo de los múltiples caminos para llegar de una persona a otra a través de la red, Sócrates se encuentra en el camino en gran medida, proporcionando un atajo a través de la red. [7] Pero como podemos ver en la Figura 10, donde se seleccionan los veinte mejores puntajes, muchas personas desempeñan esta función de puente o agente para conectar a las personas en toda la red. El uso de SNA implica principalmente la búsqueda de patrones. En la Figura 10 hay más rojo en la parte superior de la red de lo que vimos en Grado Centralidad (Fig. 9) que estaba principalmente en la parte inferior.


Figura 10. Visualización de NodeXL resaltando las estadísticas de Sócrates, ordenadas por las puntuaciones de centralidad de intermediación.

A continuación nos fijamos en la columna Centralidad del autovector. Este puntaje no solo cuenta el número de vínculos, sino que los pondera, de modo que entendamos hasta qué punto cualquier actor está vinculado a otras personas con puntajes altos. A menudo se usa como una forma aproximada de juzgar el prestigio de alguien, o la proximidad al poder. Sócrates obtiene la puntuación más alta de todos, 0.061. En la Figura 11 vemos a los diez mejores anotadores en la centralidad de Eigenvector, y notamos qué tan cerca están abrazando a Sócrates (su nodo no fue seleccionado para que pudiéramos ver a los otros más claramente). En su mayoría están en la parte inferior hacia la izquierda en el sociograma. Al comparar los tres cuadros en las Figuras 9, 10 y 11, vemos a diferentes personas que desempeñan diferentes roles dentro de la red, cada uno de los cuales podría estudiarse más a fondo. Las estadísticas pueden conducir a vías para el descubrimiento.



Ahora, de todas estas medidas, me pareció que si pudiéramos encontrar a las personas que obtuvieron el puntaje más alto en la centralidad del vector propio de los 186 vértices con vínculos de primer grado, esos serían los asociados más íntimos de Sócrates. Antes de conocer los resultados de NodeXL, veamos algunas pruebas textuales.

Este primer pasaje que nombra a los asociados más cercanos de Sócrates es de Memorabilia de Jenofonte, 1.2.48: [8]

Pero Criton era un verdadero asociado de Sócrates, como lo fueron Chaerophon, Chaerecrates, Hermogenes, Simmias, Cebes, Phaedondas y otros que lo acompañaron no para que pudieran brillar en las cortes o la asamblea, sino para convertirse en caballeros y ser capaces de cumplir con su deber por casa y familia, y por parientes y amigos, y por ciudad y ciudadanos. De estos, ni uno, en su juventud o vejez, hizo mal o incurrió en censura.

Lo más frustrante es la frase "y otros" que deja la lista incompleta.

Una segunda cita proviene de la Apología 33b-34a de Platón, que se pone en la boca de Sócrates mientras está en juicio por su vida.

[33b] Pero, ¿por qué entonces a algunas personas les encanta pasar mucho tiempo conmigo? Habéis oído la razón, hombres de Atenas; porque te dije toda la verdad; es porque les gusta escuchar cuando se examina a los que piensan que son sabios y no lo son; porque es divertido ... [33d] Y hay muchos de ellos presentes, a quienes veo; Primero Crito aquí, que es de mi edad y mi propio deme y padre de Critobulus, que también está presente; luego está Lysanias el Sphettian, padre de Aeschines, que está aquí; y también Antiphon de Cephisus, padre de Epigenes. Luego están otros cuyos hermanos se unieron a mis conversaciones, Nicostratus, hijo de Theozotides y hermano de Theodotus (ahora Theodotus está muerto, por lo que no pudo detenerlo por ruegos), y Paralus, hijo de Demodocus; Theages era su hermano; y [34a] Adeimanto, hijo de Aristo, cuyo hermano es Platón aquí; y Aeantodorus, cuyo hermano Apollodorus está presente. Y te puedo mencionar muchos otros ... [9]

El tercer pasaje relevante proviene de la Vida de los Eminentes Filósofos de Diogenes Laertius 2.5.47.

De los que le sucedieron y se llamaron Socráticos, los principales fueron Platón, Jenofonte, Antistenes y, de los diez nombres en la lista tradicional, los más distinguidos son Aeschines, Faedo, Euclides, Aristipo. Primero debo hablar de Jenofonte; Antisthenes vendrá después entre los cínicos; después de Jenofonte, tomaré a los socráticos propiamente dichos, y así pasaré a Platón. Con Platón comienzan las diez escuelas: él mismo fue el fundador de la Primera Academia.

Ojalá supiéramos los "diez en la lista tradicional", pero esos están perdidos. Este pasaje se enfoca en los filósofos que estaban más cerca de Sócrates y continuaron su trabajo, no necesariamente el más íntimo con él socialmente durante su vida.

Podemos comparar estas listas de nombres lado a lado en una hoja de cálculo (Figura 12), y luego agregar una columna con la lista de personas con los puntajes más altos de Eigenvector generados por el análisis de la red social. De los trece mejores con las puntuaciones más altas de centralidad del autovector, todos los nombres, excepto tres, también aparecen en una de las otras listas. Los tres que son exclusivos de la lista de Eigenvector son casos muy interesantes. Ctesippus, por ejemplo, está presente en tres de los diálogos de Platón, y Debra Nails s.v. Ctesipo señala que es probable que él sea alguien que Platón conocía y estaba en el círculo íntimo de Sócrates. [10] Menexenus es el interlocutor en el diálogo del mismo nombre. Y se sabía que Alcibíades (así como Critobulus) estaban enamorados o intimando con Sócrates. [11]


Figura 12. Cuatro relatos diferentes de quiénes eran los hombres más cercanos a Sócrates.


Figura 13. Los diez mejores hombres con las puntuaciones más altas de centralidad del autovector en la red de Sócrates

En la Figura 13 tenemos a las personas con las puntuaciones más altas de vectores propios, y resulta que también se conocen entre sí, formando una camarilla muy grande. Son el núcleo del grupo llamado Socratics, formado por estudiantes actuales y antiguos y amigos cercanos. Muchos de ellos aparecen en los diálogos de Platón, y estuvieron presentes junto a la cama de Sócrates a su muerte. Ctesipo es la anomalía aquí, anotando la más alta de todas (Figura 11); Nails notó que sabemos poco sobre él, ni siquiera su patronímico. También observó que él conecta dos grupos de personas en dos diálogos, Lysis y Euthydemus. En términos de SNA, esto lo convierte en un puente dentro de la red que conecta dos grupos y eleva su puntaje de vector propio porque conoce a más personas con puntajes altos.

Las otras relaciones de Sócrates

Hemos identificado a aquellos cuyos puntajes sugieren que son los más íntimos con Sócrates, pero quizás es más importante ver cómo se mezcló y cruzó a todo tipo de comunidades. En público, Sócrates era famoso por ir al centro de la ciudad, el Ágora y hablar con la gente, con un grupo de jóvenes observando, escuchando y, a veces, riendo. Esta es una de las razones por las que fue acusado de corromper al joven y juzgado en el tribunal en 399 a. Tome este ejemplo de un pasaje en Memorabilia de Jenofonte: [12]

Además, Sócrates vivió a la intemperie; para la madrugada fue a los paseos públicos y campos de entrenamiento; en la mañana fue visto en el mercado; y el resto del día pasó justo donde se reunía la mayoría de la gente: generalmente estaba hablando, y cualquiera podía escuchar. Xen Mem. 1.10

Los ajustes que se acaban de describir son lugares donde Sócrates tenía un interlocutor principal, un zapatero como Simon [13], por ejemplo, pero donde otros podían observar, escuchar y aprender indirectamente. La figura 14 muestra cuánta gente asociada con Sócrates que no fue intelectual o filósofo, y el gran círculo de la izquierda son personas que se encuentran en esa categoría.


Figura 14. Grupos por atributo con Sócrates y sus lazos de un grado.


Figura 15. Grupos en la red de Sócrates y sus vínculos. Sócrates no se muestra.

En la tabla de la Figura 14 vemos a Sócrates en el centro inferior en un círculo entre sus amigos y seguidores, los Sócratas. Cada círculo aquí no se basa en un análisis de clúster sino en mi lista de atributos, que representa diferentes roles. La figura 15 excluye los vínculos de Sócrates, ya que reduce la capacidad de estudiar las relaciones de todos los demás. Desde la esquina inferior derecha, en amarillo, hay algunos estudiantes (de profesores distintos de Sócrates), luego un círculo justo encima de ellos en el extremo derecho en rojo está formado por filósofos extranjeros, y sobre ellos en verde están los sofistas, y luego los socráticos en la oscuridad. Aparecen verdes en el centro inferior. En el círculo superior derecho, en azul claro, hay intelectuales, personas como Calias, el rico anfitrión del simposio que conocimos al principio, o personas que eran hombres de estado como Pericles u hombres que enseñaban materias distintas al oratorio o la filosofía. En el círculo más grande de la izquierda en azul están las personas con las que Sócrates se asoció, que no eran ninguna de esas cosas, y para nuestra sorpresa, constituyen el componente más grande. Se podría decir que son personas de la vida cotidiana. Cuando Sócrates presentó a las personas entre sí, estaba generando vías para el flujo de información. Se desempeñó como el conector, facilitador y tejedor de redes de la comunidad, o puente y agente en términos de Análisis de redes sociales, ayudando a la red a alcanzar su estado de máxima eficiencia.
Conclusión

Con el análisis de redes sociales, es emocionante poder visualizar lo invisible, mirar más allá de lo familiar y hacer preguntas que no se pudieron responder antes. El análisis de redes sociales es una herramienta que recién se está introduciendo en las humanidades digitales, pero ya está claro que nos ofrece oportunidades para pensar de manera diferente sobre el mundo antiguo.

Sócrates introdujo el elenchus, o el arte del diálogo, a la filosofía y la educación a mediados del siglo quinto antes de Cristo. Hay algo sobre el diálogo que es muy social, que requiere dos interlocutores que crean un enlace al participar en este tipo de conversación especial. Platón en Meno 80d hace que Sócrates diga: "Quiero examinar y buscar junto con ustedes lo que podría ser". La investigación filosófica es un acto inherentemente social para Sócrates. No podía filosofar solo.



Bibliografía


Borgatti, S. P., Everett, M. G. and Johnson, J. C. 2013. Analyzing Social Networks. London.

Cherven, K. 2013. Network Graph Analysis and Visualization with Gephi. Birmingham.

Cline, D. H . 2012. “Six Degrees of Alexander: Social Network Analysis as a Tool for Ancient History.” Ancient History Bulletin 26.1-2: 59-70.

Dakyns, H. G. 1897. The Works of Xenophon. London.

Hamilton, E., and Cairns, H. 1961, 1980. The Collected Dialogues of Plato, Including the Letters. Princeton.

Hansen, D. Shneiderman, B. and Smith, M. A. 2011. Analyzing Social Media Networks with NodeXL: Insights from a Connected World. Burlington, MA.

Nails, D. 2002. The People of Plato: A Prosopography of Plato and Other Socratics. Indianapolis.

Nails, D. 2017. The People of Plato: A Prosopography of Plato and Other Socratic: Errata and Addenda, January 2017 downloaded from https://msu.edu/~nails/pop.pdf on December 28, 2018.

Newman, M. 2010. Networks: An Introduction. Oxford.

Wasserman, S. and Faust, K. 1994. Social Network Analysis: Methods and Applications. Cambridge.

Xenophon. 1923. Trans. E. C. Marchant. Cambridge, MA. 1923, downloaded from https://ebooks.adelaide.edu.au/x/xenophon/x5sy/chapter1 on December 15, 2018.

miércoles, 20 de febrero de 2019

Big Data sobre Linkedin: Flujos de migración laboral revelan el mercado laboral mundial

La red de flujo de trabajo global revela la organización jerárquica y la dinámica de los clusters geoindustriales en la economía mundial

Jaehyuk Park, Ian Wood, Elise Jing, Azadeh Nematzadeh, Souvik Ghosh, Michael Conover, Yong-Yeol Ahn





Los grupos de empresas a menudo logran una ventaja competitiva a través de la formación de agrupaciones geoindustriales. Aunque muchos grupos ejemplares, como Hollywood o Silicon Valley, se han estudiado con frecuencia, los enfoques sistemáticos para identificar y analizar la estructura jerárquica de los grupos geoindustriales a escala global son raros. En este trabajo, utilizamos las historias de empleo de LinkedIn de más de 500 millones de usuarios a lo largo de 25 años para construir una red de flujo de mano de obra de más de 4 millones de empresas en todo el mundo y aplicar un algoritmo recursivo de detección de comunidades de redes para revelar la estructura jerárquica de los clústeres geoindustriales. Mostramos que los grupos geoindustriales resultantes muestran una asociación más fuerte entre la afluencia de trabajadores educados y el desempeño financiero, en comparación con las unidades de agregación existentes. Además, nuestro análisis adicional de los conjuntos de habilidades de trabajadores educados complementa la relación entre el flujo laboral de trabajadores educados y el crecimiento de la productividad. Argumentamos que las agrupaciones geoindustriales definidas por el flujo de trabajo proporcionan una mejor comprensión del crecimiento y el declive de la economía que otras unidades económicas comunes.

viernes, 15 de febrero de 2019

Agrupamientos en redes familiares con NodeXL

Agrupamiento de NodeXL para los partidos de los parientes de mi mamá

Genes and Roots

Publiqué los resultados del agrupamiento de NodeXL de mi padre hace unas semanas (aquí). Como lo prometí, ahora estoy publicando los resultados del agrupamiento NodeXL de mi madre, centrándome en solo algunos de los aspectos más intrigantes (¿desconcertantes?). (Puedes leer un paso a paso sobre cómo usar NodeXL para agrupar tus coincidencias de Ancestry aquí, en el blog de Shelley Crawford).

Las coincidencias de mamá para este ejercicio de agrupación se limitaron a aquellas con 15 cM o más compartidas; simplemente se desordena si incluyo a todos hasta 6 cM.

También en la foto de abajo, he apagado la pantalla para todos los grupos con menos de 4 personas. (Los algoritmos de NodeXL se agruparán en grupos de dos, mientras que otros algoritmos como la herramienta de agrupación compartida de Jonathan Brecher usan tres como mínimo).



Veamos primero el "Grupo 13", el grupo en la parte inferior en azul marino que se ve como 2 grupos separados para mí. (No entiendo completamente cómo funciona el algoritmo). A continuación se muestra el grupo 13, ampliado y con los enlaces intergrupos desactivados, para que pueda ver el grupo de manera más detallada. Claramente, solo una coincidencia enlaza a las dos mitades de este grupo. Por lo tanto, no están relacionados tan estrechamente como uno podría pensar.



Las fotos adicionales a continuación confirman esa teoría. A la izquierda, "Cousin X" está resaltado; Puedes ver que "X" comparte una coincidencia con solo 2 personas (además de mi madre). A la derecha, se resalta "Primo B". "Primo B" solo coincide con otros en un subgrupo, y nadie en el otro subgrupo.



Otro grupo que se ve intrigante es uno de la prima de mi madre, "Sally Sue" (alias), que está bastante relacionada con mamá. (Se puede decir que está más estrechamente relacionada con mi madre por el tamaño del cuadrado azul. Estos partidos se parecen a un centro y radios. "Sally Sue" está en el centro con el cuadrado más grande; los otros están más relacionados con mi madre. (Aparte de eso, la opción de ajustar el tamaño de los cuadrados o puntos por la cantidad de cM compartida está disponible en la herramienta NodeXL, pero no es automática).

El grupo "Sally Sue", que se muestra a continuación con los enlaces externos eliminados, es uno en el que coincide con todas las personas de su grupo, pero cada una de ellas solo coincide con ella (o, no se muestra, al menos una persona en un grupo diferente).



El último grupo que es interesante se muestra a continuación. Esta prima, llamémosla Jane, parece estar en el grupo "incorrecto". Si bien tiene coincidencias en su propio grupo, tiene muchas más coincidencias en un grupo diferente.



Una razón por la que esto podría suceder es que Jane y mamá podrían compartir el ADN en, por ejemplo, el cromosoma 1 (posiblemente con otros en su grupo); los primos en el otro grupo podrían compartir el ADN con mamá en, digamos, el cromosoma 9, y luego compartir el ADN con Jane en el cromosoma 4. No lo sabemos con seguridad, ya que no tenemos información de segmento.

Sin embargo, desde que agrupé las coincidencias de mi madre en NodeXL y comencé el borrador de esta publicación, usé la herramienta de agrupación compartida de Jonathan Brecher, que agrupa a "Jane" con la agrupación donde tiene la mayoría de sus coincidencias.

A primera vista, eso tiene más sentido. Sin embargo, ver a "Jane" en un grupo separado (como se muestra a continuación) podría ser útil para darse cuenta de que puede estar conectada en un ancestral diferente a mi madre que la mayor parte de sus coincidencias. Esto sugiere que debo tener cuidado al analizar el árbol de Jane y los apellidos ancestrales, en relación con las coincidencias en el otro grupo.

De hecho, estoy descubriendo que es útil agrupar tus coincidencias de ADN compartidas con más de una herramienta, ya que cada una usa diferentes algoritmos. (Más sobre otros métodos de agrupación en una publicación posterior).