miércoles, 4 de julio de 2018

Otra introducción al ARS

Análisis de redes sociales: estado del arte


Contribuido por: Bart Baesens | datamining apps


Introducción

En las últimas décadas, el uso de sitios web de redes sociales en la vida cotidiana de todos está en auge. Las personas pueden continuar sus conversaciones en sitios de redes sociales como Facebook, Twitter, LinkedIn, Google+, Instagram, etc., y compartir sus experiencias con sus conocidos, amigos, familiares, etc. Solo hace falta un clic para actualizar su ubicación al resto de el mundo. Hay muchas opciones para transmitir sus actividades actuales: por una imagen, video, ubicación geográfica, enlaces o simplemente texto sin formato.

Los usuarios de los sitios de redes sociales en línea revelan explícitamente sus relaciones con otras personas. En consecuencia, los sitios de redes sociales son un mapeo casi perfecto de las relaciones que existen en el mundo real. Saben quién eres, cuáles son tus aficiones e intereses, con quién te casas, cuántos hijos tienes, tus amigos con los que trabajas todas las semanas, tus amigos del club del vino, etc. Esta red interconectada de gente que sabe el uno al otro de alguna manera es una fuente de información y conocimiento extremadamente interesante. Los gerentes de marketing ya no necesitan adivinar quién podría influir en quién crear la campaña adecuada. Está todo allí ... cuál es el problema. Los sitios de redes sociales reconocen la riqueza de las fuentes de datos que tienen y no están dispuestos a compartirlos sin costo. Esos datos a menudo se privatizan y regulan, y están bien ocultos para uso comercial. Por otro lado, los sitios de redes sociales ofrecen muchas facilidades incorporadas a los gerentes y otras partes interesadas para lanzar y administrar sus campañas de mercadotecnia explotando la red social, sin publicar la representación exacta de la red.

Sin embargo, las empresas a menudo se olvidan de que pueden reconstruir una parte de la red social utilizando datos internos. Los proveedores de telecomunicaciones, por ejemplo, tienen una base de datos transaccional masiva donde registran el comportamiento de llamadas de sus clientes. Bajo el supuesto de que los buenos amigos se llaman entre sí más a menudo, podemos recrear la red e indicar la fuerza de enlace entre las personas en función de la frecuencia y / o duración de las llamadas. Los proveedores de infraestructura de Internet pueden mapear las relaciones entre las personas que usan las direcciones IP de sus clientes. Las direcciones IP que se comunican frecuentemente están representadas por una relación más fuerte. Al final, la red de IP contemplará la estructura relacional entre las personas desde otro punto de vista, pero hasta cierto punto, como se observa en la realidad. Se pueden encontrar muchos más ejemplos en las industrias de banca, venta minorista y juegos en línea. En este artículo, discutimos cómo se pueden aprovechar las redes sociales para el análisis.

Definiciones de redes sociales

Una red social se compone de nodos (vértices) y enlaces. Ambos deben estar claramente definidos al comienzo del análisis. Un nodo (vértice) podría definirse como un cliente (privado / profesional), hogar / familia, paciente, médico, papel, autor, terrorista, página web ... Un enlace puede definirse como la relación de un amigo, una llamada, la transmisión de un enfermedad, una relación de "seguimiento", una referencia, etc. Tenga en cuenta que los enlaces también se pueden ponderar según la frecuencia de interacción, la importancia del intercambio de información, la intimidad, la intensidad emocional, etc. Por ejemplo: en una configuración de predicción de abandono, el enlace puede ponderarse de acuerdo con el tiempo (total) en que dos clientes se llamaron durante un período específico. Las redes sociales se pueden representar como un sociograma. Esto se ilustra en la figura siguiente por la cual el color de los nodos corresponde a un estado específico (por ejemplo, revuelto o no revuelto).


Ejemplo de sociograma.

Los sociogramas son útiles para representar redes de pequeña escala. Para redes de gran escala, la red se representa típicamente como una matriz (ver a continuación). Estas matrices serán simétricas [1] y típicamente muy dispersas (con muchos ceros). La matriz también puede contener los pesos si se producen conexiones ponderadas.


C1 C2 C3 C4
C1 1 1 0
C2 1 0 1
C3 1 0 0
C4 0 1 0

Representación matricial de una red social.

En lo que sigue, discutimos cómo se pueden aprovechar las redes sociales para los análisis descriptivos y predictivos.


Análisis descriptivo: métricas de redes sociales y minería comunitaria


Recuerde, el objetivo del análisis descriptivo es describir un conjunto de datos utilizando un conjunto de estadísticas o métricas clave. Una red social se puede caracterizar por varias métricas de centralidad. Las medidas de centralidad más importantes se muestran en la siguiente tabla.


Geodésica Ruta más corta entre dos nodos en la red.
Grado Número de conexiones de un nodo (dentro versus fuera de grado si las conexiones están dirigidas).
Cercanía La distancia promedio de un nodo a todos los demás nodos de la red (recíproco de lejanía).
Intermediación Cuenta el número de veces que un nodo o enlace se encuentra en la ruta más corta entre dos nodos de la red.
Centro teórico de grafos El nodo con la distancia máxima más pequeña a todos los otros nodos de la red.



Medidas de centralidad de red común.

Estas métricas ahora se pueden ilustrar con el ejemplo de juguete de red Kite representado en la siguiente figura [2]:




La red barrilete.


Grado CercaníaIntermediación
6 Diane 0.64 Fernando 14 Heather
5 Fernando 0.64 Garth 8.33 Fernando
5 Garth 0.6 Diane 8.33 Garth
4 Andre 0.6 Heather 8 Ike
4 Beverly 0.53 Andre 3.67 Diane
3 Carol 0.53 Beverly 0.83 Andre
3 Ed 0.5 Carol 0.83 Beverly
3 Heather 0.5 Ed 0 Carol
2 Ike 0.43 Ike 0 Ed
1 Jane 0.31 Jane 0 Jane

Medidas de centralidad para la red Kite.

La tabla anterior informa las medidas de centralidad para la red Kite. Según el grado, Diane es la más importante ya que tiene la mayoría de las conexiones. Ella trabaja como un conector o concentrador. Sin embargo, tenga en cuenta que solo conecta a los que ya están conectados entre sí. Fernando y Garth son los más cercanos a todos los demás. Son los mejor posicionados para comunicar mensajes que deben fluir rápidamente a todos los demás nodos de la red. Heather tiene la mayor intersección. Ella se sienta entre dos comunidades importantes (Ike y Jane contra el resto). Ella juega un rol de intermediario entre ambas comunidades, pero también es un punto único de falla. Tenga en cuenta que la medida de intersección a menudo se utiliza para la minería comunitaria. Una técnica popular aquí es el algoritmo de Girvan-Newman que funciona de la siguiente manera [3]:
  • La intersección de todos los enlaces existentes en la red se calcula primero.
  • El enlace con la mayor intersección se elimina.
  • La interdependencia de todos los enlaces afectados por la eliminación se vuelve a calcular.
  • Los pasos 2 y 3 se repiten hasta que no quedan enlaces.
El resultado es esencialmente un dendrograma (similar a, por ejemplo, agrupamiento jerárquico), que luego se puede utilizar para decidir el número óptimo de comunidades. La minería comunitaria sirve para varios propósitos. Permite comprender el comportamiento de subconjuntos homogéneos en su red que pueden ser especialmente relevantes en análisis de marketing (por ejemplo, para recomendaciones específicas) o detección de fraude (para detectar, por ejemplo, anillos de fraude). Además, la información de la comunidad también puede aprovecharse para el análisis predictivo, utilizando, p. procedimientos de producción como explicamos a continuación.


Análisis predictivo: aprendizaje de redes sociales


En el análisis predictivo, el objetivo es medir una variable objetivo de interés. Los ejemplos podrían ser abandono, fraude, valor predeterminado o valor de vida del cliente (CLV). En el aprendizaje de redes sociales, el objetivo es calcular la probabilidad de membresía de clase (por ejemplo, probabilidad de abandono) de un nodo específico, dado el estado de los otros nodos de la red. Varios desafíos importantes surgen cuando se aprende en las redes sociales. Un desafío clave es que los datos no son independientes y están distribuidos de forma idéntica (IID), una suposición que a menudo se hace en modelos estadísticos clásicos (por ejemplo, regresión lineal y logística). El comportamiento de correlación entre los nodos implica que la pertenencia a la clase de un nodo puede influir en la pertenencia a la clase de un nodo relacionado. A continuación, no es fácil crear una división en un conjunto de capacitación para el desarrollo del modelo y un conjunto de prueba para la validación del modelo, ya que toda la red está interconectada y no se puede cortar en dos partes. Además, muchas redes son de gran escala (por ejemplo, un gráfico de llamadas de un proveedor de telecomunicaciones) y es necesario desarrollar procedimientos computacionales eficientes para hacer el aprendizaje. Finalmente, no se debe olvidar la forma tradicional de hacer análisis utilizando solo información específica de nodo (es decir, sin los aspectos de red) ya que esta información puede ser muy valiosa para la predicción también.

Una forma directa de aprovechar las redes sociales para el análisis predictivo es resumir la red en un conjunto de características que luego se pueden combinar con características que no sean de red (es decir, locales) para el modelado predictivo. Un ejemplo popular de esto es la regresión logística relacional según lo introducido por Lu y Getoor (2003) [4]. Este enfoque básicamente parte de un conjunto de datos con características locales específicas del nodo y le agrega características de red de la siguiente manera:
  • La clase de vecino más frecuente (modo-enlace);
  • Frecuencia de las clases de los vecinos (enlace de frecuencia);
  • Indicadores binarios que indican presencia de clase (enlace binario).

Esto se ilustra en la figura siguiente para el cliente Bart.


Regresión logística relacional.


Luego, se puede estimar un modelo de regresión logística o árbol de decisión utilizando el conjunto de datos con características locales y de red. Tenga en cuenta que existe una cierta correlación entre las características de red agregadas, que deben filtrarse durante un procedimiento de selección de entrada. La creación de características de red también se llama Featurization, ya que las características de la red se agregan básicamente como características especiales al conjunto de datos. Estas características pueden medir el comportamiento de los vecinos en términos de la variable objetivo (por ejemplo, abandono o no) o en términos de las características específicas del nodo local (por ejemplo, edad, promociones, etc.). La figura a continuación proporciona un ejemplo en el que se agrega una característica que describe la cantidad de contactos con churners. La columna final etiquetada 'Churn' es la variable objetivo.


Ejemplo de Caracterización con características que describen el comportamiento objetivo de los vecinos.

La figura a continuación proporciona un ejemplo donde se agregan características que describen el comportamiento del nodo local de los vecinos.


Ejemplo de Caracterización con características que describen el comportamiento del nodo local de los vecinos.

Privacidad

Obviamente, el uso de datos de redes sociales para fines analíticos también requiere una reflexión exhaustiva sobre la privacidad. Con frecuencia, los clientes desconocen sus rastreos de datos, tanto en línea como fuera de línea, y cómo pueden analizarse. Por lo tanto, especialmente bajo la regulación GDPR actual, es de vital importancia que las empresas siempre divulguen adecuadamente qué datos recopilan y cómo los usan. Al hacerlo, no solo deben enfocarse en posibles beneficios de privacidad sino también en los beneficios para el cliente, de modo que los clientes puedan tomar una decisión bien informada sobre si, cuándo y cómo se pueden usar sus datos.

Conclusión

En este artículo, nos acercamos al análisis de redes sociales. Comenzamos brindando definiciones clave de redes sociales. A continuación, ilustramos cómo se pueden aprovechar las redes sociales para el análisis descriptivo resumiéndolos mediante métricas de redes sociales como cercanía, interdependencia, etc. A continuación, desarrollamos el uso de redes sociales para el análisis predictivo utilizando varios procedimientos de presentación. Es importante señalar que aunque las redes sociales representan un nuevo tipo de información, definitivamente no se debe sobreestimar su poder. Más específicamente, uno no debería abandonar los datos tradicionales que no pertenecen a la red para hacer análisis. A lo largo de nuestra investigación, encontramos que los mejores modelos analíticos para, p. Predicción de abandono de pagos: la detección de fraudes generalmente se genera utilizando una combinación de datos de red y no de red. Finalmente, es importante tener en cuenta que siempre que se analicen datos de redes sociales, la privacidad siempre debe respetarse.


Referencias y notas

  • [1] Tenga en cuenta que este es solo el caso de las redes no dirigidas. Para redes dirigidas, que representan p. una relación 'siguiente' que no es necesariamente recíproca, la matriz no será simétrica.
  • [2] Krackhardt, D, Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, 35, pp. 342-369, 1990.
  • [3] Girvan M., Newman M. E. J., Community structure in social and biological networks, Proceedings of the National Academy of Sciences, USA 99, pp. 7821–7826, 2002.
  • [4] Lu Q., Getoor L., Link-based Classification, Proceeding of the Twentieth Conference on Machine Learning (ICML-2003), Washington DC, 2003.

lunes, 2 de julio de 2018

Cómo fue la difusión científica de la hipótesis de la fortaleza de los lazos débiles


Cómo las comunidades median la difusión de nuevas ideas: el caso de la hipótesis de los lazos débiles de Granovetter


Anna Keuchenius, Petter Tornberg y Justus Uitermark

Universidad de Amsterdam




Resumen

Una gran cantidad de estudios empíricos examinan la difusión de nuevas ideas científicas. Si bien esos estudios generalmente se enfocan en el bajo nivel de adopción individual o en el nivel superior de patrones agregados, examinamos cómo las comunidades en el nivel intermedio median la difusión. Como estudio de caso, analizamos la difusión de una idea científica específica, a saber, la hipótesis de la "Fortaleza de los lazos débiles", presentada por Granovetter en su artículo de 1973. Usando datos de Web of Science, construimos una red de académicos que hicieron referencia al artículo de Granovetter. Al combinar el modelado de temas, el análisis de redes y la lectura cercana, mostramos que la red de difusión presenta comunidades de académicos que interpretan y usan la hipótesis de Granovetter de distintas maneras. Tales comunidades colaborativamente interpretan la hipótesis de Granovetter para enmendarla a sus perspectivas e intereses específicos. Nuestro análisis muestra además que las comunidades están agrupadas alrededor de testaferros, es decir, académicos que son centrales dentro de sus comunidades y desempeñan un papel fundamental en la traducción de la hipótesis general en su campo específico. La mayor implicación de nuestro estudio es que las ideas científicas cambian a medida que se expanden. Argumentamos que la metodología presentada en este documento tiene un potencial más allá del dominio científico, particularmente en el estudio de la difusión de opiniones, símbolos e ideas.


sábado, 30 de junio de 2018

Análisis de hashtag italianos

#Censimento y #Salvinischedacitutti vistos con análisis de redes sociales

Dr Who


Ayer, Twitter ha introducido sus propios hashtags: #Censimento y, posteriormente, #Salvinischedacitutti. El tema es conocido. Analicé el fenómeno con el análisis de redes sociales, tomando datos en línea.
#Censimento y #Salvinischedacitutti: el patrón polarizado del análisis de redes sociales

La geografía relacional que emerge en el hashtag #Censimento se polariza: grupos de personas que discuten sobre el mismo tema, pero con diferentes puntos de vista.

Las discusiones polarizadas se caracterizan por dos grupos grandes y densos que tienen poca conexión entre ellos. Los temas que se discuten son a menudo altamente conflictivos y temas candentes o cuestiones políticas. En realidad, generalmente hay poca conversación entre estos grupos, a pesar del hecho de que están enfocados en el mismo tema. Esto significa que la gente no está discutiendo. Se ignoran mutuamente mientras apuntan a diferentes recursos web y usan diferentes hashtags.

#Census y #Salvinischedacitutti: datos y eventos

En el cuadro inmediatamente anterior, el grupo superior está formado por personas que están en contra del tema, y ​​viceversa, el grupo a continuación. Esta primera consulta de la red produjo 3652 nodos con 4662 informes.

En el transcurso del día, hacia la tarde, el hashtag #Salvinischedacitutti comienza a ser tendencia (probablemente para legitimar aún más una posición contraria al #Censimento). El patrón se repite. Preciso. El grupo en la parte superior está formado por personas que están en contra, y viceversa en el grupo a continuación. La consulta tomó 3198 nodos con 4012 informes.


La subida del hashtag #Salvinischedacitutti en detrimento del hashtag #Censimento no ha cambiado la sustancia de las conversaciones. Al analizar los datos que me permitieron construir al nuevo sociografista, surgieron algunos aspectos. En particular: el cluster inferior tiene dos muy grandes nodos: uno a la derecha tiene un valor de atractivo igual a 395, uno a la izquierda, un valor de 335. La salida "fuerza" está dada por su base seguidor potencial base: la primera tiene más de 49K y el segundo algo más de 11K. Pueden ser, por coherencia, considerados influyentes, pero no para acciones de segundo nivel por los conectores, de hecho, no vemos una viralidad porque la RT no generó el efecto de cadena. En el clúster superior, el nodo con la mayor fuerza potencial tiene poco más de 4K seguidor, extremadamente desequilibrado en términos potenciales y con una capacidad atractiva de solo 156.

#Salvinischedacitutti: la fuerza del hashtag

Durante la noche, el hashtag #Salvinischedacitutti mantuvo la tendencia principal de Twitter. I riscaricato datos y que tenía una confirmación del patrón polarizado, pero encontró que había una migración de conversaciones sobre: ​​la tasa de nudos presente nell'hashtag #Censimento superponen con los de #Salvinischedacitutti es igual a 62% . Esta migración ha fortalecido aún más las posiciones de las personas que se oponen a ella. La fecha al aplicar el algoritmo OpenOrd nos muestra perfectamente este refuerzo. La banda azul de la izquierda está formada por personas que se oponen al tema tiene diferentes interconexiones que van a las afueras de la gráfica, mientras que el otro grupo es "Castillo" sólo un par de probar el contenido, el hecho de no tener argumentos.



Al comparar a los sociólogos de los dos hashtags que estamos analizando, es claro que el patrón polarizado es una constante, y está claro que el grupo de personas opuesto al tema se fortalece en términos de interconexiones.

En la noche, alrededor de las 22:00, los volúmenes de las conversaciones han perdido fuerza, haciendo que el hashtag salga de la tendencia.

jueves, 28 de junio de 2018

Enfoque de 2 modos para análisis de redes socio-semánticas en Twitter


Análisis automatizado de redes de actores en Twitter: Nuevo enfoque para el análisis de redes socio-semánticas

Iina Hellsten, Loet Leydesdorff
ARXiv

Los datos de los medios sociales brindan oportunidades cada vez mayores para el análisis automatizado de grandes conjuntos de documentos textuales. Hasta ahora, se han desarrollado herramientas automatizadas para dar cuenta de las redes sociales entre los participantes de los debates, o para analizar el contenido de esos debates. Se ha prestado menos atención al mapeo de actores concurrentes (participantes) y temas (contenido) en debates en línea que forman redes socio-semánticas. Proponemos un nuevo enfoque automatizado que utiliza un enfoque de matriz completa de temas codirigidos y los actores. Mostramos las ventajas del nuevo enfoque con el análisis de un gran conjunto de mensajes de Twitter en inglés en la reunión de Río + 20, en junio de 2012 (72.077 tweets), y un conjunto de datos más pequeño de mensajes en Twitter en neerlandés sobre la gripe aviar relacionado con la avicultura en 2015-2017 (2,139 tweets). Discutimos las implicaciones teóricas, metodológicas y sustantivas de nuestro enfoque, también para el análisis de otros datos de redes sociales.


martes, 26 de junio de 2018

Curación de datos en Big Data


Cómo hacer curación de contenido con los datos

Dr. Who



El contenido es el rey: siempre lo escuchamos cuando hablamos de la cura del contenido. Producir contenido valioso es difícil, si no tenemos idea, es prácticamente imposible. El valor de un contenido puede tener múltiples significados. Una cosa es segura: además de su originalidad, debe reflejar la demanda del mercado; debe reflejar, es decir, lo que las personas buscan en la red. Los datos en la web pueden ayudarnos en este sentido y, una vez procesados, pueden brindarnos diferentes maneras de hacerlo.

Curación de contenido guiados por datos: Pasos operacionales

Comienza desde el tema: definido el tema es necesario para dibujar la arquitectura de análisis. La arquitectura de análisis no es más que un documento simple para registrar los principales elementos de nuestro análisis, como son: el lapso de tiempo a considerar, la identificación de los canales donde residen los contenidos, el análisis de la pregunta específica.

Estos cuatro elementos básicos se deben expandir de acuerdo con los hallazgos que proporciona el raspado de datos. Un elemento fundamental es tener un buen crowler para obtener los datos de partida sin procesar.

El tema que traigo como ejemplo, y cuyos datos se tomaron hace más de un año, es el de la salud digital. El período de tiempo considerado fue de 30 días. La elección de este tiempo ajustado se debe al hecho de que es necesario evitar la dispersión de la demanda: un tiempo ajustado asegura que los datos se recopilan de los eventos recientes.

El cuestionamiento de la red permitió extraer más de 1700 contenidos con un duopolio de canales en los que viajó este contenido. Los tweets y artículos en línea dividían, hace un año, los contenidos sobre el tema de salud digital.

A partir de esta información, es posible ampliar la estructura arquitectónica de nuestro análisis: extraer información de la web para realizar el análisis de extracción de texto y comprender la existencia de aspectos particulares; lleve a cabo el análisis de las conversaciones de twitter para comprender cómo se debatió el tema e identifique, si existieran, personas influyentes específicas.


Curación de contenido: análisis SERP


El análisis SERP nos permite identificar tanto la competencia existente sobre el tema, como los segmentos que lo componen. El enfoque es el del análisis de cola larga que muchos de ustedes conocen. El análisis de cola larga, sin embargo, no es el único tipo de actividad que se puede realizar en un SERP: una vez tomada, también se puede analizar a través del análisis de minería de texto, en particular en la dimensión de metadescripción. La metadescripción es uno de los elementos fundamentales que guían nuestra investigación al facilitar la elección de clikkare, o no, en uno de los diversos enlaces que nos devuelve una consulta en Google. Dado el tiempo y el tema, hace un año tomé unos 980 sitios (igual al 50% del SERP completo) con una opción aleatoria estratificada. La estratificación permite considerar diferentes grupos de agregaciones y tener una representación estadística.

Para evaluar la oportunidad de llevar a cabo el análisis minería de texto en profundidad, el primer indicador que vemos es el de la tabla Zipf: un gráfico denso nos muestra que los temas resumidos en la meta descripción se argumentan; hay algún material sobre el cual trabajar y avanzar con el análisis.

Curación de contenido: análisis de minería de texto


Las ideas que surgieron hace un año fueron muy interesantes: la mayor parte del contenido en línea se relacionó con artículos / publicaciones para personajes locales y esto ensucia la capacidad del análisis para resaltar el estado de ánimo subyacente.



Al eliminar estos aspectos, fue posible identificar dos macroconjuntos: uno relacionado con la identidad digital, el otro más específico sobre el tema de la innovación digital en el sector hospitalario (lado derecho del gráfico).

La lectura de los contenidos de los dos clusters identificados: 4 referencias web para el clúster de identidad digital y 10 referencias para el clúster de innovación digital.

Estos 14 sitios representan las fuentes relevantes para una primera identificación del estado de ánimo subyacente en un tema determinado. Al combinar estas instancias con la segmentación hecha con el análisis de la cola larga, tenemos excelentes indicaciones para identificar el área temática que queremos cubrir con nuestro contenido.

Curación de contenido: evaluación de tema con el SNA

Se recopilaron más de 728 conversaciones en Twitter y se encontró una red de 526 oradores que generaron más de 500 informes.

Al aplicar los indicadores estadísticos apropiados, se resaltaron algunos conglomerados de conversación. En particular:

  • Mercado de salud digital (clúster verde)
  • Innovación en asistencia sanitaria digital (racimo rojo)
  • Dossier electrónico (clúster negro)
  • Observatorio PoLIMI (grupo naranja)
  • Convención del observatorio digital (clúster central)



Los principales contenidos fueron extraídos de cada grupo individual.

Ambos análisis, aunque con matices obvios, confirman los conocimientos que se pueden utilizar en términos de datos de curación de contenido impulsados, lo que respalda tanto la demanda del mercado como las conversaciones relacionadas con ella. No solo eso: el análisis de redes sociales también nos permite identificar cuáles de los actores analizados son los mejores para "contactar" para compartir el contenido que vamos a crear.

domingo, 24 de junio de 2018

Maravilloso trabajo de campo con redes sociales de tribus de cazadores-recolectores

Cazadores-recolectores de Hadza, redes sociales y modelos de cooperación


por Artem Kaznatcheev | Theory, Evolution and Games Groups


En el corazón de la región de los Grandes Lagos de África Oriental se encuentra Tanzania, una república compuesta por 30 mikoa o provincias. Su frontera está marcada por los lagos gigantes Victoria, Tanganyika y Malawi. Pero el lago que más me interesa es uno interno: a 200 km de la frontera con Kenia en el cruce de mikao Arusha, Manyara, Simiyu y Singed está el lago Eyasi. Es un lago temperamental que se puede secar casi por completo, que se puede cruzar a pie, en algunos años y en otros, como en los años de El Niño, inunda sus riberas lo suficiente como para atraer hipopótamos del Serengeti.

Para los Hadza, es su hogar.

El número de Hadza es de alrededor de mil personas, y alrededor de 300 viven como cazadores-recolectores nómadas tradicionales (Marlow, 2002; 2010). Un estilo de vida que se cree que es un modelo útil de sociedades en nuestra propia herencia evolutiva. Un modelo empírico de particular interés para la evolución de la cooperación. Pero un modelo que requiere mucho más esfuerzo para explorar que ejecutar algunas configuraciones de parámetros en su computadora. En el verano de 2010, Coren Apicella exploró este modelo viajando entre los campos de Hadza en toda la región del lago Eyasi para obtener información sobre su red social y su comportamiento cooperativo.

Aquí hay un video resumen donde Coren describe su trabajo:




Los datos que recopiló con sus colegas (Apicella et al., 2012) proporcionan nuestro mejor proxy para la organización social de los primeros humanos. En este post, quiero hablar sobre el Hadza, el conjunto de datos de su red social, y cómo puede informar a otros modelos de cooperación. En otras palabras, quiero freeride en Apicella et al. (2012) y me permito a mí mismo y a otros teóricos explorar modelos computacionales informados por el modelo empírico Hadza sin tener que caminar por el Lago Eyasi por nosotros mismos.






Los Hadza viven en pequeños campamentos temporales de unos 30 individuos, con un promedio de 11.7 \ pm 6.0 adultos por campamento para los 17 campamentos en Apicella et al. (2012). [1] Dentro de los campamentos de cazadores-recolectores, incluido el Hadza, hay un intercambio de alimentos en todo el campamento (Marlowe, 2004; Gurven, 2004), de la responsabilidad del cuidado infantil (Henry, et al., 2005; Crittenden & Marlowe, 2008; Hill & Hurtado, 2009), y de las tareas diarias como la adquisición de alimentos, la construcción y el mantenimiento de espacios habitables, y el transporte de niños y posesiones (Hill, 2002). En un metanálisis multicultural de 32 sociedades de alimentación actuales, incluyendo Hadza - Hill et al. (2011) mostraron que sus campamentos tienen bajos niveles de parentesco cercano (generalmente menos del 10%; en el Hadza específicamente varía en promedio del 4.1% para un macho focal al 5.5% para una hembra focal) y experimentan un flujo constante de individuos entre campamentos. Como destacó Coren en el video anterior, los campos de Hadza son muy dinámicos, se reubican cada 4 a 6 semanas y algunas veces se disuelven o se fusionan con otros campamentos.

Sin embargo, este flujo de individuos entre los campamentos no es aleatorio. Los individuos tienen preferencias para compañeros de campamento y Apicella et al. (2012) midieron estas preferencias pidiendo a cada adulto que nominara a algunas otras personas que preferirían tener como compañeros de campamento para su próximo campamento. [2] En este estudio, los hombres solo nominaron a otros hombres y mujeres como mujeres, lo que resultó en dos grafos disjuntos con un total de 205 individuos (nodos) y 1263 candidaturas futuras (enlaces dirigidos) y alrededor del 46% de los enlaces entre los campamentos. Apicella et al. (2012) presentaron estos grafos en la figura 1c (y las nominaciones dentro de los campamentos en la figura S4). Dado que un paso importante para trabajar con datos es tener esos datos, preferiblemente en un formato amigable para la máquina, me enfoqué en esta figura. Aunque conocí a Coren Apicella una vez, no me sentí cómodo al enviarle un correo electrónico con sus datos en bruto, especialmente porque no tenía un propósito específico en mente, así que Marcel Montrey y yo extrajimos la matriz de adyacencia de la figura 1c mano. [3]


Grafo de la futura preferencia de compañero de campamento de Hadza, basado en datos de Apicella et al. (2012) El grafo de la izquierda es de mujeres y el grafo de la derecha es de hombres. Los nodos se dimensionan en proporción a su grado.

Pero, ¿qué vamos a hacer con estos datos? El primer paso de Apicella et al. (2012) fue comparar con otras redes o modelos de redes que a menudo discutimos. En comparación con una red aleatoria con el mismo número de enlaces y nodos, encontraron:
  • que la distribución de grados tiene colas significativamente más gordas,
  • diferencias en su grado de reciprocidad, con un Hadza siendo 37.6 a 51.4 veces más propenso a nombrar como compañero de campamento deseado a alguien que los haya nombrado como un compañero de campamento deseado,
  • asociatividad más alta de lo esperado entre el grado de ingreso y el de salida: los agentes que nombran más agentes también tienen más probabilidades de ser nombrados más ellos mismos.
  • homofilia en rasgos como edad, altura, peso, grasa corporal, fuerza de agarre y nivel de contribución en un juego de bienes públicos. [4]
Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Mi impulso de tener datos de redes sociales sobre cazadores-recolectores proviene de la aparente importancia y omnipresencia del estudio de la estructura espacial en los modelos matemáticos de la teoría de juegos evolutiva. La idea es eliminar al intermediario modelador de redes. En lugar de tratar de descubrir qué tipo de red son las familias como redes reales, y luego ejecutar juegos en esas familias, ¿por qué no ejecutar juegos directamente en redes observadas empíricamente? Lamentablemente, existe una tensión entre el tipo de redes que recolectan los antropólogos y los sociólogos, y el tipo de redes que modelan los teóricos de los juegos evolutivos. El enfoque típico de las redes en EGT es hacer que los enlaces del grafo determinen los pares de agentes que interactúan durante el juego y para la reproducción o la imitación. [5] Dado que generalmente consideramos juegos simétricos, generalmente también queremos grafos simétricos. [6] Entonces, un enfoque obvio es simétrizar la red Hadza diciendo que los agentes interactuarán simétricamente si cualquiera inicia, y que el "futuro compañero" es un sustituto de un amigo y la amistad es un sustituto de la interacción frecuente. Esto facilita la integración de la red Hadza en los modelos existentes, pero descarta nuestro conocimiento de cómo los Hadza realmente interactúan entre sí; que se encuentra principalmente en el nivel de un campamento.

En cambio, podríamos estructurar modelos usando los datos de Coren en términos de campamentos, y tener interacciones invisibles dentro de cada campamento. Desafortunadamente, si se permite que los campamentos crezcan o sobrevivan en proporción al rendimiento total (o promedio) de los campamentos, independientemente de las interacciones que elija para modelar, entonces habremos creado una selección de grupos en nuestros modelos. Si, en cambio, mantenemos fijos los campamentos, con migración única (sin pago) entre los campamentos, entonces estamos en un entorno similar a la teoría de conjuntos evolutivos de Tarnita et al. (2009). Este enfoque también puede promover la cooperación, pero de una manera más sutil que la selección directa en grupos. Luego, podemos usar el grafo de las nominaciones de compañeros de campamento futuros de campo cruzado de la figura suplementaria S4 como un grafo de migración. Imagine una dinámica en la que en cada paso del tiempo, se selecciona un ego al azar [7] y se le da la oportunidad de migrar al campamento, potencialmente el mismo campamento en el que ya están, de uno de los alteros que el ego nominó como preferida compañera de campamento futura. Además, periódicamente podemos disolver y luego reformar las redes de compañeros de campamento de acuerdo con las preferencias que Coren recopiló. Una manera podría ser (1) seleccionar egos al azar, (2) crear un nuevo campamento para ellos si aún no son parte de un campamento, y (3) dejarlos invitar a quienes deseen tener como compañeros de campamento a su campamento . Esto reflejaría que, aunque la migración o las visitas son muy comunes, los campamentos completos se mueven entre 6 y 12 veces al año; el número y tamaño de los campamentos también fluctúa a lo largo de la temporada, con menos campamentos más grandes formados durante la última estación seca y la estación húmeda cuando las bayas son comunes (Marlowe, 2002; 2010). Este enfoque nos permite usar la red social de Coren no como el grafo de interacción (y / o reproducción / imitación), sino como una meta-red que informa cómo actualizamos el grafo de interacción.

Los enfoques de los últimos dos párrafos difieren en la medida en que debe alejarse del conocimiento del dominio sobre los datos empíricos que se recopilaron y cuánto tiene que ajustar las herramientas de modelado existentes. El primero se integró mejor con el trabajo teórico sobre EGT, y el segundo con el trabajo empírico en antropología. Al final, la cantidad que ajuste sus herramientas o cuán lejos se aleja de los datos es una elección similar a encontrar su combinación preferida de herramienta-problema. Puedo verme a mí mismo utilizando la red simétrica como telón de fondo para proyectos existentes como la evolución de delirios útiles (Kaznatcheev, et al., 2014) y extendiendo la teoría de conjuntos evolutiva como base para un modelo más cercano al modelo empírico de Hadza. Te mantendré actualizado sobre ambos, querido lector.


Notas y referencias

  1. Aquí parece haber una variación significativa entre años o estaciones. Los datos utilizados por Hill et al. (2011), por ejemplo, informó 17 campamentos con un total de 406 adultos, por lo que alrededor de 23.9 adultos por campamento. No estoy seguro de qué hacer, si es que hay algo que hacer.
  2. Apicella et al. (2012) también construyó una red de regalos pidiendo a las personas que elijan recipientes para un total de 3 barras de miel. Los palos no se podían guardar, pero podría elegir enviar más de uno de sus palos a la misma persona, lo que da como resultado un gráfico dirigido ponderado. Muchas de las propiedades generales que analizo más adelante para la red campmate también fueron válidas para esta, pero la red en sí misma no se presentó explícitamente en el documento (o los materiales complementarios). Como no pude trabajar con él directamente, no lo discutí más en esta publicación.
  3. La representación abarrotada en la figura 1c y los errores en la transcripción introducen cierta discrepancia entre los números informados en Apicella et al. (2012) y los gráficos que recuperamos. En particular, nuestros gráficos tienen un total de 94 hombres y 97 mujeres, y 340 y 506 bordes en los gráficos masculino y femenino, respectivamente. Se trata de 14 personas y 417 candidaturas menos que las 205 personas y 1263 nominaciones que los autores informan. Por lo tanto, no use nuestro conteo como un conjunto de datos autorizado. Para mis propios fines, le pediré a Coren los datos brutos reales si encuentro una pregunta que creo que el modelado computacional puede responder.
  4. Mientras visitaba los campamentos, Coren contrató al Hadza en un juego de bienes públicos. Aunque los investigadores le han pedido al Hadza que juegue varios juegos económicos antes, generalmente el juego del ultimátum o dictador (por ejemplo, ver Henrich et al., 2001), esta era la primera vez que jugaban en el juego de bienes públicos. Las recompensas fueron en la miel, su comida más preferida (Marlowe y Berbesque, 2009), y se midió en barritas. Cada participante fue dotado con 4 palos de miel, y todos los que donaron para el bien público se multiplicaron por un factor de 3 y, después de que todos los compañeros de campamento adultos tomaran sus decisiones de contribución en privado, se distribuyeron entre todos los adultos en el campamento. Todos los campamentos tenían más de 4 residentes adultos.
  5. Por supuesto, también podemos seguir a Ohtsuki et al. (2007) y usa diferentes gráficos de interacción y reemplazo. Es más fácil justificar la red Hadza como un reemplazo por una red de imitación, diciendo que los bordes son vínculos de amistad; y usar la interacción de inviscid a nivel de campamento como lo analizo en el próximo párrafo. Por supuesto, si se adapta el enfoque completo de meta-red del siguiente párrafo, entonces la red Hadza se usa para actualizar los campamentos, pero la interacción y las redes de imitación pueden ser establecidas por la propia estructura del campamento invisible.
  6. Alternativamente, uno puede abrazar los bordes dirigidos modificando los modelos de la teoría del juego evolutivo y concentrándose en juegos no simétricos como el ultimátum o el dictador. Esto se conectaría con una gran literatura de economía conductual y antropología (como Henrich et al., 2001) y algunos estudios de modelado (como Nowak et al., 2000).
  7. Seleccionar egos al azar independientemente de su aptitud o estrategia es una simplificación potencialmente irracional. Cuando un Hadza deja su campamento, por alguna razón es como una disputa o escasez de recursos que puede estar estrechamente vinculada a la recompensa o estrategia de uno en las interacciones cooperativas. Afortunadamente, este tipo de estrategias de migración condicional ya están siendo exploradas por investigadores como C. Athena Aktipis (2004).

Aktipis, C.A. (2004). Know when to walk away: contingent movement and the evolution of cooperation. Journal of Theoretical Biology, 231(2): 249-260.

Apicella, C.L., Marlowe, F.W., Fowler, J.H., & Christakis, N.A. (2012). Social networks and cooperation in hunter-gatherers. Nature, 481 (7382), 497-501 PMID: 22281599

Crittenden, A. N., & Marlowe, F. W. (2008). Allomaternal care among the Hadza of Tanzania. Human Nature, 19(3): 249-262.

Gurven, M. (2004). To give and to give not: the behavioral ecology of human food transfers. Behavioral and Brain Sciences, 27(04), 543-559.

Harris, K.M., C.T. Halpern, E. Whitsel, J. Hussey, J. Tabor, P. Entzel, & Udry, J.R. (2009) The National Longitudinal Study of Adolescent to Adult Health: Research Design. [online].

Kaznatcheev, A., Montrey, M., & Shultz, T.R. (2014). Evolving useful delusions: Subjectively rational selfishness leads to objectively irrational cooperation. Proceedings of the 36th annual conference of the cognitive science society. arXiv: 1405.0041v1.

Marlowe, F. (2002). Why the Hadza are still hunter-gatherers. Ethnicity, huntergatherers, and the ‘Other’, ed. S. Kent, 247-81.

Marlowe, F.W. (2004). What explains Hadza food sharing? Research in Economic Anthropology, 23: 69-88.

Marlowe, F. W., & Berbesque, J. C. (2009). Tubers as fallback foods and their impact on Hadza hunter‐gatherers. American Journal of Physical Anthropology, 140(4): 751-758.

Marlowe, F.W. (2010). The Hadza: hunter-gatherers of Tanzania (Vol. 3). Univ. of California Press.

Nowak, M. A., Page, K. M., & Sigmund, K. (2000). Fairness versus reason in the ultimatum game. Science, 289(5485): 1773-1775.

Ohtsuki, H., Pacheco, J. M., & Nowak, M. A. (2007). Evolutionary graph theory: breaking the symmetry between interaction and replacement. Journal of Theoretical Biology, 246(4): 681-694.

Hill, K. (2002). Altruistic cooperation during foraging by the Ache, and the evolved human predisposition to cooperate. Human Nature, 13(1): 105-128.

Hill, K., & Hurtado, A. M. (2009). Cooperative breeding in South American hunter–gatherers. Proceedings of the Royal Society of London B: Biological Sciences, rspb20091061.

 

viernes, 22 de junio de 2018

Centralidad en redes ponderadas

Centralidad de nodo en redes ponderadas

Tore Opsahl


La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978; Bonacich, 1987; Borgatti, 2005; Borgatti et al., 2006). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Para ejemplificar su idea, utilizó una red que consta de 5 nodos. El nodo medio tiene tres ventajas sobre los otros nodos: tiene más vínculos, puede alcanzar a todos los demás más rápidamente y controla el flujo entre los demás. Con base en estas tres características, Freeman (1978) formalizó tres medidas diferentes de la centralidad del nodo: grado, cercanía e interdependencia. Grado es la cantidad de nodos a los que está conectado un nodo focal y mide la participación del nodo en la red. Su simplicidad es una ventaja: solo debe conocerse la estructura local alrededor de un nodo para que se calcule (p. Ej., Cuando se utilizan datos de la Encuesta social general, McPherson et al., 2001). Sin embargo, existen limitaciones: la medida no toma en consideración la estructura global de la red. Por ejemplo, aunque un nodo podría estar conectado a muchos otros, podría no estar en condiciones de alcanzar a otros rápidamente para acceder a los recursos, como la información o el conocimiento (Borgatti, 2005; Brass, 1984). Para capturar esta característica, la centralidad de cercanía se definió como la suma inversa de las distancias más cortas a todos los demás nodos desde un nodo focal. Una de las principales limitaciones de la cercanía es la falta de aplicabilidad a las redes con componentes desconectados (consulte Centralidad de proximidad en redes con componentes desconectados). La última de las tres medidas, betweenness, evalúa el grado en que un nodo se encuentra en la ruta más corta entre otros dos nodos y puede canalizar el flujo en la red. Al hacerlo, un nodo puede ejercer control sobre el flujo. Si bien esta medida tiene en cuenta la estructura de red global y puede aplicarse a redes con componentes desconectados, no deja de tener sus limitaciones. Por ejemplo, una gran proporción de nodos en una red generalmente no se encuentra en la ruta más corta entre ninguno de los otros dos nodos, y por lo tanto recibe la misma puntuación de 0.

 
Una red de estrella con 5 nodos y 4 enlaces. El tamaño de los nodos corresponde al grado de los nodos. Adaptado de Freeman (1978) y Opsahl et al. (2010).



Las tres medidas se han generalizado a redes ponderadas. En un primer conjunto de generalizaciones, Barrat et al. (2004) grado generalizado tomando la suma de pesos en lugar de los nudos, mientras que Newman (2001) y Brandes (2001) utilizaron el algoritmo de Dijkstra (1959) de caminos más cortos para generalizar la cercanía y la interdependencia a redes ponderadas, respetuosamente (ver Rutas más cortas en Weighted Networks para más detalles). Estas generalizaciones se centraron únicamente en los pesos vinculados e ignoraron la característica original de las medidas: el número de vínculos. Como tal, un segundo conjunto de generalización fue propuesto por Opsahl et al. (2010) que incorpora tanto el número de vínculos como los pesos de enlace utilizando un parámetro de ajuste.

Grado

El grado es la más simple de las medidas de centralidad del nodo al usar la estructura local solo alrededor de los nodos. En una red binaria, el grado es el número de vínculos que tiene un nodo. En una red dirigida, un nodo puede tener un número diferente de enlaces salientes y entrantes, y por lo tanto, el grado se divide en grado y grado, respectivamente.

Por lo general, el grado se ha extendido a la suma de ponderaciones cuando se analizan las redes ponderadas (Barrat et al., 2004; Newman, 2004; Opsahl et al., 2008) y la resistencia del nodo etiquetada. Es igual a la definición tradicional de grado si la red es binaria (es decir, cada vínculo tiene un peso de 1). Por el contrario, en las redes ponderadas, los resultados de estas dos medidas son diferentes. Como la fuerza del nodo toma en consideración el peso de los enlaces, esta ha sido la medida preferida para analizar las redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008). Sin embargo, la fortaleza del nodo es una medida contundente, ya que solo toma en consideración el nivel total de participación de un nodo en la red, y no toma en cuenta la característica principal de las medidas originales formalizadas por Freeman (1978): el número de vínculos. Esta limitación se destaca por la centralidad de grado de las tres redes de ego de la tercera red EIES de Freeman. Los tres nodos han enviado aproximadamente la misma cantidad de mensajes; sin embargo, a un número bastante diferente de otros. Si se aplicó la medida original de Freeman (1978), el puntaje de centralidad del nodo en el panel A es casi cinco veces más alto que el nodo en el panel C. Sin embargo, al usar la generalización de Barrat et al., Obtienen aproximadamente el mismo puntaje.




Redes Ego de Phipps Arabie (A), John Boyd (B) y Maureen Hallinan (C) de la tercera red EIES de Freeman. El ancho de un enlace corresponde a la cantidad de mensajes enviados desde el nodo focal a sus contactos. Adoptado de Opsahl et al. (2010).


En un intento de combinar el grado y la fuerza, Opsahl et al. (2010) utilizó un parámetro de ajuste para establecer la importancia relativa de la cantidad de vínculos en comparación con los pesos de enlace. Específicamente, la medida de centralidad de grado propuesta fue el producto de la cantidad de nodos a los que está conectado un nodo focal y el peso promedio de estos nodos ajustado por el parámetro de ajuste. Hay dos valores de referencia para el parámetro de ajuste (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproducen las medidas existentes (Barrat et al., 2004; Freeman, 1978). Si el parámetro se establece en el valor de referencia de 0, los resultados de las medidas se basan únicamente en el número de vínculos, y son iguales a la encontrada al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todas las los lazos con un peso mayor a 0 se configuran como presentes. Al hacerlo, los pesos vinculados son completamente ignorados. Por el contrario, si el valor del parámetro es 1, la medida se basa solamente en los pesos de empate y es idéntica a la generalización ya propuesta (Barrat et al., 2004). Esto implica que no se tiene en cuenta el número de vínculos. La siguiente tabla destaca las diferencias entre las medidas de grado.
.
Nodo Grado medido por
Freeman (1978) Barrat et al. (2004) Opsahl et al. (2010; alpha=0.5) Opsahl et al. (2010; alpha=1.5)
Phipps Arabie (A) 28 155 66 365
John Boyd (B) 11 188 45 777
Maureen Hallinan (C) 6 227 37 1396

Para calcular las puntuaciones de grado de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de grado de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el R-package tnet.
1
2
3
4
5
6
7
8
9
10
11
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the out-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5)
# Calculate the in-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5, type="in")


Cercanía



La cercanía se define como la inversa de la lejanía, que a su vez es la suma de las distancias a todos los demás nodos (Freeman, 1978). La intención detrás de esta medida fue identificar los nodos que podrían llegar a otros rápidamente. Una limitación principal de la cercanía es la falta de aplicabilidad a redes con componentes desconectados: dos nodos que pertenecen a diferentes componentes no tienen una distancia finita entre ellos. Por lo tanto, la cercanía generalmente está restringida a los nodos dentro del componente más grande de una red. La publicación de blog Closeness Centrality in Networks with Disconnected Components sugiere un método para superar esta limitación,

La cercanía se ha generalizado a las redes ponderadas por Newman (2001), que utilizó el algoritmo de Dijkstra (1959) (para obtener más detalles, consulte Trayectos más cortos en Redes ponderadas). Para reiterar rápidamente el trabajo de Dijkstra (1959) y de Newman (2001) aquí:
  1. Dijkstra (1959) propuso un algoritmo para encontrar las rutas más cortas en una red donde los pesos podrían considerarse costos. La ruta menos costosa que conecta dos nodos fue la ruta más corta entre ellos (por ejemplo, una red de carreteras donde cada tramo de carretera tiene un costo de tiempo asignado).
  2. Newman (2001) transformó los pesos positivos en una red de colaboración en costos invirtiéndolos (dividiendo 1 por el peso).
  3. Sobre la base de los pesos invertidos, Newman (2001) aplicó el algoritmo de Dijkstra y encontró los caminos menos costosos entre todos los nodos.
  4. El costo total de las rutas de un nodo a todos los demás fue una medida de lejanía: cuanto mayor es el número, más cuesta que un nodo llegue a todos los otros nodos. Para crear una medida de proximidad, Newman (2001) siguió a Freeman (1978) e invirtió los números (1 dividido por la lejanía). Por lo tanto, una alta lejanía se transformó en una baja cercanía, y una baja lentitud se transformó en una gran cercanía.

De forma similar a la generalización de grado de Barrat et al. (2004), el algoritmo generalizado de Newman (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas se puede aplicar para determinar la longitud de ellas.

Para calcular las puntuaciones de cercanía de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de cercanía de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el paquete de R tnet.




.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the binary closeness scores
closeness_w(net=celegans.n306.net, alpha=0)
# Calculate the first generation weighted closeness scores
closeness_w(net=celegans.n306.net, alpha=1)
# Calculate the second generation weighted closeness scores (alpha=0.5)
closeness_w(net=celegans.n306.net, alpha=0.5)

Intermediación

La medida en que un nodo forma parte de las transacciones entre otros nodos se puede estudiar utilizando la medida de interdependencia de Freeman (1978). En la red de muestra de la derecha, si los enlaces no tenían un peso asignado, las líneas grises intermitentes representan las 9 rutas más cortas de la red que pasan por nodos intermedios. El nodo resaltado es un intermedio en 8 de estas rutas. Esto le dará a este nodo una puntuación de interinidad de 8.



Brandes (2001) propuso un nuevo algoritmo para calcular la interrelación más rápido. Además de reducir el tiempo, este algoritmo también relajó la suposición de que los vínculos debían estar presentes o ausentes (es decir, una red binaria) y permitió que se calculase la interdependencia en redes ponderadas (tenga en cuenta que esta generalización es independiente de la medida de flujo propuesta por Freeman et al., 1991, que podría ser más apropiado en ciertos entornos). Esta generalización tiene en cuenta que, en las redes ponderadas, la transacción entre dos nodos podría ser más rápida a lo largo de las rutas con más nodos intermedios que están fuertemente conectados que las rutas con menos nodos intermedios débilmente conectados. Esto se debe al hecho de que los nodos intermedios fuertemente conectados tienen, por ejemplo, un contacto más frecuente que los conectados débilmente. Por ejemplo, el vínculo entre el nodo superior izquierdo y el nodo focal en la red de muestra anterior tiene cuatro veces la fuerza del enlace entre el nodo inferior izquierdo y el nodo focal. Esto podría significar que el nodo superior izquierdo tiene contacto más frecuente con el nodo focal que el nodo inferior izquierdo. A su vez, esto podría implicar que el nodo superior izquierdo podría dar al nodo focal una información (o una enfermedad) cuatro veces más rápido que el nodo inferior izquierdo. Si estamos estudiando los nodos que con mayor probabilidad canalizan información o enfermedades en una red, entonces la velocidad a la que viaja y las rutas que lleva se ven claramente afectadas por los pesos. La identificación de las rutas más cortas en redes ponderadas también se puede utilizar al identificar los nodos que canalizan transacciones entre otros nodos en redes ponderadas. Si suponemos que las transacciones en una red ponderada siguen las rutas más cortas identificadas por el algoritmo de Dijkstra en lugar de la que tiene el menor número de nodos intermedios, entonces el número de rutas más cortas que pasan por un nodo podría cambiar.

.
Nodo Medida de intermediación de
Freeman (1978) Brandes (2001) Opsahl et al. (2010; alpha=0.5)
1 0 4 0
2 8 8 8
3 0 0 0
4 0 0 0
5 4 4 4
6 0 0 0


Ahora, el nodo 1 (A) también obtuvo una puntuación de interdependencia de 4. Esto se debe a que se usa la ruta indirecta desde el nodo B al nodo C hasta A en lugar de la conexión directa.

De forma similar a la generalización de proximidad de Newman (2001), el algoritmo generalizado de Brandes (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas también puede aplicarse para identificarlas.

Para calcular las puntuaciones de interdete de los nodos, a continuación se muestra un código de muestra para producir las tres tablas anteriores utilizando el paquete de R de tnet.
.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Manually enter the example network
net <- cbind(
i=c(1,1,2,2,2,2,3,3,4,5,5,6),
j=c(2,3,1,3,4,5,1,2,2,2,6,5),
w=c(4,2,4,1,4,2,2,1,4,2,1,1))
# Calculate the binary betweenness measure
betweenness_w(net, alpha=0)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=1)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=0.5)

 Nota: La implementación del algoritmo de Brandes (2001) encuentra múltiples rutas si tienen exactamente la misma distancia. Por ejemplo, si se encuentra un camino sobre el empate directo con un peso de 1 (distancia = 1/1 = 1) y un segundo camino es a través de un nodo intermediario con dos empates con pesos de 2 (distancia = 1/2 + 1 / 2 = 1), las dos rutas tienen exactamente la misma distancia. Sin embargo, si hay un tercer camino a través de dos intermediarios con tres vínculos con pesos de 3 (distancia = 1/3 + 1/3 + 1/3), no es exactamente igual a 1 ya que las computadoras leen estos valores como 0.3333333 y la suma de estos valores es 0.9999999. Por lo tanto, esta ruta se considera más corta que las otras dos rutas (distancia = 1).

Referencias

Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752. arXiv:cond-mat/0311416
Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Freeman, L. C., Borgatti, S. P., White, D. R., 1991. Centrality in valued graphs: A measure of betweenness based on network flow. Social Networks 13 (2), 141-154.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251.