Mostrando entradas con la etiqueta centralidad de intermediación. Mostrar todas las entradas
Mostrando entradas con la etiqueta centralidad de intermediación. Mostrar todas las entradas

lunes, 18 de mayo de 2020

ARS 101: Centralidad de intermediación (en Nodus Lab)

Centralidad de intermediación: Árbitros de tópicos

Dmitry Paranyushkin || Nodus Lab





En el contexto de la teoría de grafos y la ciencia de redes, la centralidad de intermediación es una medida importante de la influencia del nodo dentro de toda la red. Mientras que el grado simplemente muestra el número de conexiones que tiene un nodo, la centralidad de intermediación muestra con qué frecuencia el nodo aparece en la ruta más corta entre dos nodos elegidos al azar en una red (Brandes 2001).

Por lo tanto, la centralidad de intermediación es una medida de influencia mucho mejor porque tiene en cuenta toda la red, no solo la conectividad local a la que pertenece el nodo.

En el contexto del análisis de la red de texto, los nodos con una alta centralidad de intermediación sirven como 'encrucijada' para las vías de significado o intermediarios tópicos, a menudo vinculando los diferentes contextos o grupos temáticos juntos. Pueden ser los nodos que no solo se usan con más frecuencia, sino que también ocurren en los cambios narrativos, vinculando diferentes temas en un texto.

En la visualización de red, a menudo, los tamaños de nodo varían según su grado o centralidad de intermediación para indicar los nodos más influyentes (se muestran más grandes en los grafos InfraNodus).

Estos nodos con la centralidad de intermediación más alta se muestran en el panel Analytics> Essence> Most Influential Elements, así como en el panel Insight> Topical Brokers.




Ejemplo de red social: intermediación, centralidad e influencia


Puede ser más fácil comprender la noción de centralidad de intermediación utilizando un ejemplo de red social. En el contexto del análisis de redes sociales, los nodos con la centralidad de intermediación más alta son las personas que tienden a tener no solo muchas conexiones, sino también el mayor nivel de diversidad de esas conexiones.

Es decir, es posible que no conozca a tantas personas, pero si las personas que conoce brindan acceso a las diversas comunidades, entonces, dado que no hay otras personas mejor posicionadas que usted en la red, tendrá una alta centralidad de intermediación.

Por ejemplo, supongamos que tenemos una red social. Habrá algunos nodos que tendrán menos conexiones pero una mayor centralidad de intermediación si brindan un camino hacia la parte de la comunidad, que de lo contrario es inalcanzable. Es decir, un nodo puede tener una centralidad de alto grado pero baja intermediación. Esto indica que está bien conectado dentro del clúster al que pertenece, pero no tan bien conectado con el resto de los nodos que pertenecen a los otros clústeres dentro de la red. Dichos nodos pueden tener una gran influencia local, pero no globalmente en toda la red.


Dinámica de influencia de la red

Alternativamente, otros nodos pueden tener una centralidad de bajo grado pero alta intermediación. Es posible que dichos nodos tengan menos conexiones, pero las conexiones que tienen están vinculando diferentes grupos y clústeres, lo que hace que dichos nodos tengan influencia en toda la red. De hecho, muchos networkers y políticos eficientes a menudo intercambiarán cierto grado por la centralidad intermedia, ya que reduce drásticamente su carga mientras mantienen su posición central dentro de la red.

En el ejemplo anterior, "Sean" es un nodo con una centralidad de intermediación baja, mientras que "Usted" tiene una centralidad de intermediación alta. "Usted" está conectado a todos los nodos diferentes dentro de un grupo, a excepción de Sean, mientras que Sean solo está conectado a Mark. Sin embargo, si Sean hace enlaces tanto a Sergey como a Larry en el primer grupo, se conecta a Priscilla y mantiene su enlace a Mark, tendrá una centralidad de intermediación más alta que Usted, porque conecta todos los diferentes grupos que existen dentro de la red , a pesar de que tienes más conexiones que Sean.

jueves, 1 de agosto de 2019

Modelando las redes a través de la centralidad de intermediación

Nuevo mecanismo de modelado podría cambiar la forma en que vemos las redes sociales


por Dan Carroll, Ingeniería Eléctrica e Informática de la Universidad Carnegie Mellon
TechXplore



Crédito: Universidad Carnegie Mellon.



Los recientes intentos de alto perfil para manipular la percepción y el sentimiento del público a través de las redes sociales han demostrado que es posible que no sepamos tanto sobre la formulación y la evolución de las redes sociales como creemos.

Fue esta brecha en la comprensión lo que motivó a Radu Marculescu, profesor de Kavčić-Moura del Departamento de Ingeniería Eléctrica e Informática de Carnegie Mellon, a ser coautor de un artículo en Scientific Reports que describe un nuevo modelo de cómo las redes sociales cambian y se desarrollan con el tiempo. La investigación, realizada en estrecha colaboración con Mihai Udrescu y Alex Topirceanu del Departamento de Ciencias de la Computación de la Universidad Politehnica de Timişoara, Rumania, propone lo que los autores denominan el modelo de Adjunto Preferencial de Interferencia Ponderada (WBPA).

Al modelar redes sociales, un nodo representa a un solo individuo, y las conexiones entre nodos representan relaciones entre individuos. Los modelos anteriores se han centrado en la cantidad de conexiones que tiene un individuo, también llamado grado de nodo, como la fuerza impulsora detrás de un nodo que adquiere nuevas conexiones.

Por el contrario, el núcleo del nuevo modelo WBPA se centra en la noción de "nodos intermedios". Él y sus colaboradores descubrieron que esta calidad de ser entre comunidades es en realidad un mayor atractivo y motor para la formación de lazos sociales que otras medidas de centralidad como el grado de nodo. En el WBPA, en lugar de examinar únicamente la cantidad de conexiones que tiene un solo nodo, los investigadores ponen más énfasis en las comunidades que conecta un nodo y la calidad de esas conexiones.

"Cuando las personas hacen evaluaciones del atractivo social en situaciones del mundo real, no confían en la ejecución de algoritmos u otros tipos de evaluaciones cuantitativas complejas", dice Marculescu. "En cambio, los individuos toman decisiones basadas en sus percepciones cualitativas. Como tal, la calidad de estar 'en el medio' se puede percibir fácil y rápidamente".

El modelo WBPA también supera otra limitación encontrada en modelos anteriores basados ​​en grados, que permiten que el grado de nodo individual crezca indefinidamente. Esto equivaldría a que un individuo pueda desarrollar un número ilimitado de amistades, un escenario que obviamente es imposible.

"El nuevo modelo se basa en la idea de que los humanos son mejores observando aspectos cualitativos que cuantitativos, por lo que las personas suelen favorecer la inversión en menos lazos sociales cualitativos en lugar de numerosos lazos de menor calidad", dice Marculescu. "Es por eso que hay un proceso de redistribución de nodos intermedios en juego en el WBPA, que limita la cantidad de nuevos enlaces para nodos de alto grado".


Crédito: Universidad Carnegie Mellon.

Este proceso de redistribución explica las limitaciones físicas y mentales del mundo real, lo que limita la cantidad de relaciones que un individuo determinado puede desarrollar y mantener a lo largo de su vida.

Finalmente, el WBPA también puede ofrecer información sobre los posibles medios de un individuo para mejorar su estatus social. Un individuo puede aumentar su influencia personal al ampliar su vecindario a agentes influyentes, lo que a su vez puede provocar un aumento en la fuerza de sus conexiones con los demás.


Crédito: Universidad Carnegie Mellon.

Si bien esta investigación se centra específicamente en las redes sociales, el modelo WBPA podría tener aplicaciones interesantes en todo, desde modelar microbiomas hasta predecir las propiedades de nuevos medicamentos y medicamentos.

El próximo objetivo de Marculescu y sus colaboradores es utilizar los resultados del modelo WBPA para investigar cómo se difunden las opiniones a través de las redes sociales y qué tan robustas pueden actuar estas redes ante los ataques adversos.

miércoles, 17 de octubre de 2018

Capital social como estructura social de la corrupción

El capital social predice el riesgo de corrupción en las ciudades 

Johannes Wachs, Taha Yasseri, Balázs Lengyel, János Kertész





La corrupción es una plaga social: las ganancias se acumulan en grupos pequeños, mientras que sus costos son asumidos por todos. Una variación significativa en su nivel entre y dentro de los países sugiere una relación entre la estructura social y la prevalencia de la corrupción, sin embargo, faltan estudios empíricos a gran escala debido a la falta de datos. En este documento relacionamos las características estructurales del capital social de las ciudades con la corrupción en sus gobiernos locales. Al usar conjuntos de datos de Hungría, cuantificamos el riesgo de corrupción mediante la supresión de la competencia y la falta de transparencia en los contratos públicos adjudicados de la ciudad. Caracterizamos el capital social utilizando datos de redes sociales de una plataforma en línea popular. Al controlar los factores sociales, económicos y políticos, encontramos que los asentamientos con redes sociales fragmentadas, que indican un exceso de bonding social capital tienen un mayor riesgo de corrupción y las ciudades con conectividad externa más diversa, lo que sugiere un excedente de bridging social capital está menos expuesto a la corrupción. Interpretamos que la fragmentación fomenta el favoritismo y la conformidad en el grupo, lo que aumenta la corrupción, mientras que la diversidad facilita la imparcialidad en la vida pública y reprime la corrupción.

Cite as: arXiv:1810.05485 [cs.SI]
  (or arXiv:1810.05485v1 [cs.SI] for this version)


miércoles, 18 de julio de 2018

Blogósfera singapuresa

Imágenes SVG con Pajek

Dr. Steven McDermott

Los nodos / vértices de la Blogosfera de Singapur 1239 representados usando svg export on pajek.


La blogósfera de Singapur


Blogósfera de Singapur: el tamaño del nodo denota la centralidad de la interrelación

Blogósfera de Singapur: el tamaño del nodo denota la centralidad de la interrelación

viernes, 22 de junio de 2018

Centralidad en redes ponderadas

Centralidad de nodo en redes ponderadas

Tore Opsahl


La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978; Bonacich, 1987; Borgatti, 2005; Borgatti et al., 2006). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Para ejemplificar su idea, utilizó una red que consta de 5 nodos. El nodo medio tiene tres ventajas sobre los otros nodos: tiene más vínculos, puede alcanzar a todos los demás más rápidamente y controla el flujo entre los demás. Con base en estas tres características, Freeman (1978) formalizó tres medidas diferentes de la centralidad del nodo: grado, cercanía e interdependencia. Grado es la cantidad de nodos a los que está conectado un nodo focal y mide la participación del nodo en la red. Su simplicidad es una ventaja: solo debe conocerse la estructura local alrededor de un nodo para que se calcule (p. Ej., Cuando se utilizan datos de la Encuesta social general, McPherson et al., 2001). Sin embargo, existen limitaciones: la medida no toma en consideración la estructura global de la red. Por ejemplo, aunque un nodo podría estar conectado a muchos otros, podría no estar en condiciones de alcanzar a otros rápidamente para acceder a los recursos, como la información o el conocimiento (Borgatti, 2005; Brass, 1984). Para capturar esta característica, la centralidad de cercanía se definió como la suma inversa de las distancias más cortas a todos los demás nodos desde un nodo focal. Una de las principales limitaciones de la cercanía es la falta de aplicabilidad a las redes con componentes desconectados (consulte Centralidad de proximidad en redes con componentes desconectados). La última de las tres medidas, betweenness, evalúa el grado en que un nodo se encuentra en la ruta más corta entre otros dos nodos y puede canalizar el flujo en la red. Al hacerlo, un nodo puede ejercer control sobre el flujo. Si bien esta medida tiene en cuenta la estructura de red global y puede aplicarse a redes con componentes desconectados, no deja de tener sus limitaciones. Por ejemplo, una gran proporción de nodos en una red generalmente no se encuentra en la ruta más corta entre ninguno de los otros dos nodos, y por lo tanto recibe la misma puntuación de 0.

 
Una red de estrella con 5 nodos y 4 enlaces. El tamaño de los nodos corresponde al grado de los nodos. Adaptado de Freeman (1978) y Opsahl et al. (2010).



Las tres medidas se han generalizado a redes ponderadas. En un primer conjunto de generalizaciones, Barrat et al. (2004) grado generalizado tomando la suma de pesos en lugar de los nudos, mientras que Newman (2001) y Brandes (2001) utilizaron el algoritmo de Dijkstra (1959) de caminos más cortos para generalizar la cercanía y la interdependencia a redes ponderadas, respetuosamente (ver Rutas más cortas en Weighted Networks para más detalles). Estas generalizaciones se centraron únicamente en los pesos vinculados e ignoraron la característica original de las medidas: el número de vínculos. Como tal, un segundo conjunto de generalización fue propuesto por Opsahl et al. (2010) que incorpora tanto el número de vínculos como los pesos de enlace utilizando un parámetro de ajuste.

Grado

El grado es la más simple de las medidas de centralidad del nodo al usar la estructura local solo alrededor de los nodos. En una red binaria, el grado es el número de vínculos que tiene un nodo. En una red dirigida, un nodo puede tener un número diferente de enlaces salientes y entrantes, y por lo tanto, el grado se divide en grado y grado, respectivamente.

Por lo general, el grado se ha extendido a la suma de ponderaciones cuando se analizan las redes ponderadas (Barrat et al., 2004; Newman, 2004; Opsahl et al., 2008) y la resistencia del nodo etiquetada. Es igual a la definición tradicional de grado si la red es binaria (es decir, cada vínculo tiene un peso de 1). Por el contrario, en las redes ponderadas, los resultados de estas dos medidas son diferentes. Como la fuerza del nodo toma en consideración el peso de los enlaces, esta ha sido la medida preferida para analizar las redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008). Sin embargo, la fortaleza del nodo es una medida contundente, ya que solo toma en consideración el nivel total de participación de un nodo en la red, y no toma en cuenta la característica principal de las medidas originales formalizadas por Freeman (1978): el número de vínculos. Esta limitación se destaca por la centralidad de grado de las tres redes de ego de la tercera red EIES de Freeman. Los tres nodos han enviado aproximadamente la misma cantidad de mensajes; sin embargo, a un número bastante diferente de otros. Si se aplicó la medida original de Freeman (1978), el puntaje de centralidad del nodo en el panel A es casi cinco veces más alto que el nodo en el panel C. Sin embargo, al usar la generalización de Barrat et al., Obtienen aproximadamente el mismo puntaje.




Redes Ego de Phipps Arabie (A), John Boyd (B) y Maureen Hallinan (C) de la tercera red EIES de Freeman. El ancho de un enlace corresponde a la cantidad de mensajes enviados desde el nodo focal a sus contactos. Adoptado de Opsahl et al. (2010).


En un intento de combinar el grado y la fuerza, Opsahl et al. (2010) utilizó un parámetro de ajuste para establecer la importancia relativa de la cantidad de vínculos en comparación con los pesos de enlace. Específicamente, la medida de centralidad de grado propuesta fue el producto de la cantidad de nodos a los que está conectado un nodo focal y el peso promedio de estos nodos ajustado por el parámetro de ajuste. Hay dos valores de referencia para el parámetro de ajuste (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproducen las medidas existentes (Barrat et al., 2004; Freeman, 1978). Si el parámetro se establece en el valor de referencia de 0, los resultados de las medidas se basan únicamente en el número de vínculos, y son iguales a la encontrada al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todas las los lazos con un peso mayor a 0 se configuran como presentes. Al hacerlo, los pesos vinculados son completamente ignorados. Por el contrario, si el valor del parámetro es 1, la medida se basa solamente en los pesos de empate y es idéntica a la generalización ya propuesta (Barrat et al., 2004). Esto implica que no se tiene en cuenta el número de vínculos. La siguiente tabla destaca las diferencias entre las medidas de grado.
.
Nodo Grado medido por
Freeman (1978) Barrat et al. (2004) Opsahl et al. (2010; alpha=0.5) Opsahl et al. (2010; alpha=1.5)
Phipps Arabie (A) 28 155 66 365
John Boyd (B) 11 188 45 777
Maureen Hallinan (C) 6 227 37 1396

Para calcular las puntuaciones de grado de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de grado de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el R-package tnet.
1
2
3
4
5
6
7
8
9
10
11
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the out-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5)
# Calculate the in-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5, type="in")


Cercanía



La cercanía se define como la inversa de la lejanía, que a su vez es la suma de las distancias a todos los demás nodos (Freeman, 1978). La intención detrás de esta medida fue identificar los nodos que podrían llegar a otros rápidamente. Una limitación principal de la cercanía es la falta de aplicabilidad a redes con componentes desconectados: dos nodos que pertenecen a diferentes componentes no tienen una distancia finita entre ellos. Por lo tanto, la cercanía generalmente está restringida a los nodos dentro del componente más grande de una red. La publicación de blog Closeness Centrality in Networks with Disconnected Components sugiere un método para superar esta limitación,

La cercanía se ha generalizado a las redes ponderadas por Newman (2001), que utilizó el algoritmo de Dijkstra (1959) (para obtener más detalles, consulte Trayectos más cortos en Redes ponderadas). Para reiterar rápidamente el trabajo de Dijkstra (1959) y de Newman (2001) aquí:
  1. Dijkstra (1959) propuso un algoritmo para encontrar las rutas más cortas en una red donde los pesos podrían considerarse costos. La ruta menos costosa que conecta dos nodos fue la ruta más corta entre ellos (por ejemplo, una red de carreteras donde cada tramo de carretera tiene un costo de tiempo asignado).
  2. Newman (2001) transformó los pesos positivos en una red de colaboración en costos invirtiéndolos (dividiendo 1 por el peso).
  3. Sobre la base de los pesos invertidos, Newman (2001) aplicó el algoritmo de Dijkstra y encontró los caminos menos costosos entre todos los nodos.
  4. El costo total de las rutas de un nodo a todos los demás fue una medida de lejanía: cuanto mayor es el número, más cuesta que un nodo llegue a todos los otros nodos. Para crear una medida de proximidad, Newman (2001) siguió a Freeman (1978) e invirtió los números (1 dividido por la lejanía). Por lo tanto, una alta lejanía se transformó en una baja cercanía, y una baja lentitud se transformó en una gran cercanía.

De forma similar a la generalización de grado de Barrat et al. (2004), el algoritmo generalizado de Newman (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas se puede aplicar para determinar la longitud de ellas.

Para calcular las puntuaciones de cercanía de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de cercanía de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el paquete de R tnet.




.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the binary closeness scores
closeness_w(net=celegans.n306.net, alpha=0)
# Calculate the first generation weighted closeness scores
closeness_w(net=celegans.n306.net, alpha=1)
# Calculate the second generation weighted closeness scores (alpha=0.5)
closeness_w(net=celegans.n306.net, alpha=0.5)

Intermediación

La medida en que un nodo forma parte de las transacciones entre otros nodos se puede estudiar utilizando la medida de interdependencia de Freeman (1978). En la red de muestra de la derecha, si los enlaces no tenían un peso asignado, las líneas grises intermitentes representan las 9 rutas más cortas de la red que pasan por nodos intermedios. El nodo resaltado es un intermedio en 8 de estas rutas. Esto le dará a este nodo una puntuación de interinidad de 8.



Brandes (2001) propuso un nuevo algoritmo para calcular la interrelación más rápido. Además de reducir el tiempo, este algoritmo también relajó la suposición de que los vínculos debían estar presentes o ausentes (es decir, una red binaria) y permitió que se calculase la interdependencia en redes ponderadas (tenga en cuenta que esta generalización es independiente de la medida de flujo propuesta por Freeman et al., 1991, que podría ser más apropiado en ciertos entornos). Esta generalización tiene en cuenta que, en las redes ponderadas, la transacción entre dos nodos podría ser más rápida a lo largo de las rutas con más nodos intermedios que están fuertemente conectados que las rutas con menos nodos intermedios débilmente conectados. Esto se debe al hecho de que los nodos intermedios fuertemente conectados tienen, por ejemplo, un contacto más frecuente que los conectados débilmente. Por ejemplo, el vínculo entre el nodo superior izquierdo y el nodo focal en la red de muestra anterior tiene cuatro veces la fuerza del enlace entre el nodo inferior izquierdo y el nodo focal. Esto podría significar que el nodo superior izquierdo tiene contacto más frecuente con el nodo focal que el nodo inferior izquierdo. A su vez, esto podría implicar que el nodo superior izquierdo podría dar al nodo focal una información (o una enfermedad) cuatro veces más rápido que el nodo inferior izquierdo. Si estamos estudiando los nodos que con mayor probabilidad canalizan información o enfermedades en una red, entonces la velocidad a la que viaja y las rutas que lleva se ven claramente afectadas por los pesos. La identificación de las rutas más cortas en redes ponderadas también se puede utilizar al identificar los nodos que canalizan transacciones entre otros nodos en redes ponderadas. Si suponemos que las transacciones en una red ponderada siguen las rutas más cortas identificadas por el algoritmo de Dijkstra en lugar de la que tiene el menor número de nodos intermedios, entonces el número de rutas más cortas que pasan por un nodo podría cambiar.

.
Nodo Medida de intermediación de
Freeman (1978) Brandes (2001) Opsahl et al. (2010; alpha=0.5)
1 0 4 0
2 8 8 8
3 0 0 0
4 0 0 0
5 4 4 4
6 0 0 0


Ahora, el nodo 1 (A) también obtuvo una puntuación de interdependencia de 4. Esto se debe a que se usa la ruta indirecta desde el nodo B al nodo C hasta A en lugar de la conexión directa.

De forma similar a la generalización de proximidad de Newman (2001), el algoritmo generalizado de Brandes (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas también puede aplicarse para identificarlas.

Para calcular las puntuaciones de interdete de los nodos, a continuación se muestra un código de muestra para producir las tres tablas anteriores utilizando el paquete de R de tnet.
.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Manually enter the example network
net <- cbind(
i=c(1,1,2,2,2,2,3,3,4,5,5,6),
j=c(2,3,1,3,4,5,1,2,2,2,6,5),
w=c(4,2,4,1,4,2,2,1,4,2,1,1))
# Calculate the binary betweenness measure
betweenness_w(net, alpha=0)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=1)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=0.5)

 Nota: La implementación del algoritmo de Brandes (2001) encuentra múltiples rutas si tienen exactamente la misma distancia. Por ejemplo, si se encuentra un camino sobre el empate directo con un peso de 1 (distancia = 1/1 = 1) y un segundo camino es a través de un nodo intermediario con dos empates con pesos de 2 (distancia = 1/2 + 1 / 2 = 1), las dos rutas tienen exactamente la misma distancia. Sin embargo, si hay un tercer camino a través de dos intermediarios con tres vínculos con pesos de 3 (distancia = 1/3 + 1/3 + 1/3), no es exactamente igual a 1 ya que las computadoras leen estos valores como 0.3333333 y la suma de estos valores es 0.9999999. Por lo tanto, esta ruta se considera más corta que las otras dos rutas (distancia = 1).

Referencias

Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752. arXiv:cond-mat/0311416
Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Freeman, L. C., Borgatti, S. P., White, D. R., 1991. Centrality in valued graphs: A measure of betweenness based on network flow. Social Networks 13 (2), 141-154.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251. 

sábado, 16 de junio de 2018

Centralidad en redes de dos modos


Centralidad de nodo en redes de dos modos

Tore Opsahl

La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Con base en este concepto, formalizó tres medidas: grado, cercanía y entrecruzamiento. Para obtener una información más completa sobre estas medidas, vea Centralidad de nodos en Redes ponderadas.

Grado

Grado es el número de vínculos que tiene un nodo o el número de otros nodos a los que está conectado un nodo. En redes de dos modos, este concepto se puede aplicar directamente. Sin embargo, hay algunas complicaciones. En redes de dos modos, "la cantidad de otros nodos a los que está conectado un nodo" es ambigua. Podría ser el número de nodos secundarios a los que está conectado un nodo primario (y viceversa), o el número de nodos primarios a los que está conectado un nodo primario. Para aclarar la diferencia entre estos dos números, me referí a ellos como nodos de dos modos y un modo, respectivamente. Para ejemplificar la diferencia, la imagen a continuación muestra la red local que rodea a Flora en el Dataset de mujeres sureñas de Davis (1940) (adaptado de Opsahl, 2011).





La red local que rodea a Flora
Como se puede ver en este diagrama, el grado de dos modos de Flora es 2 y el grado de 1 modo es 12. Si la red se proyectó a una red de modo único, la medida de grado estándar sería 12.

También es posible obtener el grado de dos modos de los nodos una vez que se ha proyectado una red utilizando el método de Newman (2001). Este método de proyección fue desarrollado para las redes de coautoría científica, y establece el peso del empate entre dos autores igual a la suma en los trabajos co-autoescritos de 1 sobre el número de autores en ese documento menos 1. En otras palabras, para cada coautoría papel, un nodo divide 1 por los otros autores. Como tal, el peso total del empate es igual al número de documentos coautores. La única diferencia entre este método y el grado de dos modos son los trabajos de autor único. Estos están excluidos en el primero e incluidos en el segundo método.

Cercanía e intermediación

La parte principal de las medidas de proximidad y de interdependencia son los caminos más cortos y su longitud. La cercanía es la suma inversa de las longitudes de las trayectorias más cortas, y la interdependencia es la cantidad de trayectos más cortos que pasan por un nodo. Al aprovechar el algoritmo de ruta más corta de dos modos, es posible ampliar fácilmente estas dos medidas a redes de dos modos. Para recapitular rápidamente este algoritmo: 
  1. Use un método de proyección apropiado 
  2. Utilice el método para identificar las rutas más cortas y calcular su longitud en redes ponderadas de modo único (Brandes, 2001; Dijkstra, 1959; Newman, 2001).
Cuando se encuentre la longitud de las rutas más cortas, la medida de proximidad sería simplemente la suma inversa de ellas. Del mismo modo, la interdependencia se calculará fácilmente mirando los nodos intermedios en las rutas más cortas y contará, para cada nodo, la cantidad de veces que ese nodo es un intermediario. Nota: si hay varias rutas más cortas, es importante dividir por el número de ellas para asegurarse de que cada ruta solo cuente una vez.


Ejemplo

Para ilustrar las cuatro medidas, confío en Davis (1940) Southern Women Dataset. La asistencia a la reunión de 18 mujeres en 14 reuniones se registra en este conjunto de datos. La siguiente tabla muestra el resultado de las cuatro medidas (Newman's, 2001, el método de proyección se utiliza para la cercanía y la interdependencia, ya que es probable que el nivel de interacción entre los participantes en eventos más pequeños sea mayor).

.
nodo two-mode degree one-mode degree closeness betweenness
EVELYN 8 17 0.053 5
LAURA 7 15 0.051 1
THERESA 8 17 0.060 48
BRENDA 7 15 0.050 1
CHARLOTTE 4 11 0.044 0
FRANCES 4 15 0.041 0
ELEANOR 4 15 0.043 0
PEARL 3 16 0.037 0
RUTH 4 17 0.043 0
VERNE 4 17 0.045 0
MYRNA 4 16 0.042 0
KATHERINE 6 16 0.052 0
SYLVIA 7 17 0.054 11
NORA 8 17 0.059 60
HELEN 5 17 0.046 0
DOROTHY 2 16 0.027 0
OLIVIA 2 12 0.035 0
FLORA 2 12 0.035 0

En esta tabla se puede ver una limitación clave de la medida de transición: la mayoría de las personas obtiene un puntaje de 0 (es decir, la medida es cero-inflado). Las correlaciones por pares entre las medidas se informan a continuación. Si bien todas las medidas tienen altas correlaciones, es interesante observar que la medida de grado de dos modos tiene una mayor correlación con la cercanía y la interdependencia que la medida de grado de modo único. Esto podría sugerir que la medida de grado de dos modos computacionalmente barata es más capaz de replicar las medidas de proximidad y de equilibrio computacionalmente costosas.


1 2 3 4
1: two-mode degree 1.00


2: one-mode degree 0.51 1.00

3: closeness 0.95 0.44 1.00
4: betweenness 0.59 0.34 0.64 1.00


¿Quieres probarlo con tus datos?

Las medidas se pueden calcular utilizando tnet. Primero, necesita descargar e instalar tnet en R. Luego, necesita crear un edgelist de su red (vea las estructuras de datos en tnet para redes de dos modos). Los siguientes comandos muestran cómo se crearon las tablas anteriores.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# Load tnet and the Southern Women Dataset
library(tnet)
data(tnet)
net <- Davis.Southern.women.2mode
 
# Calculate two-mode degree
out <- degree_tm(net, measure="degree")
 
# Create one-mode projection
net1 <- projecting_tm(net, "Newman")
 
# Calculate one-mode degree
tmp <- degree_w(net1)[,"degree"]
 
# Append to table
out <- data.frame(out, onemodedegree=tmp)
 
# Calculate closeness and append to table
tmp <- closeness_w(net1 )[,"closeness"]
out <- data.frame(out, closeness=tmp)
 
# Calculate betweenness and append to table
tmp <- betweenness_w(net1 )[,"betweenness"]
out <- data.frame(out, betweenness=tmp)
 
# Download and set names
out[,"node"] <- read.table("http://opsahl.co.uk/tnet/ datasets/Davis_southern_club_women-name.txt")
 
# Pair-wise correlation table
tmp <- matrix(nrow=4, ncol=4)
tmp[lower.tri(tmp)] <- apply(which(lower.tri(tmp), arr.ind=TRUE)+1, 1, function(a) cor.test(out[,a[1]], out[,a[2]])$estimate)




Referencias

Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Davis, A., Gardner, B. B., Gardner, M. R., 1941. Deep South. University of Chicago Press, Chicago, IL.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., 2013. Triadic closure in two-mode networks: Redefining the global and local clustering coefficients. Social Networks 35, doi:10.1016/j.socnet.2011.07.001.
Opsahl, T., Agneessens, F., Skvoretz, J., 2010. Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32 (3), 245-251.

lunes, 8 de enero de 2018

Visualizando y simulando en la red de calles de Budapest

Visualizando la red de calles de Budapest

Center for Network Science


¿Cómo podemos entender una ciudad a través de sus redes de infraestructura? Esta pregunta fue el punto de partida para mi proyecto final en la clase de visualización de datos impartida por Roberta Sinatra. El objetivo de la clase era obtener información sobre un conjunto de datos a través de la visualización.

La ciudad seleccionada para analizar fue Budapest, una elección obvia ahora que estoy viviendo aquí y también porque quería entender mejor la ciudad. Para obtener los datos y construir la red, utilicé OSMnx, una biblioteca de Python desarrollada por Geoff Boeing. Usé OSMnx para descargar los datos de la ciudad desde OpenStreetMap y construir la red usando las calles como bordes y las intersecciones entre dos calles como nodos. Para el proyecto, trabajé con 4 kilómetros cuadrados del centro de la ciudad de Budapest. Primero visualicé la red de la ciudad asignando el ancho de los bordes, calles, de acuerdo con el tipo de calle, para mostrar dónde están las calles principales en la ciudad y cómo están conectadas.



Como sabemos por la literatura científica de la red, la topología de una red determina su resistencia, por lo que el siguiente paso para comprender mejor a Budapest, una ciudad con un río en el medio, fue trabajar con la red y probar su tolerancia al ataque. En resumen, calculé la centralidad de intersección de todas las intersecciones de calles de la red, dibujé la red con el tamaño de los nodos de acuerdo con su centralidad de intermediación y eliminé la que tenía la interinidad más alta una por una. Este enfoque nos permite simular cómo cambia la red si "cerramos" o eliminamos la intersección que está en el medio de las rutas más cortas entre todas las otras intersecciones.

Budapest Network Attack Tolerance from Luis Guillermo Natera Orozco on Vimeo.


El video nos muestra esta simulación del cálculo de la centralidad de intermediación y la eliminación de los nodos con la más alta. También muestra la fracción de nodos eliminados y cuántos componentes conectados tiene la red, y podemos observar que solo eliminar menos del 2% de los nodos conduce a más de 3 componentes conectados diferentes en la red, lo que significa que estamos aislando algunas partes de la ciudad. Las intersecciones más importantes que mantienen unida la red de calles del centro de Budapest corresponden a los puentes que conectan Buda y Pest sobre el Danubio: el Puente Margarita, el Puente de las Cadenas y el Puente Elisabeth.

Visualizaciones como la desarrollada en este proyecto nos permiten imaginar nuevas posibilidades para trabajar y comprender mejor las redes urbanas y la complejidad en las ciudades usando nuevas tecnologías y enfoques de la ciencia de las redes junto con el urbanismo, el urbanismo, la sociología y otras disciplinas.

Publicación del blog por Luis Guillermo Natera Orozco

miércoles, 11 de octubre de 2017

Saltando sobre los agujeros estructurales: Integración social vía Tinder

Primera evidencia de que la citas en línea está cambiando la naturaleza de la sociedad

Los sitios web de citas han cambiado la forma en que las parejas se encuentran. Ahora está emergiendo evidencia de que este cambio está influyendo en los niveles de matrimonio interracial e incluso en la estabilidad del matrimonio mismo.

por Emerging Technology from the arXiv

No hace mucho tiempo, nadie conoció a un compañero en línea. Luego, en la década de 1990, llegaron los primeros sitios web de citas.

Match.com se puso en marcha en 1995. Una nueva ola de sitios web de citas, como OKCupid, surgió a principios de los años 2000. Y la llegada de 2012 de Tinder cambió aún más. Hoy en día, más de un tercio de los matrimonios comienzan en línea.

Es evidente que estos sitios han tenido un enorme impacto en el comportamiento de las citas. Pero ahora está emergiendo la primera evidencia de que su efecto es mucho más profundo.


La forma en que la gente conoce a sus parejas ha cambiado drásticamente en los últimos años

Durante más de 50 años, los investigadores han estudiado la naturaleza de las redes que unen a las personas entre sí. Estas redes sociales resultan tener una propiedad peculiar.

Un tipo obvio de la red liga cada nodo con sus vecinos más cercanos, en un patrón como tablero de ajedrez o alambre de gallinero. Otro tipo obvio de enlaces de red nodos al azar (random network). Pero las redes sociales reales no son como ninguno de estos. En su lugar, las personas están fuertemente conectadas a un grupo relativamente pequeño de vecinos y ligeramente conectados a personas mucho más distantes.

Estas conexiones sueltas resultan ser extremadamente importantes. "Esos lazos débiles sirven de puentes entre nuestro grupo de amigos cercanos y otros grupos agrupados, permitiéndonos conectarnos con la comunidad global", dicen Josue Ortega de la Universidad de Essex en U.K. y Philipp Hergovich en la Universidad de Viena en Austria.

Tradicionalmente, los lazos sueltos han desempeñado un papel clave en el encuentro con los compañeros. Aunque la mayoría de la gente era poco probable de ir a una cita con uno de sus mejores amigos, era muy probable de citar a personas que estaban vinculados con su grupo de amigos, un amigo de un amigo, por ejemplo. En el lenguaje de la teoría de la red, los socios de citas estaban embebidos en las redes de los demás.

De hecho, esto se ha reflejado durante mucho tiempo en encuestas sobre la forma en que las personas se encuentran con sus parejas: a través de amigos comunes, en bares, en el trabajo, en instituciones educativas, en la iglesia, a través de sus familias, etc.

Las citas en línea ha cambiado eso. Hoy en día, las citas en línea son la segunda forma más común de conocer a las parejas heterosexuales. Para las parejas homosexuales, es de lejos el más popular.

Eso tiene implicaciones significativas. "Las personas que se reúnen en línea tienden a ser completos extraños", dicen Ortega y Hergovich. Y cuando la gente se reúne de esta manera, establece vínculos sociales que antes eran inexistentes.

La pregunta que Ortega y Hergovich investigan es cómo esto cambia la diversidad racial de la sociedad. "Comprender la evolución del matrimonio interracial es un problema importante, ya que el matrimonio mixto es ampliamente considerado como una medida de la distancia social en nuestras sociedades", dicen.

Los investigadores comienzan simulando lo que sucede cuando se introducen enlaces adicionales en una red social. Su red se compone de hombres y mujeres de diferentes razas que se distribuyen al azar. En este modelo, todo el mundo quiere casarse con una persona del sexo opuesto, pero sólo puede casarse con alguien con quien existe una conexión. Esto conduce a una sociedad con un nivel relativamente bajo de matrimonio interracial.

Pero si los investigadores añaden vínculos aleatorios entre personas de diferentes grupos étnicos, el nivel de matrimonio interracial cambia drásticamente. "Nuestro modelo predice una integración racial casi completa sobre la aparición de las citas en línea, aunque el número de parejas que los individuos encuentren de los lazos recién formados sea pequeño", dicen Ortega y Hergovich.

Y hay otro efecto sorprendente. El equipo de medir la fuerza de los matrimonios mediante la medición de la distancia media entre los socios antes y después de la introducción de citas en línea. "Nuestro modelo también predice que los matrimonios creados en una sociedad con citas en línea tienden a ser más fuertes", dicen.

A continuación, los investigadores comparan los resultados de sus modelos con las tasas observadas de matrimonios interraciales en los Estados Unidos. Esto ha ido en aumento por algún tiempo, pero las tasas siguen siendo bajas, sobre todo porque el matrimonio interracial fue prohibido en algunas partes del país hasta 1967.

Pero la tasa de aumento cambió en el momento en que la cita en línea se popularizan. "Es intrigante que poco después de la introducción de los primeros sitios web de citas en 1995, como Match.com, el porcentaje de nuevos matrimonios creados por parejas interraciales aumentó rápidamente", dicen los investigadores.

El aumento se hizo más pronunciado en los años 2000, cuando las citas en línea se hicieron aún más populares. Entonces, en 2014, la proporción de matrimonios interraciales saltó de nuevo. "Es interesante que este aumento se produce poco después de la creación de Tinder, considerada la aplicación de citas en línea más popular", dicen.

Tinder tiene unos 50 millones de usuarios y produce más de 12 millones de encuentros al día.

Por supuesto, estos datos no demuestran que las citas en línea causaron el aumento de los matrimonios interraciales. Pero es consistente con la hipótesis de que lo hace.

Mientras tanto, la investigación sobre la fuerza del matrimonio ha encontrado alguna evidencia de que las parejas casadas que se reúnen en línea tienen menores tasas de ruptura matrimonial que las que se reúnen tradicionalmente. Eso tiene el potencial de beneficiar significativamente a la sociedad. Y es exactamente lo que predice el modelo de Ortega y Hergovich.

Por supuesto, hay otros factores que podrían contribuir al aumento del matrimonio interracial. Una es que la tendencia es el resultado de una reducción en el porcentaje de estadounidenses que son blancos. Si los matrimonios son aleatorios, esto debería aumentar el número de matrimonios interraciales, pero no por la cantidad observada. "El cambio en la composición de la población en los Estados Unidos no puede explicar el enorme aumento en el matrimonio mixto que observamos", dicen Ortega y Hergovich.

Eso deja a las citas en línea como el principal impulsor de este cambio. Y si ese es el caso, el modelo implica que este cambio está en curso.

Esa es una profunda revelación. Estos cambios están programados para continuar y beneficiar a la sociedad como resultado.


Ref: arxiv.org/abs/1709.10478 : The Strength of Absent Ties: Social Integration via Online Dating



martes, 12 de septiembre de 2017

Algoritmos de agrupamientos guiados por centralidad

"Sigan al líder": Un agrupamiento guiado por centralidad y su aplicación al Análisis de Redes Sociales

Qin Wu, Xingqin Qi, Eddie Fuller, y Cun-Quan Zhang


The Scientific World Journal
Resumen
Dentro de la teoría de grafos y del análisis de redes, la centralidad de un vértice mide la importancia relativa de un vértice dentro de un grafo. La centralidad juega un papel clave en el análisis de redes y ha sido ampliamente estudiada utilizando diferentes métodos. Inspirado en la idea de la centralidad de los vértices, se propone una novedosa agrupación guiada por la centralidad (CGC). Diferente de los métodos clásicos de agrupación que suelen elegir el centro inicial de un grupo de forma aleatoria, el algoritmo de agrupación CGC comienza a partir de un "LEADER" -un vértice con el puntaje de centralidad más alto- y se agrega un nuevo "miembro" al mismo grupo que el "LEADER"cuando se satisface algún criterio. El algoritmo CGC también admite la superposición de miembros. Se presentan los experimentos en tres conjuntos de datos de redes sociales de referencia y los resultados indican que el algoritmo CGC propuesto funciona bien en la agrupación de redes sociales.


1. Introducción

Clustering es un proceso de partición de un conjunto de datos en subconjuntos significativos para que todos los datos en el mismo grupo son similares y los datos en diferentes grupos son disimilares en algún sentido. Es un método de exploración de datos y una forma de buscar patrones o estructura en los datos que son de interés. El clustering tiene amplias aplicaciones en ciencias sociales, biología, química y ciencias de la información. Una revisión general del análisis de conglomerados se puede encontrar en muchas referencias como [1 - 4].

Los métodos de agrupación comúnmente utilizados son agrupación particional y agrupación jerárquica. Los algoritmos partiales normalmente determinan todos los clústeres a la vez. El algoritmo de clustering de K-means [5] es un agrupamiento particional típico. Dado el número de racimos (digamos k), el procedimiento de K-significa la agrupación es como sigue. (i) Generar aleatoriamente k puntos como centros de agrupación y asignar cada punto al centro de agrupación más cercano. (ii) Recalificar los nuevos centros de agrupación. (iii) Repita los dos pasos anteriores hasta que se cumpla algún criterio de convergencia. Las principales ventajas del algoritmo de K-means son su simplicidad y velocidad que le permite funcionar en grandes conjuntos de datos. Sin embargo, no produce el mismo resultado con cada ejecución, ya que los clústeres resultantes dependen de las asignaciones al azar iniciales. Y el número de clústeres tiene que ser predefinido.

La agrupación jerárquica es aglomerante o divisiva. Los algoritmos aglomerativos comienzan con cada elemento como un clúster separado y dos clusters separados por la distancia más corta se combinan sucesivamente. La mayoría de los algoritmos de agrupación jerárquica son aglomerados, como SLINK [6] para cantar enlace y CLINK [7] para el enlace completo. El divisivo comienza con un gran grupo y las divisiones se realizan recursivamente a medida que se desplaza por la jerarquía. El agrupamiento jerárquico crea un árbol jerárquico de clústeres, que se denomina dendrograma. La forma en que los elementos se agrupan se muestra claramente en el dendrograma.

En los últimos años, el análisis de redes sociales ha ganado mucha atención. El análisis de redes sociales es el estudio de las relaciones sociales en términos de redes. Una red social suele ser modelada como un grafo dirigido o un grafo no dirigido. El conjunto de nodos del grafo representa a miembros individuales. El conjunto de aristas en el grafo representa la relación entre los individuos, como la amistad, la coautoría, etc. Un problema fundamental relacionado con las redes sociales es el descubrimiento de clusters o comunidades. Porter et al. [8] resumió diferentes métodos de agrupación para la agrupación de redes sociales. Wu y Huberman [9] propusieron encontrar comunidades basadas en nociones de caídas de voltaje a través de redes. Girvan y Newman [10] propusieron descubrir la estructura de la comunidad basada en la interrelación de intermediario. Newman [11] propuso encontrar la estructura de la comunidad basada en los vectores propios de las matrices. Clauset et al. [12] propuso un método basado en la modularidad para encontrar la estructura de la comunidad en redes muy grandes.

En este trabajo, un nuevo algoritmo de agrupación jerárquica se propone para la agrupación de redes sociales. Los métodos clásicos de agrupamiento, como K-means, usualmente eligen centros de agrupación de forma aleatoria, y los algoritmos de agrupación jerárquica usualmente comienzan a partir de dos elementos con la distancia más corta. A diferencia de estos métodos, este trabajo elige el vértice con puntaje de centralidad más alto como punto de partida. Si se hace algún análisis en conjuntos de datos de redes sociales, uno puede notar que en cada comunidad, normalmente hay algún miembro (o líder) que desempeña un papel clave en esa comunidad. De hecho, la centralidad es un concepto importante [13] dentro del análisis de redes sociales. Los puntajes de alta centralidad identifican a los miembros con mayor importancia estructural en una red y se espera que estos miembros desempeñen papeles clave en la red. Basándose en esta observación, este trabajo propone comenzar a agrupar desde el miembro con mayor puntuación de centralidad. Es decir, un grupo se forma a partir de su "líder", y un nuevo "miembro" se agrega a un grupo existente basado en su relación total con el grupo. El procedimiento principal es el siguiente. Elija el vértice con el puntaje de centralidad más alto que no esté incluido en ningún grupo existente y llame a este vértice como "LEADER". Se crea un nuevo grupo con este "LEADER". Agregue repetidamente un vértice a un grupo existente si el siguiente criterio es satisfecho: la densidad del grupo recién extendido está por encima de un umbral dado.

El documento está organizado de la siguiente manera. En la Sección 4 se describen los diferentes resultados de las pruebas del nuevo algoritmo en algunos conjuntos de datos de referencia de la red social comparados con la verdad del terreno y algunos métodos tradicionales. Las conclusiones se hacen en la Sección 5.


2. Medidas de centralidad

La centralidad es uno de los conceptos más ampliamente estudiados en el análisis de redes sociales. Dentro de la teoría de grafos y del análisis de redes, la centralidad de un vértice mide la importancia relativa de un vértice dentro del grafo. Por ejemplo, cuán importante es una persona dentro de una red social o qué tan bien se utiliza una carretera dentro de una red urbana. Durante los últimos años, se han propuesto varias medidas de la centralidad de un vértice. La medición de la centralidad, como la centralidad de los grados, la interconexión y la centralidad de los vectores propios, están entre las más populares.

La centralidad de grados es la medida de centralidad más simple. Dada un grafo G, denote el conjunto de vértices de G como V (G), y entonces el grado centralidad para cualquier v ∈ V (G) se define como

   (1)

donde d (v) es el grado de y | V (G) | es el número de vértices en G.

La centralidad de grados considera solamente la topología local de la red. Puede interpretarse como una medida de influencia inmediata, en oposición al efecto global en la red [14].

La centralidad intermedia para cualquier v ∈ V (G) se define como


(2)

donde s, v, tV (G), σ st es el número de trayectos más cortos de s a t, y σ st (v) es el número de trayectos más cortos de s a t que pasan a través del vértice v.

La centralidad de la intermediación es una de las medidas de centralidad más populares que consideran la estructura global de la red. Caracteriza cuán influyente es un vértice en la comunicación entre pares de vértices [15].

El puntaje de centralidad de vectores propios del i-ésimo vértice de la red se define como la i-ésima componente del vector propio correspondiente al valor propio más alto de la siguiente ecuación característica:

Ax = λx
(3)

donde A es la matriz de adyacencia de la red, λ es el autovalor más grande de A, y x es el autovector correspondiente. Simula un mecanismo en el que cada vértice afecta a todos sus vecinos simultáneamente [16].

La centralidad del vector propio es una especie de centralidad de grado extendido que es proporcional a la suma de las centralidades de los vecinos del vértice. Un vértice tiene un gran valor de puntuación de centralidad de vectores propios bien si está conectado a muchos otros vértices o si está conectado a otros que tienen una elevada centralidad de vectores propios [17].

Debido a que las diferentes medidas de centralidad se basan en diferentes aspectos de una red, las puntuaciones de centralidad final y la clasificación de los nodos en la red pueden ser diferentes. La diferencia se discutirá en la Sección 4.

3. Agrupamiento guiado por la centralidad

En esta sección, se introducen algunas notación y terminología y se presenta el algoritmo de agrupación guiada por centralidad (CGC).

Dado un conjunto de datos de entrada, el conjunto de datos es modelado como un grafo ponderado G = (V, E, w). V es el conjunto de vértices. Cada vértice en V representa un elemento en el conjunto de datos. | V (G) | representa el número de vértices en G (o elementos en el conjunto de datos). E es el conjunto de enlaces. Cada enlace representa una relación entre un par de elementos. w es la función de peso de enlace. w (u, v) y w (e) denotan el peso del enlace e entre dos vértices uyv. Si no hay enlace entre dos vértices uyv, entonces w (u, v) = 0. Si el grafo es un grafo no ponderado, entonces

w(uv)={1,0,if  uvE(G),if  uvE(G).

Sea C un subgrafo de G, la densidad del subgrafo C se define como

density(C)=2eE(C)w(e)  |V(C)|(|V(C)|1),if  |V(C)|>1.
(5)
La densidad del subgrafo C podría ser considerada como la semejanza del intracluster. Un buen agrupamiento debe tener una alta similitud intracluster y una baja semejanza intercluster. Si todos los nodos en C pertenecen al mismo grupo, entonces la densidad (C) debe ser grande.
Como se discutió en la Sección 2, la centralidad de un vértice mide la importancia relativa del vértice dentro de la red. Uno podría esperar que después de la agrupación, cada grupo tiene un centro y el centro tiene una puntuación relativa alta centralidad. Por otro lado, si un algoritmo de agrupamiento se inicia desde el vértice (llamado "LEADER") con una alta puntuación de centralidad, se esperaría que los vértices con conexión estrecha con el LEADER se agruparan. El resultado del agrupamiento tendrá alta intrasimilaridad y baja intersimilaridad. Esta es la motivación del algoritmo CGC. Denote la puntuación de centralidad del vértice v en el grafo G como puntuación (v). Para cualquier conjunto S, denote el número de elementos en S como | S |.

Para cualquier vértice vV (C), la contribución de v a C se define como

contribution(v,C)=uV(C)w(uv)  |V(C)|.
(6)

Un vértice v ∉ V (C) se llama vecino de C si hay un vértice uC tal que uv ∈ E (G). El vértice v se llama vecino candidato de C si v satisface las tres condiciones siguientes:

(a) v es un vecino del subgrafo C;
(b) existe un vértice u ∈ V (C), tal que

  • w(u,v)αmax{w(e)eE(G)},if  |V(C)|=1,contribution(v,C)>βdensity(C),if  |V(C)|>1;
    (7)
  • (c)
    score(v) < max⁡{score(u) | u ∈ C}.
El conjunto de todos los vecinos candidatos del subgrafo C se denota como N(C).
La condición (a) dice que un vértice debe ser un vecino del subgrafo C para ser considerado como agrupado en el grupo actual C. La condición (b) es controlar la densidad del subgrafo C de modo que la densidad no disminuya demasiado después de que el vecino candidato se agrega al subgrafo C. La condición (c) dice que solo se consideran aquellos vértices con puntaje de centralidad inferior al puntaje de centralidad de algún vértice en C. Es decir, si un vértice v ∈ N (C) tiene mayor puntuación de centralidad que cualquier vértice en C, entonces el vértice v debe haber sido agrupado en otro grupo, por lo que v no se agrupará en el grupo C. α y β son utilizado para controlar el agrupamiento de modo que la densidad del nuevo subgrafo no disminuirá demasiado después de que un vecino candidato sea agregado al subgrafo C. En otro papel [18], probamos que si α = 0.8 y β = 1 - (1 / (2 * (| V (C) | +1))), entonces la densidad del nuevo subgrafo con un conjunto de vecinos candidatos añadido al subgrafo C no disminuirá más de 1/3.
La estructura general del algoritmo CGC se muestra en el Algoritmo 1. Los tres pasos principales son AGRUPACIÓN, FUSIÓN y CONTRACCIÓN.


Algoritmo CGC

Los detalles del paso GROUPING se muestran en el Algoritmo 2. El algoritmo GROUPING crea un nuevo grupo desde el vértice con el puntaje de centralidad más alto que todavía no se ha agrupado en ningún grupo. Y este vértice se llama centro (o líder) del nuevo grupo. Denotan este vértice como el centro del grupo C i actual. Entonces el siguiente vértice se elige del vecino candidato conjunto N(C i) con la mayor contribución a C i.


Algoritmo GROUPING 

En el algoritmo CGC, cada vértice se permite pertenecer a más de un grupo. Así que después del paso GROUPING, los diferentes grupos pueden tener algunos elementos superpuestos. Si el número de elementos superpuestos en dos grupos excede algún umbral, es mejor combinar todos los vértices de los dos grupos en un nuevo grupo más grande. Se aplica el siguiente criterio para determinar si se deben fusionar dos grupos. Dado que existen dos grupos, digamos C i y C j, si C i y C j satisfacen el siguiente criterio, entonces C i y C j se combinan en un grupo:

|CiCj|min{|Ci|,|Cj|}12.
(8)

Es decir, si el tamaño de la superposición de dos grupos es mayor que la mitad del tamaño del más pequeño de los dos grupos, los dos grupos se combinan en un grupo. El algoritmo MERGING (ver Algoritmo 3) describe los detalles sobre cómo combinar dos grupos.

Algoritmo MERGING

Después del paso de MERGING, cada grupo C i  se contrae en un nuevo vértice v i. Si hay un enlace entre dos grupos C i  y C j, entonces habrá un enlace v i v j  en el grafo contraído. El peso del enlace, w(v iv j), se calcula de la siguiente manera:

w(vi,vj)=eE(Ci,Cj)w(e)  |V(Ci)||V(Cj)|,
(9)
donde E(C iC j) es el conjunto de enlaces que se cruzan, E(C iC j) = {xy : x ∈ V(C i), y ∈ V(C j), x ≠ y}.

Algoritmo CONTRACTION 

4. Resultados y discusión

Para evaluar la eficacia del algoritmo CGC, tres conjuntos de datos de referencia sobre el análisis de redes sociales se ponen a prueba. Los tres conjuntos de datos de referencia y los resultados del agrupamiento se describen en las secciones 4.1, 4.2 y 4.3. La centralidad de intermediación se utiliza para calcular las puntuaciones de centralidad en el algoritmo CGC. Los resultados del algoritmo CGC se comparan con la verdad del terreno y los resultados del algoritmo Girvan-Newman [10]. El algoritmo Girvan-Newman es uno de los algoritmos más populares para detectar comunidades en sistemas complejos. Las comunidades se detectan calculando las centralidades de interlineado de enlace de todos los enlaces y eliminando el enlace con el valor de intermediación más alto recursivamente.

Para probar si las medidas de centralidad influyen en los resultados, se aplican diferentes medidas de centralidad al algoritmo de CGC de forma independiente y los resultados del agrupamiento se comparan en la Sección 4.4. Todos los tres conjuntos de datos se pueden descargar desde el sitio web de Newman [19].

4.1. Club de Karate de Zachary

El conjunto de datos del club de karate de Zachary es un conjunto de datos típico que se utiliza para probar el algoritmo de agrupación en el análisis de redes sociales. Es una red social de amistades entre 34 miembros de un club de karate en una universidad estadounidense [20]. Zachary registró la interacción del club de karate en la universidad durante tres años. La red social de relaciones en el club de karate de Zachary se muestra en la Figura 1. El nodo 1 representa al instructor del club y el nodo 34 representa al presidente del club. Durante la observación, hubo un incipiente conflicto entre el instructor y el presidente. Y el conflicto posteriormente condujo a una separación formal del club en dos organizaciones: un grupo es los partidarios del instructor y el otro grupo son los partidarios del presidente. Los grupos de verdad del suelo se denotan como puntos rojos y cuadrados azules en la Figura 1. Los puntos rojos denotan los partidarios del instructor y los cuadrados azules denotan a los partidarios del presidente.

Figura 1
La red social del club de karate de Zachary. Los puntos rojos denotan los partidarios del instructor y los cuadrados azules denotan los partidarios del presidente. La curva discontinua es la partición por el algoritmo CGC.

Cuando se aplica el algoritmo Girvan-Newman a este conjunto de datos, el nodo 3 se clasifica erróneamente. La partición por el algoritmo CGC se muestra como la curva discontinua en la Figura 1, que es exactamente la misma que la verdad del terreno. La figura 2 es el dendrograma correspondiente al resultado del algoritmo CGC. Otra observación importante es que cuando se utiliza la centralidad de intermediación, el nodo con las puntuaciones de centralidad de mayor intermediación es el nodo 1 y el segundo más alto es el nodo 34, que son el instructor y el presidente, los verdaderos líderes de los dos grupos.


Figura 2

El dendrograma del conjunto de datos del club de karate por el algoritmo CGC.

4.2. Red social de delfines

El conjunto de datos de redes sociales de delfines es otro conjunto de datos representativo para probar la precisión de los algoritmos de agrupamiento. Es una red social de frecuentes asociaciones entre delfines en una comunidad en Doubtful Sound, Nueva Zelanda [21]. La red social de los delfines se presenta en la Figura 3. Hay 62 vértices y 159 enlaces en la red. Los vértices representan a los delfines nariz de botella, y los enlaces entre los vértices representan asociaciones entre los pares de delfines que ocurren con más frecuencia de lo esperado por el azar. Durante el curso del estudio, los delfines se dividieron en dos grupos después de la partida de un miembro clave (representado como el triángulo amarillo en la Figura 3) de la población.

Figura 3
La red social de los delfines. La curva discontinua indica la división de la red en dos grupos de igual tamaño encontrados por el método estándar de partición espectral, y la curva sólida representa la división encontrada por el método basado en la modularidad por Newman [11].

Los grupos de verdad del suelo están representados por las formas de los vértices de la Figura 3. Los vértices representados como cuadrados están en un grupo y los vértices representados como puntos y triángulo están en el otro grupo. La curva discontinua representa la división de la red en dos grupos de igual tamaño encontrados por el método estándar de partición espectral propuesto por Newman [11]; 11 de los 62 delfines están mal clasificadas. La curva sólida representa la división encontrada por el método basado en la modularidad por Newman [11]; 3 de 62 delfines están mal clasificadas. Cuando se aplica el algoritmo Girvan-Newman a este conjunto de datos, 2 de los 62 delfines se clasifican erróneamente. Cuando el algoritmo CGC se aplica a la red social del delfín, divide a los delfines en dos grupos, que es exactamente igual que la verdad del suelo. El dendrograma correspondiente producido por el algoritmo CGC se muestra en la Figura 4.



Figura 4
El dendrograma del conjunto de datos Dolphin por el algoritmo CGC.

4.3. Red Social de Libros Políticos

El tercer ejemplo es un mapa de redes sociales de libros políticos basado en patrones de compra del vendedor de libros en línea Amazon.com. Este conjunto de datos es proporcionado por Krebs [22]. Y los grupos de diferentes libros se muestran en la Figura 5. Los 105 nodos representan 105 libros sobre la política estadounidense. Cada libro es manualmente etiquetado como liberal, neutral o conservador. De manera correspondiente, los tres tipos de libros se ilustran utilizando tres formas diferentes: triángulos para libros neutros, puntos para libros conservadores y cuadrados para libros liberales, como en la figura 5. Por simplicidad, los 105 libros se denominan 1 a 105 en lugar de libro nombres. Dos libros están vinculados en la red social si fueron frecuentemente cotizados por el mismo cliente. La figura 5 muestra la clasificación de la verdad del suelo para los 105 libros.

Figura 5

La partición verdadera de la tierra de los libros políticos. Triángulos para libros neutrales, puntos para libros conservadores y cuadrados para libros liberales.

Para ver los resultados de agrupamiento basados en la información de compra de libros, el algoritmo Girvan-Newman [10] y el algoritmo CGC se aplican independientemente a la matriz de adyacencia de los libros políticos. Cuando el algoritmo de Girvan-Newman se aplica a la matriz de adyacencia de la red social, 17 libros (2, 3, 6, 8, 19, 29, 30, 47, 49, 52, 53, 59, 70, 77, 104 y 105) están mal clasificadas. El resultado de agrupamiento del algoritmo de Girvan-Newman se muestra en la Figura 6. Cuando se utiliza la centralidad de interconexión y el algoritmo CGC se aplica al mismo conjunto de datos, sólo 16 libros (1, 5, 7, 19, 29, 47, 49, 53 , 59, 65, 66, 68, 69, 77, 78 y 86) se clasifican erróneamente. El resultado de agrupamiento del algoritmo CGC se muestra en la Figura 7.

Figura 6
El resultado de agrupamiento de los libros políticos por el algoritmo de Girvan-Newman. Rojo para libros neutrales, azul para libros conservadores y negro para libros liberales.
Figura 7
El resultado agrupamiento de los libros políticos por el algoritmo CGC. Rojo para libros neutrales, azul para libros conservadores y negro para libros liberales.

4.4. Agrupación con diferentes medidas de centralidad


Como se mencionó en las secciones anteriores, la puntuación de centralidad de un nodo en una red podría ser visto como la importancia de un nodo en la red. Y la importancia de los nodos podría ser ordenada por sus puntuaciones de centralidad de grandes a pequeños. Cuando se aplican diferentes medidas de centralidad al mismo conjunto de datos, el ordenamiento de los nodos puede ser diferente.

El propósito de esta subsección es probar si el nodo de agrupamiento inicial influirá en el resultado de agrupación final y comparará la efectividad de la medida de centralidad diferente cuando se combina con el algoritmo de CGC. En esta subsección, la centralidad de grados, la centralidad de valores propios y la centralidad de interconexión se aplican independientemente al algoritmo CGC. Y los mismos tres conjuntos de datos que en las secciones 4.1, 4.2 y 4.3 se utilizan en los experimentos.

La Tabla 1 enumera el número de nodos mal clasificados cuando se aplican diferentes mediciones de centralidad al algoritmo CGC. A partir de la tabla, se pudo observar que el nodo inicial inicial influye en los resultados finales. Para el conjunto de datos del club de karate de Zachary, las tres medidas de centralidad producen resultados perfectos. La centralidad del grado funciona mejor que la centralidad del valor propio en el conjunto de datos del delfín. Pero en el conjunto de datos del libro político, el grado de centralidad es peor que la centralidad de los valores propios. En general, la medida de centralidad de intermediación funciona mejor con el algoritmo CGC.

Club de Karate DelfinesLibros políticos
Grado0117
Eigenvalue0216
Intermediación0016
Tabla 1
El número de miembros mal clasificados por el algoritmo CGC basado en diferentes medidas de centralidad.

5. Conclusiones

En este trabajo, se discute la importancia de la puntuación de centralidad de vértices en una red y se propone un método de agrupamiento guiado por centralidad. El algoritmo CGC inicia el proceso de agrupación en un vértice con la puntuación de centralidad más alta, que es un líder potencial de una comunidad. El algoritmo CGC se aplica a varios conjuntos de datos de redes sociales de referencia. Los resultados experimentales muestran que el algoritmo CGC funciona bien en la agrupación de redes sociales.

Las mediciones de centralidad pueden influir en los resultados del algoritmo CGC. El criterio de grado sirve como una medida muy local para la centralidad, mientras que la centralidad entre centralidades y la búsqueda de centralidad de valores propios busca "líderes" globales de todas las redes. Los resultados del experimento muestran que la centralidad de intermediación funciona mejor que las otras dos medidas de centralidad para el algoritmo CGC.

Uno puede notar que en la Figura 4, un solo nodo, como los nodos 45, 47, 12 y 60 en el nivel más bajo, se agrupa en dos grupos diferentes. De hecho, es razonable que algún individuo pertenezca a dos grupos diferentes. Digamos, por ejemplo, que algunas personas pueden estar afiliadas a dos o más organizaciones. De hecho, permitir que un objeto se agrupe en dos o más grupos es una de las propiedades del algoritmo CGC, lo que hace que el algoritmo CGC diferente de otros algoritmos de agrupación.
El algoritmo CGC es un algoritmo de agrupamiento jerárquico. Una dirección para la investigación futura sería aplicar la idea guiada por la puntuación de centralidad a otros métodos de agrupamiento como el agrupamiento de K-means. Con suerte, también producirá resultados de agrupación prometedores.

Referencias


  1. Milligan G. Encyclopedia of Statistical Sciences. New York, NY, USA: Wiley; 1998.
  2. Härdle WK, Simar L. Applied Multivariate Statistical Analysis. Berlin, Germany: Springer; 2003.
  3. Hansen P, Jaumard B. Cluster analysis and mathematical programming. Mathematical Programming B. 1997;79(1–3):191–215.
  4. Jain AK. Data clustering: 50 years beyond K-means. Pattern Recognition Letters. 2010;31(8):651–666.
  5. MacQueen J. Some methods for classification and analysis of multivariate observations. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability; 1967; University of California Press; pp. 281–297.
  6. Sibson R. Slink: an optimally efficient algorithm for the single-link cluster method. Computer Journal. 1973;16(1):30–34.
  7. Defays D. An efficient algorithm for a complete link method. Computer Journal. 1977;20(4):364–366.
  8. Porter MA, Onnela J-P, Mucha PJ. Communities in networks. Notices of the American Mathematical Society. 2009;56(9):1082–1097.
  9. Wu F, Huberman BA. Finding communities in linear time: a physics approach. European Physical Journal B. 2004;38(2):331–338.
  10. Girvan M, Newman MEJ. Community structure in social and biological networks. Proceedings of the National Academy of Sciences of the United States of America. 2002;99(12):7821–7826. [PMC free article] [PubMed]
  11. Newman MEJ. Finding community structure in networks using the eigenvectors of matrices. Physical Review E. 2006;74(3)036104 [PubMed]
  12. Clauset A, Newman MEJ, Moore C. Finding community structure in very large networks. Physical Review E. 2004;70(6):6 pages.066111 [PubMed]
  13. Wasserman S, Faust K. Social Network Analysis: Methods and Applications. 1st edition. Vol. 8. New York, NY, USA: Cambridge University Press; 1994. (Structural Analysis in the Social Sciences).
  14. Freeman LC. Centrality in social networks conceptual clarification. Social Networks. 1978;1(3):215–239.
  15. Freeman LC. A set of measures of centrality based on betweenness. Sociometry. 1977;40(1):35–41.
  16. Bonacich P. Power and centrality: a family of measures. American Journal of Sociology. 1987;92(5):1170–1182.
  17. Newman MEJ, Girvan M. Finding and evaluating community structure in networks. Physical Review E. 2004;69(2)026113 
  18. Ou Y, Zhang C-Q. A new multimembership clustering method. Journal of Industrial and Management Optimization. 2007;3(4):619–624. 
  19. http://www-personal.umich.edu/~mejn/netdata/
  20. Zachary WW. An information flow model for conflict and fission in small groups. Journal of Anthropological Research. 1977;33:452–473.
  21. Lusseau D, Schneider K, Boisseau OJ, Haase P, Slooten E, Dawson SM. The bottlenose dolphin community of doubtful sound features a large proportion of long-lasting associations: can geographic isolation explain this unique trait? Behavioral Ecology and Sociobiology. 2003;54(4):396–405.
  22. Krebs V. http://www.orgnet.com/