Mostrando entradas con la etiqueta centralidad de cercanía. Mostrar todas las entradas
Mostrando entradas con la etiqueta centralidad de cercanía. Mostrar todas las entradas

viernes, 22 de junio de 2018

Centralidad en redes ponderadas

Centralidad de nodo en redes ponderadas

Tore Opsahl


La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978; Bonacich, 1987; Borgatti, 2005; Borgatti et al., 2006). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Para ejemplificar su idea, utilizó una red que consta de 5 nodos. El nodo medio tiene tres ventajas sobre los otros nodos: tiene más vínculos, puede alcanzar a todos los demás más rápidamente y controla el flujo entre los demás. Con base en estas tres características, Freeman (1978) formalizó tres medidas diferentes de la centralidad del nodo: grado, cercanía e interdependencia. Grado es la cantidad de nodos a los que está conectado un nodo focal y mide la participación del nodo en la red. Su simplicidad es una ventaja: solo debe conocerse la estructura local alrededor de un nodo para que se calcule (p. Ej., Cuando se utilizan datos de la Encuesta social general, McPherson et al., 2001). Sin embargo, existen limitaciones: la medida no toma en consideración la estructura global de la red. Por ejemplo, aunque un nodo podría estar conectado a muchos otros, podría no estar en condiciones de alcanzar a otros rápidamente para acceder a los recursos, como la información o el conocimiento (Borgatti, 2005; Brass, 1984). Para capturar esta característica, la centralidad de cercanía se definió como la suma inversa de las distancias más cortas a todos los demás nodos desde un nodo focal. Una de las principales limitaciones de la cercanía es la falta de aplicabilidad a las redes con componentes desconectados (consulte Centralidad de proximidad en redes con componentes desconectados). La última de las tres medidas, betweenness, evalúa el grado en que un nodo se encuentra en la ruta más corta entre otros dos nodos y puede canalizar el flujo en la red. Al hacerlo, un nodo puede ejercer control sobre el flujo. Si bien esta medida tiene en cuenta la estructura de red global y puede aplicarse a redes con componentes desconectados, no deja de tener sus limitaciones. Por ejemplo, una gran proporción de nodos en una red generalmente no se encuentra en la ruta más corta entre ninguno de los otros dos nodos, y por lo tanto recibe la misma puntuación de 0.

 
Una red de estrella con 5 nodos y 4 enlaces. El tamaño de los nodos corresponde al grado de los nodos. Adaptado de Freeman (1978) y Opsahl et al. (2010).



Las tres medidas se han generalizado a redes ponderadas. En un primer conjunto de generalizaciones, Barrat et al. (2004) grado generalizado tomando la suma de pesos en lugar de los nudos, mientras que Newman (2001) y Brandes (2001) utilizaron el algoritmo de Dijkstra (1959) de caminos más cortos para generalizar la cercanía y la interdependencia a redes ponderadas, respetuosamente (ver Rutas más cortas en Weighted Networks para más detalles). Estas generalizaciones se centraron únicamente en los pesos vinculados e ignoraron la característica original de las medidas: el número de vínculos. Como tal, un segundo conjunto de generalización fue propuesto por Opsahl et al. (2010) que incorpora tanto el número de vínculos como los pesos de enlace utilizando un parámetro de ajuste.

Grado

El grado es la más simple de las medidas de centralidad del nodo al usar la estructura local solo alrededor de los nodos. En una red binaria, el grado es el número de vínculos que tiene un nodo. En una red dirigida, un nodo puede tener un número diferente de enlaces salientes y entrantes, y por lo tanto, el grado se divide en grado y grado, respectivamente.

Por lo general, el grado se ha extendido a la suma de ponderaciones cuando se analizan las redes ponderadas (Barrat et al., 2004; Newman, 2004; Opsahl et al., 2008) y la resistencia del nodo etiquetada. Es igual a la definición tradicional de grado si la red es binaria (es decir, cada vínculo tiene un peso de 1). Por el contrario, en las redes ponderadas, los resultados de estas dos medidas son diferentes. Como la fuerza del nodo toma en consideración el peso de los enlaces, esta ha sido la medida preferida para analizar las redes ponderadas (por ejemplo, Barrat et al., 2004; Opsahl et al., 2008). Sin embargo, la fortaleza del nodo es una medida contundente, ya que solo toma en consideración el nivel total de participación de un nodo en la red, y no toma en cuenta la característica principal de las medidas originales formalizadas por Freeman (1978): el número de vínculos. Esta limitación se destaca por la centralidad de grado de las tres redes de ego de la tercera red EIES de Freeman. Los tres nodos han enviado aproximadamente la misma cantidad de mensajes; sin embargo, a un número bastante diferente de otros. Si se aplicó la medida original de Freeman (1978), el puntaje de centralidad del nodo en el panel A es casi cinco veces más alto que el nodo en el panel C. Sin embargo, al usar la generalización de Barrat et al., Obtienen aproximadamente el mismo puntaje.




Redes Ego de Phipps Arabie (A), John Boyd (B) y Maureen Hallinan (C) de la tercera red EIES de Freeman. El ancho de un enlace corresponde a la cantidad de mensajes enviados desde el nodo focal a sus contactos. Adoptado de Opsahl et al. (2010).


En un intento de combinar el grado y la fuerza, Opsahl et al. (2010) utilizó un parámetro de ajuste para establecer la importancia relativa de la cantidad de vínculos en comparación con los pesos de enlace. Específicamente, la medida de centralidad de grado propuesta fue el producto de la cantidad de nodos a los que está conectado un nodo focal y el peso promedio de estos nodos ajustado por el parámetro de ajuste. Hay dos valores de referencia para el parámetro de ajuste (0 y 1), y si el parámetro se establece en cualquiera de estos valores, se reproducen las medidas existentes (Barrat et al., 2004; Freeman, 1978). Si el parámetro se establece en el valor de referencia de 0, los resultados de las medidas se basan únicamente en el número de vínculos, y son iguales a la encontrada al aplicar la medida de Freeman (1978) a una versión binaria de una red donde todas las los lazos con un peso mayor a 0 se configuran como presentes. Al hacerlo, los pesos vinculados son completamente ignorados. Por el contrario, si el valor del parámetro es 1, la medida se basa solamente en los pesos de empate y es idéntica a la generalización ya propuesta (Barrat et al., 2004). Esto implica que no se tiene en cuenta el número de vínculos. La siguiente tabla destaca las diferencias entre las medidas de grado.
.
Nodo Grado medido por
Freeman (1978) Barrat et al. (2004) Opsahl et al. (2010; alpha=0.5) Opsahl et al. (2010; alpha=1.5)
Phipps Arabie (A) 28 155 66 365
John Boyd (B) 11 188 45 777
Maureen Hallinan (C) 6 227 37 1396

Para calcular las puntuaciones de grado de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de grado de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el R-package tnet.
1
2
3
4
5
6
7
8
9
10
11
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the out-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5)
# Calculate the in-degree of neurons and the generalised measures (alpha=0.5)
degree_w(net=celegans.n306.net, measure=c("degree","output","alpha"), alpha=0.5, type="in")


Cercanía



La cercanía se define como la inversa de la lejanía, que a su vez es la suma de las distancias a todos los demás nodos (Freeman, 1978). La intención detrás de esta medida fue identificar los nodos que podrían llegar a otros rápidamente. Una limitación principal de la cercanía es la falta de aplicabilidad a redes con componentes desconectados: dos nodos que pertenecen a diferentes componentes no tienen una distancia finita entre ellos. Por lo tanto, la cercanía generalmente está restringida a los nodos dentro del componente más grande de una red. La publicación de blog Closeness Centrality in Networks with Disconnected Components sugiere un método para superar esta limitación,

La cercanía se ha generalizado a las redes ponderadas por Newman (2001), que utilizó el algoritmo de Dijkstra (1959) (para obtener más detalles, consulte Trayectos más cortos en Redes ponderadas). Para reiterar rápidamente el trabajo de Dijkstra (1959) y de Newman (2001) aquí:
  1. Dijkstra (1959) propuso un algoritmo para encontrar las rutas más cortas en una red donde los pesos podrían considerarse costos. La ruta menos costosa que conecta dos nodos fue la ruta más corta entre ellos (por ejemplo, una red de carreteras donde cada tramo de carretera tiene un costo de tiempo asignado).
  2. Newman (2001) transformó los pesos positivos en una red de colaboración en costos invirtiéndolos (dividiendo 1 por el peso).
  3. Sobre la base de los pesos invertidos, Newman (2001) aplicó el algoritmo de Dijkstra y encontró los caminos menos costosos entre todos los nodos.
  4. El costo total de las rutas de un nodo a todos los demás fue una medida de lejanía: cuanto mayor es el número, más cuesta que un nodo llegue a todos los otros nodos. Para crear una medida de proximidad, Newman (2001) siguió a Freeman (1978) e invirtió los números (1 dividido por la lejanía). Por lo tanto, una alta lejanía se transformó en una baja cercanía, y una baja lentitud se transformó en una gran cercanía.

De forma similar a la generalización de grado de Barrat et al. (2004), el algoritmo generalizado de Newman (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas se puede aplicar para determinar la longitud de ellas.

Para calcular las puntuaciones de cercanía de los nodos, a continuación se muestra un código de muestra para calcular los puntajes de cercanía de las neuronas del gusano c.elegans (Watts y Strogatz, 1998) utilizando el paquete de R tnet.




.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Load tnet
library(tnet)
# Load the neural network of the c.elegans network
data(tnet)
# Calculate the binary closeness scores
closeness_w(net=celegans.n306.net, alpha=0)
# Calculate the first generation weighted closeness scores
closeness_w(net=celegans.n306.net, alpha=1)
# Calculate the second generation weighted closeness scores (alpha=0.5)
closeness_w(net=celegans.n306.net, alpha=0.5)

Intermediación

La medida en que un nodo forma parte de las transacciones entre otros nodos se puede estudiar utilizando la medida de interdependencia de Freeman (1978). En la red de muestra de la derecha, si los enlaces no tenían un peso asignado, las líneas grises intermitentes representan las 9 rutas más cortas de la red que pasan por nodos intermedios. El nodo resaltado es un intermedio en 8 de estas rutas. Esto le dará a este nodo una puntuación de interinidad de 8.



Brandes (2001) propuso un nuevo algoritmo para calcular la interrelación más rápido. Además de reducir el tiempo, este algoritmo también relajó la suposición de que los vínculos debían estar presentes o ausentes (es decir, una red binaria) y permitió que se calculase la interdependencia en redes ponderadas (tenga en cuenta que esta generalización es independiente de la medida de flujo propuesta por Freeman et al., 1991, que podría ser más apropiado en ciertos entornos). Esta generalización tiene en cuenta que, en las redes ponderadas, la transacción entre dos nodos podría ser más rápida a lo largo de las rutas con más nodos intermedios que están fuertemente conectados que las rutas con menos nodos intermedios débilmente conectados. Esto se debe al hecho de que los nodos intermedios fuertemente conectados tienen, por ejemplo, un contacto más frecuente que los conectados débilmente. Por ejemplo, el vínculo entre el nodo superior izquierdo y el nodo focal en la red de muestra anterior tiene cuatro veces la fuerza del enlace entre el nodo inferior izquierdo y el nodo focal. Esto podría significar que el nodo superior izquierdo tiene contacto más frecuente con el nodo focal que el nodo inferior izquierdo. A su vez, esto podría implicar que el nodo superior izquierdo podría dar al nodo focal una información (o una enfermedad) cuatro veces más rápido que el nodo inferior izquierdo. Si estamos estudiando los nodos que con mayor probabilidad canalizan información o enfermedades en una red, entonces la velocidad a la que viaja y las rutas que lleva se ven claramente afectadas por los pesos. La identificación de las rutas más cortas en redes ponderadas también se puede utilizar al identificar los nodos que canalizan transacciones entre otros nodos en redes ponderadas. Si suponemos que las transacciones en una red ponderada siguen las rutas más cortas identificadas por el algoritmo de Dijkstra en lugar de la que tiene el menor número de nodos intermedios, entonces el número de rutas más cortas que pasan por un nodo podría cambiar.

.
Nodo Medida de intermediación de
Freeman (1978) Brandes (2001) Opsahl et al. (2010; alpha=0.5)
1 0 4 0
2 8 8 8
3 0 0 0
4 0 0 0
5 4 4 4
6 0 0 0


Ahora, el nodo 1 (A) también obtuvo una puntuación de interdependencia de 4. Esto se debe a que se usa la ruta indirecta desde el nodo B al nodo C hasta A en lugar de la conexión directa.

De forma similar a la generalización de proximidad de Newman (2001), el algoritmo generalizado de Brandes (2001) se centra únicamente en la suma de ponderaciones de relación y no tiene en cuenta la cantidad de vínculos en las rutas. Opsahl et al. (2010) la generalización de las rutas más cortas también puede aplicarse para identificarlas.

Para calcular las puntuaciones de interdete de los nodos, a continuación se muestra un código de muestra para producir las tres tablas anteriores utilizando el paquete de R de tnet.
.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# Manually enter the example network
net <- cbind(
i=c(1,1,2,2,2,2,3,3,4,5,5,6),
j=c(2,3,1,3,4,5,1,2,2,2,6,5),
w=c(4,2,4,1,4,2,2,1,4,2,1,1))
# Calculate the binary betweenness measure
betweenness_w(net, alpha=0)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=1)
# Calculate the first generation weighted betweenness measure
betweenness_w(net, alpha=0.5)

 Nota: La implementación del algoritmo de Brandes (2001) encuentra múltiples rutas si tienen exactamente la misma distancia. Por ejemplo, si se encuentra un camino sobre el empate directo con un peso de 1 (distancia = 1/1 = 1) y un segundo camino es a través de un nodo intermediario con dos empates con pesos de 2 (distancia = 1/2 + 1 / 2 = 1), las dos rutas tienen exactamente la misma distancia. Sin embargo, si hay un tercer camino a través de dos intermediarios con tres vínculos con pesos de 3 (distancia = 1/3 + 1/3 + 1/3), no es exactamente igual a 1 ya que las computadoras leen estos valores como 0.3333333 y la suma de estos valores es 0.9999999. Por lo tanto, esta ruta se considera más corta que las otras dos rutas (distancia = 1).

Referencias

Barrat, A., Barthelemy, M., Pastor-Satorras, R., Vespignani, A., 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences 101 (11), 3747-3752. arXiv:cond-mat/0311416
Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Freeman, L. C., Borgatti, S. P., White, D. R., 1991. Centrality in valued graphs: A measure of betweenness based on network flow. Social Networks 13 (2), 141-154.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251. 

sábado, 16 de junio de 2018

Centralidad en redes de dos modos


Centralidad de nodo en redes de dos modos

Tore Opsahl

La centralidad de los nodos, o la identificación de qué nodos son más "centrales" que otros, ha sido un tema clave en el análisis de redes (Freeman, 1978). Freeman (1978) argumentó que los nodos centrales eran aquellos "en el meollo de las cosas" o puntos focales. Con base en este concepto, formalizó tres medidas: grado, cercanía y entrecruzamiento. Para obtener una información más completa sobre estas medidas, vea Centralidad de nodos en Redes ponderadas.

Grado

Grado es el número de vínculos que tiene un nodo o el número de otros nodos a los que está conectado un nodo. En redes de dos modos, este concepto se puede aplicar directamente. Sin embargo, hay algunas complicaciones. En redes de dos modos, "la cantidad de otros nodos a los que está conectado un nodo" es ambigua. Podría ser el número de nodos secundarios a los que está conectado un nodo primario (y viceversa), o el número de nodos primarios a los que está conectado un nodo primario. Para aclarar la diferencia entre estos dos números, me referí a ellos como nodos de dos modos y un modo, respectivamente. Para ejemplificar la diferencia, la imagen a continuación muestra la red local que rodea a Flora en el Dataset de mujeres sureñas de Davis (1940) (adaptado de Opsahl, 2011).





La red local que rodea a Flora
Como se puede ver en este diagrama, el grado de dos modos de Flora es 2 y el grado de 1 modo es 12. Si la red se proyectó a una red de modo único, la medida de grado estándar sería 12.

También es posible obtener el grado de dos modos de los nodos una vez que se ha proyectado una red utilizando el método de Newman (2001). Este método de proyección fue desarrollado para las redes de coautoría científica, y establece el peso del empate entre dos autores igual a la suma en los trabajos co-autoescritos de 1 sobre el número de autores en ese documento menos 1. En otras palabras, para cada coautoría papel, un nodo divide 1 por los otros autores. Como tal, el peso total del empate es igual al número de documentos coautores. La única diferencia entre este método y el grado de dos modos son los trabajos de autor único. Estos están excluidos en el primero e incluidos en el segundo método.

Cercanía e intermediación

La parte principal de las medidas de proximidad y de interdependencia son los caminos más cortos y su longitud. La cercanía es la suma inversa de las longitudes de las trayectorias más cortas, y la interdependencia es la cantidad de trayectos más cortos que pasan por un nodo. Al aprovechar el algoritmo de ruta más corta de dos modos, es posible ampliar fácilmente estas dos medidas a redes de dos modos. Para recapitular rápidamente este algoritmo: 
  1. Use un método de proyección apropiado 
  2. Utilice el método para identificar las rutas más cortas y calcular su longitud en redes ponderadas de modo único (Brandes, 2001; Dijkstra, 1959; Newman, 2001).
Cuando se encuentre la longitud de las rutas más cortas, la medida de proximidad sería simplemente la suma inversa de ellas. Del mismo modo, la interdependencia se calculará fácilmente mirando los nodos intermedios en las rutas más cortas y contará, para cada nodo, la cantidad de veces que ese nodo es un intermediario. Nota: si hay varias rutas más cortas, es importante dividir por el número de ellas para asegurarse de que cada ruta solo cuente una vez.


Ejemplo

Para ilustrar las cuatro medidas, confío en Davis (1940) Southern Women Dataset. La asistencia a la reunión de 18 mujeres en 14 reuniones se registra en este conjunto de datos. La siguiente tabla muestra el resultado de las cuatro medidas (Newman's, 2001, el método de proyección se utiliza para la cercanía y la interdependencia, ya que es probable que el nivel de interacción entre los participantes en eventos más pequeños sea mayor).

.
nodo two-mode degree one-mode degree closeness betweenness
EVELYN 8 17 0.053 5
LAURA 7 15 0.051 1
THERESA 8 17 0.060 48
BRENDA 7 15 0.050 1
CHARLOTTE 4 11 0.044 0
FRANCES 4 15 0.041 0
ELEANOR 4 15 0.043 0
PEARL 3 16 0.037 0
RUTH 4 17 0.043 0
VERNE 4 17 0.045 0
MYRNA 4 16 0.042 0
KATHERINE 6 16 0.052 0
SYLVIA 7 17 0.054 11
NORA 8 17 0.059 60
HELEN 5 17 0.046 0
DOROTHY 2 16 0.027 0
OLIVIA 2 12 0.035 0
FLORA 2 12 0.035 0

En esta tabla se puede ver una limitación clave de la medida de transición: la mayoría de las personas obtiene un puntaje de 0 (es decir, la medida es cero-inflado). Las correlaciones por pares entre las medidas se informan a continuación. Si bien todas las medidas tienen altas correlaciones, es interesante observar que la medida de grado de dos modos tiene una mayor correlación con la cercanía y la interdependencia que la medida de grado de modo único. Esto podría sugerir que la medida de grado de dos modos computacionalmente barata es más capaz de replicar las medidas de proximidad y de equilibrio computacionalmente costosas.


1 2 3 4
1: two-mode degree 1.00


2: one-mode degree 0.51 1.00

3: closeness 0.95 0.44 1.00
4: betweenness 0.59 0.34 0.64 1.00


¿Quieres probarlo con tus datos?

Las medidas se pueden calcular utilizando tnet. Primero, necesita descargar e instalar tnet en R. Luego, necesita crear un edgelist de su red (vea las estructuras de datos en tnet para redes de dos modos). Los siguientes comandos muestran cómo se crearon las tablas anteriores.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# Load tnet and the Southern Women Dataset
library(tnet)
data(tnet)
net <- Davis.Southern.women.2mode
 
# Calculate two-mode degree
out <- degree_tm(net, measure="degree")
 
# Create one-mode projection
net1 <- projecting_tm(net, "Newman")
 
# Calculate one-mode degree
tmp <- degree_w(net1)[,"degree"]
 
# Append to table
out <- data.frame(out, onemodedegree=tmp)
 
# Calculate closeness and append to table
tmp <- closeness_w(net1 )[,"closeness"]
out <- data.frame(out, closeness=tmp)
 
# Calculate betweenness and append to table
tmp <- betweenness_w(net1 )[,"betweenness"]
out <- data.frame(out, betweenness=tmp)
 
# Download and set names
out[,"node"] <- read.table("http://opsahl.co.uk/tnet/ datasets/Davis_southern_club_women-name.txt")
 
# Pair-wise correlation table
tmp <- matrix(nrow=4, ncol=4)
tmp[lower.tri(tmp)] <- apply(which(lower.tri(tmp), arr.ind=TRUE)+1, 1, function(a) cor.test(out[,a[1]], out[,a[2]])$estimate)




Referencias

Brandes, U., 2001. A Faster Algorithm for Betweenness Centrality. Journal of Mathematical Sociology 25, 163-177.
Davis, A., Gardner, B. B., Gardner, M. R., 1941. Deep South. University of Chicago Press, Chicago, IL.
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Newman, M. E. J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.
Opsahl, T., 2013. Triadic closure in two-mode networks: Redefining the global and local clustering coefficients. Social Networks 35, doi:10.1016/j.socnet.2011.07.001.
Opsahl, T., Agneessens, F., Skvoretz, J., 2010. Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32 (3), 245-251.

domingo, 22 de octubre de 2017

La corbata de moño que nos une a todos

¿Qué tan cerca estás?


Un diagrama de su red social revela la fortaleza de sus relaciones individuales, dicen los científicos de la red.

por Emerging Technology del arXiv

La red de enlaces entre individuos -su red social- ha fascinado a los científicos sociales por mucho tiempo. Estas redes no son aleatorias ni completamente ordenadas. En cambio, ocupan un término medio en el que las personas están estrechamente vinculadas con unas pocas personas que conocen bien, con vínculos más débiles con un grupo más grande de amigos y compañeros de trabajo, además de vínculos extremadamente débiles con una amplia gama de conocidos casuales.

Los científicos sociales miden la fuerza de estos enlaces utilizando una variedad de indicadores, como la frecuencia con que una persona llama a otra, si esa llamada es recíproca, el tiempo que las dos personas pasan hablando, y así sucesivamente. Pero estos indicadores a menudo son difíciles de medir y toman mucho tiempo.

Entonces, a los teóricos de la red les encantaría tener alguna manera de medir la fuerza de los vínculos desde la estructura de la red misma.


La estructura de pajarita en una red social revela la fuerza de las amistades.

Hoy, obtienen su deseo gracias al trabajo de Heather Mattie en la Universidad de Harvard en Massachusetts y algunos amigos, que dicen haber encontrado un patrón especial en los vínculos entre las personas que revela la fuerza de los lazos entre ellos. El patrón forma una estructura topológica que se asemeja a una pajarita.

El método del equipo es directo. Mattie y su equipo estudian la fuerza de los enlaces en dos redes sociales desde entornos muy diferentes.

El primero es la red de enlaces entre casi 70,000 personas en 75 aldeas rurales en India. Los científicos sociales reconstruyeron la red mediante encuestas diseñadas para recopilar información social relevante. Esta encuesta preguntó qué amigos y parientes visitan la casa del demandado, de qué personas tomaría prestado el demandado o recibiría consejo médico o iría al templo, y así sucesivamente.

Esto permitió a los investigadores reconstruir una red social que consta de 37,000 bordes entre 17,000 personas para quienes tenían información completa. Luego usaron el número de enlaces sociales de las encuestas como una medida de fortaleza para los lazos sociales entre las personas. Entonces, si dos personas eran parientes que se visitaban en casa, iban juntos al templo y se prestaban dinero, cada uno de estos factores contribuiría al vínculo entre ellos.

Mattie y compañía también construyeron la red social entre usuarios de teléfonos móviles de un país europeo sin nombre. Debido al tamaño de la red, el equipo eligió a 500,000 personas al azar y luego construyó la red social usando el número y la duración de las llamadas entre ellos. Supusieron que el vínculo era más fuerte si las llamadas eran recíprocas y si la cantidad total de tiempo dedicado a hablar era alta.

Luego, el equipo examinó la estructura de ambas redes. Para cada par de individuos, construyeron la red de amigos que tenían en común y la red de amigos que no tenían en común. Es esta estructura que se parece a una pajarita o corbata de moño (ver diagrama). Luego analizaron estas redes de pajarita.

Los resultados hacen una lectura interesante. El equipo descubrió que el número de amigos que los pares de individuos tienen en común está fuertemente correlacionado con la fuerza del vínculo entre ellos, medido de otras maneras. Eso es independientemente de si las personas están vinculadas por registros de teléfonos móviles o por las relaciones sociales en aldeas rurales de la India.

Este resultado captura los hallazgos de dos de los primeros investigadores que trabajaron en las redes sociales. El primero proviene de Elizabeth Bott, una influyente antropóloga que publicó un libro en 1957 llamado Family and Social Networks.

En este libro, formuló la hipótesis de que el grado de agrupamiento en la red de un individuo podría alejar a la persona de un vínculo con otra persona. En otras palabras, si formas parte de un grupo de amigos o parientes cercanos, eres menos capaz de establecer vínculos fuertes fuera de este grupo.

El segundo proviene de Mark Granovetter, un sociólogo estadounidense que en 1969 escribió un artículo de gran influencia llamado "La fuerza de los lazos débiles". En este documento, sugirió que cuanto más fuerte era el vínculo entre dos personas, mayor era la proporción de amigos que tenían. tener en común.

El marco de bow tie (corbata de moño) de lazos captura ambas ideas. "Ambos conjuntos de datos proporcionan evidencia para apoyar la hipótesis de los vínculos débiles y la hipótesis de Bott", dicen Mattie y compañía.

El nuevo hallazgo tiene implicaciones interesantes. Sugiere que debería ser sencillo medir la fuerza de los enlaces entre individuos, simplemente observando la estructura de su red social. "Esta estructura local permite análisis que son computacionalmente factibles para redes de cualquier tamaño", dicen Mattie y compañía.

Y debería permitir una prueba adecuada de la hipótesis original de Bott, que ella aplicó a las parejas y familias casadas. "Esto permitiría probar la versión original de la hipótesis de Bott, en lugar de una forma generalizada como la presentamos aquí", dicen Mattie y compañía.

El trabajo también muestra cómo las redes sociales pueden revelar más sobre las personas de lo que de otro modo podrían querer hacer público. El trabajo de Mattie implica que la forma de su red social revela no solo con quién es amigo sino qué tan fuertemente está vinculado a ellos. No todos estarán felices con eso.


Ref: arxiv.org/abs/1710.04177 : The Social Bow Tie



sábado, 8 de agosto de 2015

Aprendiendo ARS con el caso Enron

El uso de medidas de análisis de redes sociales
Para diseccionar el corpus Enron

KeyLines

Trabajar como pasante para Cambridge Intelligence durante el verano, no podía esperar para entrar en KeyLines y ver lo que podía hacer. Decidí que me gustaría escribir un blog para compartir una de mis experiencias con el uso de algunas de las funciones más avanzadas en KeyLines.

Presentación del Corpus de Correo de Enron 

En 2003, la Comisión de Regulación de Energía Federal publicó 1,6 millones de correos electrónicos enviados y recibidos por la dirección de Enron entre científicos de Investigación 2000 y 2002. en el MIT y luego compró el conjunto de datos y se dedicó a poner en orden, reformatear y de-duplicación para uso público.

Tomamos estos datos y cargamos en KeyLines. Hoy voy a utilizar la demo Enron para tratar de ingeniería inversa algunos de la investigación y de comprender la estructura de gestión de la organización usando análisis de redes sociales.

Póngase en contacto con nosotros para obtener acceso a nuestro SDK para tratar de usted mismo.

Visualización de la topología de red

Al abrir la demo, puedo ver que los nodos representan las personas dentro del corpus de Enron y los vínculos entre ellos son los correos electrónicos entrantes y salientes.



Puedo ver la estructura superpuesta de comunicación de la organización y que hay un grupo muy unido enredado en la parte superior izquierda. Vamos a cambiar "el volumen de correo electrónico" en:



Mostrando volúmenes de correo electrónico realmente destaca el área fuertemente conectada a la izquierda de la red. Pero también parece que hay algunas comunidades más pequeñas en los bordes del mapa de la red. Por ejemplo, Bill Williams en el extremo derecho:



Podemos asumir que Bill es una especie de jefe de equipo. Pero parece extraño que sólo tiene un único flujo de la comunicación procedente de la red más grande y sólo se comunica con nodos que están aislados de la red principal. Esto parece un buen lugar para empezar.

Encontrar un punto de partida

Una rápida búsqueda en Google revela que Bill estaba directamente involucrado con la manipulación de la producción de energía para beneficiar de manera fraudulenta los ejecutivos de Enron. Él fue escuchado en la corte a través de una grabación de instruir a un miembro de alto nivel del personal de una central eléctrica de retener deliberadamente poder y inventar una excusa para hacerlo, causando apagones para miles de hogares a través de California.

El uso de enlaces de red para rastrear conexiones

Puedo explotar ese conocimiento en un esfuerzo por encontrar más a través de las relaciones de Bill. Si hago clic en el nodo, puedo destacar sus conexiones inmediatas desde el resto de la red.



Esto demuestra que Bill está conectado a la red más amplia a través de una sola persona; Timothy Belden. Los informes nos dicen que Bill era un operador senior - en el supuesto de que no estaba actuando solo, su conexión a Timothy Belden parece bastante sospechoso y los correos electrónicos entre ellos ha sido de importancia para la investigación, ya que pueden ofrecer una ventaja a los asociados potenciales de Bill.

La importancia de las conexiones

Parece KeyLines ya ha puesto de manifiesto la supuesta "cerebro" detrás de escándalo californiana de Enron. La conexión entre Bill y Timoteo se convierte ahora de aún más importancia -, mientras que Red Visualización sí sola no puede probar o refutar la culpa, guarda lo que podría haber llevado semanas tamizado a través de mensajes de correo electrónico para identificar que estaba hablando con quién, y permite a los investigadores detectar estructuras ocultas de la comunicación dentro de la red.

Ahora vamos a probar algo un poco más avanzado ...

Utilizando ARS para identificar diferentes posiciones en una jerarquía

Voy a ver si puedo utilizar KeyLines para localizar personas importantes en la empresa (o por lo menos a la persona en la parte superior de la jerarquía dentro de la red).

Centralidad de Grado

La centralidad de grado es puramente una medida de la cantidad de conexiones directas a una persona / nodo tiene. En esta demo, mayor centralidad de grado se asocia con mayor tamaño de los ganglios y el color más oscuro. Alguien en la parte superior de la cadena de mando es probablemente propensos a tener una feria pocas conexiones, pero no la mayoría. Sólo deben estar hablando directamente con los 'jefes de departamento "o equivalente.

Vamos a echar un vistazo a la red con centralidad grado encendido:



A primera vista, Mark Taylor y Tana Jones parecen a gente importante, pero el volumen de conexiones que tienen sugieren que en realidad ocupan roles de distribuir la información, tales como las comunicaciones internas. Creo que nuestros principales sospechosos para la alta dirección son ahora Michael Grigsby, John Lavorato, Louise Kitcher y Elizabeth Sager. Los otros del mismo tamaño parecen demasiado estrechamente relacionados con el grupo a la derecha del mapa.



Centralidad de cercanía 

La centralidad de cercanía es una medida de cuán cerca un nodo es a cualquier otro nodo en la red. El uso de esta característica en la demo KeyLines, un nodo es de tamaño y de color basado en la cantidad acumulada de grados que está lejos de todos los demás nodos. Echemos un vistazo a nuestra red ahora:



Ok, eso es un poco abrumador. Nos atenemos a los nombres que desenterraron de la filtración centralidad de grado y ver cómo se ven aquí.



He destacado los nombres que he seleccionado previamente. Todos ellos muestran un alto nivel de proximidad central - algo que podríamos esperar para ver de un director, que, en teoría, sus conexiones deben fluir de manera eficiente en la jerarquía. Hay, sin embargo, un factor de diferenciación entre los cuatro - la cercanía de las personas en sus redes inmediatas.



Como se puede ver arriba, la gente en la red inmediata de John Lavorato tienen una proximidad central más alta que cualquiera de los otros directores potenciales. Tiene sentido que los jefes y gerentes de departamento conectados bien igualmente rodearían el director.

Vamos a ver si podemos hacer una conjetura sobre el nombre de la Directora sobre la base de la tercera medida centralidad ofrecido en KeyLines ...

Centralidad de intermediación

Intermediación mide lo bien que un nodo conecta comunidades separadas dentro de la red. Yo esperaría a ver un mayor nivel de centralidad de intermediación en un director, como en teoría deberían tener los gerentes de las diferentes áreas de la empresa informaron a ellos y, por tanto, debe formar un enlace entre los diferentes departamentos. Vamos a ver si alguno de nuestros directores potenciales coincide este perfil:





De nuestros cuatro original, John Lavorato parece tener el mayor centralidad de intermediación y por lo tanto mejor nuestro perfil partidos para el director, sobre todo dada la mayor proximidad central de su red inmediata. Vamos a ver cómo lo hice ...

¡Éxito! El uso de medidas de ARS para detectar estructuras dentro de las redes

Los informes confirman que Lavorato era de hecho el presidente ejecutivo de Enron Américas. Hay maneras sin duda más eficientes de identificar el CEO de una empresa, pero este ejercicio muestra como social, análisis de red y visualización de datos se puede utilizar para llevar a cabo las estructuras ocultas en los datos conectados complejos, en los que la jerarquía no es tan evidente - por ejemplo, cuando la disección de una red de fraude o de la localización de donde el liderazgo pone en una célula terrorista.

Puramente mediante el uso de medidas KeyLines SNA, tuve la oportunidad de seleccionar los dos de los jugadores clave en el escándalo de Enron y aislar la parte superior de la jerarquía. Si este ejercicio demuestra algo, es el poder de investigación de la visualización y análisis de redes.

martes, 5 de mayo de 2015

Centralidades por paseo aleatorio

Centralidad de cercanía de paseo aleatorio 
Wikipedia

La centralidad de cercanía por camino aleatorio [random walk] es una medida de centralidad en una red, que describe la velocidad media con la que los procesos caminando al azar llegan a un nodo desde otros nodos de la red. El concepto fue propuesto por primera vez por Noh y Rieger (2004). [1]


Intuición

Considere una red con un número finito de nodos y un proceso de paseo aleatorio que se inicia en un determinado nodo y procede de un nodo a otro a lo largo de los enlaces. Desde cada nodo, se elige aleatoriamente el enlace a seguir. En una red no ponderada, la probabilidad de elegir un determinado enlace es igual en todos los enlaces disponibles, mientras que en una red ponderada es proporcional a la ponderación de los enlaces. Un nodo se considera para estar cerca de otros nodos, si el proceso de paseo aleatorio iniciado desde cualquier nodo de la red llega a este nodo particular en relativamente pocos pasos en promedio.


Definición

Considere una red ponderado - ya sea dirigido o no dirigido - con n nodos notados por j = 1, ..., n; y un proceso de paseo aleatorio en esta red con una matriz de transición M. El  elemento de M describe la probabilidad de que el caminante aleatorio que ha alcanzado el nodo i, procede directamente al nodo j. Estas probabilidades se definen de la siguiente manera.

 donde  es el (i, j) -ésimo elemento de la matriz de ponderación A de la red. Cuando no hay ningún borde entre dos nodos, el elemento correspondiente de la matriz A es cero.
La proximidad central paseo aleatorio de un nodo i es la inversa del tiempo medio primer pasaje media a ese nodo:

Primero tiempo de paso media

La media primera tiempo de paso del nodo i al nodo j es el número esperado de pasos que tarda el proceso para alcanzar el nodo j desde el nodo i por primera vez:
 
donde P (i, j, r) denota la probabilidad de que se necesita exactamente pasos r para alcanzar j de i por primera vez. Para calcular estas probabilidades de llegar a un nodo por primera vez en los pasos r, es útil considerar el nodo de destino como una absorción, e introducir una transformación de M mediante la supresión de su fila y la columna j-ésima y denotando por M_ { -j}. Como la probabilidad de un proceso a partir de i y estar en k después de r-1 pasos es simplemente dadas por el (i, k) th elemento de , P (i, j, r ) se puede expresar como
 
Sustituyendo esto en la expresión para medias rendimientos tiempo primero paso
 
Usando la fórmula para la suma de la serie geométrica para matrices nos da

donde I es la matriz identidad dimensional n-1.
Por conveniencia computacional, esta expresión puede ser vectorizada como

donde  es el vector para la primera tiempos de paso para un paseo termina en el nodo j, y e es un vector n-1dimensional de 1.
El tiempo medio primer pasaje no es simétrico, incluso para grafos no dirigidos.

Centralidad de cercanía por paseo aleatorio en modelos de redes 

Según las simulaciones realizadas por Noh y Rieger (2004), la distribución de paseo aleatorio cercanía centralidad en un modelo Barabási-Albert está determinada principalmente por el grado de distribución. En una red de este tipo, la proximidad central paseo aleatorio de un nodo es aproximadamente proporcional a, pero no aumenta monotónicamente con su grado.

Aplicaciones para redes reales

La centralidad de cercanía por paseo aleatorio es medida más relevante que la proximidad central sencilla en el caso de aplicaciones en las que el concepto de caminos más cortos no es significativo o es muy restrictivo para una evaluación razonable de la naturaleza del sistema. Este es el caso por ejemplo cuando el proceso analizado evoluciona en la red sin ninguna intención específica para llegar a un cierto punto, o sin la capacidad de encontrar el camino más corto para alcanzar su objetivo. Un ejemplo de un paseo aleatorio en una red es la forma en que una cierta moneda circula en una economía: se pasa de una persona a otra a través de transacciones, sin ninguna intención de llegar a un individuo específico. Otro ejemplo donde el concepto de rutas más cortas no es muy útil es una red conectada densamente. Además, como los caminos más cortos no son influenciados por la libre bucles, proximidad central paseo aleatorio es más una medida más adecuada que proximidad central en el análisis de redes en la libre bucles son importantes.
Una aplicación importante en el campo de la economía es el análisis del modelo de insumo-producto de una economía, que está representado por una red ponderada densamente conectada con importantes libre bucles. [2]
El concepto es ampliamente utilizado en las ciencias naturales. Una aplicación biológica es el análisis de las interacciones proteína-proteína. [3]

Centralidad de intermediación por paseo aleatorio 

Un concepto relacionado, propuesto por Newman, [4] es la centralidad de intermediación por paseo aleatorio. Así como la centralidad cercanía por paseo aleatorio es una contraparte de la centralidad de cercanía, la centralidad de intermediación por paseo aleatorio es, del mismo modo, la contraparte de centralidad de intermediación tradicional. A diferencia de la medida habitual centralidad de intermediación, no sólo cuentan los caminos más cortos que pasan por el nodo dado, sino todos los caminos posibles que cruzan ella.
Formalmente, la centralidad de intermediación paseo aleatorio de un nodo es

 donde el elemento   de la matriz R contiene la probabilidad de un paseo aleatorio a partir de nodo j con absorción del nodo k, que pasa a través del nodo i.
El cálculo de intermediación por paseo aleatorio en grandes redes es computacionalmente muy intensivo. [5]


Referencias

  1. J.-D. Noh and H. Rieger. Random walks on complex networks. Phys. Rev. Lett. 92, 118701 [1]
  2. Blöchl F, Theis FJ, Vega-Redondo F, and Fisher E: Vertex Centralities in Input-Output Networks Reveal the Structure of Modern Economies, Physical Review E, 83(4):046127, 2011. [2] (Reproducido al final de esta entrada)
  3. Aidong, Zhang: Protein Interaction Networks: Computational Analysis (Cambridge University Press) 2007 [3]
  4. Newman, M.E. J.: A measure of betweenness centrality based on random walks. Social Networks, Volume 27, Issue 1, January 2005, Pages 39–54
  5. Kang, U., Papadimitriou, S., Sun, J., and Tong, H.: Centralities in Large Networks: Algorithms and Observations. SIAM International Conference on Data Mining 2011, Mesa, Arizona, USA. [4]


sábado, 25 de octubre de 2014

Centralidad de cercanía en componentes desconectados

Centralidad de cercanía en redes con componentes desconectados

Una medida centralidad de nodo clave en las redes es proximidad central (Freeman, 1978;. Opsahl et al, 2010; Wasserman y Faust, 1994). Se define como la inversa de la lejanía, que a su vez, es la suma de las distancias a todos los demás nodos. Como la distancia entre los nodos en los componentes desconectados de una red es infinito, esta medida no se puede aplicar a redes con componentes desconectados (Opsahl et al, 2010;. Wasserman y Faust, 1994). Este anuncio pone de relieve una posible solución temporal, lo que permite que la medida se aplique a estas redes y al mismo tiempo mantener la idea original detrás de la medida.

Esta red da un ejemplo concreto de la medida de la cercanía. La distancia entre el nodo G y el nodo H es infinita dado que no existe un camino directo o indirecto entre ellos (es decir, que pertenecen componentes separados). Mientras al menos un nodo es inalcanzable por los otros, la suma de las distancias a todos los otros nodos es infinito. Como consecuencia, los investigadores han limitado la cercanía a medida el componente más grande de nodos (es decir, medido intra-componente). La matriz de distancia para los nodos de la red de la muestra es:
NodosTodos incluidosIntra-componente
ABCDEFGHIJKLejaníaCercaníaLejaníaCercanía
A112233InfInfInfInfInf0120.08
B112123InfInfInfInfInf0100.10
C111222InfInfInfInfInf090.11
D221211InfInfInfInfInf090.11
E212213InfInfInfInfInf0110.09
F322112InfInfInfInfInf0110.09
G332132InfInfInfInfInf0140.07
HInfInfInfInfInfInfInf12InfInf030.33
IInfInfInfInfInfInfInf11InfInf020.50
JInfInfInfInfInfInfInf21InfInf030.33
KInfInfInfInfInfInfInfInfInfInfInf00Inf

Aunque las puntuaciones de proximidad dentro de los componentes no son infinitos para todos los nodos de la red, sería inexacto utilizarlos como medida cercanía. Esto es debido al hecho de que la suma de las distancias contendría un número diferente de trayectorias (por ejemplo, hay dos distancia desde el nodo H a otros nodos en su componente, mientras que hay seis distancias desde el nodo G a otros nodos de su componente). De hecho, los nodos en componentes más pequeños por lo general se considera que estar más cerca de los demás que los nodos de los componentes más grandes. Por lo tanto, los investigadores se ha centrado exclusivamente en el componente más grande. Sin embargo, esto conduce a una serie de cuestiones metodológicas, incluyendo la selección de la muestra.
Para desarrollar esta medida, me fui de nuevo a la ecuación original:
\mbox{closeness}(i) = \sum_j \left[ d_{ij} \right]^{-1} = \frac{1}{\sum_j d_{ij}}
donde i es el nodo focal, j es otro nodo en la red, y d_{ij} es la distancia mas corta entre estos dos nodos. En esta ecuación, las distancias están invertidas después de que se han sumado, y cuando la suma de un número infinito, el resultado es infinito. Para superar este problema durante su estancia en consonancia con la medida existente de cercanía, me aproveché del hecho de que el límite de un número dividido por infinito es cero. A pesar de que el infinito no es un número exacto, el inverso de un número muy alto es muy cercano a 0. De hecho, se devuelve 0 si introduce 1 / Inf en el programa estadístico R. Al tomar ventaja de esta característica, es posible reescribir la ecuación cercanía como la suma de las distancias La Inversa a todos los demás nodos en lugar de la inversa de la suma de las distancias a todos los demás nodos. La ecuación sería entonces:
\mbox{closeness}(i) = \sum_j \frac{1}{d_{ij}}
Para ejemplificar este cambio, para el ejemplo de la red anterior, las distancias inversas y las puntuaciones de proximidad son:
NodesCloseness
ABCDEFGHIJKSumNormalized
A1.001.000.500.500.330.3300003.670.37
B1.001.000.501.000.500.3300004.330.43
C1.001.001.000.500.500.5000004.500.45
D0.500.501.000.501.001.0000004.500.45
E0.501.000.500.501.000.3300003.830.38
F0.330.500.501.001.000.5000003.830.38
G0.330.330.501.000.330.5000003.000.30
H00000001.000.5001.500.15
I00000001.001.00020.20
J00000000.501.0001.500.15
K000000000000

Como puede verse en esta tabla, una puntuación cercanía se alcanza para todos los nodos, teniendo en cuenta un número igual de distancias para cada nodo, independientemente del tamaño del componente de los nodos. Por otra parte, los nodos que pertenecen a un mayor componente generalmente alcanza una puntuación más alta. Esto es deliberado, ya que estos nodos pueden llegar a un mayor número de personas distintas de los nodos en componentes más pequeños. Las puntuaciones normalizadas están unidos entre 0 y 1. Es 0 si un nodo es un aislado, y 1 si un nodo está conectado directamente todos los demás.
Esta medida se puede extender fácilmente a las redes ponderados mediante la introducción (1959) el algoritmo de Dijkstra tal como se propone en la distancia más corta media en redes ponderados.
Referencias
Dijkstra, E. W., 1959. A note on two problems in connexion with graphs. Numerische Mathematik 1, 269-271.
Freeman, L. C., 1978. Centrality in social networks: Conceptual clarification. Social Networks 1, 215-239.
Opsahl, T., Agneessens, F., Skvoretz, J. (2010). Node centrality in weighted networks: Generalizing degree and shortest paths. Social Networks 32, 245-251.
Wasserman, S., Faust, K., 1994. Social Network Analysis: Methods and Applications. Cambridge University Press, New York, NY.

Tore Opsahl