Análisis de redes sociales: Distancia conceptual en redes sociales (1/2)

martes, 2 de junio de 2015

Distancia conceptual en redes sociales (1/2)

Distancia conceptual en Análisis de Redes Sociales

Anthony Dekker, Tony.Dekker@dsto.defence.gov.au
Defensa Ciencia y la Tecnología, Australia
Journal of Social Structure

Resumen: En este artículo se presenta una aproximación al análisis de redes sociales, con base en el análisis estadístico de la distancia conceptual entre las personas. En concreto, se introduce el concepto de centralidad valorado y una generalización de la distancia geodésica que llamamos distancia del enlace. Examinaremos una serie de beneficios del concepto distancia del enlace, incluyendo la facilidad de visualización y aplicabilidad de los métodos estadísticos comunes. El uso de un estudio de caso, se demuestra cómo examinar las relaciones estadísticas entre la distancia del enlace y otras formas de distancia conceptual puede ofrecer ideas sobre la naturaleza de la comunicación dentro de una organización. Por lo tanto una integración de las técnicas gráfico-teórico tradicionales en análisis de redes sociales, y las técnicas estadísticas tradicionales en otras ciencias sociales, conduce a una técnica combinada que integra los puntos fuertes de ambos enfoques.

1. Introducción

El Análisis de Redes Sociales [1] es un acercamiento a las organizaciones que estudian centrados en el análisis de las redes de relaciones entre las personas y / o grupos como el aspecto más importante. Volviendo al menos hasta la década de 1950, se caracteriza por la adopción de técnicas matemáticas en especial de la teoría de grafos [2, 3]. Tiene aplicaciones en la organización la psicología, la sociología y la antropología. Una excelente visión general del campo viene dada por Wasserman y Faust [1].

El Análisis de Redes Sociales proporciona una vía para analizar y comparar información formal e informal fluye en una organización, así como la comparación de los flujos de información con los procesos de trabajo definido oficialmente. Estamos interesados en la aplicación de Análisis de Redes Sociales para organizaciones militares, y especialmente a las oficinas centrales militares que van desde la brigada a niveles estratégicos nacionales.

Un aspecto importante del análisis de redes sociales es la visualización de la comunicación y otras relaciones entre las personas y / o grupos, mediante diagramas. Visualización de las redes sociales tiene una larga tradición y un excelente estudio histórico está dado por Freeman [4]. Visualización de las redes sociales es importante debido a la complejidad de la estructura organizativa, y la necesidad de una buena representación visual de cómo funciona una organización.

Un segundo aspecto es el estudio de los factores que influyen en las relaciones, por ejemplo, la edad, los antecedentes y la capacitación de las personas involucradas. El estudio de las correlaciones entre las relaciones también es importante, ya que ofrece una visión de los motivos por qué las relaciones existe. Estos estudios se pueden realizar utilizando técnicas estadísticas tradicionales, tales como la correlación, el análisis de la varianza, y el análisis de factor, pero también requieren técnicas de visualización apropiados.

El objetivo final del análisis de redes sociales es a menudo para extraer implicaciones de los datos relacionales, con el fin de hacer recomendaciones para mejorar la comunicación y el flujo de trabajo en una organización. Esta es la principal motivación para nuestro programa de Análisis de Redes Sociales. En trabajos anteriores [5, 6, 7], hemos aplicado el Análisis de Redes Sociales para organizaciones militares. En el curso de este trabajo, hemos encontrado distancia conceptual para ser el constructo más útil para explicar las relaciones. Esto es en parte debido a que el cerebro humano está capacitado para pensar y juzgar visualmente distancias. En este artículo se argumenta los beneficios del uso de la distancia conceptual para el análisis de redes sociales, y demostrar cómo hacerlo mediante un estudio de caso.

2. Definición de Distancia

Hemos encontrado redes valorados para ser el más útil para el modelado de las relaciones sociales y laborales. En las redes valorados, cada enlace se le asigna un valor, que tomamos para estar en el rango de 0 (enlace inexistente) a 1 (más fuerte vínculo posible). Esto proporciona una descripción más exacta de la realidad que simplemente con respecto a los enlaces como "presente" o "ausente". También evita un problema serio con las redes no valorados, es decir, la realización de elecciones arbitrarias en cuanto a cuánto comunicación constituye un enlace de ser "presente". También generalmente utilizamos redes dirigidas, con las flechas de la A a B que refleja la percepción de una de (y en algunos casos la contribución de la A a) la comunicación entre A y B.

Hay varias formas de obtener estos valores de vínculo 0-1. Hemos encontrado en general que es útil para valores de vínculo a codificarse pseudo-logarítmica. Un ejemplo típico de cómo hemos codificado de comunicación en algunos de nuestros estudios de análisis de redes sociales es:

1.0 = comunicación todos los días
0,8 = dos o más veces por semana
0.6 = una vez por semana
0,4 = una vez por dos semanas
0.2 = una vez al mes
0.0 = menos de una vez al mes (enlace inexistente)

Esto es pseudo-logarítmica en el sentido de que los códigos de 0,2 a 1,0 son aproximadamente proporcionales al logaritmo de n + 1, donde n es el número de días de trabajo por mes en el que se produce la comunicación. Si, por el contrario, habíamos obtenido 0-1 valores de vínculo con sólo ampliar el número de días de comunicación al mes, habríamos obtenido una distribución muy desigual. Sobre la base de cuatro de nuestras encuestas anteriores análisis de redes sociales, al menos el 70% de los enlaces habría tenido un valor inferior a 0,3. El uso de una codificación pseudo-logarítmica también hace más justicia al valor de los enlaces débiles, que se sabe que son sociológicamente muy importante [8].

Finalmente, una codificación pseudo-logarítmica se adapte a la retirada de la comunicación por la mayoría de los encuestados, que es generalmente más preciso para la comunicación frecuente. Tomando logaritmos convierte una duplicación errónea o reducción a la mitad de la frecuencia de comunicación a un cambio erróneo arriba o hacia abajo por aproximadamente 0,2. El uso de este tipo de codificación pseudo-logarítmica, la correlación de 180 grados entre las respuestas codificadas está típicamente en el rango de 0,6 a 0,7, es decir, hay una correlación de 0,6 a 0,7 en las evaluaciones de frecuencia de comunicación por las dos partes implicadas. Esto es similar a las correlaciones entre las respuestas a las preguntas relacionadas en muchas encuestas de las ciencias sociales, y consideramos que una correlación en este rango suficiente para validar nuestras encuestas análisis de redes sociales.

También es posible obtener 0-1 valores de vínculo basado en la cantidad, en lugar de la frecuencia, de la comunicación, y hacemos esto en el caso de estudio se describe en la Sección 3.

No es una forma obvia de traducir esta noción de 0-1 valores de vínculo en un concepto general de la distancia del enlace entre las personas. Esto se basa en tres principios:

Los valores altos reflejan la proximidad, es decir, la distancia a lo largo de un enlace específico (con valor v) será 1 / v. Por consiguiente, la distancia a lo largo de un enlace oscilará entre 1 (el más cercano) hasta el infinito (más alejada).
Simetría, es decir, deseamos que la distancia de A a B a ser la misma que la distancia de B a A. Si hay un enlace de A a B y también uno de B a A, calculamos la distancia utilizando el mayor de los dos valores. Esto se basa en el hecho de que la gente es más probable que se olvide de comunicación (que da un valor que es demasiado baja) de lo que son a alucinar comunicación que no ocurrió (dando un valor demasiado alto).
Aditividad: se obtiene la distancia entre dos personas (sin siquiera si hay enlace directo) mediante la adición de distancias para todos los eslabones de la ruta de acceso entre ellos. Si hay varias rutas entre las personas, definimos la distancia utilizando el camino más corto. Si no hay caminos, se define como la distancia infinita.

Esta definición es esencialmente la misma que la de Flament [9] y generaliza el concepto de distancia geodésica en redes no valorado. La crítica de esta definición por Yang y Knoke [10] refleja una falta de comprensión de la relación entre el valor y la distancia, y el hecho de que los valores altos corresponden a distancias cortas. Sin embargo, hay un cierto mérito en su sugerencia de que las distancias deben reflejar el número de enlaces en la ruta entre dos personas, así como los valores de los enlaces. Al utilizar nuestro código pseudo-logarítmica de valor, que en realidad obtiene la polarización deseada hacia las trayectorias con pocos enlaces, y lo hacemos mediante la definición obvia de distancia, sin la definición compleja y poco elegante distancia de Yang y Knoke [10].

Esta definición de la distancia del enlace tiene una serie de ventajas, que se discuten en detalle en el cuerpo del papel:

Eficiencia: esta definición de la distancia se puede calcular de manera eficiente, utilizando los algoritmos de Floyd, Dijkstra, o Johnson [11]. Algoritmo de Johnson es significativamente más eficiente para las grandes redes sociales. Hemos construido un conjunto de herramientas basadas en Java llamada CAVALIER (Comunicación y Actividad Visualización de la empresa), para llevar a cabo el análisis y la visualización de las redes sociales, y esa herramienta incorpora cálculo de la distancia de enlace (todos los diagramas de este documento también se han producido utilizando la herramienta CAVALIER).
Visualización: una de las técnicas más comunes para la visualización de las redes sociales es la primavera-incrustación [4]. Un algoritmo de diseño de primavera-incrustación asume que los enlaces entre los nodos se comportan físicamente como resortes, con una longitud del resorte ideales (que corresponde a algún tipo de distancia conceptual entre los nodos), y una fuerza de resorte (mejores resultados se obtienen cuando la fuerza del resorte disminuye a medida que la ideales aumenta la longitud de la primavera, y esta opción resulta ser equivalente a Escala multidimensional [12]). Los nodos pueden ser asignados a puntos en el espacio de dos dimensiones o tridimensional moviéndolos en una manera que minimiza la tensión total en toda la colección de cadenas, usando la física directa. Enlace distancia se puede visualizar fácilmente, ya que se correlaciona bien con la distancia física después se utiliza un algoritmo de diseño de primavera-incrustación. Figura 1 y Figura 2 proporcionan ejemplos de esto.
Robustez: distancias de enlace no cambian radicalmente si algunas personas no logran completar los formularios de encuesta (un problema serio cuando participación en la encuesta es voluntaria). Sección 4 discute este tema con más detalle.
Correlación con tiempo de propagación: en experimentos de simulación, distancia del enlace se correlaciona bien con el tiempo para propagar la información a través de la red desde el nodo más central. Correlaciones típicas están en el intervalo de 0,8 a 0,9. Sección 5 discute un número de tales experimentos de simulación en detalle.
Normalidad: distancias de enlace son aproximadamente una distribución normal, con bajos valores de asimetría y curtosis. El eje vertical de la figura 10 indica visualmente, y el estudio de caso ilustra allí tuvo una inclinación de 0,35 y una curtosis de -0.14 para la distancia de enlace. La sección 3 describe este estudio de caso (basado en los grupos de noticias de Internet) con mayor detalle. En comparación, la Tabla 1 resume los valores de sesgo y curtosis para otros estudios Análisis de redes sociales que hemos llevado a cabo. Los valores en el rango de -1 a +1 se consideran aproximadamente normal, y puesto que la gama real de valores de sesgo y kurtosis es bien dentro de estos límites, distancias de enlace están aproximadamente normalmente distribuidos en cada caso.

La razón de la distribución normal aproximada de distancias de enlace reside en el hecho de que los enlaces débiles, aunque generalmente más común que los enlaces fuertes, son menos probable que ocurra en los caminos más cortos (geodésicas) entre los nodos, y que por lo tanto, los diferentes valores posibles de enlace se aproximadamente la misma probabilidad de ocurrir en cualquier geodésica dado. Un análisis de las redes listadas en la Tabla 1 confirma que este es, de hecho, el caso. Aplicando la definición de la distancia del enlace a los múltiples eslabones de una geodésica produce una distribución aproximadamente normal a causa de la Teorema del límite central [13], de la misma manera que la suma de múltiples escalas Likert [14] produce una distribución aproximadamente normal.

Tipo de red	Tamaño de red	Sesgo	Curtosis
Work communication (scientific)	20	0.03	-0.71
Work communication (military)	47	0.15	-0.61
Work communication (scientific)	63	0.00	-0.72
Work communication (scientific)	93	0.09	-0.06
Internet newsgroup (Section 3)	343	0.35	-0.14

Tabla 1: Valores de sesgo y curtosis para la distancia del enlace en algunas redes sociales

La normalidad es muy importante, porque significa que el conjunto de herramientas estándar de técnicas estadísticas puede ser utilizado para analizar la distancia del enlace. En nuestro trabajo, investigamos las redes sociales mediante la aplicación de tales técnicas estadísticas estándar como análisis de regresión, análisis de varianza y análisis de componentes principales para vincular distancia.

Sin embargo, la distancia del enlace no es la única forma de distancia conceptual útil para el Análisis de Redes Sociales. Otras formas de distancia conceptual se pueden definir, basándose en la similitud de las actividades, diferencia en la cultura, y otros factores. Gran penetración en los patrones de comunicación se puede lograr mediante estadísticamente examinar la relación entre la distancia del enlace y otras formas de distancia conceptual. Sección 6 discute este tema con más detalle, y proporciona algunos ejemplos tomados de otros estudios de caso Análisis de Redes Sociales [5, 6].

3. Estudio de caso

Hemos estado aplicando análisis de redes sociales para diversas jefaturas militares [5, 6, 7]. Los requisitos de confidencialidad nos impiden que describe los resultados de estos estudios en detalle, pero en esta sección se presenta un caso de estudio que utiliza exactamente el mismo método de análisis, y proporciona una vía para que las discusiones detalladas de nuestras técnicas. De hecho, se eligió el estudio de caso para demostrar las ventajas de estas técnicas, y cómo las diversas dificultades se superan en la práctica.

Este estudio se basa en muestras de publicaciones a los grupos de noticias de Internet soc.religion.christian y soc.religion.islam entre enero y abril de 2002. Los artículos incluidos en la muestra fueron publicadas por 343 personas diferentes. Siempre que la persona A respondió a un anuncio por la persona B, esto fue tratado como un enlace (dirigido) de A a B.

El valor de la relación (dirigida) de A a B se toma como el logaritmo del número total de palabras escritas por la persona A en respuesta a los desplazamientos de la persona B, a escala en estar en el intervalo 0-1. Esto proporciona un tipo ligeramente diferente de pseudo-logarítmica de codificación para que se discutió en la Sección 2, pero se aplican las mismas ventajas. El software que utilizamos para el procesamiento de los artículos de noticias ignora los artículos citados, y cuenta sólo las palabras escritas por el autor publicados.

La Tabla 2 muestra el dominio de país de nivel superior para los 343 sujetos (el código "nosotros" se refiere a ".com", ".net", etc., que son sede en Estados Unidos, pero disfrazar el país de origen). Las diferencias en la Tabla 2 no son significativas según la prueba de ji cuadrado (p = 0,99, p = 0,49 o cuando se excluye el código "nosotros"). En otras palabras, los sujetos se distribuyen bastante aleatoriamente sobre el planeta.

	soc.religion.islam	soc.religion.christian	both
ae	1	0	0
au	5	0	0
ca	2	2	0
cy	0	1	0
de	1	2	0
is	1	0	0
it	0	1	0
my	2	0	0
nl	0	1	0
no	1	0	0
nz	1	1	0
pk	1	0	0
pl	1	0	0
sa	1	0	0
se	3	1	0
sg	1	0	0
uk	11	4	0
us	211	81	6

Table 2: Dominios de país para grupos de noticias

3.1. Distancia de enlace

Nuestro concepto de valor de vínculo produce una medida de la distancia del enlace como se describe en la Sección 2. En la figura 1, la distancia del enlace se visualiza como un diagrama de dos dimensiones utilizando primavera-incrustación (como se explica en la Sección 2). En este diagrama, personas que publican al grupo de noticias soc.religion.christian se muestran como cajas de color rojo, personas que publican al grupo de noticias soc.religion.islam se muestran como círculos verdes, y personas que desean publicar para ambos grupos de noticias se muestran como ámbar redondeado cajas. Las personas que desean publicar para ambos grupos de noticias (eran 6 de ellos) actúan como puentes entre las dos comunidades. Las personas se identifican por números de índice en lugar de nombre por motivos de confidencialidad.

Figura 1: Disposición de resorte inserto para Estudio de caso

Tales diagramas son generalmente éxito en la visualización de la distancia del enlace. En este caso, la distancia física en el diagrama tiene una correlación 0,82 con la distancia de enlace (R cuadrado = 0,67). Este valor de correlación es similar a la obtenida en nuestros otros estudios.

Enlace distancia se visualiza a menudo más éxito en tres dimensiones. La figura 2 muestra una disposición de resorte incrustar tridimensional. Para mayor claridad, los enlaces no se muestran en este diagrama. La correlación entre la distancia física y la distancia del enlace se ha aumentado a 0,87 (r-cuadrado = 0,76). Este valor también es similar a la obtenida en nuestros otros estudios.

La Figura 2 se obtuvo mediante un enlace desde la herramienta CAVALIER a la persistencia de la visión (POV-Ray) Raytracer (http://www.povray.org/). Sin embargo, la correlación entre la mejora de la distancia del enlace y la distancia física para tridimensional primavera-incrustación sólo es útil si las tres dimensiones puede ser experimentado directamente utilizando el movimiento o estéreo. Una representación bidimensional de tres dimensiones no es suficiente, y muchos de nuestros clientes han informado de dificultades en la interpretación de representaciones bidimensionales de tres dimensiones.

Al hacer clic en la figura 2 da una imagen GIF animada (producido por la exportación de POV-Ray a la Animagic shareware GIF Animator). Hemos encontrado como GIFs animados útil, porque su movimiento proporciona una mejor comprensión de la estructura tridimensional, y también se puede incorporar fácilmente en páginas web y presentaciones de PowerPoint. Con los usuarios expertos, también hemos tenido éxito en la visualización de redes sociales utilizando Virtual Reality Modelling Language o VRML (http://www.web3d.org/x3d/specifications/vrml/). Esta tecnología permite no sólo la animación, sino también la capacidad de manipular el modelo tridimensional interactiva. VRML también permite una fácil conexión de un texto explicativo a los nodos.

Figura 2: Presentación tridimensional incrustación de resortes (hacer clic para una animación GIF)

La Tabla 3 muestra enlace promedio distancias dentro y entre los tres grupos de personas (la distancia del enlace promedio general entre las personas es 23,1).

	soc.religion.islam	soc.religion.christian	both
soc.religion.islam	19.2	29.1	15.1
soc.religion.christian	29.1	21.2	20.9
both	15.1	20.9	9.5

Tabla 3: Enlace distancias promedio dentro y entre los grupos

Las diferencias en la Tabla 3 son estadísticamente muy significativa (p <0.000001). Esto se debe a que los caminos entre personas que publican sólo para soc.religion.islam y personas que publican sólo para soc.religion.christian deben contener al menos dos enlaces, paso por una de las 6 personas "puente". También tenga en cuenta que (en promedio) de personas en los grupos soc.religion.islam y soc.religion.christian están más cerca de la gente "puente" de lo que son para otros miembros del grupo (esto es equivalente a decir que el pueblo "puente" son muy central). Ambos fenómenos son visibles en la Figura 1 y la Figura 2.

3.2. Distancia vocabulario

Enlace distancia no es la única forma de distancia conceptual podemos definir para este estudio de caso. Por cada persona se analizó el texto que se publican, y grabamos el histograma de frecuencias de palabras. Estos histogramas son esencialmente vectores de números, y por lo que podemos calcular la distancia euclídea entre estos vectores. Llamamos a estas distancias distancia vocabulario.

La tabla 4 muestra las distancias medias de vocabulario dentro y entre los tres grupos de personas (la distancia vocabulario promedio general entre las personas es 0,119).

	soc.religion.islam	soc.religion.christian	both
soc.religion.islam	0.122	0.119	0.088
soc.religion.christian	0.119	0.113	0.083
both	0.088	0.083	0.044

Tabla 4: Distancias Vocabulario promedio dentro y entre grupos

Se puede observar en la tabla 4 que las distancias de vocabulario no diferencian mucho entre los grupos de noticias soc.religion.islam y soc.religion.christian: aunque las diferencias son significativas (p <0.000001), son pequeñas. Esto se debe a temas tratados en ambos grupos de noticias son muy similares, y debido a que el vocabulario está influenciado principalmente por el hecho de que todos los participantes están utilizando el mismo lenguaje. Ambos grupos de noticias contienen largas discusiones de las relaciones entre el cristianismo, el islam y la cultura occidental. La Figura 3 ilustra esta similitud de tema resaltando en las personas de color azul oscuro (en ambos grupos) que mencionan el Corán (más correctamente escrito "Corán") en publicaciones. Del mismo modo, la figura 4 muestra las personas que mencionaron los nombres de "Jesús" o "Cristo", y la figura 5 muestra las personas que mencionan las palabras "guerra" o "paz" (un tema común de discusión para los dos grupos en los últimos tiempos).

Figura 3: La gente Mencionando "Corán" o "Corán" en Publicaciones

Figura 4: La gente Mencionando "Jesús" o "Cristo" en Publicaciones

Figura 5: La gente Mencionando "guerra" o "paz" en Publicaciones

La Tabla 5 muestra el porcentaje de personas en cada grupo mencionar cada palabra. Si bien estas diferencias son estadísticamente significativas según la prueba de chi cuadrado (p <0,000001, p <0,000001, yp = 0,025, respectivamente), es obvio que existe una superposición sustancial en los temas discutidos entre los grupos.

	soc.religion.islam	soc.religion.christian	both
"Koran" or "Quran"	45%	5%	67%
"Jesus" or "Christ"	44%	81%	100%
"War" or "Peace"	59%	49%	100%

Tabla 5: Porcentaje de personas que mencionan Seleccionado palabras en Publicaciones

En este ejemplo, la distancia vocabulario ha sido un ejemplo del concepto más general de una medida de distancia de medición de similitud de actividades. Para nuestros estudios de la sede militar, obtendríamos una medida de distancia actividad similitud mediante el estudio de las prácticas de trabajo y / o la administración de encuestas (Sección 6 discute un ejemplo de la distancia actividad similitud).
Nuestro estudio de caso ha mostrado un patrón particular de la comunicación: una reunión de personas que se dedican esencialmente de la misma actividad (discusiones de las relaciones entre el cristianismo, el islam y la cultura occidental), pero dividido en dos grupos mal comunicadas. Si viéramos este patrón de comunicación dentro de una organización del cliente, lo consideraríamos como una indicación de que algún tipo de intervención de la gestión podría ser requerida.

3.3. Valor de la centralidad

Centralidad es un concepto sumamente importante en el análisis de redes sociales, y veremos más adelante que arroja considerable luz sobre los datos. Son posibles [1] Varias definiciones diferentes de centralidad, pero la definición que elijamos para grafos valorados, lo que llamamos centralidad valorados, es:

centralidad valorada (A) = {SUM 1 / distancia (A, B)} / (N - 1)
donde N es el número de personas, la distancia (A, B) es la distancia de enlace entre las personas A y B (como se define en la Sección 2), y la suma se realiza sobre todas las personas excepto A (tenga en cuenta que en el caso de que A y B son sólo un paso aparte, es simplemente el valor de la relación entre ellos que se agrega a la suma). Esta definición de la centralidad valioso está integrado en nuestra herramienta de análisis de redes Cavalier.

Esta definición tiene esencialmente "cercanía" de ser el inverso de la distancia, y obtiene valorado centralidad promediando los valores de cercanía. Creemos que este es superior a la definición de "proximidad central" [1], que se basa en la suma de distancias. Por lo tanto, proximidad central es muy sensible a una sola distancia grande o eslabón perdido. En el caso extremo, desconectar un nodo establece la distancia hasta el infinito y, por lo tanto centralidad cercanía de todos los nodos a 0 (este problema se observa en [1], pero ninguna solución se da allí). Nuestra definición de centralidad valioso, por otro lado, está sólo ligeramente afectada por desconexión de un nodo. Por lo tanto, consideramos que esta estabilidad hace que sea una definición más útil. La utilidad de la centralidad valorada en el análisis que sigue proporciona una justificación más pragmática para usarlo. En particular, las puntuaciones de centralidad valiosos tienden a ser aproximadamente una distribución normal, con bajos valores de sesgo y curtosis. El eje vertical de la Figura 8 ilustra este visualmente. La Tabla 6 resume los valores de sesgo y curtosis de centralidad valorada y su inversa para estudios de análisis de redes sociales que hemos llevado a cabo (la utilidad de la inversa de centralidad valorada se discute más adelante). Los valores en el rango de -1 a +1 se consideran aproximadamente normal, por lo que fue valorado centralidad distribución aproximadamente normal en cada caso, pero uno. La inversa de centralidad valorado también fue distribución aproximadamente normal en cada caso, pero uno. Las excepciones, que tenían anormalmente alta curtosis, eran estudios basados en formularios de encuestas, donde el porcentaje de formas regresó fue muy baja. Sin embargo, incluso en estos casos, una distribución aproximadamente normal podría obtenerse por la elección de analizar ya sea centralidad valioso o su inversa.

Tipo de red	Tamaño de red	Tasa de retorno	Sesgo (Centralidad)	Kurtosis (Centralidad)	Sesgo (Inverso)	Kurtosis (Inverse)
Trabajo de comunicación (científico)	20	90%	0.87	0.85	0.02	-0.18
Trabajo de comunicación (militar)	47	100%	0.30	-0.74	0.53	-0.36
Trabajo de comunicación (científico)	63	52%	0.87	1.73	0.19	-0.38
Trabajo de comunicación (científico)	93	52%	0.43	0.25	0.72	1.25
Internet newsgroup	343	74%	0.73	0.50	0.56	0.26

Table 6: Valores de sesgo y curtosis para centralidad valuada y su inversa para algunas redes sociales

La "centralidad de intermediación" [1] es también una medida central de uso común, y el trabajo reciente de Brandes [15] demuestra que se puede calcular de manera eficiente. Sin embargo, "centralidad de intermediación" requiere contar el número de diferentes caminos más cortos (geodésicas) entre pares de nodos. Para las redes valorados esto es todavía posible [15], pero en la práctica las redes valorados tienen muy pocos geodésicas entre pares de nodos. Con nuestros códigos pseudo-logarítmica, por lo general hay (al menos 80% del tiempo) sólo una única geodésica entre cualquier par dado de nodos, como se indica en la Tabla 7. Para comparación, la Tabla 7 también muestra el número de geodésicas para no versiones valiosos de las redes, en los que el número medio de geodésicas entre dos determinados nodos oscila desde 2,65 hasta 5,13.

Tipo de red	Tamaño de red	No. de geodésica (valuada)	% geodésica simple (valuado)	No. de geodésica (no valuada)	% geodésica simple (valuado)
Trabajo de comunicación (científico)	20	1-2 (promedio 1.10)	90%	1-11 (promedio 2.65)	67%
Trabajo de comunicación (militar)	47	1-9 (promedio 1.22)	84%	1-68 (promedio 4.38)	39%
Trabajo de comunicación (científico)	63	1-5 (promedio 1.24)	80%	1-79 (promedio 4.23)	34%
Trabajo de comunicación (científico)	93	1-6 (promedio 1.24)	82%	1-21 (promedio 3.44)	32%
Internet newsgroup	343	1	100%	1-264 (average 5.13)	35%

Table 7: Número de caminos más cortos (geodésicos) de algunas redes sociales valuadas y no valuadas

Además, en las redes geodésicas valorados son muy sensibles a los cambios en el valor de enlace: El cambio del valor de un solo vínculo que altera los caminos son geodésicas. El número limitado de geodésicas, y su sensibilidad a los cambios en el valor de enlace, hace "centralidad de intermediación", un concepto menos útil para las redes de valor que para las redes tradicionales no valorada sociales. En el resto del documento, se utiliza el término "centralidad" en el sentido de centralidad valorado.

La figura 6 muestra una versión de la Figura 1 de color utilizando puntuaciones (valioso) de centralidad, con el rojo indica la centralidad más bajo, amarillo una centralidad superior y verde la mayor centralidad. La Figura 6 también se dibuja sin puntas de flecha, con el fin de mostrar la estructura de la red con más claridad. Se puede observar que el algoritmo de primavera-incrustación coloca a las personas céntrica, cerca del centro del diagrama, y que los individuos más centrales están dentro del grupo soc.religion.islam.

Figura 6: Las puntuaciones de centralidad Estudio de caso

La pregunta natural es: ¿cuáles son los predictores estadísticos de centralidad? ¿Qué factores determinan la centralidad de las personas dentro de este estudio de caso?

La Tabla 8 muestra las puntuaciones de centralidad para los dominios de países de la Tabla 2. El valor medio centralidad es 0.050, con una desviación estándar de 0.012. El análisis de varianza muestra que las diferencias en la Tabla 8 no son significativas (p = 0,66), es decir, país de origen no afecta centralidad. Esto es típico de la Internet como un todo: la ubicación física en el mundo no es importante. Por tanto, debemos recurrir a otras posibles predictores de centralidad.

	Número de gente	Centralidad	Desvío estándar
ae	1	0.049
au	5	0.052	0.009
ca	4	0.056	0.010
cy	1	0.031
de	3	0.044	0.012
is	1	0.055
it	1	0.041
my	2	0.068	0.002
nl	1	0.038
no	1	0.042
nz	2	0.064	0.002
pk	1	0.053
pl	1	0.055
sa	1	0.054
se	4	0.052	0.015
sg	1	0.047
uk	15	0.052	0.013
us	298	0.050	0.012

Table 8: Medidas de centralidad para dominios de país

Tabla 9 muestra las puntuaciones de centralidad para los tres grupos. Análisis de varianza muestra que las diferencias en la Tabla 9 son altamente significativa (p <0,000001). Los 6 personas "puente" son más central, a causa de su relación con ambos grupos. El grupo soc.religion.islam es también algo más central que soc.religion.christian, porque es más grande (dada las distancias entre los grupos en la Tabla 3, los miembros de un grupo grande generalmente tienen mayor número de personas a las que están cerca, y esto contribuye a una puntuación más alta centralidad).

Número de gente	Centralidad	Desvío estándar
soc.religion.islam	243	0.053	0.012
soc.religion.christian	94	0.041	0.008
both	6	0.070	0.008

Table 9: Valores de centralidad para grupos

Centralidad en las redes sociales a menudo se puede predecir por atributos numéricos de los participantes. Por cada persona en este estudio de caso se puede calcular de dos parámetros: el número total de palabras publicado, y el número de palabras distintas publicado. Tanto estas variables se correlacionan con la centralidad, sino porque no se distribuyen normalmente, es necesario tomar logaritmos. El logaritmo del número total de palabras publicadas predice 38% de la varianza en centralidad, mientras que el logaritmo del número de palabras distintas publicados predice 37% de la varianza en la centralidad. Esto sugiere que deberíamos utilizar el logaritmo del número total de palabras publicadas como predictor de centralidad.

Sin embargo, antes de tomar una decisión en cuanto a cuál de estas variables es más capaz de predecir la centralidad, es importante examinar la relación entre ellos. Cuando examinamos la relación entre los dos logaritmos, encontramos una correlación muy alta (r = 0,995, r cuadrado = 0,99). La Figura 7 ilustra esta relación. Las líneas verdes horizontales y verticales en la figura 7 indican el valor medio y una desviación estándar de uno y otro lado, mientras que la línea de regresión se muestra en rojo.

Figura 7: Logaritmo de palabras totales publicadas contra logaritmo de palabras distintas publicadas

Esta relación sugiere una fuerte dependencia causal entre las variables, y de hecho (ya que no hay diferencias sustanciales en el vocabulario entre las personas en este estudio de caso), el número de palabras distintas es simplemente una consecuencia de la utilización más palabras nuevas como el número total de palabras aumenta . Por lo tanto, tiene sentido utilizar el logaritmo del número total de palabras publicadas como predictor de centralidad.

Hemos trabajado a través del análisis estadístico del número de palabras con cierto detalle, no porque sea un aspecto importante de nuestro enfoque de Análisis de Redes Sociales en sí, sino porque proporciona un ejemplo del tipo de análisis estadístico que es necesario. En general, se requiere un grado de trabajo de detective estadística para dilucidar las relaciones entre los atributos de la gente, y así encontrar los mejores predictores estadísticos de centralidad. En nuestros estudios militares, el rango (considerado como una variable numérica) tiende a predecir entre 20% y 40% de la varianza en centralidad, desde generales son generalmente más central que lugartenientes. Para algunas de las redes sociales informales que hemos estudiado, una medida de la extraversión [16] también actúa como un predictor de la centralidad, ya que las personas con una personalidad extrovertida a menudo (aunque no siempre) comunicarse más.

Podemos mejorar la predicción de la centralidad mediante la inclusión de los promedios de grupos de la Tabla 9, la obtención de la ecuación de regresión:

centralidad = 0,937 * promedio del grupo + 0,00404 * logaritmo del total de palabras - 0.0226
Esta ecuación de regresión predice 58% de la varianza en centralidad (una correlación de 0,76), como se muestra en la Figura 8.

Figura 8: Ecuación de regresión contra Centralidad

El eje vertical de la Figura 8 indica visualmente que las puntuaciones de centralidad se distribuyen aproximadamente normal. La distribución de los puntos sobre la media es aproximadamente simétrica, y la mayoría de puntos están dentro de una desviación estándar de la media. Los valores de sesgo y curtosis también son bajos (0,73 y 0,50 respectivamente). La Figura 8 también muestra las relativamente altas puntuaciones de centralidad para las 6 personas "puente" (indicados por cajas ámbar redondeadas).

Continuará....

Análisis de redes sociales

Páginas