Análisis de redes sociales: distancia conceptual

Mostrando entradas con la etiqueta distancia conceptual. Mostrar todas las entradas

martes, 9 de junio de 2015

Distancia conceptual en redes sociales (2/2)

Distancia conceptual en Análisis de Redes Sociales

Anthony Dekker, Tony.Dekker@dsto.defence.gov.au
Defensa Ciencia y la Tecnología, Australia
Journal of Social Structure

Parte 1 - Parte 2

3.4. Prediciendo Distancia

Ahora podemos dirigir nuestra atención a la predicción de la distancia del enlace entre dos personas. Un predictor estadístico para la distancia de enlace constituye la base para la comprensión de los patrones de comunicación dentro de una organización, y para cualquier intervención que pueda ser necesaria. Los factores que aumentan la distancia de enlace entre las personas representan los posibles obstáculos a la comunicación, que la intervención de gestión puede ser capaz de superar. También tenemos un gran interés en el diseño y montaje de edificios y oficinas, y una comprensión de los factores que controlan la distancia del enlace nos permite colocar juntos en un edificio de aquellas personas que están "cerca" en términos de comunicación.

Distancia de vocabulario (discutido anteriormente) solamente predice 8% de la varianza en la distancia de enlace. Normalmente, una medida de distancia basada en la similitud de la actividad sería un buen predictor de la distancia del enlace. En nuestros estudios anteriores, una medida de distancia tal actividad ha sido capaz de predecir hasta 50% de la varianza en la distancia de enlace. Sin embargo, en este caso, como ya hemos visto, las personas involucradas en nuestro caso de estudio se dedican esencialmente la misma actividad, lo que hace que la distancia vocabulario menos útil.

El mejor indicador de la distancia de enlace entre A y B en este caso de estudio es en realidad la suma de centralidades inversas (SOIC):

{1 / centralidad (A)} + {1 / centralidad (B)}
Esto predice 70% de la varianza en la distancia de enlace (una correlación de 0,84). Organizaciones donde la distancia de enlace depende exclusivamente (o casi exclusivamente) en centralidad son organizaciones "en forma de estrella", con un único núcleo central. Estas organizaciones incluyen jerarquías planas, u organizaciones controladas por una sola camarilla influyente. Una estructura "en forma de estrella" a menudo puede ser motivo de preocupación, ya que para la mayoría de las organizaciones hay un gran valor en un flujo lateral de información entre los miembros. La Figura 9 muestra cómo la predicción de la distancia del enlace por la suma de centralidades inversas oscila entre 0% para una red en anillo a 100% para una red en estrella, con estructuras de rejilla y el árbol intermedio a 20% y 38%, respectivamente. Tabla 10 compara la predicción de la distancia del enlace de centralidad para este estudio con cuatro análisis de redes sociales que hemos llevado a cabo. En esos estudios, centralidad predijo entre 40% y 50% de la varianza en el enlace distancia - un porcentaje ligeramente más alto que para el árbol en la figura 9. Obsérvese que la suma de centralidades inversas (SOIC) se distribuyó aproximadamente normal, incluso para los casos en los que no se distribuyó aproximadamente normal la centralidad sola (o la centralidad inversa solo). Esto justifica su uso en el análisis de regresión.

Figura 9: Variación de Enlace Distancia predicho por Centralidad de algunas redes sencillas

Tipo de red	Tamaño de red	Sesgo (SOIC)	Curtosis (SOIC)	Varianza Predicha por SOIC	Varianza Predicha por otros factores	Varianza Total Predicha
Comunicación de trabajo (científica)	20	0.01	-0.31	40%	19%	59%
Comunicación de trabajo (militar)	47	0.35	-0.26	50%	33%	83%
Comunicación de trabajo (científica)	63	0.13	-0.25	43%	33%	76%
Comunicación de trabajo (científica)	93	0.49	0.50	47%	21%	68%
Internet newsgroup	343	0.39	0.11	70%	11%	81%

Tabla 10: Variación de Enlace Distancia predicho por Centralidad de algunas redes sociales

La alta correlación entre la distancia del enlace y la suma de centralidades inversas nos permite predecir aproximadamente 58.653 partituras distancia utilizando sólo 343 puntuaciones de centralidad, que es una simplificación considerable. Debemos destacar que la naturaleza de la red no es necesariamente para nuestro análisis, ya que incluso para las redes sociales muy en forma de estrella no una fracción significativa de la varianza en la distancia de enlace todavía se puede predecir por la suma de inversa "forma de estrella" centralidades. Sin embargo, para las redes sociales en forma no-estrella, la distancia de enlace es también muy dependiente de otros factores, como la estructura del grupo, ubicación física, las diferencias culturales, etc.

Podemos mejorar la predicción de la distancia del enlace mediante la inclusión de los promedios de grupos de la Tabla 3, la obtención de la ecuación de regresión:

distancia (A, B) = 0.810 * ({1 / centralidad (A)} + {1 / centralidad (B)}) + 0.598 * distancia (grupo (A), grupo (B)) - 24,9
Esta ecuación de regresión predice un adicional de 11% de la varianza en centralidad (un total de 81%, es decir, una correlación de 0,90). La figura 10 ilustra esto. El eje vertical de la figura 10 también indica visualmente que las distancias de enlace se distribuyen aproximadamente normal. La distribución de los puntos sobre la media es aproximadamente simétrica, y la mayoría de puntos están dentro de una desviación estándar de la media. Los valores de sesgo y curtosis también son bajos (0,35 y -0,14, respectivamente), como se explica en la Sección 2.

Figura 10: Ecuación de regresión contra la Distancia del Enlace

En la Figura 10, dentro de los grupos distancias se muestran en el color grupo apropiado, mientras que entre los grupos distancias se muestran en amarillo-verde (por tanto a soc.religion.islam), naranja (por tanto a soc.religion.christian), y marrón (para soc.religion.islam a soc.religion.christian). Sin embargo, hacia el centro de la gráfica, estos colores están oscurecidos por los guiones utilizados como etiquetas (ya que hay 58.653 puntos de datos).

La Figura 11 resume nuestro modelo de regresión para predecir la distancia. Las cajas verdes muestran las variables que son propiedades de las personas individuales, mientras que las cajas azules muestran las variables que son propiedades de los pares de la gente.

Figura 11: Modelo estadístico para predecir Enlace a Distancia para el Estudio de caso

Cinco conclusiones se pueden sacar a partir del modelo de regresión:

La comunicación entre las personas es mayor cuando una o ambas partes son fundamentales.
El par de grupos de noticias estudiado es una organización altamente "en forma de estrella".
Hay un efecto significativo en la comunicación de grupo, como se describe en la Tabla 3 y se muestra visualmente en la Figura 1 y la Figura 2.
Cuanta más gente postea texto, el más central que es probable que sean.
También hay un efecto significativo grupo de centralidad, como se describe en la Tabla 9.

Así, un modelo de regresión bueno para la distancia de enlace constituye la base para la comprensión de los patrones de comunicación. Se puede ayudar a responder preguntas tales como: ¿Es la estructura del grupo impidiendo la comunicación? ¿Tiene una organización sufre de ser dividido en varias ubicaciones físicas? ¿Hay evidencia de que los grupos minoritarios están excluidos de las actividades de la organización? Estas respuestas, a su vez pueden formar una base para la intervención de gestión. Un modelo de regresión bueno para la distancia de enlace también puede ayudar en la adaptación de los proyectos de edificios para satisfacer los patrones de comunicación dentro de una organización en particular.

4. Robustez

Una dificultad práctica con análisis de redes sociales es el hecho de que es difícil obtener datos para cada individuo en un grupo. La gente no siempre están disponibles para la entrevista, y formularios de encuestas a menudo no se han completado. En esta sección, se investiga el impacto de este tipo de datos que faltan sobre la distancia de enlace.

Los experimentos descritos en esta sección el uso de datos de cuatro estudios de Análisis de Redes Sociales (incluyendo el estudio de caso en la Sección 3). Sin embargo, lo primero que eliminemos todos los nodos aislados y todos los nodos con cero a cabo grados. Esto es equivalente a la selección de un núcleo central de cada red para la que es 100% dispone de datos completos. Naturalmente, la distancia de enlace dentro de estos núcleos centrales es diferente de la organización como un todo, pero eso no afecta al objetivo de esta sección, que es entender el impacto de los datos que faltan. Tabla 11 resume las cuatro redes utilizadas.

	Tipo de red	Tamaño del núcleo central	Número de nodos con datos faltantes
Red C (azul)	Comunicación de trabajo (militar)	18	0 to 13
Red J (verde)	Comunicación de trabajo (científica)	18	0 to 13
Red M (rojo)	Comunicación de trabajo (científica)	33	0 to 23
Red N (rosa)	Internet newsgroup (Section 3)	168	0 to 40

Tabla 11: Redes usados para Menores Desaparecidos Estudio de Datos

Para este experimento, seleccionamos al azar entre 0 y 40 nudos, y eliminar todos los enlaces salientes de esos nodos (simulando el efecto de formularios de encuestas que faltan). Para un número dado de nodos seleccionados, hacemos este 1000 veces. Cada vez, que calcular las distancias de enlace entre las personas antes y después de la eliminación de enlaces. Como medida de lo mal que los enlaces borrados afectan a los valores de la distancia del enlace, se toma el promedio de correlación entre las distancias antes-eliminación de enlace y el enlace después de la eliminación de distancias (como media de todas 1,000 carreras).

El eje vertical de la Figura 12 muestra los resultados. Como se eliminan al azar enlaces salientes, la correlación media entre las distancias antes-eliminación de enlace y el enlace después de la eliminación se distancia gotas. Esta correlación (que llamamos la correlación media distancia para simplificar) mide el impacto de los datos que faltan. Por lo tanto, proporciona una estimación de la correlación entre las distancias de enlace que se obtienen en una encuesta de los datos faltantes, y el enlace se distancia uno habría obtenido si sólo uno había sido capaz de conseguir 100% de datos completos.

La experimentación con diferentes ecuaciones de regresión resultados posibles en la siguiente ecuación de regresión, que predice el 97% de la varianza en la distancia media de correlación (r = 0.98):

Correlación Media Distancia = 1,072 a 0,0298 * frac * (log n) ^ 3
donde frac es la fracción de nodos de datos faltante, n es el tamaño de la red utilizada, y el logaritmo de n está en cubos.

Figura 12: Fracción de veces perdidas entre el tamaño encubados contra la correlación de distancia media

La Figura 12 ilustra gráficamente la ecuación de regresión, y en la Tabla 12 muestra la correlación distancia promedio previsto para diversos tamaños de la red y los porcentajes de los datos que faltan. Como consecuencia de estos resultados, se utiliza una regla de oro recomendar 75% de los datos, como mínimo, para redes pequeñas (hasta 20 personas), el 90% de las redes de tamaño medio (hasta 60 personas), y el 95% para los mayores redes.

	n = 20	n = 40	n = 60	n = 80	n = 100	n = 150	n = 200
5%	0.99	0.99	0.97	0.95	0.93	0.88	0.85
10%	0.99	0.92	0.87	0.82	0.78	0.70	0.63
15%	0.95	0.85	0.77	0.70	0.64	0.51	0.41
20%	0.91	0.77	0.66	0.57	0.49	0.32	0.19
25%	0.87	0.70	0.56	0.44	0.34	0.13	0.00
30%	0.83	0.62	0.46	0.32	0.20	0.00	0.00
35%	0.79	0.55	0.36	0.19	0.05	0.00	0.00
40%	0.75	0.47	0.25	0.07	0.00	0.00	0.00

Cuadro 12: Estimación de correlación de Distancia Media de dada Tamaño Red y Porcentaje de datos faltantes
Una causa importante de estos resultados es que, como aumenta el tamaño de la red, la probabilidad de que las deleciones aleatorias aislar algunos de los individuos más centrales también aumenta, lo que distorsiona seriamente las distancias de enlace. Por ello, el 75% -90% -95% la regla del pulgar puede relajó un poco, si nos aseguramos de que tenemos datos de las personas que puedan ser más central, como los gerentes y personal de enlace.

Si no podemos conseguir el 75% -90% -95% regla general, nuestro estilo propuesto de Análisis de Redes Sociales sigue siendo útil, pero no vamos a ser capaces de extraer conclusiones significativas sobre las personas individuales. Por ejemplo, es probable que no vamos a ser capaces de reconocer el personal subalterno muy céntrica que desempeñan un papel de enlace no oficial. Sin embargo, todavía seremos capaces de extraer conclusiones significativas sobre los subgrupos dentro de la organización (como lo hicimos en el estudio de caso en la Sección 3), aunque incluso restringiendo nuestras conclusiones a subgrupos no será significativo si los datos que faltan se concentra en algunos subgrupos y otros no.

5. Propagación de la Información

Los experimentos de simulación reportados en esta sección proporcionan una indicación adicional de la utilidad del concepto de distancia del enlace. Estos experimentos estudiaron la velocidad de propagación de un elemento clave de la información desde el nodo más central en una red a los otros nodos.

Suponemos que en un momento dado en el tiempo, la posibilidad de propagar el elemento de información es aleatoria con probabilidad proporcional al valor del enlace (tomamos la probabilidad de ser 0,1 veces el valor de enlace). Dado que el valor es típicamente pseudo-logarítmicamente codificada, esto requiere alguna explicación. El uso de la codificación pseudo-logarítmica tiene el efecto de aumentar la probabilidad de propagación para contacto ocasional (por ejemplo, sólo mensual). Sin embargo, esto es realista, ya que tales contactos ocasionales son susceptibles de ser programado, precisamente cuando un elemento clave de la información debe ser transferido. En el trabajo futuro, tenemos la intención de llevar a cabo estudios experimentales para investigar la relación precisa entre la probabilidad de propagación y el valor de enlace.

Los experimentos reportados en esta sección de datos de uso a partir de cuatro estudios de Análisis de Redes Sociales. La Tabla 13 resume las cuatro redes utilizadas. Hemos llevado a cabo 1.000 (Monte Carlo) simulaciones aleatorias para redes C, J y M, y 100 para la red N (la red en la Sección 3). Examinamos el retardo de propagación media (el tiempo para propagar la información a un nodo específico, un promedio de más de 1 000 o 100 carreras), y la relación entre este retraso de propagación media y la distancia del enlace desde el nodo central.

	Tipo de red	Tamaño de red
RedC (azul)	Comunicación de trabajo (militar)	18
Red J (verde)	Comunicación de trabajo (científico)	20
Red M (rojo)	Comunicación de trabajo (científico)	63
Red N (rosa)	Internet newsgroup (Section 3)	343

Tabla 13: redes utilizadas para el Estudio de Propagación de Información

La Figura 13 muestra los resultados para las redes de C, J, y M. Para estas redes, el retardo de propagación media aproximadamente se ajusta a la línea de:

Promedio de retardo de propagación = 2.49 * distancia desde el centro de + 1,67
La correlación aquí es 0,87 (r-cuadrado = 0,76). La pendiente de la línea no es significativamente diferente si estas redes son examinados en forma aislada (p = 0,8).

Figura 13: Distancia de Nodo Central contra el promedio de retraso de propagación de Tres Redes

El tratamiento de la cuarta a la red (el estudio de caso de la Sección 3) de la misma manera, la línea de mejor ajuste es ligeramente diferente, y la correlación es un poco más bajo de 0,82 (R cuadrado = 0,67):

Promedio de retardo de propagación = 5.14 * distancia desde el centro de - 11,8

La pendiente de esta línea, que se muestra en la Figura 14, es significativamente diferente de las tres primeras redes (p = 0,002). Esto se debe a que el retardo de propagación también se ve influida por el número medio de enlaces salientes de nodos de la red, es decir, mientras más gente se habla de, la más probable es pasar sobre el tema de la información a alguien. Este factor tiende a ser consistente para las tres redes de comunicación el trabajo, pero no para la red de grupos de noticias en la sección 3, que tiene una naturaleza muy diferente. Sin embargo, dada una red específica, estos experimentos justificar el uso de la distancia del enlace como una indicación aproximada del tiempo para propagar la información. Esperamos que aquellas personas que están lejos de ser el nodo central (en términos de distancia link) para ser el último en escuchar las últimas noticias, chismes, etc. También esperamos que esta relación sea aproximadamente lineal.

Figura 14: Distancia de Nodo Central contra el promedio de retraso de propagación de grupos de noticias de red

6. Otras formas de distancia

Enlace distancia no es la única forma de distancia conceptual útil para el Análisis de Redes Sociales. En esta sección, examinamos otras dos formas de distancia conceptual: distancia actividad similitud y la distancia cultural. Mostramos cómo penetración en una red se puede conseguir mediante el estudio de la relación estadística entre la distancia del enlace y otras formas de distancia.

6.1. Distancia Actividad-Similitud

El estudio se hace referencia en esta sección [5, 6] que participan una organización militar que consistía en siete subgrupos principales (etiquetados de A a G en la Figura 15 y la Figura 16). Amplia comunicación tuvo lugar entre todos los grupos, pero los fuertes vínculos de comunicación estaban dentro del grupo de los grupos A (rojo), E (naranja), y F (verde); y dentro del grupo de los grupos C (azul), D (amarillo), E (naranja), y F (verde). Figura 15 ilustra estos patrones de comunicación.

Figura 15: Diseño de incrustación de repulsión para una organización militar

Se pidió a los participantes en este estudio para evaluar la relevancia de su trabajo de 15 temas. Análisis de Componentes Principales se aplicó a los resultados, y se identificaron tres factores importantes (estos eran de hecho el segundo, tercero y cuarto de componentes principales, ya que el primer componente principal indica simplemente una tendencia general a anotar todos los 15 temas altamente). La Figura 16 ilustra el resultado de análisis de componentes principales, con la X, Y, y Z de la figura tridimensional que refleja los valores de los tres factores importantes. Las líneas en la Figura 16 indican los enlaces en la red social. Enlace valor en la Figura 16 se indica con línea de transparencia (líneas opacas tienen mayor valor enlace), pero ya está siendo utilizado ubicación física para mostrar el resultado de Análisis de Componentes Principales, la longitud de las líneas no está relacionada con el valor enlace o distancia del enlace.

Al hacer clic en el diagrama de la Figura 16 proporciona una animación que muestra las relaciones con más claridad. Hay una tendencia visible para los miembros de un mismo grupo a agruparse juntos libremente, es decir, tienen valores similares (pero no idénticos) durante al menos dos de los tres factores. Si F (A), G (A), y H (A) son los valores de los tres factores que resultan de Análisis de componentes principal para la persona A, entonces definimos la distancia actividad similitud entre dos personas A y B como:

distancia actividad similitud (A, B) = sqrt ({F (A) - F (B)} ^ {2 + G (A) - G (B)} ^ {2 + H (A) - H (B) } ^ 2)

Dado que los tres factores son exactamente las tres dimensiones X, Y y Z de la figura 16, la distancia actividad similitud es idéntica con la distancia euclídea tridimensional en la Figura 16. Cuanto menor la distancia entre dos personas, la más parecida es su trabajo ( medida por la relevancia de los 15 temas en el estudio), y el más juntos están en la Figura 16. Grupos A (rojo) y B (rosa) son especialmente estrecha en términos de distancia actividad similitud, como son los grupos D ( amarillo) y E (naranja).

Figura 16: Distancia de Actividad-Similitud basada en Análisis de Componentes Principales (hacer clic para una animación GIF)

La distancia Actividad-similitud tiende a correlacionarse con la distancia de enlace, pero en este estudio la correlación es débil (sólo el 9% de la variación en la distancia del enlace se explica, una correlación de 0,31). En otras palabras, la mayoría de la comunicación no se produjo entre las personas que trabajan en temas similares. Aunque débil, la correlación es altamente significativa (p <0.000001). La debilidad de la correlación es inusual: en otros estudios que hemos realizado, son precisamente las personas que realizan actividades similares que más se comunican. La debilidad de la correlación puede reflejar bien las limitaciones de la encuesta de actividad (la lista de los 15 temas que no puede haber sido adecuada), o puede reflejar la compleja naturaleza del trabajo en esta organización, que implica la integración de las diferentes actividades.

La realización de un análisis en el estilo de la Sección 3, nos encontramos con que centralidad explica 50% de la variación en la distancia de enlace. Esto es menos que el 70% de la Figura 11, ya que este no era una organización "en forma de estrella". Centralidad junto con la media del grupo de enlace distancias explica 83% de la varianza (una correlación de 0,91). Esto es incluso mejor que la explicación del 81% de la distancia del enlace en la figura 11, e indica que entendemos la comunicación en esta organización bastante bien. Distancia Actividad-similitud no explica ninguna variación adicional, es decir, el efecto de la distancia actividad similitud de la distancia de enlace está mediada por la pertenencia al grupo.

El examen de la varianza en las puntuaciones de centralidad, el 39% se explica por rango militar (personal más alto tienden a ser más central). Podemos proporcionar una estimación bastante precisa de lo mucho que la gente se comunica con el grado cabo (suma de enlaces salientes). Fuera grado predice el 47% de la varianza en la centralidad (comunicadores más grandes tienden a ser más central), y el rango y fuera grados junto a predecir el 65% de la varianza en la centralidad. Cuando se toma grupo centralidad promedio en cuenta, el 69% de la varianza en centralidad se predice (una correlación de 0,83).

La Figura 17 ilustra el modelo estadístico resultante en el estilo de la figura 11, es decir, cajas verdes muestran las variables que son propiedades de las personas individuales, mientras que las cajas azules muestran las variables que son propiedades de pares de personas.

Figura 17: Modelo estadístico para predecir la Distancia del Enlace

La comunicación en esta organización es casi en su totalidad en función de la centralidad y la identidad de grupo, y la centralidad a su vez depende en gran medida de rango y cantidad de comunicación. Distancia Actividad-similitud tiene un efecto, pero está mediada por la pertenencia al grupo.

6.2. Distancia Cultural

Nuestro estudio final se basa en el concepto de distancia cultural. Se evaluó un conjunto de 22 países (que se muestra en la Figura 18) en varios criterios, incluyendo la religión, el idioma, la economía y las alianzas militares como la OTAN. A partir de este derivamos una medida de la distancia cultural, utilizando técnicas similares a la derivación de distancia actividad similitud en la sección anterior. Un concepto más sofisticado de la distancia cultural se puede obtener mediante el trabajo de Hofstede [17], pero la medida simple que hemos usado es suficiente para los propósitos ilustrativos.

Figura 18: Diagrama de flujo Social para Fin de la Guerra Fría

La Figura 18 proporciona un escalamiento multidimensional de nuestra medida distancia cultural, por lo que los países que son físicamente muy juntos en la figura 18 tienen culturas similares. La figura 18 muestra, de hecho, dos conjuntos de distancias culturales: uno basado en la situación durante la Guerra Fría, y el otro después del final de la Guerra Fría. Cajas grises representan la situación durante la Guerra Fría, mientras que los círculos de colores representan la situación después de la caída de la Unión Soviética. Puntos correspondientes están vinculados con las flechas, produciendo lo que llamamos un diagrama de flujo social [6]. La parte superior izquierda de la figura 18 muestra cómo algunos países ex comunistas han movido más cerca de Europa occidental, mientras que otros no tienen.

Un diagrama de flujo social, tales como la Figura 18 proporciona una manera de visualizar la relación entre dos clases de distancia. Por lo tanto, ofrece una alternativa muy útil para el tipo de análisis de regresión se muestra en la Figura 10. Hemos encontrado diagramas de flujo sociales útil para visualizar el cambio en la distancia de enlace antes y después de alguna forma de intervención de gestión. Cuando los resultados de la intervención en la gestión de grupos de personas que se comunican con más fuerza entre sí, el diagrama de flujo social muestra un grupo de flechas convergentes. Por otra parte, si los resultados de intervención en grupos de individuos que comunica menos fuertemente entre sí, el diagrama de flujo social muestra un grupo de flechas divergentes, como en la parte superior izquierda de la Figura 18.

La distancia cultural también puede estar correlacionada con la distancia de enlace. En las organizaciones multiculturales, es útil para evaluar la distancia cultural (usando cualquier medida es conveniente) y estudiar su relación con la distancia del enlace, usando exactamente el mismo método que para la distancia actividad similitud en la sección anterior. Esto a menudo puede arrojar mucha luz sobre los patrones de comunicación en una organización y revelar posibles casos de problemas debido a conflictos culturales.

7. Conclusiones

En este trabajo hemos abogado por un enfoque de análisis de redes sociales basado en un concepto de la distancia entre las personas. La distancia es un concepto que el cerebro humano es experto en pensar y juzgar visualmente.

Hemos demostrado cómo tomar una codificación pseudo-logarítmica del valor de enlace y (generalizar el concepto de distancia geodésica) transformarla a una noción de distancia del enlace. Este concepto de distancia enlace tiene cinco ventajas:

Se puede calcular de manera eficiente, utilizando los algoritmos de Floyd, Dijkstra, o (de manera más eficiente) Johnson [11].
Puede ser fácilmente visualizado por incrustación de repulsión (equivalente a Scaling Multi-Dimensional [12]), como se muestra en la Figura 1 y la Figura 2.
Las distancias de Enlace son aproximadamente una distribución normal (como se muestra en la Tabla 1). Esto significa que las técnicas estadísticas estándar pueden ser utilizados para estudiar la distancia del enlace.
Las distancias de Enlace no cambian radicalmente si algunas personas no logran completar formularios de encuestas, como se explica en la Sección 4.
Las distancia de Enlace se correlaciona con el tiempo para propagar la información a través de la red desde el nodo más central, como se discutió en la Sección 5.

En la Sección 3 ilustramos el uso de la distancia del enlace para analizar las redes sociales por medio de un estudio de caso de grupos de noticias de Internet, obteniendo el modelo estadístico en la Figura 11. Enlace distancia a menudo se determina de manera significativa por la centralidad de nodos, en particular para "en forma de estrella" redes. En la Sección 3 también presentamos una definición de centralidad valioso que es más estable que la definición de proximidad central [1]. Hemos examinado algunos de los factores que determinan la centralidad valorados, tales como cantidad de comunicación, características personales, rango militar, y la pertenencia al grupo.

Enlace distancia a menudo también se determina en parte por otros conceptos de distancia entre las personas, como la semejanza de las actividades o la distancia cultural. Sección 6 analiza dos ejemplos de ello. La determinación de los factores que determinan estadísticamente distancia del enlace es la base para la comprensión de los patrones de comunicación. Esto puede dar lugar a actividades de gestión apropiadas para mejorar la comunicación. Creemos que este enfoque basado en la distancia de Análisis de Redes Sociales, que integra el conjunto de herramientas de técnicas estadísticas utilizadas tradicionalmente en las ciencias sociales, junto con los conceptos de la teoría de grafos [2, 3], ofrece una gran promesa en la comprensión y la mejora de la comunicación dentro de las organizaciones.

8. Reconocimiento

The CAVALIER software utilises the JAMA linear algebra module from the US National Institute of Standards and Technology; statistical routines by Bryan Lewis and Leigh Brookshaw; and image-processing code by Jef Poskanzer. The author is indebted to Dawn Hayter for many discussions on Social Network Analysis, and to two anonymous referees for comments on earlier drafts of this paper.

9. Referencias

[1] Stanley Wasserman and Katherine Faust. Social Network Analysis: Methods and Applications, Cambridge University Press, 1994.

[2] Alan Gibbons. Algorithmic Graph Theory, Cambridge University Press, 1985.

[3] David Krackhardt. "Graph Theoretical Dimensions of Informal Organizations," Computational Organization Theory, pp 89-111, Kathleen M. Carley and Michael J. Prietula eds, Lawrence Erlbaum Associates, Hillsdale, NJ, 1994.

[4] Linton C. Freeman. "Visualizing Social Networks," Journal of Social Structure 1(1), February 2000. Available electronically at http://www.cmu.edu/joss/content/articles/volume1/Freeman.html

[5] Anthony H. Dekker. "Social Network Analysis in Military Headquarters using CAVALIER," Proceedings of 5th International Command and Control Research and Technology Symposium, Australian War Memorial, Canberra ACT, Australia, 24-26 October 2000. The full text of the paper is available electronically at http://www.dodccrp.org/events/2000/5th_ICCRTS/cd/papers/Track6/039.pdf

[6] Anthony H. Dekker. "Visualisation of Social Networks using CAVALIER," Proceedings of the Australian Symposium on Information Visualisation, Sydney, Australia, 3-4 December 2001, pp 49-55. Conferences in Research and Practice in Information Technology 9, Peter Eades and Tim Pattison, eds. Available electronically at http://crpit.com/confpapers/CRPITV9Dekker.pdf

[7] Anthony H. Dekker. "A Category-Theoretic Approach to Social Network Analysis," Proceedings of Computing: The Australian Theory Symposium, Melbourne, Australia, Jan-Feb 2002. Electronic Notes in Theoretical Computer Science 61, James Harland, ed. Available electronically at http://www.elsevier.com/locate/entcs/volume61.html

[8] Mark Granovetter. "The Strength of Weak Ties: a network theory revisited," Sociological Theory 1:201-233, 1983.

[9] Claude Flament. Applications of Graph Theory to Group Structure. Prentice-Hall, 1963.

[10] Song Yang and David Knoke. "Optimal Connections: Strength and Distance in Valued Graphs," Social Networks 23(4):285-295. October 2001.

[11] Thomas H. Cormen, Charles E. Leiserson, and Ronald L. Rivest. Introduction to Algorithms. MIT Press, 1990.

[12] Ulrik Brandes. "Drawing on Physical Analogies," In Drawing Graphs: Methods and Models, pp 71-86 (Michael Kaufmann and Dorothea Wagner, eds) Springer Verlag LNCS 2025, 2001.

[13] E. S. Keeping. Introduction to Statistical Inference. Van Nostrand, 1962.

[14] Ronald Jay Cohen, Mark E. Swerdlik, and Suzanne M. Phillips. Psychological Testing and Assessment, 3rd edition, Mayfield, 1988.

[15] Ulrik Brandes. "A Faster Algorithm for Betweenness Centrality," Journal of Mathematical Sociology 25(2):163-177, 2001. Available electronically at http://www.inf.uni-konstanz.de/algo/publications/b-fabc-01.pdf

[16] Carl G. Jung. Psychological Types. Routledge, 1991 (originally published 1921).

[17] Geert Hofstede. "Motivation, Leadership and Organization: Do American Theories Apply Abroad?" In Organization Theory: Selected Readings, Fourth Edition (Derek Pugh, ed) Penguin 1997.

martes, 2 de junio de 2015

Distancia conceptual en redes sociales (1/2)

Distancia conceptual en Análisis de Redes Sociales

Anthony Dekker, Tony.Dekker@dsto.defence.gov.au
Defensa Ciencia y la Tecnología, Australia
Journal of Social Structure

Resumen: En este artículo se presenta una aproximación al análisis de redes sociales, con base en el análisis estadístico de la distancia conceptual entre las personas. En concreto, se introduce el concepto de centralidad valorado y una generalización de la distancia geodésica que llamamos distancia del enlace. Examinaremos una serie de beneficios del concepto distancia del enlace, incluyendo la facilidad de visualización y aplicabilidad de los métodos estadísticos comunes. El uso de un estudio de caso, se demuestra cómo examinar las relaciones estadísticas entre la distancia del enlace y otras formas de distancia conceptual puede ofrecer ideas sobre la naturaleza de la comunicación dentro de una organización. Por lo tanto una integración de las técnicas gráfico-teórico tradicionales en análisis de redes sociales, y las técnicas estadísticas tradicionales en otras ciencias sociales, conduce a una técnica combinada que integra los puntos fuertes de ambos enfoques.

1. Introducción

El Análisis de Redes Sociales [1] es un acercamiento a las organizaciones que estudian centrados en el análisis de las redes de relaciones entre las personas y / o grupos como el aspecto más importante. Volviendo al menos hasta la década de 1950, se caracteriza por la adopción de técnicas matemáticas en especial de la teoría de grafos [2, 3]. Tiene aplicaciones en la organización la psicología, la sociología y la antropología. Una excelente visión general del campo viene dada por Wasserman y Faust [1].

El Análisis de Redes Sociales proporciona una vía para analizar y comparar información formal e informal fluye en una organización, así como la comparación de los flujos de información con los procesos de trabajo definido oficialmente. Estamos interesados en la aplicación de Análisis de Redes Sociales para organizaciones militares, y especialmente a las oficinas centrales militares que van desde la brigada a niveles estratégicos nacionales.

Un aspecto importante del análisis de redes sociales es la visualización de la comunicación y otras relaciones entre las personas y / o grupos, mediante diagramas. Visualización de las redes sociales tiene una larga tradición y un excelente estudio histórico está dado por Freeman [4]. Visualización de las redes sociales es importante debido a la complejidad de la estructura organizativa, y la necesidad de una buena representación visual de cómo funciona una organización.

Un segundo aspecto es el estudio de los factores que influyen en las relaciones, por ejemplo, la edad, los antecedentes y la capacitación de las personas involucradas. El estudio de las correlaciones entre las relaciones también es importante, ya que ofrece una visión de los motivos por qué las relaciones existe. Estos estudios se pueden realizar utilizando técnicas estadísticas tradicionales, tales como la correlación, el análisis de la varianza, y el análisis de factor, pero también requieren técnicas de visualización apropiados.

El objetivo final del análisis de redes sociales es a menudo para extraer implicaciones de los datos relacionales, con el fin de hacer recomendaciones para mejorar la comunicación y el flujo de trabajo en una organización. Esta es la principal motivación para nuestro programa de Análisis de Redes Sociales. En trabajos anteriores [5, 6, 7], hemos aplicado el Análisis de Redes Sociales para organizaciones militares. En el curso de este trabajo, hemos encontrado distancia conceptual para ser el constructo más útil para explicar las relaciones. Esto es en parte debido a que el cerebro humano está capacitado para pensar y juzgar visualmente distancias. En este artículo se argumenta los beneficios del uso de la distancia conceptual para el análisis de redes sociales, y demostrar cómo hacerlo mediante un estudio de caso.

2. Definición de Distancia

Hemos encontrado redes valorados para ser el más útil para el modelado de las relaciones sociales y laborales. En las redes valorados, cada enlace se le asigna un valor, que tomamos para estar en el rango de 0 (enlace inexistente) a 1 (más fuerte vínculo posible). Esto proporciona una descripción más exacta de la realidad que simplemente con respecto a los enlaces como "presente" o "ausente". También evita un problema serio con las redes no valorados, es decir, la realización de elecciones arbitrarias en cuanto a cuánto comunicación constituye un enlace de ser "presente". También generalmente utilizamos redes dirigidas, con las flechas de la A a B que refleja la percepción de una de (y en algunos casos la contribución de la A a) la comunicación entre A y B.

Hay varias formas de obtener estos valores de vínculo 0-1. Hemos encontrado en general que es útil para valores de vínculo a codificarse pseudo-logarítmica. Un ejemplo típico de cómo hemos codificado de comunicación en algunos de nuestros estudios de análisis de redes sociales es:

1.0 = comunicación todos los días
0,8 = dos o más veces por semana
0.6 = una vez por semana
0,4 = una vez por dos semanas
0.2 = una vez al mes
0.0 = menos de una vez al mes (enlace inexistente)

Esto es pseudo-logarítmica en el sentido de que los códigos de 0,2 a 1,0 son aproximadamente proporcionales al logaritmo de n + 1, donde n es el número de días de trabajo por mes en el que se produce la comunicación. Si, por el contrario, habíamos obtenido 0-1 valores de vínculo con sólo ampliar el número de días de comunicación al mes, habríamos obtenido una distribución muy desigual. Sobre la base de cuatro de nuestras encuestas anteriores análisis de redes sociales, al menos el 70% de los enlaces habría tenido un valor inferior a 0,3. El uso de una codificación pseudo-logarítmica también hace más justicia al valor de los enlaces débiles, que se sabe que son sociológicamente muy importante [8].

Finalmente, una codificación pseudo-logarítmica se adapte a la retirada de la comunicación por la mayoría de los encuestados, que es generalmente más preciso para la comunicación frecuente. Tomando logaritmos convierte una duplicación errónea o reducción a la mitad de la frecuencia de comunicación a un cambio erróneo arriba o hacia abajo por aproximadamente 0,2. El uso de este tipo de codificación pseudo-logarítmica, la correlación de 180 grados entre las respuestas codificadas está típicamente en el rango de 0,6 a 0,7, es decir, hay una correlación de 0,6 a 0,7 en las evaluaciones de frecuencia de comunicación por las dos partes implicadas. Esto es similar a las correlaciones entre las respuestas a las preguntas relacionadas en muchas encuestas de las ciencias sociales, y consideramos que una correlación en este rango suficiente para validar nuestras encuestas análisis de redes sociales.

También es posible obtener 0-1 valores de vínculo basado en la cantidad, en lugar de la frecuencia, de la comunicación, y hacemos esto en el caso de estudio se describe en la Sección 3.

No es una forma obvia de traducir esta noción de 0-1 valores de vínculo en un concepto general de la distancia del enlace entre las personas. Esto se basa en tres principios:

Los valores altos reflejan la proximidad, es decir, la distancia a lo largo de un enlace específico (con valor v) será 1 / v. Por consiguiente, la distancia a lo largo de un enlace oscilará entre 1 (el más cercano) hasta el infinito (más alejada).
Simetría, es decir, deseamos que la distancia de A a B a ser la misma que la distancia de B a A. Si hay un enlace de A a B y también uno de B a A, calculamos la distancia utilizando el mayor de los dos valores. Esto se basa en el hecho de que la gente es más probable que se olvide de comunicación (que da un valor que es demasiado baja) de lo que son a alucinar comunicación que no ocurrió (dando un valor demasiado alto).
Aditividad: se obtiene la distancia entre dos personas (sin siquiera si hay enlace directo) mediante la adición de distancias para todos los eslabones de la ruta de acceso entre ellos. Si hay varias rutas entre las personas, definimos la distancia utilizando el camino más corto. Si no hay caminos, se define como la distancia infinita.

Esta definición es esencialmente la misma que la de Flament [9] y generaliza el concepto de distancia geodésica en redes no valorado. La crítica de esta definición por Yang y Knoke [10] refleja una falta de comprensión de la relación entre el valor y la distancia, y el hecho de que los valores altos corresponden a distancias cortas. Sin embargo, hay un cierto mérito en su sugerencia de que las distancias deben reflejar el número de enlaces en la ruta entre dos personas, así como los valores de los enlaces. Al utilizar nuestro código pseudo-logarítmica de valor, que en realidad obtiene la polarización deseada hacia las trayectorias con pocos enlaces, y lo hacemos mediante la definición obvia de distancia, sin la definición compleja y poco elegante distancia de Yang y Knoke [10].

Esta definición de la distancia del enlace tiene una serie de ventajas, que se discuten en detalle en el cuerpo del papel:

Eficiencia: esta definición de la distancia se puede calcular de manera eficiente, utilizando los algoritmos de Floyd, Dijkstra, o Johnson [11]. Algoritmo de Johnson es significativamente más eficiente para las grandes redes sociales. Hemos construido un conjunto de herramientas basadas en Java llamada CAVALIER (Comunicación y Actividad Visualización de la empresa), para llevar a cabo el análisis y la visualización de las redes sociales, y esa herramienta incorpora cálculo de la distancia de enlace (todos los diagramas de este documento también se han producido utilizando la herramienta CAVALIER).
Visualización: una de las técnicas más comunes para la visualización de las redes sociales es la primavera-incrustación [4]. Un algoritmo de diseño de primavera-incrustación asume que los enlaces entre los nodos se comportan físicamente como resortes, con una longitud del resorte ideales (que corresponde a algún tipo de distancia conceptual entre los nodos), y una fuerza de resorte (mejores resultados se obtienen cuando la fuerza del resorte disminuye a medida que la ideales aumenta la longitud de la primavera, y esta opción resulta ser equivalente a Escala multidimensional [12]). Los nodos pueden ser asignados a puntos en el espacio de dos dimensiones o tridimensional moviéndolos en una manera que minimiza la tensión total en toda la colección de cadenas, usando la física directa. Enlace distancia se puede visualizar fácilmente, ya que se correlaciona bien con la distancia física después se utiliza un algoritmo de diseño de primavera-incrustación. Figura 1 y Figura 2 proporcionan ejemplos de esto.
Robustez: distancias de enlace no cambian radicalmente si algunas personas no logran completar los formularios de encuesta (un problema serio cuando participación en la encuesta es voluntaria). Sección 4 discute este tema con más detalle.
Correlación con tiempo de propagación: en experimentos de simulación, distancia del enlace se correlaciona bien con el tiempo para propagar la información a través de la red desde el nodo más central. Correlaciones típicas están en el intervalo de 0,8 a 0,9. Sección 5 discute un número de tales experimentos de simulación en detalle.
Normalidad: distancias de enlace son aproximadamente una distribución normal, con bajos valores de asimetría y curtosis. El eje vertical de la figura 10 indica visualmente, y el estudio de caso ilustra allí tuvo una inclinación de 0,35 y una curtosis de -0.14 para la distancia de enlace. La sección 3 describe este estudio de caso (basado en los grupos de noticias de Internet) con mayor detalle. En comparación, la Tabla 1 resume los valores de sesgo y curtosis para otros estudios Análisis de redes sociales que hemos llevado a cabo. Los valores en el rango de -1 a +1 se consideran aproximadamente normal, y puesto que la gama real de valores de sesgo y kurtosis es bien dentro de estos límites, distancias de enlace están aproximadamente normalmente distribuidos en cada caso.

La razón de la distribución normal aproximada de distancias de enlace reside en el hecho de que los enlaces débiles, aunque generalmente más común que los enlaces fuertes, son menos probable que ocurra en los caminos más cortos (geodésicas) entre los nodos, y que por lo tanto, los diferentes valores posibles de enlace se aproximadamente la misma probabilidad de ocurrir en cualquier geodésica dado. Un análisis de las redes listadas en la Tabla 1 confirma que este es, de hecho, el caso. Aplicando la definición de la distancia del enlace a los múltiples eslabones de una geodésica produce una distribución aproximadamente normal a causa de la Teorema del límite central [13], de la misma manera que la suma de múltiples escalas Likert [14] produce una distribución aproximadamente normal.

Tipo de red	Tamaño de red	Sesgo	Curtosis
Work communication (scientific)	20	0.03	-0.71
Work communication (military)	47	0.15	-0.61
Work communication (scientific)	63	0.00	-0.72
Work communication (scientific)	93	0.09	-0.06
Internet newsgroup (Section 3)	343	0.35	-0.14

Tabla 1: Valores de sesgo y curtosis para la distancia del enlace en algunas redes sociales

La normalidad es muy importante, porque significa que el conjunto de herramientas estándar de técnicas estadísticas puede ser utilizado para analizar la distancia del enlace. En nuestro trabajo, investigamos las redes sociales mediante la aplicación de tales técnicas estadísticas estándar como análisis de regresión, análisis de varianza y análisis de componentes principales para vincular distancia.

Sin embargo, la distancia del enlace no es la única forma de distancia conceptual útil para el Análisis de Redes Sociales. Otras formas de distancia conceptual se pueden definir, basándose en la similitud de las actividades, diferencia en la cultura, y otros factores. Gran penetración en los patrones de comunicación se puede lograr mediante estadísticamente examinar la relación entre la distancia del enlace y otras formas de distancia conceptual. Sección 6 discute este tema con más detalle, y proporciona algunos ejemplos tomados de otros estudios de caso Análisis de Redes Sociales [5, 6].

3. Estudio de caso

Hemos estado aplicando análisis de redes sociales para diversas jefaturas militares [5, 6, 7]. Los requisitos de confidencialidad nos impiden que describe los resultados de estos estudios en detalle, pero en esta sección se presenta un caso de estudio que utiliza exactamente el mismo método de análisis, y proporciona una vía para que las discusiones detalladas de nuestras técnicas. De hecho, se eligió el estudio de caso para demostrar las ventajas de estas técnicas, y cómo las diversas dificultades se superan en la práctica.

Este estudio se basa en muestras de publicaciones a los grupos de noticias de Internet soc.religion.christian y soc.religion.islam entre enero y abril de 2002. Los artículos incluidos en la muestra fueron publicadas por 343 personas diferentes. Siempre que la persona A respondió a un anuncio por la persona B, esto fue tratado como un enlace (dirigido) de A a B.

El valor de la relación (dirigida) de A a B se toma como el logaritmo del número total de palabras escritas por la persona A en respuesta a los desplazamientos de la persona B, a escala en estar en el intervalo 0-1. Esto proporciona un tipo ligeramente diferente de pseudo-logarítmica de codificación para que se discutió en la Sección 2, pero se aplican las mismas ventajas. El software que utilizamos para el procesamiento de los artículos de noticias ignora los artículos citados, y cuenta sólo las palabras escritas por el autor publicados.

La Tabla 2 muestra el dominio de país de nivel superior para los 343 sujetos (el código "nosotros" se refiere a ".com", ".net", etc., que son sede en Estados Unidos, pero disfrazar el país de origen). Las diferencias en la Tabla 2 no son significativas según la prueba de ji cuadrado (p = 0,99, p = 0,49 o cuando se excluye el código "nosotros"). En otras palabras, los sujetos se distribuyen bastante aleatoriamente sobre el planeta.

	soc.religion.islam	soc.religion.christian	both
ae	1	0	0
au	5	0	0
ca	2	2	0
cy	0	1	0
de	1	2	0
is	1	0	0
it	0	1	0
my	2	0	0
nl	0	1	0
no	1	0	0
nz	1	1	0
pk	1	0	0
pl	1	0	0
sa	1	0	0
se	3	1	0
sg	1	0	0
uk	11	4	0
us	211	81	6

Table 2: Dominios de país para grupos de noticias

3.1. Distancia de enlace

Nuestro concepto de valor de vínculo produce una medida de la distancia del enlace como se describe en la Sección 2. En la figura 1, la distancia del enlace se visualiza como un diagrama de dos dimensiones utilizando primavera-incrustación (como se explica en la Sección 2). En este diagrama, personas que publican al grupo de noticias soc.religion.christian se muestran como cajas de color rojo, personas que publican al grupo de noticias soc.religion.islam se muestran como círculos verdes, y personas que desean publicar para ambos grupos de noticias se muestran como ámbar redondeado cajas. Las personas que desean publicar para ambos grupos de noticias (eran 6 de ellos) actúan como puentes entre las dos comunidades. Las personas se identifican por números de índice en lugar de nombre por motivos de confidencialidad.

Figura 1: Disposición de resorte inserto para Estudio de caso

Tales diagramas son generalmente éxito en la visualización de la distancia del enlace. En este caso, la distancia física en el diagrama tiene una correlación 0,82 con la distancia de enlace (R cuadrado = 0,67). Este valor de correlación es similar a la obtenida en nuestros otros estudios.

Enlace distancia se visualiza a menudo más éxito en tres dimensiones. La figura 2 muestra una disposición de resorte incrustar tridimensional. Para mayor claridad, los enlaces no se muestran en este diagrama. La correlación entre la distancia física y la distancia del enlace se ha aumentado a 0,87 (r-cuadrado = 0,76). Este valor también es similar a la obtenida en nuestros otros estudios.

La Figura 2 se obtuvo mediante un enlace desde la herramienta CAVALIER a la persistencia de la visión (POV-Ray) Raytracer (http://www.povray.org/). Sin embargo, la correlación entre la mejora de la distancia del enlace y la distancia física para tridimensional primavera-incrustación sólo es útil si las tres dimensiones puede ser experimentado directamente utilizando el movimiento o estéreo. Una representación bidimensional de tres dimensiones no es suficiente, y muchos de nuestros clientes han informado de dificultades en la interpretación de representaciones bidimensionales de tres dimensiones.

Al hacer clic en la figura 2 da una imagen GIF animada (producido por la exportación de POV-Ray a la Animagic shareware GIF Animator). Hemos encontrado como GIFs animados útil, porque su movimiento proporciona una mejor comprensión de la estructura tridimensional, y también se puede incorporar fácilmente en páginas web y presentaciones de PowerPoint. Con los usuarios expertos, también hemos tenido éxito en la visualización de redes sociales utilizando Virtual Reality Modelling Language o VRML (http://www.web3d.org/x3d/specifications/vrml/). Esta tecnología permite no sólo la animación, sino también la capacidad de manipular el modelo tridimensional interactiva. VRML también permite una fácil conexión de un texto explicativo a los nodos.

Figura 2: Presentación tridimensional incrustación de resortes (hacer clic para una animación GIF)

La Tabla 3 muestra enlace promedio distancias dentro y entre los tres grupos de personas (la distancia del enlace promedio general entre las personas es 23,1).

	soc.religion.islam	soc.religion.christian	both
soc.religion.islam	19.2	29.1	15.1
soc.religion.christian	29.1	21.2	20.9
both	15.1	20.9	9.5

Tabla 3: Enlace distancias promedio dentro y entre los grupos

Las diferencias en la Tabla 3 son estadísticamente muy significativa (p <0.000001). Esto se debe a que los caminos entre personas que publican sólo para soc.religion.islam y personas que publican sólo para soc.religion.christian deben contener al menos dos enlaces, paso por una de las 6 personas "puente". También tenga en cuenta que (en promedio) de personas en los grupos soc.religion.islam y soc.religion.christian están más cerca de la gente "puente" de lo que son para otros miembros del grupo (esto es equivalente a decir que el pueblo "puente" son muy central). Ambos fenómenos son visibles en la Figura 1 y la Figura 2.

3.2. Distancia vocabulario

Enlace distancia no es la única forma de distancia conceptual podemos definir para este estudio de caso. Por cada persona se analizó el texto que se publican, y grabamos el histograma de frecuencias de palabras. Estos histogramas son esencialmente vectores de números, y por lo que podemos calcular la distancia euclídea entre estos vectores. Llamamos a estas distancias distancia vocabulario.

La tabla 4 muestra las distancias medias de vocabulario dentro y entre los tres grupos de personas (la distancia vocabulario promedio general entre las personas es 0,119).

	soc.religion.islam	soc.religion.christian	both
soc.religion.islam	0.122	0.119	0.088
soc.religion.christian	0.119	0.113	0.083
both	0.088	0.083	0.044

Tabla 4: Distancias Vocabulario promedio dentro y entre grupos

Se puede observar en la tabla 4 que las distancias de vocabulario no diferencian mucho entre los grupos de noticias soc.religion.islam y soc.religion.christian: aunque las diferencias son significativas (p <0.000001), son pequeñas. Esto se debe a temas tratados en ambos grupos de noticias son muy similares, y debido a que el vocabulario está influenciado principalmente por el hecho de que todos los participantes están utilizando el mismo lenguaje. Ambos grupos de noticias contienen largas discusiones de las relaciones entre el cristianismo, el islam y la cultura occidental. La Figura 3 ilustra esta similitud de tema resaltando en las personas de color azul oscuro (en ambos grupos) que mencionan el Corán (más correctamente escrito "Corán") en publicaciones. Del mismo modo, la figura 4 muestra las personas que mencionaron los nombres de "Jesús" o "Cristo", y la figura 5 muestra las personas que mencionan las palabras "guerra" o "paz" (un tema común de discusión para los dos grupos en los últimos tiempos).

Figura 3: La gente Mencionando "Corán" o "Corán" en Publicaciones

Figura 4: La gente Mencionando "Jesús" o "Cristo" en Publicaciones

Figura 5: La gente Mencionando "guerra" o "paz" en Publicaciones

La Tabla 5 muestra el porcentaje de personas en cada grupo mencionar cada palabra. Si bien estas diferencias son estadísticamente significativas según la prueba de chi cuadrado (p <0,000001, p <0,000001, yp = 0,025, respectivamente), es obvio que existe una superposición sustancial en los temas discutidos entre los grupos.

	soc.religion.islam	soc.religion.christian	both
"Koran" or "Quran"	45%	5%	67%
"Jesus" or "Christ"	44%	81%	100%
"War" or "Peace"	59%	49%	100%

Tabla 5: Porcentaje de personas que mencionan Seleccionado palabras en Publicaciones

En este ejemplo, la distancia vocabulario ha sido un ejemplo del concepto más general de una medida de distancia de medición de similitud de actividades. Para nuestros estudios de la sede militar, obtendríamos una medida de distancia actividad similitud mediante el estudio de las prácticas de trabajo y / o la administración de encuestas (Sección 6 discute un ejemplo de la distancia actividad similitud).
Nuestro estudio de caso ha mostrado un patrón particular de la comunicación: una reunión de personas que se dedican esencialmente de la misma actividad (discusiones de las relaciones entre el cristianismo, el islam y la cultura occidental), pero dividido en dos grupos mal comunicadas. Si viéramos este patrón de comunicación dentro de una organización del cliente, lo consideraríamos como una indicación de que algún tipo de intervención de la gestión podría ser requerida.

3.3. Valor de la centralidad

Centralidad es un concepto sumamente importante en el análisis de redes sociales, y veremos más adelante que arroja considerable luz sobre los datos. Son posibles [1] Varias definiciones diferentes de centralidad, pero la definición que elijamos para grafos valorados, lo que llamamos centralidad valorados, es:

centralidad valorada (A) = {SUM 1 / distancia (A, B)} / (N - 1)
donde N es el número de personas, la distancia (A, B) es la distancia de enlace entre las personas A y B (como se define en la Sección 2), y la suma se realiza sobre todas las personas excepto A (tenga en cuenta que en el caso de que A y B son sólo un paso aparte, es simplemente el valor de la relación entre ellos que se agrega a la suma). Esta definición de la centralidad valioso está integrado en nuestra herramienta de análisis de redes Cavalier.

Esta definición tiene esencialmente "cercanía" de ser el inverso de la distancia, y obtiene valorado centralidad promediando los valores de cercanía. Creemos que este es superior a la definición de "proximidad central" [1], que se basa en la suma de distancias. Por lo tanto, proximidad central es muy sensible a una sola distancia grande o eslabón perdido. En el caso extremo, desconectar un nodo establece la distancia hasta el infinito y, por lo tanto centralidad cercanía de todos los nodos a 0 (este problema se observa en [1], pero ninguna solución se da allí). Nuestra definición de centralidad valioso, por otro lado, está sólo ligeramente afectada por desconexión de un nodo. Por lo tanto, consideramos que esta estabilidad hace que sea una definición más útil. La utilidad de la centralidad valorada en el análisis que sigue proporciona una justificación más pragmática para usarlo. En particular, las puntuaciones de centralidad valiosos tienden a ser aproximadamente una distribución normal, con bajos valores de sesgo y curtosis. El eje vertical de la Figura 8 ilustra este visualmente. La Tabla 6 resume los valores de sesgo y curtosis de centralidad valorada y su inversa para estudios de análisis de redes sociales que hemos llevado a cabo (la utilidad de la inversa de centralidad valorada se discute más adelante). Los valores en el rango de -1 a +1 se consideran aproximadamente normal, por lo que fue valorado centralidad distribución aproximadamente normal en cada caso, pero uno. La inversa de centralidad valorado también fue distribución aproximadamente normal en cada caso, pero uno. Las excepciones, que tenían anormalmente alta curtosis, eran estudios basados en formularios de encuestas, donde el porcentaje de formas regresó fue muy baja. Sin embargo, incluso en estos casos, una distribución aproximadamente normal podría obtenerse por la elección de analizar ya sea centralidad valioso o su inversa.

Tipo de red	Tamaño de red	Tasa de retorno	Sesgo (Centralidad)	Kurtosis (Centralidad)	Sesgo (Inverso)	Kurtosis (Inverse)
Trabajo de comunicación (científico)	20	90%	0.87	0.85	0.02	-0.18
Trabajo de comunicación (militar)	47	100%	0.30	-0.74	0.53	-0.36
Trabajo de comunicación (científico)	63	52%	0.87	1.73	0.19	-0.38
Trabajo de comunicación (científico)	93	52%	0.43	0.25	0.72	1.25
Internet newsgroup	343	74%	0.73	0.50	0.56	0.26

Table 6: Valores de sesgo y curtosis para centralidad valuada y su inversa para algunas redes sociales

La "centralidad de intermediación" [1] es también una medida central de uso común, y el trabajo reciente de Brandes [15] demuestra que se puede calcular de manera eficiente. Sin embargo, "centralidad de intermediación" requiere contar el número de diferentes caminos más cortos (geodésicas) entre pares de nodos. Para las redes valorados esto es todavía posible [15], pero en la práctica las redes valorados tienen muy pocos geodésicas entre pares de nodos. Con nuestros códigos pseudo-logarítmica, por lo general hay (al menos 80% del tiempo) sólo una única geodésica entre cualquier par dado de nodos, como se indica en la Tabla 7. Para comparación, la Tabla 7 también muestra el número de geodésicas para no versiones valiosos de las redes, en los que el número medio de geodésicas entre dos determinados nodos oscila desde 2,65 hasta 5,13.

Tipo de red	Tamaño de red	No. de geodésica (valuada)	% geodésica simple (valuado)	No. de geodésica (no valuada)	% geodésica simple (valuado)
Trabajo de comunicación (científico)	20	1-2 (promedio 1.10)	90%	1-11 (promedio 2.65)	67%
Trabajo de comunicación (militar)	47	1-9 (promedio 1.22)	84%	1-68 (promedio 4.38)	39%
Trabajo de comunicación (científico)	63	1-5 (promedio 1.24)	80%	1-79 (promedio 4.23)	34%
Trabajo de comunicación (científico)	93	1-6 (promedio 1.24)	82%	1-21 (promedio 3.44)	32%
Internet newsgroup	343	1	100%	1-264 (average 5.13)	35%

Table 7: Número de caminos más cortos (geodésicos) de algunas redes sociales valuadas y no valuadas

Además, en las redes geodésicas valorados son muy sensibles a los cambios en el valor de enlace: El cambio del valor de un solo vínculo que altera los caminos son geodésicas. El número limitado de geodésicas, y su sensibilidad a los cambios en el valor de enlace, hace "centralidad de intermediación", un concepto menos útil para las redes de valor que para las redes tradicionales no valorada sociales. En el resto del documento, se utiliza el término "centralidad" en el sentido de centralidad valorado.

La figura 6 muestra una versión de la Figura 1 de color utilizando puntuaciones (valioso) de centralidad, con el rojo indica la centralidad más bajo, amarillo una centralidad superior y verde la mayor centralidad. La Figura 6 también se dibuja sin puntas de flecha, con el fin de mostrar la estructura de la red con más claridad. Se puede observar que el algoritmo de primavera-incrustación coloca a las personas céntrica, cerca del centro del diagrama, y que los individuos más centrales están dentro del grupo soc.religion.islam.

Figura 6: Las puntuaciones de centralidad Estudio de caso

La pregunta natural es: ¿cuáles son los predictores estadísticos de centralidad? ¿Qué factores determinan la centralidad de las personas dentro de este estudio de caso?

La Tabla 8 muestra las puntuaciones de centralidad para los dominios de países de la Tabla 2. El valor medio centralidad es 0.050, con una desviación estándar de 0.012. El análisis de varianza muestra que las diferencias en la Tabla 8 no son significativas (p = 0,66), es decir, país de origen no afecta centralidad. Esto es típico de la Internet como un todo: la ubicación física en el mundo no es importante. Por tanto, debemos recurrir a otras posibles predictores de centralidad.

	Número de gente	Centralidad	Desvío estándar
ae	1	0.049
au	5	0.052	0.009
ca	4	0.056	0.010
cy	1	0.031
de	3	0.044	0.012
is	1	0.055
it	1	0.041
my	2	0.068	0.002
nl	1	0.038
no	1	0.042
nz	2	0.064	0.002
pk	1	0.053
pl	1	0.055
sa	1	0.054
se	4	0.052	0.015
sg	1	0.047
uk	15	0.052	0.013
us	298	0.050	0.012

Table 8: Medidas de centralidad para dominios de país

Tabla 9 muestra las puntuaciones de centralidad para los tres grupos. Análisis de varianza muestra que las diferencias en la Tabla 9 son altamente significativa (p <0,000001). Los 6 personas "puente" son más central, a causa de su relación con ambos grupos. El grupo soc.religion.islam es también algo más central que soc.religion.christian, porque es más grande (dada las distancias entre los grupos en la Tabla 3, los miembros de un grupo grande generalmente tienen mayor número de personas a las que están cerca, y esto contribuye a una puntuación más alta centralidad).

Número de gente	Centralidad	Desvío estándar
soc.religion.islam	243	0.053	0.012
soc.religion.christian	94	0.041	0.008
both	6	0.070	0.008

Table 9: Valores de centralidad para grupos

Centralidad en las redes sociales a menudo se puede predecir por atributos numéricos de los participantes. Por cada persona en este estudio de caso se puede calcular de dos parámetros: el número total de palabras publicado, y el número de palabras distintas publicado. Tanto estas variables se correlacionan con la centralidad, sino porque no se distribuyen normalmente, es necesario tomar logaritmos. El logaritmo del número total de palabras publicadas predice 38% de la varianza en centralidad, mientras que el logaritmo del número de palabras distintas publicados predice 37% de la varianza en la centralidad. Esto sugiere que deberíamos utilizar el logaritmo del número total de palabras publicadas como predictor de centralidad.

Sin embargo, antes de tomar una decisión en cuanto a cuál de estas variables es más capaz de predecir la centralidad, es importante examinar la relación entre ellos. Cuando examinamos la relación entre los dos logaritmos, encontramos una correlación muy alta (r = 0,995, r cuadrado = 0,99). La Figura 7 ilustra esta relación. Las líneas verdes horizontales y verticales en la figura 7 indican el valor medio y una desviación estándar de uno y otro lado, mientras que la línea de regresión se muestra en rojo.

Figura 7: Logaritmo de palabras totales publicadas contra logaritmo de palabras distintas publicadas

Esta relación sugiere una fuerte dependencia causal entre las variables, y de hecho (ya que no hay diferencias sustanciales en el vocabulario entre las personas en este estudio de caso), el número de palabras distintas es simplemente una consecuencia de la utilización más palabras nuevas como el número total de palabras aumenta . Por lo tanto, tiene sentido utilizar el logaritmo del número total de palabras publicadas como predictor de centralidad.

Hemos trabajado a través del análisis estadístico del número de palabras con cierto detalle, no porque sea un aspecto importante de nuestro enfoque de Análisis de Redes Sociales en sí, sino porque proporciona un ejemplo del tipo de análisis estadístico que es necesario. En general, se requiere un grado de trabajo de detective estadística para dilucidar las relaciones entre los atributos de la gente, y así encontrar los mejores predictores estadísticos de centralidad. En nuestros estudios militares, el rango (considerado como una variable numérica) tiende a predecir entre 20% y 40% de la varianza en centralidad, desde generales son generalmente más central que lugartenientes. Para algunas de las redes sociales informales que hemos estudiado, una medida de la extraversión [16] también actúa como un predictor de la centralidad, ya que las personas con una personalidad extrovertida a menudo (aunque no siempre) comunicarse más.

Podemos mejorar la predicción de la centralidad mediante la inclusión de los promedios de grupos de la Tabla 9, la obtención de la ecuación de regresión:

centralidad = 0,937 * promedio del grupo + 0,00404 * logaritmo del total de palabras - 0.0226
Esta ecuación de regresión predice 58% de la varianza en centralidad (una correlación de 0,76), como se muestra en la Figura 8.

Figura 8: Ecuación de regresión contra Centralidad

El eje vertical de la Figura 8 indica visualmente que las puntuaciones de centralidad se distribuyen aproximadamente normal. La distribución de los puntos sobre la media es aproximadamente simétrica, y la mayoría de puntos están dentro de una desviación estándar de la media. Los valores de sesgo y curtosis también son bajos (0,73 y 0,50 respectivamente). La Figura 8 también muestra las relativamente altas puntuaciones de centralidad para las 6 personas "puente" (indicados por cajas ámbar redondeadas).

Continuará....

Páginas