martes, 4 de septiembre de 2018

Introducción: Análisis de redes sociales, con referencias a Salud

El análisis de las redes sociales

A. James O'Malley * y Peter V. Marsden #
Health Serv Outcomes Res Methodol. 2008 Dec 1; 8(4): 222–269.
doi:  10.1007/s10742-008-0041-z


Resumen
Muchas preguntas sobre la organización social de la medicina y los servicios de salud implican interdependencias entre los actores sociales que pueden ser representadas por las redes de relaciones. Los estudios de redes sociales se han llevado a cabo durante algún tiempo en las disciplinas de las ciencias sociales, donde se han propuesto numerosos métodos descriptivos para analizarlos. Más recientemente, el interés en el análisis de los datos de las redes sociales ha crecido entre los estadísticos, que han desarrollado modelos y métodos más elaborados para adaptarlos a los datos de red. Este artículo revisa los fundamentos y las innovaciones recientes en el análisis de redes sociales utilizando una red de influencia médica como ejemplo. Después de introducir formas de datos de red, estadísticas básicas de red y medidas descriptivas comunes, describe dos tipos distintos de modelos estadísticos para datos de red: modelos de resultados individuales en los que las redes entran en la construcción de variables explicativas y modelos relacionales en los que la red misma es una variable dependiente multivariada. Las complejidades en la estimación de ambos tipos de modelos surgen debido a las complejas estructuras de correlación entre las medidas de resultado.
Palabras clave: correlación, modelo de grafo aleatorio exponencial, modelo de espacio latente, modelo de autocorrelación de red, relación social, red social



1. Introducción

El análisis de redes sociales estudia las estructuras de las relaciones que vinculan a los individuos (u otras unidades sociales, como las organizaciones) y las interdependencias en el comportamiento o las actitudes relacionadas con las configuraciones de las relaciones sociales. Dado que muchos fenómenos médicos y relacionados con la salud involucran actores interdependientes (por ejemplo, pacientes, enfermeras, médicos y hospitales), las redes son cada vez más interesantes para los investigadores de los servicios de salud. Entre muchos otros ejemplos se encuentran las redes de apoyo social que pueden servir para mejorar el bienestar individual proporcionando recursos psicosociales o tangibles (Berkman y Syme, 1979); las redes de influencia de los grupos de pares pueden aumentar o proteger contra el riesgo de abuso de sustancias (Unger y Chen 1999) o influir en las decisiones sobre el uso de anticonceptivos (Valente et al., 1997); redes familiares y de amistad que pueden influir en las prácticas alimentarias, los hábitos de ejercicio y otros comportamientos que afectan el riesgo de obesidad (Christakis y Fowler 2007) o de fumar (Christakis y Fowler 2008); redes de asociación sexual que pueden aumentar o reducir el riesgo de contraer enfermedades de transmisión sexual (Laumann y Youm 1999); y redes de discusión entre colegas profesionales que pueden influir en los protocolos de tratamiento o decisiones para prescribir nuevos regímenes de medicamentos (Coleman, Katz y Menzel 1966).

Se han propuesto cinco principales vías de mediación a través de las cuales las relaciones sociales pueden influir en la salud de las personas (Berkman y Glass 2000). Destaca entre ellos el apoyo social, que tiene aspectos emocionales, instrumentales, de evaluación (asistencia en la toma de decisiones) e informativos (House y Kahn 1985). Más allá del apoyo social, las redes también pueden ofrecer acceso a recursos tangibles, como asistencia financiera o transporte. También pueden transmitir la influencia social mediante la definición de normas sobre conductas relacionadas con la salud como el tabaquismo o la dieta, o mediante controles sociales que promueven (por ejemplo) el cumplimiento de los regímenes de medicación (Marsden 2006). Las redes también son canales a través de los cuales se propagan ciertas enfermedades transmisibles, especialmente las de transmisión sexual (Klovdahl 1985), y algunas sostienen que ciertas estructuras de red reducen la exposición a los factores estresantes (Haines y Hurlbert, 1992).

Christakis (2004) ha sugerido recientemente que las intervenciones de salud pueden tener efectos "colaterales", que incluyen no solo al individuo al que se dirige una intervención, sino a otras personas en la red social del objetivo. Tales efectos directos e indirectos (o multiplicadores) en la salud de las intervenciones podrían ser de interés tanto para los médicos como para los pacientes en la selección de tratamientos, y merecen la atención de los formuladores de políticas y los profesionales de la salud pública al evaluar el valor de las intervenciones. Los modelos de redes sociales sobre cómo las personas se influyen mutuamente ofrecen un enfoque para medir la presencia y la magnitud de dichos efectos colaterales para la salud, y un camino hacia la evaluación de los efectos totales de las intervenciones.

El análisis de redes sociales mide las relaciones entre los actores sociales, evalúa los factores que dan forma a su estructura y determina hasta qué punto afectan los resultados relacionados con la salud. Está relacionado pero es distinto de los análisis de los mecanismos a través de los cuales el apoyo social afecta la salud. Los estudios de apoyo social a menudo evalúan solo la recepción agregada o la disponibilidad de apoyo, no necesariamente configuraciones de vínculos entre actores específicos, mientras que solo algunos análisis de redes sociales se enfocan en los resultados de salud; muchos toman la red como el objeto de estudio.

Varias disciplinas de las ciencias sociales, especialmente la antropología y la sociología, han participado durante mucho tiempo en análisis de redes sociales (Freeman 2004). Muchas técnicas y medidas descriptivas de redes se han desarrollado allí. Más recientemente, el interés en el análisis de redes ha aumentado entre los estadísticos. Los avances en el poder de la computación han posibilitado soluciones a problemas previamente insolubles, lo que ha dado lugar a una serie de nuevos modelos y métodos para analizar redes. Junto con el reconocimiento de que las redes son componentes integrales de muchas preguntas de investigación que involucran la convivencia y el funcionamiento de individuos, comunidades, dominios de políticas, lugares de trabajo y escuelas, esto ha llevado a la aplicación ampliada del análisis de redes sociales.

Dos tipos distintos de modelos de red son comunes. Nos referiremos a estos aquí como modelos de nivel individual y relacional, respectivamente. En el primero, el análisis se centra en un resultado a nivel individual, y los datos de la red se usan para definir variables explicativas. El segundo tipo de aplicación modela las relaciones entre los individuos en una red, en esencia tratándola como una variable dependiente multivariada con enlaces individuales (o vínculos) como sus elementos. Tales análisis relacionales representan la estructura de la red utilizando estadísticas de red correspondientes a regularidades en propiedades relacionales (es decir, dependencias entre enlaces de red) y covariables tales como las características de las unidades dentro de la red. Por lo tanto, aunque los modelos a nivel individual hacen inferencias sobre los atributos de los individuos, los modelos a nivel relacional hacen inferencias sobre los vínculos que unen a los individuos. Los modelos a nivel individual se parecen a los modelos de regresión estándar que buscan predecir la distribución de algún resultado medido en un individuo focal o ego, pero difieren en que los predictores pueden involucrar características medidas en otros individuos (a menudo conocidos como "alteradores") de una manera que involucra estructura de red, lo que permite pruebas de hipótesis sobre la influencia social. En los modelos relacionales, la variable dependiente mide un aspecto de la relación entre individuos en la red y se prueban las hipótesis de la selección social. En ambos tipos de problemas, un desafío importante es tener en cuenta una estructura de correlación compleja entre los resultados que surgen debido a la red. Si hay N individuos en un conjunto de datos, esto es de orden N2 en un análisis de nivel individual, pero de orden N2 × N2 en un análisis de nivel relacional.

La siguiente sección revisa algunos fundamentos del análisis de redes sociales, presenta una red que utilizamos como ilustración a lo largo del artículo y describe cómo los conjuntos de datos de red se representan numérica y visualmente. La Sección 3 presenta estadísticas básicas de red tales como densidad y grado, algunas medidas de red descriptivas fundamentales que incluyen índices de centralidad y enfoques para la detección de subgrupos dentro de la red.

2. Antecedentes

2.1. Definición de redes sociales

Una red social consiste en uno o más conjuntos de unidades, también conocidos como "nodos", "actores" o "vértices", junto con las relaciones o vínculos sociales entre ellos. Las unidades o nodos suelen ser personas individuales, p. pacientes o clínicos. Sin embargo, también pueden ser otras unidades sociales (como hospitales) u objetos (como textos). Las relaciones a menudo representan comunicación, influencia, confianza o afecto (por ejemplo, amistad), pero también pueden referirse a conflictos (por ejemplo, disputas). La mayoría de los estudios de redes sociales también incluyen datos de atributos que describen los nodos / actores, las relaciones o ambos.

Ciertas subredes son a menudo de interés. Un par de actores se conoce como una díada y un triple como una tríada. Una estrella consiste en un actor y todas las relaciones que le incumben. Una red egocéntrica consiste en un actor, los otros actores en su vecindad o localidad inmediata, y las relaciones entre ellos.

Cuando -como es lo más típico- la atención se centra en las relaciones que vinculan elementos dentro de un conjunto de unidades / actores, una red se conoce como un modo. La mayor parte de la discusión en este artículo se refiere al caso de un modo. Sin embargo, las redes pueden involucrar a más de un conjunto de unidades / actores. En particular, muchos estudios involucran dos tipos distintos de unidades, como pacientes y médicos, o médicos y hospitales. En estas redes de dos modos, las relaciones elementales de interés usualmente se refieren a las afiliaciones de unidades en un conjunto con aquellas en el otro-p. Ej. de pacientes con los médicos responsables de su cuidado, o de los médicos con los hospitales en los que se les permite practicar. Por lo tanto, las redes de dos modos también se conocen como redes de afiliación.

Si bien la mayoría de los estudios de redes se centran en una sola relación o tipo de vínculo observado en una ocasión, existen datos de redes sociales tanto multirelacionales como longitudinales. Los datos multirelacionales reconocen el carácter multidimensional en muchos vínculos sociales; la relación entre dos médicos, por ejemplo, puede implicar colaboración profesional y amistad personal. Los datos longitudinales permiten el estudio de la creación, transformación y disolución de los vínculos sociales. Muy a menudo, las relaciones medidas son de valor binario (presente / ausente), pero también pueden ser ordinales o cuantitativas.

2.2. Diseños de estudio de red

Aunque se han llevado a cabo algunos experimentos de red (por ejemplo, Friedkin y Cook 1990, Travers y Milgram 1969), la mayoría de los datos de redes sociales son observacionales. Los estudios generalmente miden redes utilizando encuestas y métodos de cuestionarios. Los analistas también explotan los datos registrados en los archivos, incluidos los registros mantenidos por los sistemas de comunicación electrónica (Marsden 1990).

Los estudios de "toda la red" buscan reunir datos sobre las relaciones en una población teórica, es decir, sobre los vínculos que unen a todas las unidades / actores dentro de un colectivo social limitado, como todos los médicos dentro de una práctica médica. En tales estudios, es esencial que se especifiquen límites claros o reglas de inclusión para unidades / actores (Laumann, Marsden y Prensky, 1983).

Los modelos estadísticos, como los modelos de grafos aleatorios exponenciales (ver Sección 5.3) se emplean generalmente para analizar datos de toda la red (como los de la red de médicos) que proporcionan información sobre las relaciones entre todas las unidades / actores dentro de una población cerrada. Por lo tanto, las inferencias pertenecen al modelo postulado que generó esos datos, más que al diseño utilizado para muestrear las relaciones para el estudio de una red más grande. La mayoría de las aplicaciones de tales métodos examinan redes de orden modesto, incluidos entre 10 y 50 actores, aunque se han informado análisis de redes de orden mucho mayor (por ejemplo, Goodreau 2007).

2.3. Ejemplo: Discusiones influyentes entre médicos dentro de una práctica de atención primaria

Una red de influencia médica en una práctica de atención primaria (Keating et al., 2007) se utilizará como ejemplo a lo largo de este artículo. La red se midió como parte de un estudio que examina cómo las redes sociales influyen en las creencias de los médicos y el uso de terapias como la terapia de reemplazo hormonal (TRH). Ejemplifica un estudio de una sola modalidad, transversal, de toda la red. Los actores son médicos en la práctica, y las relaciones son discusiones influyentes sobre los problemas de salud de las mujeres. De 38 médicos, 33 respondieron a una encuesta, informando el número de discusiones influyentes sobre cuestiones de salud de la mujer (medidas ordinalmente, como 0, 1-3 o 4+) que tuvieron con otros médicos en la práctica durante los seis meses anteriores. Nuestros análisis ilustrativos tratan estos datos como de valor binario, distinguiendo entre los informes de ausencia de discusión y de uno o más debates. La encuesta reunió datos de atributos para cada médico, incluidos elementos de viñetas que miden la propensión a recomendar TRH, áreas autoevaluadas de pericia médica y la fracción de mujeres en su panel de pacientes. Los registros administrativos proporcionaron información sobre el sexo del médico y el número de sesiones clínicas por semana.

Creamos dos versiones de valores binarios de la red de influencia médica utilizando estos datos. En la red "dirigida", se dice que existe una relación entre el médico i y el médico j si presento j como socio en una o más discusiones influyentes. Tales citas no necesitan ser correspondidas. En la red "no dirigida", una relación entre i y j está presente si cualquiera de las dos cita al otro como alguien con quien tuvo lugar una discusión influyente. Aquí, la relación está presente o ausente para cada díada, sin direccionalidad.

2.4. Representaciones de redes

Dos formas de representar redes son comunes (Freeman 1989): como matrices y como grafos. En una representación matricial, las filas y columnas corresponden a unidades / actores; la matriz es cuadrada para una red de modo único y rectangular para una red de dos modos. Se requieren matrices múltiples para datos multirelacionales o longitudinales. Las entradas de celda contienen el valor de la relación que vincula las unidades / actores correspondientes, de modo que la celda ijth representa la relación entre el actor i y el actor j. Con los vínculos de valores binarios (1s indica la presencia de un empate), la representación de la matriz se conoce como una matriz de adyacencia. La Tabla 1 muestra la matriz de adyacencia para los primeros diez médicos en la red de influencia de salud dirigida por mujeres. La red parece bastante escasa, ya que hay muchos más de 0 que de 1.

Tabla 1

Matriz de adyancencia (primeros 10 actores) para la red dirigida de influencia de médicos
Start/End12345678910
10000001010
20010001001
30000000000
40000000001
50000000000
60000000000
70000000000
80000001010
91000001000
100000000000
Note: Las celdas conteniendo 1 y 0 denotan la presencia y ausencia de enlace respectivamente.

Las redes a menudo se representan utilizando grafos en los que los actores / unidades son vértices y las relaciones no nulas son líneas. Las relaciones no dirigidas se conocen como "bordes" y las dirigidas como "arcos"; las flechas al final (s) de los arcos denotan su direccionalidad. Las representaciones gráficas a menudo son binarias, pero los gráficos de valor ponderado también se pueden construir mostrando valores de enlace no nulos a lo largo de arcos / aristas, o dejando que las líneas más finas y gruesas representen valores de línea. Dichas imágenes gráficas son un sello distintivo del análisis de redes sociales (Freeman 2004); Las primeras representaciones gráficas de redes se conocían como "sociogramas".

Los grafos de redes son abstractos en el sentido de que no tienen ejes de coordenadas subyacentes. Muchos de esos dibujos son representaciones ad hoc, construidas usando criterios estéticos (por ejemplo, minimizando el número de líneas de cruce). Los algoritmos que incluyen escalamiento multidimensional (Bartholomew y otros 2002) y embedders de primavera (Fruchterman y Reingold 1991) ahora se utilizan a menudo para posicionar unidades / actores en el espacio cartesiano mediante la optimización de alguna función de los datos de red y las coordenadas espaciales de las unidades. Por ejemplo, el algoritmo Fruchterman-Reingold ubica unidades / actores de manera que aquellos conectados por un borde / arco son casi-pero (para evitar el desorden visual) no demasiado cerca el uno del otro, mientras que los desconectados están más separados. Los grafos se pueden mejorar permitiendo que los tamaños, las formas, los colores o las etiquetas de los vértices representen diferentes valores de atributos para unidades / actores.

La Figura 1 muestra la red de influencia del médico dirigida, como la representa el algoritmo Fruchterman-Reingold programado en el paquete de software statnet (Handcock et al., 2003). Excepto por la omisión de las flechas direccionales, el grafo para la red no dirigida correspondiente es idéntico. Los 33 actores (médicos) están etiquetados del 1 al 33. En general, los médicos que a menudo citan o son citados por otros como interlocutores influyentes (como los médicos 21 y 27) tienden a aparecer más cerca del centro del grafo.


Figura 1. Red de influencia médica dirigida cuando los vínculos se definen como 1 o más discusiones influyentes.

Nota: Con la excepción de la omisión de las flechas direccionales, el grafo para la red no dirigida correspondiente es el mismo que el anterior.


Las representaciones graficas de las redes son visualmente atractivas y evocadoras, pero es importante no sobreinterpretarlas. Las distancias trazadas no se corresponden directamente con "distancias sociales" medidas. 2 Disposiciones espaciales distintas, pero formalmente equivalentes, basadas en los mismos datos de red pueden influir en las percepciones de las características estructurales (McGrath, Blythe y Krackhardt, 1997). Los muchos vértices y líneas en grafos de redes grandes y densas pueden volverlos ilegibles. En general, los grafos son más útiles para identificar distintas regiones o clusters dentro de una red, distinguir nodos centrales y periféricos, y revelar nodos intermediarios que unen distintas regiones de la red. Los análisis cuidadosos de las redes generalmente se enfocan en sus características matemáticas y estadísticas, sin embargo, como se discute en las secciones que siguen.

Las visualizaciones de red se pueden construir utilizando numerosos paquetes de software. Entre estos se encuentran el paquete R y sna (Butts 2007), NetDraw (Borgatti 2008) y Pajek (Batagelj y Mrvar 2003).


3. Propiedades descriptivas de las redes

El análisis de los datos de la red a menudo comienza al examinar las estadísticas y medidas descriptivas a nivel de actor y de red. Esta sección revisa muchos de los más comunes. Wasserman y Faust (1994) ofrecen una introducción exhaustiva a las medidas descriptivas de red.

Usamos el símbolo yij para referirnos a una variable de red que registra los datos sobre la relación entre el actor i y el actor j. Una matriz y incluye todas esas variables. En muchas aplicaciones yij tiene un valor binario, tomando el valor 1 si i está vinculado a j y 0 de lo contrario; en este artículo, consideramos que yij tiene valor binario, a menos que así se indique. Las relaciones personales yij generalmente no están definidas. Cuando las relaciones tienen valores binarios, y es la matriz de adyacencia.

3.1. Tamaño y Densidad

Quizás la propiedad más simple de una red es su número de unidades / actores (N), conocido como su orden. Para las redes de valores binarios, la estadística de nivel de relación correspondiente es el número de vínculos, conocido como tamaño (L = Σi, j yij). Una estadística ampliamente citada es la densidad de la red, definida como el tamaño relativo al número de enlaces posibles e igual a L / (N (N - 1)) para las redes dirigidas. De manera más general, para los datos cuantitativos sobre las relaciones, la densidad podría definirse como la fuerza media de un empate.

La red de influencia de 33 médicos es de orden 33. La red de influencia dirigida tiene el tamaño 163, es decir, se observaron 163 enlaces no nulos. Como fueron posibles 33 * 32 = 1056 relaciones, la densidad de la red es 0.154.

3.2 Grado y la distribución del grado

En una red no dirigida, un grado de actor es el número de otros actores con los que está directamente conectado. Los análisis de redes dirigidas distinguen entre los vínculos entrantes y salientes. El número de arcos orientados hacia un actor es el grado de actor (y + j = Σi yij), a veces denominado popularidad o atractivo; el número de arcos que emanan de un actor es su out-grado (yi + = Σj yij), también conocido como expansividad. A menudo, los actores que tienen grados superiores tienen papeles prominentes en la red; de hecho, las medidas más simples de centralidad (Sección 3.6) se basan en el grado (Freeman 1979).

La distribución de grados es la distribución de frecuencia que da el número de actores que tienen grados numéricos particulares. Su variación mide la medida en que la conexión directa varía entre los actores (Snijders 1981). Barabási y sus colegas se han centrado en el grado como su interés analítico fundamental (Barabási 2002; Wolfram 2002), lo que demuestra que muchas propiedades de la red están determinadas por la distribución del grado. Como ilustran los ejemplos en la Figura 2, las redes con la misma densidad global pero diferentes distribuciones de grados pueden tener estructuras bastante diferentes. Una red de "círculo" -en la que el grado de actor es constante (y por lo tanto, la variación de grado es 0) - y una red "de estrella" en la que un actor tiene un grado N - 1 mientras que todos los demás tienen un grado 1 - se encuentra en extremos opuestos de el espectro con respecto a la variación de grado.




Figura 2. Redes circular y estrella


Los histogramas de las distribuciones de grados para la red de influencia médica dirigida se muestran en la Figura 3. La distribución fuera de grado es más uniforme que la distribución en grados, que está marcadamente sesgada hacia la derecha. La desviación estándar entre grados es 5.20, mientras que entre grados es solo 3.29. Muchos médicos rara vez son citados por otros como interlocutores influyentes, mientras que uno tiene un título de 24. Una lista de estadísticas de redes a nivel de actor (Tabla 2) muestra que el médico 27 tiene un grado de out 24 pero en grado de solo 2 Este médico influye directamente en la mayoría de los otros médicos, pero está influenciado por pocos de ellos. Tres médicos no influyen en los demás (tienen un grado 0) mientras que otros dos no están influenciados por otros (tienen un grado 0).



Figura 3. Distribuciones de grados para la red de influencia médica dirigida

Tabla 2

Estadísticas a nivel de nodo para la red dirigida de influencia de médicos
NodoGrado

Intermediación
SalienteEntrante

1730.39
2900
3410.09
4564.39
5231.18
6361.18
72120.78
8800
9101127.64
10050
11430.61
12610.09
13463.36
14020
151034.31

3.3 Rutas y distancia geodésica

Los actores en las redes están conectados entre sí indirectamente a través de intermediarios, así como directamente. Los vínculos distintos de cero en la matriz de adyacencia proporcionan conexiones directas. Una conexión indirecta está presente cuando uno o más caminos de múltiples pasos existen de un actor a un segundo, en cuyo caso se dice que este último es accesible desde el primero. Existe una ruta de longitud 2 desde el actor i hasta el actor j cuando hay un tercer actor h tal que i es adyacente a hyh, a su vez, es adyacente a j. Las rutas pueden involucrar múltiples adyacencias; la longitud de una ruta es la cantidad de relaciones o líneas que contiene. Una ruta geodésica es la ruta más corta entre un par de actores determinado. La distancia geodésica, es decir, la longitud de una ruta geodésica, es quizás la medida de la distancia social más utilizada entre las unidades / actores.

La multiplicación matricial de una matriz de adyacencia y por sí misma produce el número de caminos de una longitud dada entre dos actores. Por ejemplo, el elemento ijth de yk contiene el número de caminos de longitud k desde el actor i hasta el actor j. La distancia geodésica de i a j está dada por el entero positivo k más pequeño para el cual la entrada ijth en yk es distinta de cero. Si no existe un camino de i a j, se dice que la distancia geodésica de i a j es infinita. En redes dirigidas, la distancia geodésica de i a j no tiene por qué ser igual a j a i.

Para la red de médicos dirigidos, el número de rutas de longitud 2 y longitud 3 que comienzan y terminan con los actores 1 a 10 se muestran en los cuadros 3 y 4,4, respectivamente. Hay una disminución rápida en el número de celdas distintas de cero y un aumento en el número de caminos de distancia-k que conectan a la mayoría de los pares de médicos a medida que aumenta la longitud de la trayectoria (k). Sin embargo, algunos pares de médicos conectados directamente no están vinculados indirectamente. Por ejemplo, existe una relación directa entre el médico 2 y el médico 3 (Tabla 1), pero no la ruta de longitud 2 o 3, lo que indica que ninguna secuencia de vínculos a través de uno o dos médicos intermediarios lleva del médico 2 al médico 3.

Tabla 3

Senderos de longitud 2 (primeros 10 actores) para la red dirigida de influencia de médicos
Start/End12345678910
12000114030
20000123040
31000102030
41001112031
50000100010
60000021010
70000011010
81000213030
91001214050
100000000000

Tabla 4

Senderos de longitud 3 (primeros 10 actores) de la red de influencia directa de médicos
Start/End12345678910
1600458180201
2800468200232
3500335130131
4400426130123
51001135051
61000022020
71000022010
8600558200232
910006412230234
100000000000

La Tabla 5 muestra las distancias geodésicas entre los actores 1-10 en la red médica dirigida. Los valores de -1 indican que no existe una ruta de ninguna longitud entre un médico y el otro, es decir, que la distancia geodésica entre ellos es "infinita". Por ejemplo, no hay un camino para el médico 2 de ninguno de los médicos 1-10. Del mismo modo, el médico 10 no puede comunicarse con los médicos 1-9. La distancia geodésica más larga que se muestra es 5, de médico 6 a 10 y de médico 7 a 10.3 Las distancias geodésicas no son simétricas; por ejemplo, del médico 1 al 4 la distancia es 3, pero de 4 a 1 es 2.

Tabla 5

Distancias geódesicas (primeros 10 actores) para la red de influencia directa de médicos
Start/End12345678910
10−1−13221−113
23013221−121
32−103232−123
42−1−10222−121
53−1−13033−123
63−1−14402−125
73−1−14420−125
82−1−13221013
91−1−12221−103
10−1−1−1−1−1−1−1−1−10
Nota: valores  −1 denotan distancias geodésicas “infinitas”.

3.4. El censo de tríadas y la reciprocidad


En las redes dirigidas de valores binarios, pueden existir tres tipos de relaciones diádicas: díadas mutuas, en las que un vínculo de i a j va acompañado de uno de j a i; díadas asimétricas en las que existe una relación entre i y j en una dirección, pero no en la otra; díadas nulas en las que no hay empate en ninguna dirección. El censo díada es el conjunto de tres estadísticas de red que dan el número de cada tipo de díada que se encuentra dentro de una red dada; por ejemplo, el número de vínculos mutuos es M = Σi<j yij yji.

Si todos los vínculos en una red binaria son mutuales o nulos, se dice que la red es simétrica, en cuyo caso la matriz de adyacencia yy su transposición yT son idénticos; una red no dirigida es simétrica por construcción. La presencia y la magnitud de una tendencia hacia la simetría o la reciprocidad en una red dirigida pueden medirse comparando el número de díadas mutuas con el número esperado según un modelo en el que los vínculos se reciprocan al azar. Si el número de mutuas es menor de lo esperado, hay una tendencia a alejarse de la reciprocidad.

El padrón díada para la red de médicos dirigidos incluye 26 díadas mutuas (que abarcan 52 vínculos dirigidos), 111 díadas asimétricas y 391 díadas nulas. La distribución del número de lazos mutuos entre los médicos está sesgada en la derecha (Figura 3), con una media de 1.45 y una desviación estándar de 1.68. Debido a que la proporción de mutuas entre díadas no nulas, 26 / (26 + 111) = 0.190, excede la densidad de la red (que estima la probabilidad de que cualquier vínculo esté presente en una red puramente aleatoria), 0.154, parece haber una tendencia hacia la reciprocidad en esta red. Una prueba formal requiere información sobre la distribución del número esperado de mutuas bajo la hipótesis de reciprocidad aleatoria; pruebas más potentes condicionan las características observadas de la red, como la distribución de grados (Holland y Leinhardt 1981; Snijders 1991). Las pruebas de reciprocidad también pueden realizarse utilizando modelos de regresión que controlan otros efectos de red; La Sección 5 presenta una prueba de reciprocidad basada en la regresión en la red de influencia médica.

3.5. El censo de tríadas, la transitividad y la clausura


Las tríadas en redes binarias no dirigidas pueden incluir relaciones 0, 1, 2 o 3. Se dice que las tríadas que tienen 3 relaciones son cerradas o transitorias, en el sentido de que cada par de unidades / actores vinculados por un vínculo directo también está vinculado por un camino indirecto a través de la tercera unidad / actor. Para las redes binarias dirigidas, existen 16 tipos distintos de tríadas, que se distinguen por el número y la orientación de los vínculos dirigidos que incluyen (Wasserman y Faust 1994). De estos, los tipos de tríadas, incluidas las subestructuras transitivas, en las que la presencia de un vínculo directo de i a j está acompañado por la presencia de un camino indirecto desde i hasta j a través de h, son indicativas del cierre de la red. El censo de la tríada es el conjunto de estadísticas de la red que proporciona la cantidad de tríadas de cada tipo posible en una red observada. El censo de la tríada se relaciona con la media y la varianza de la distribución de grados, y tiene fuertes implicaciones para la estructura general de la red, especialmente para las redes de bajo orden (Frank 1981).

Una indicación de transitividad se puede obtener considerando el subconjunto de tríadas en las que un actor está conectado a las otras y comparando la proporción de triadas que están cerradas (es decir, la proporción en la que j y k están conectados, dado que tanto j como k están conectadas a i) con la densidad de la red (que estima la probabilidad de que dicha tríada se cierre en una red totalmente aleatoria). La red de influencia médica no dirigida4 incluye 1429 tríadas en las cuales un actor tiene vínculos con los otros dos, y 624 tríadas transitorias. La proporción de tríadas transitivas entre las que incluyen al menos dos vínculos es 0.437, que supera con creces la densidad de red no dirigida de 0.256, lo que implica que tales tríadas ocurren con más frecuencia de lo esperado por casualidad. Sin embargo, esta comparación no es una prueba estadística formal, ya que no considera la distribución del número de tríadas cerradas y no cerradas, ni condiciona en el censo díada, la distribución de grados u otras estadísticas de red. Los documentos mencionados anteriormente describen pruebas formales de transitividad, mientras que la Sección 5 lo prueba dentro de un marco de regresión.

3.6. Centralidad

Las medidas de centralidad reflejan la prominencia de los actores / unidades dentro de una red. Se encuentran entre las medidas de nivel de actor más ampliamente utilizadas que se derivan de los datos de red.

Distintas medidas de centralidad (Freeman 1979, Wasserman y Faust 1994) son sensibles a diferentes aspectos de la ubicación de la red de un actor. La más simple se basa en un grado de actor. Existen medidas separadas de centralidad en grado y fuera de grado para las redes dirigidas. La centralidad basada en el grado refleja el nivel de actividad o participación de la red de un actor. Una segunda medida común se basa en la interdependencia: la frecuencia con que un actor se encuentra en una posición intermedia a lo largo de las rutas geodésicas que unen pares de otros actores. En las redes de comunicación o intercambio, los actores con alta centralidad de intermediación tienen una gran capacidad para intermediar o controlar las relaciones entre otros actores. Una tercera medida de centralidad importante, la cercanía, se basa en la suma de las distancias geodésicas de un actor dado a todos los demás; la prominencia de la red basada en la proximidad es inversamente proporcional a esta suma. Los actores vinculados a otros a través de geodésicas cortas tienen comparativamente poca necesidad de unidades intermediarias (intermediarios) y, por lo tanto, tienen una independencia relativa en la gestión de sus relaciones. Las medidas de proximidad están definidas solo para redes en las que todos los actores están mutuamente relacionados entre sí por caminos de distancia geodésica finita; esta condición se aplica a la red de médicos no dirigidos, pero no a la dirigida.

Otro índice de centralidad es sensible a la presencia y / o la fuerza de las conexiones, así como a la centralidad de los actores a los que se vincula un actor focal. Supone que las conexiones con los actores centrales indican una mayor prominencia que las conexiones de fuerza similar con los actores periféricos. Las medidas basadas en esta conceptualización implican el vector propio correspondiente al valor propio más grande de una representación matricial de una red y, por lo tanto, se conocen como medidas de centralidad de vectores propios (por ejemplo, Bonacich 1987). Las diferentes medidas de centralidad a menudo, aunque no siempre, están bien correlacionadas, pero encarnan diferentes aspectos de la prominencia de la red.

Las medidas de centralidad para la red de médicos dirigidos (Tabla 2) muestran que el médico 19 afirma estar influenciado por la mayoría de los demás, teniendo el grado más grande (13), mientras que el médico 27 ​​(con el mayor grado de 24) influye en la mayoría de los demás5. La medida de la interferencia informada en la Tabla 2 se ha escalado para que las puntuaciones indiquen la intermediación como un porcentaje de su nivel máximo posible. Los médicos 9 (escalado entre 27,6) y 27 (escalado entre 20,1) son los más centrales en esta definición. No informamos puntajes de proximidad para la red dirigida, porque no todos los pares de médicos están vinculados por caminos geodésicos finitos.

Los puntajes de proximidad para la red no dirigida (Tabla 6) están estandarizados para la cantidad de médicos en la red (Beauchamp 1965); los valores se encuentran entre 0 y 1 con valores más altos que reflejan una mayor centralidad. El médico 27 ​​(cercanía 0,8) es de lejos el actor más importante de acuerdo con esta medida y los médicos 14, 20 y 25 son los menos. Obsérvese que el médico 25 es menos central en términos de cercanía que el médico 26, aunque el médico 25 tiene un grado más alto. Las centralidades de vectores propios para esta red6 también muestran que el médico 27 ​​(0,35) es el más central, seguido por el médico 9 (0,29); estos se escalan aquí de modo que la centralidad del vector propio de cada actor sea igual al elemento correspondiente del primer vector propio de la matriz de adyacencia.

Tabla 6

Estadístico a nivel de red de la red de influencia de médicos
NodeGradoCercaníaAutovector

180.540.18
290.580.18
350.510.12
4100.580.16
540.480.08
670.550.12
7130.630.24
880.550.18
9160.670.29
1050.450.07
1160.50.12
1270.540.13
1370.540.13
1420.420.04
15100.590.18
16130.630.26
1770.530.13
1840.50.08
19170.680.3
2020.430.04
21170.680.29
2230.470.05
2350.480.09
24150.650.29
2550.430.06
2620.470.06
27240.80.35
2860.510.1
2960.530.14
30120.60.2
3180.550.14
3220.460.04
3390.560.2


Las medidas de centralidad a menudo se toman como indicadores del "poder estructural" basado en la red de un actor; la idoneidad de tal interpretación depende, por supuesto, del contenido de cualquier aplicación en particular. Tales medidas se utilizan a menudo como variables explicativas en modelos de regresión a nivel individual, pero tales aplicaciones no siempre dan cuenta de las interdependencias entre los actores en los conjuntos de datos de toda la red.

Los índices de centralización (Freeman 1979) son estadísticas a nivel de red que se asemejan a la variación de grado, cada vez más grandes en la medida en que todas las relaciones involucran un solo actor (como en la red "estrella" que se muestra en la Figura 2).

3.7. Cliques, componentes y clusters

Los análisis descriptivos a menudo usan datos de red para asignar actores a subgrupos, razonando que ciertos patrones en las relaciones revelan distinciones sociales sobresalientes. A menudo esto implica una búsqueda de regiones densas localmente dentro de una red, es decir, subconjuntos de actores que tienen relaciones fuertes entre sí. Para las redes de valores binarios, un modelo idealizado de dicho subgrupo solidario es la camarilla, un subconjunto máximo de actores con densidad 1.0. Este requisito de densidad de subgrupos es muy estricto, y los análisis de datos de redes empíricas raramente encuentran camarillas de tamaño apreciable. Otros enfoques para identificar subgrupos cohesivos relajan ese estándar de varias maneras (Wasserman y Faust 1994).

Los componentes son un concepto de subgrupo mucho más débil. En una red dirigida, los componentes fuertes son subconjuntos de actores mutuamente vinculados entre sí por caminos de longitud finita. Los componentes fuertes dividen a los actores en una red en subconjuntos mutuamente excluyentes y exhaustivos, que a su vez están parcialmente ordenados. Los componentes débiles se definen de manera similar, excepto que la direccionalidad de las relaciones se ignora al evaluar si dos actores están conectados; por construcción, los componentes débiles están aislados el uno del otro. Muchas redes constan de un componente grande, a veces junto con varios más pequeños y actores únicos. Un estudio de Colorado Springs sobre personas en riesgo de contraer el VIH (Rothenberg et al., 1998) documentó una disminución de horas extras en el tamaño de los componentes en redes de vínculos de riesgo (sexual, consumo de drogas, uso compartido de agujas), conectando esto con una caída en personal toma de riesgos.

Otro concepto de cohesión más es el componente k-conectado (White y Harary 2001): un subconjunto máximo de actores mutuamente vinculados entre sí por al menos k caminos independientes del nodo (es decir, caminos que involucran conjuntos disjuntos de actores intermediarios que también se encuentran dentro el subconjunto). Esta noción enfatiza la solidez de las conexiones entre los elementos dentro de los subgrupos. El mapeo de actores para los componentes conectados a k no es mutuamente exclusivo, y los componentes k para k más altos están anidados dentro de aquellos para k menor.

La red de médicos parece ser relativamente cohesiva. En la red dirigida, un componente fuerte principal incluye 27 de los 33 actores. Los seis restantes son únicos: cuatro de ellos mencionan a los médicos en el componente principal pero no reciben citas de él, mientras que los otros dos son citados por médicos de componentes principales, pero no citan a nadie. La red no dirigida consta de un único componente conectado (débil). De hecho, toda la red no dirigida es un componente biológico, ya que todos los pares de médicos están conectados a través de al menos dos rutas independientes del nodo. La red no dirigida se centra en una camarilla de 7 médicos (médicos 9, 16, 19, 21, 24, 27 y 33 en la Figura 1), que es parte de un componente de 6 conexiones que incluye 17 médicos.

3.8. Homofilia


La tendencia a que las relaciones se formen entre personas que tienen atributos similares se conoce como homofilia (McPherson, Smith-Lovin y Cook 2001). La homofilia implica interacciones estadísticas tripartitas entre los atributos de los actores y la presencia de relaciones, o de forma equivalente, estadísticas de densidad de red específicas de subgrupos. Con una alta homofilia de acuerdo con algún atributo, las redes tienden a la segregación por ese atributo, lo que contribuye al cierre de la red.

Los estudios empíricos en la literatura de la red a menudo informan tendencias hacia la homofilia. En su análisis de la red de médicos, Keating et al. (2007) documentaron fuertes tendencias hacia la homofilia por la ubicación de la organización: las discusiones influyentes tendieron a llevarse a cabo con otros en una clínica médica (subpráctica) dentro de la práctica. Por el contrario, encontraron una tendencia débil e insignificante hacia la homofilia por género.

3.9. Propiedades descriptivas para redes egocéntricas


Numerosas propiedades de la estructura de red en la localidad de un actor se pueden medir usando datos de la red egocéntrica de ese actor (Marsden 1987). Dos de los más comunes son el grado de actor (a menudo denominado tamaño de red egocéntrica) y la densidad de red local: el grado de conexión entre los pares de alteraciones dentro de una red egocéntrica dada. La alta densidad local indica el cierre dentro del vecindario que rodea a un actor. Existe una medida de centralidad de intermediación para los datos de red egocéntricos (Marsden 2002). Las estadísticas específicas de los actores que resumen la distribución de las características alteradas en una red egocéntrica, como la media y la desviación estándar de las edades de los alteradores, miden la composición y la heterogeneidad de la red. Burt (1992) presenta un conjunto refinado de índices que miden el cierre egocéntrico de la red.

Tales propiedades de redes egocéntricas pueden derivarse de datos de toda la red, y también pueden basarse en datos de red egocéntricos obtenidos en encuestas de muestra representativas. Una vez construidos, tales índices se utilizan a menudo como variables explicativas en análisis de regresión que buscan explicar las variaciones en algunos resultados a nivel individual, como el bienestar, o como variables dependientes en los análisis relacionados con los determinantes de la estructura local. Sin embargo, con medidas de red egocéntricas basadas en datos de toda la red (como en la red de médicos), los análisis deben reconocer el complejo patrón de interdependencia entre redes egocéntricas debido al agrupamiento de actores. Sin embargo, no surgen problemas analíticos especiales cuando tales datos se ensamblan dentro de encuestas por muestreo, ya que los actores alternos en una red egocéntrica generalmente no están entre las unidades del ego muestreadas, por lo que es razonable asumir la independencia entre las observaciones en diferentes redes egocéntricas.

Los modelos jerárquicos a menudo se usan para analizar datos egocéntricos ya que las observaciones se agrupan por ego. Este modelo utiliza tanto las covariables entre-ego como las covariantes dentro del yo medidas en los alter o en los vínculos de alter ego (Van Duijn, Van Busschback y Snijders 1999). Debido a la independencia entre los egos, los modelos multinivel cuya matriz de covarianza dentro del ego captura la asociación entre los alteradores vinculados a cada yo y entre ellos pueden aplicarse a dichos datos. Wellman y Frank (2001) proporcionan un ejemplo de modelado jerárquico de este tipo de datos en el contexto del capital de redes sociales. Los modelos jerárquicos estándar no se pueden usar para analizar las estructuras de datos descritas en las Secciones 4 y 5.

3.10 Software para Análisis de Red Descriptivo

La mayoría del software de red actual se encuentra en programas independientes en lugar de en paquetes de software integrado como SAS o Stata, aunque dichos paquetes pueden construir muchas medidas para datos de red egocéntricos. UCINET 6 (Borgatti et al., 2002) es relativamente completo y ampliamente utilizado en la gestión de datos de red y la realización de análisis descriptivos. El paquete R de sna (Butts 2007) también puede realizar la mayoría de los análisis discutidos en esta sección. Ver Huisman y Van Duijn (2005) para otro software de red a menudo más especializado.

4. Modelos de regresión de resultados individuales

Los modelos de regresión de resultado individual están, como de costumbre, principalmente relacionados con cómo la distribución de alguna variable dependiente (por ejemplo, una actitud u opinión) medida en un actor focal se relaciona con una o más variables explicativas. Cuando tales actitudes u opiniones se forman en parte como resultado de la influencia interpersonal, los resultados para los actores no son estadísticamente independientes, como lo suponen muchos modelos de regresión. En cambio, el resultado para un actor estará relacionado con los de los otros actores que lo influencian, lo que lleva a una compleja estructura de correlación. En teoría, cada actor puede influir directa o indirectamente en el otro actor. Los análisis de resultados individuales utilizan datos de red para modelar esta estructura de correlación. Las redes pueden ingresar a través de la construcción de variables explicativas o la modelización de covarianzas entre errores.Deje que Z sea un vector que contenga medidas de un resultado sobre los N actores en una red, X sea una matriz cuya fila contenga un vector de variables predictoras exógenas (por ejemplo, género) para el i-ésimo actor, y W sea una matriz N × N cuya los elementos Wij miden la medida en que el actor i está influenciado por el actor j, los valores más grandes indican una mayor influencia. En los análisis de resultados individuales, las covariables X generalmente miden los atributos de los actores individuales. Estos pueden incluir estadísticas de la red a nivel de actor, como un grado de actor focal, centralidad o densidad local (ver la Sección 3). Si un análisis se basa en datos para actores dentro de redes múltiples disjuntas, las estadísticas a nivel de red, como la densidad global o la centralización de red, pueden variar entre los actores y, por lo tanto, usarse como predictores. Los elementos de W se miden mediante alguna función de los datos de red (por ejemplo, adyacencia, fuerza de enlace o distancia geodésica inversa); normalmente los términos diagonales de Wii se establecen en 0. Típicamente, las filas de W se escalan para sumar a 1, de modo que Wij se puede interpretar como una medida de la influencia relativa de j en i.La interdependencia relacionada con la red entre los resultados Z puede incorporarse de dos maneras distintas. En primer lugar, el resultado de un actor puede depender directamente de los resultados de los alterados con los que está vinculado. El vector Z̄ W = WZ contiene, para cada actor focal, el valor promedio (ponderado) de la medida de resultado para aquellos otros actores a los que ese actor está vinculado por una influencia distinta de cero Wij; como tal, los resultados para otros actores contribuyen a Z̄ W en proporción a su influencia en el ego. Por lo tanto, Z̄ W es un resultado de retraso de red. Para el caso especial en el que W es una matriz de adyacencia escalada (es decir, . Wij=y1i+ if yij = 1 y 0 de lo contrario, donde yi + es el grado de fuera de, es decir, el número de actores que influyen en el actor i), Z̄ W es un vector cuyo i-ésimo elemento es el valor promedio no ponderado del resultado para los alteradores en la red egocéntrica del actor i.

Un modelo de resultado autorregresivo explica la interdependencia entre los resultados al incluir directamente Z̄ W como predictor. Tal modelo de regresión es
Z = αWZXβε, (1)donde ε denota un vector de errores estocásticos, aquí tomados para ser independientes el uno del otro, el parámetro α mide la magnitud del efecto de red, y β es un vector de parámetros de regresión.Alternativamente, los errores ε, en lugar de los resultados Z en sí mismos, pueden ser interdependientes. Dicha autocorrelación de red puede modelarse mediante la inclusión de un término ε̄ W = Wε al especificar la distribución del término de error. El vector ε̄ W contiene, para cada actor focal, el error estocástico promedio (ponderado) para los otros actores a los que ese actor está vinculado por una influencia distinta de cero Wij, nuevamente en proporción a su influencia basada en la red sobre el ego. La relación entre ε̄ W y ε es un efecto de segundo orden que refleja un componente de correlación entre los elementos de Z debido a factores no observables. Obsérvese que bajo la suposición común de que los errores ε son estocásticamente independientes de las variables explicativas X, el término de autocorrelación de red ε̄ W también es independiente de X, mientras que el término rezagado Z̄ W se correlacionará en general con X. Un modelo de regresión que incorpora ε̄ W puede escribirse como
ZXβε,  with ε = ρWεν, (2)donde υ es un vector de perturbaciones aleatorias independientes y el parámetro ρ mide la fuerza de la autocorrelación de la red. La media implícita del vector y la matriz de covarianza de ε son 0 y
var(υ){(IρWT)(IρW)}−1 respectivamente. El modelo (2) puede reescribirse como sigue

Z = ρWZXβ − ρWXβυ.
(3)
La ecuación (3) revela que el modelo (2) difiere del (1) solo por la adición del término de la convariante rezagada  ρWXβ, que mide el efecto de las covariables de otros actores sobre el resultado para un actor. Debido a que los resultados y las covariables retrasadas en la red tienen efectos iguales (aunque opuestos) en el modelo (2), el modelo (1) no está anidado en el modelo (2). Sin embargo, si el modelo (2) se extendiera permitiendo diferentes coeficientes para los términos de autocorrelación para los resultados rezagados Z y las covariables X, entonces tanto (1) como (2) serían casos especiales de ese modelo más general; ver Friedkin (1990) para un ejemplo.

Los modelos de resultados individuales también se pueden especificar usando tanto Z̄ W como ε̄ W. El siguiente modelo de regresión contiene autoregresivos y autocorrelación de red (Anselin 1988, Burt y Doreian 1982), lo que permite diferentes matrices de ponderación para los dos:


Z = αW1ZXβε where ε = ρW2ευ
(4)
donde W1 y W2 son las matrices de peso para los efectos de red espaciados y los efectos de autocorrelación de red, respectivamente. Este modelo incluye dos fuentes de correlación en Z y una fuente de correlación en Xβ.
Varios autores en la literatura de la red (por ejemplo, Doreian 1980, Dow 1984, Doreian 1989, Friedkin 1990) han introducido los modelos (1) y (2), que están relacionados con los modelos utilizados para explicar la autocorrelación en el análisis de datos espaciales. El modelo (2) se conoce comúnmente como un modelo autorregresivo (SAR) simultáneo (Banerjee, Carlin y Gelfand 2004, Waller y Gotway 2004). En contextos puramente espaciales, a menudo se usa una alternativa al modelo SAR conocido como el modelo autorregresivo condicional (CAR) (Waller y Gotway 2004). El modelo CAR especifica la distribución de probabilidad condicional de cada Zi dadas todas las componentes de Z distintas de Zi y luego usa el Teorema de Hammersley-Clifford (Besag 1974) para derivar la distribución conjunta de Z, mientras que el modelo SAR y el modelo de resultado autorregresivo en ( 1) especifique la distribución conjunta del término de error ε y luego induzca la distribución conjunta de Z. Sin embargo, el modelo de CAR no se ha utilizado hasta la fecha en análisis de redes sociales tanto como el modelo de SAR o sus variantes.Las técnicas ordinarias de mínimos cuadrados (MCO) no son adecuadas para estimar los modelos (1), (2) y (4). OLS es inconsistente en el caso de los modelos (1) y (4) porque Z aparece en ambos lados de la ecuación. En el modelo (2), o equivalentemente (3), MCO es ineficiente porque la matriz de covarianza de ε no es diagonal. Estos modelos se pueden estimar mediante métodos mínimos cuadrados generalizados o máxima verosimilitud (Waller y Gotway 2004) o variables instrumentales (es decir, basados ​​en momentos) (Anselin 1988, 1990; Land y Deane 1992). Decidir cómo usar los datos de red para construir la matriz de pesos (o matrices) es un paso importante en la aplicación de estos modelos (Leenders 2002).


4.1. Análisis ilustrativo

Para ilustrar el uso de modelos de resultados individuales para la red de médicos, examinamos los posibles efectos de red en la propensión de un médico a recomendar TRH; denotado RecHRT, este es un puntaje general que promedia las respuestas a varios elementos de viñeta. Nuestra hipótesis fue que RecHRT aumentaría entre médicos fuertemente vinculados a otros con alta propensión a recomendar HRT. En el modelo de resultado autorregresivo (1), la variable explicativa clave (denominada AltHRT) es el valor promedio de RecHRT entre los otros médicos vinculados a cada médico focal a través de vínculos de conversación influyentes. Construimos AltHRT y probamos la autocorrelación de red usando dos versiones diferentes de la matriz de ponderación W, una basada en adyacencias de red directa, la otra en distancias geodésicas inversas escaladas.7 Sexo de médicos, porcentaje de mujeres en el panel de pacientes de un médico y el médico de enfoque outdegree sirve como covariables adicionales.Ajustamos el modelo de resultado autorregresivo y el modelo de autocorrelación de red utilizando cada una de las matrices de peso. Para un W dado, el modelo de resultado autorregresivo es

RecHRTi = β0 + β1Malei + β2PcntWomeni + β3OutDegreei + αAltHRTi + εi
(5)
donde ε ~ N(0, σ2I), y el modelo de autocorrelación de red es
RecHRTi = β0 + β1Malei + β2PcntWomeni + β3OutDegreei + εi
(6)
donde ε ~ N[0, σ2{(IρWT)(IρW)}−1].

Los modelos en (5) y (6) pueden ajustarse maximizando directamente las funciones de verosimilitud respectivas de los datos. Cuando se construye usando los datos de red dirigidos, W es asimétrica incluso antes de que sus filas estén estandarizadas para sumar 1. Esto requirió extender las expresiones para las matrices de covarianza asintóticas usuales del estimador de máxima verosimilitud de los parámetros del modelo (ver Doreian (1981) y Waller y Gotway (2004), en el caso de los modelos autorregresivos y de autocorrelación de redes (SAR), respectivamente) para acomodar W. asimétrico.Las estimaciones para el modelo 5A y el modelo 5B en la Tabla 7 sugieren que AltHRT tiene un modesto efecto positivo sobre la propensión de un médico a recomendar TRH. Sin embargo, debido a que el valor de p para el efecto de AltHRT en RecHRT está muy por encima de 0,05, se requiere más estudio antes de poder llegar a una conclusión firme. El tamaño del efecto estimado es aproximadamente el mismo para las dos versiones de la matriz de peso W. Las estimaciones para los modelos 6A y 6B en la Tabla 7 sugieren que la autocorrelación de la red residual es más débil que el efecto directo de AltHRT en RecHRT. Outdegree tiene un coeficiente negativo moderado en todos los modelos, lo que sugiere que los médicos focales influenciados por un mayor número de otros médicos podrían ser menos propensos a recomendar el uso de HRT.

Tabla 7

Resultados análisis a nivel individual- de la red dirigida de médicos
Model 5A: Autoregressive outcomes, adjacency weight matrix

TermEstimateStd. Errort-valuePr(>|t|)
Intercept16.0783.8974.1260.000
Male−0.2062.331−0.0880.930
PercentWomenPatients−0.0520.048−1.0890.285
Outdegree−0.3530.198−1.7800.086
α(AdjacencyWeightedHRT)0.2770.1691.6350.113
Model 5B: Autoregressive outcomes, geodesic weight matrix
Intercept16.2463.8784.1900.000
Male−0.9862.422−0.4070.687
PercentWomenPatients−0.0630.049−1.2890.207
Outdegree−0.4020.207−1.9400.062
α(GeodesicWeightedHRT)0.3600.1991.8060.081
Model 6A: Network Autocorrelation, adjacency weight matrix
Intercept16.4714.0514.0660.000
Male1.3242.1540.6150.544
PercentWomenPatients−0.0230.045−0.5060.617
Outdegree−0.2090.189−1.1080.277
ρ(AdjacencyWeightedHRT)0.0260.2970.0890.929
Model 6B: Network Autocorrelation, geodesic weight matrix
Intercept16.3664.0684.0230.000
Male1.3712.1600.6350.530
PercentWomenPatients−0.0190.045−0.4230.676
Outdegree−0.2290.188−1.2200.232
ρ(GeodesicWeightedHRT)−0.2330.771−0.3030.764
Nota: Los errores estándar residuales en los modelos 5A, 5B, 6A y 6B son 3.264, 3.248, 3.398 y 3.393, respectivamente. Outdegree es la cantidad de médicos distintos citados por el médico focal como socio en al menos una conversación influyente sobre la salud de la mujer.

El grado en que estos resultados pueden extenderse a otros médicos y clínicas depende de la similitud de los médicos, sus clínicas y el grado en que las diferencias (por ejemplo, debido a las características clínicas o ambientes) afectan el comportamiento del médico. Si el proceso de generación de datos es el mismo, o al menos es intercambiable con, lo que generó la red de influencia del médico, entonces las inferencias tendrán relevancia. Sin embargo, no hay forma de conocer la similitud de las clínicas y sus médicos sin realizar un estudio que extraiga datos de múltiples prácticas (por ejemplo, un diseño de clúster).

4.2. Software para análisis de resultados individuales


Aunque los modelos ajustados en la Sección 4.1 no son estándar en el sentido de que la estructura de covarianza es una función de un parámetro desconocido, nos pareció fácil (e instructivo) escribir nuestros propios procedimientos R para ajustarlos (ver Apéndice). Alternativamente, el procedimiento lnam en el paquete sna (Butts 2007) en R se puede usar para ajustar los resultados autorregresivos y los modelos de autocorrelación de red (ver Apéndice), así como los modelos que contienen ambos términos. Algunos modelos también se pueden estimar utilizando el software existente disponible para el análisis espacial. Por ejemplo, el paquete S + SpatialStats en SPlus se puede usar para adaptarse a los modelos SAR y CAR, y el paquete GeoBUGS en WinBUGS se ajustará a los modelos con términos CAR. Al aplicar paquetes existentes a datos de red, o al desarrollar un código propio, se debe tener el cuidado apropiado para acomodar las matrices de peso asimétricas que comúnmente surgen con los datos de red.

5. Modelos relacionales o de díadas

Los análisis relacionales de topología de red modelan las relaciones en una red social simultáneamente, reconociendo las interdependencias entre ellas. Postulan que las propiedades de red global son el resultado de un conjunto de regularidades localizadas que crean correlaciones que involucran subconjuntos de vínculos de red, p. dentro de actores, díadas, tríadas o tétradas (Robins, Pattison y Woolcock 2005). Ejemplos de tales regularidades son las tendencias a nivel de actor para producir y / o atraer vínculos, las tendencias diádicas hacia la reciprocidad y las tendencias triádicas hacia el cierre o la transitividad. Los modelos relacionales también pueden incorporar datos de atributos sobre actores o relaciones. Por ejemplo, ciertos tipos de actores pueden tender a atraer vínculos, los actores que tienen los mismos atributos o similares pueden tender a estar vinculados (homofilia), o los actores vinculados en una red también pueden estar relacionados en un segundo.

Un modelo relacional, en esencia, especifica un conjunto de reglas de nivel micro que rigen la estructura local de una red. Cuando se aplica a las relaciones entre un conjunto completo de actores, tales reglas podrían generar muchas realizaciones aleatorias. Un modelo exitoso para una red observada debe producir realizaciones con propiedades típicas que coincidan con las propiedades observadas correspondientes. Por lo tanto, la capacidad de reproducir las propiedades de red observadas, especialmente las propiedades que no están explícitamente modeladas, indica que un modelo se ajusta bien. Si un modelo no captura una característica dada de una red empírica, seguramente omite alguna regla consecuente que gobierna la formación de la red.

Desde la década de 1930, una variedad de métodos estadísticos se han utilizado para analizar datos de redes sociales (Wasserman y Faust 1994). Los primeros modelos generalmente se basaban en distribuciones nulas condicionalmente uniformes, postulando que una red observada se extraía de un conjunto de posibles redes que se sabía que tenían características particulares. Inicialmente, los modelos probaron la reciprocidad y la transitividad, condicionando las estadísticas de red de orden inferior. Por ejemplo, Katz y Powell (1957) derivaron la distribución del censo díada para una red dirigida dada la distribución de outdegrees. Holland y Leinhardt (1976) propusieron pruebas de transitividad (y otras propiedades reflejadas en combinaciones lineales de recuentos en el censo de la tríada) frente a un modelo nulo que afirma que la distribución de redes es condicionalmente uniforme dado el padrón díada. Sin embargo, pocas de tales distribuciones son tratables analíticamente. Por ejemplo, la función de masa de probabilidad para una distribución uniforme de redes dadas tanto los grados exteriores como los grados, no se puede anotar, aunque sería claramente deseable condicionar ambas al probar la reciprocidad.

La potencia informática ahora permite la enumeración (para redes de orden pequeña, digamos N <10) o la simulación de redes desde distribuciones hasta ahora intratables (Snijders 1991), permitiendo pruebas no paramétricas para ciertas propiedades de red. Para ilustrar, simulamos 10.000 redes de valores binarios al azar que tienen las distribuciones en y fuera de grado que se muestran en la Tabla 2 para la red médica dirigida. En estas redes simuladas, el número medio de díadas mutuas fue de 15, con un máximo de 24 y un percentil 99 de 20. Dado que el censo díada de la red médica real incluye 26 díadas mutuas, su nivel de reciprocidad parece ser bastante inusual dado sus distribuciones de grado.8

A partir de la década de 1970 y acelerando en la última década, los estadísticos han formulado nuevos modelos estadísticos paramétricos para datos relacionales que pueden incorporar múltiples propiedades de red, así como datos de atributos. Las próximas secciones revisan dichos modelos. Comenzamos definiendo la notación. La variable aleatoria binaria Y ij = 1 si existe un vínculo de red del actor i al actor j e Y ij = 0 en caso contrario. Una matriz de adyacencia Y incluye todas esas variables. Las letras minúsculas, yij y y, respectivamente, denotan realizaciones de estas variables.

5.1. Modelos de independencia de díadas de efecto fijo

Algunos modelos estadísticos para redes enteras son equivalentes a modelos para relaciones individuales Yij o díadas (Yij, Yji). Destacan las distribuciones de grados y la reciprocidad como características que configuran la estructura de la red. Entre los primeros modelos estadísticos que se formularán para los datos de red, dichos modelos son comparativamente simples de estimar e interpretar. Especifican que las variables de red en diferentes díadas son condicionalmente independientes dadas las covariables, por lo que la función de verosimilitud para una red observada es el producto de las distribuciones de probabilidad para las díadas. Por lo tanto, estos modelos se pueden estimar utilizando técnicas de regresión con lazos o díadas como casos.Uno de los modelos más simples corresponde al dígrafo de independencia (Erdös y Rényi 1959) en el cual la presencia de cada posible vínculo es independiente con Yij ~ Bernoulli(pij), donde μij = log(pij)  denota el logaritmo de la probabilidad de un empate de i a j. La aplicación de una hipótesis de homogeneidad μij = μ para todos los i y j simplifica esto a un modelo de parámetro único, en virtud del cual la distribución de probabilidad de posibles redes
Pr(Yy; μ) = exp(μt1(y))(1−exp(μ))N(N−1)−t1(y)
depende sólo del estadístico de red  t1(y) = Σi, j yij, la cantidad total de enlaces.

Los modelos más generales para grafos dirigidos especifican que las díadas, en lugar de vínculos, son independientes. Esto permite que el par de enlaces dentro de una díada (Yij, Yji) se correlacione (positivamente, en el caso de la reciprocidad). Tales modelos generalmente permiten correlaciones entre vínculos que tienen una fuente
(Yij,Yik), jk u objetivo (Yij,Yhj), i ≠ h en común al introducir los efectos "emisor" αi y los efectos "receptor" γi, ajustando así la distribuciones de gradosComo una díada tiene cuatro estados posibles, una distribución multinomial de cuatro componentes sirve como base de un modelo, tomando el par de arcos en una díada (Yij, Yji) como una variable aleatoria multinomial independiente con


Pr(Yij=0,Yji=0)=κ1ij(θ)Pr(Yij=1,Yji=0)=κ1ij(θ)exp(μij+αi+γj)Pr(Yij=0,Yji=1)=κ1ij(θ)exp(μji+αj+γi)Pr(Yij=1,Yji=1)=κ1ij(θ)exp(μij+αi+γj+μji+αj+γi+ρij),

donde κij (θ) = 1 + exp(μij + αi + γj) + exp(μji + αj + γi) + exp(μij + αi + γj + μji + αj + γi + ρij)   es una constante de normalización y θ es una vector que contiene todos los parámetros del modelo. Para la red de influencia del médico, el parámetro μij es un término constante que refleja la probabilidad general de que el médico informe una conversación influyente con el médico j (es decir, densidad de red), el efecto emisor αi refleja la propensión del médico a ser influenciado por otros, el el efecto receptor γj refleja la propensión del médico j a influir en los demás, el parámetro de reciprocidad ρij explica la dependencia dentro de la pareja, y κij (θ) = κji (θ) es una constante de normalización. El modelo (7) está completamente saturado; ordinariamente se simplifica imponiendo condiciones de homogeneidad en μij y ρij.Holland y Leinhardt (1981) introdujeron la densidad de probabilidad p1 incluyendo las condiciones de homogeneidad μij = μ y ρij = ρ para todos los i y j, y tratando los conjuntos de parámetros {αi} y {γj} como efectos fijos. Esto lleva a la función de densidad de probabilidad


p1(y)=Pr(Y=y)=exp{μt1(y)+Niαit2i(y)+Njγjt3j(y)+ρt4(y)}/K(θ)
(8)

donde las estadísticas de red t2i (y), t3 j (y), y t4 (y) se refieren a la diferencia del actor i, la indegree del actor jy el número de díadas mutuas, respectivamente, y K(θ) es una normalización constante. Bajo este modelo, la distribución de probabilidad de posibles redes es condicionalmente uniforme dadas las distribuciones de dos grados y el padrón díada.

Estimamos el modelo p1 para los datos de la red del médico por máxima verosimilitud usando métodos para ajustar modelos log-lineales (Fienberg y Wasserman 1981), imponiendo las restricciones de identificación Σi αi = 0 y Σj γj = 0 en los parámetros emisor y receptor, respectivamente. Las estimaciones de estos últimos parámetros generalmente corresponden a las distribuciones de grados que se muestran en la Tabla 2; por ejemplo, el médico 27 ​​tiene el mayor grado de indegrado (24) y también el mayor parámetro de receptor estimado (γˆ24 = 4.12) .9 El parámetro de reciprocidad estimado (ρ) es 1.91. Interpretable como una razón logarítmica de probabilidades, indica que las probabilidades pronosticadas de un empate entre el médico j y el médico i son casi 7 veces mayores (exp (1.91) = 6.75) si existe un vínculo entre el médico i y el médico j. Una estadística de prueba de razón de verosimilitud para reciprocidad es 20.3 con 1 df. La distribución de esta estadística parece aproximarse a χ2 (1) a medida que aumenta el número de actores (N) (Holland y Leinhardt 1981), sugiriendo (de acuerdo con la prueba no paramétrica presentada anteriormente) una tendencia estadísticamente significativa hacia la reciprocidad.

Las variaciones en la versión de efecto fijo del modelo (7), a veces conocidos como modelos de bloques estocásticos a priori, acomodan datos de atributos categóricos sobre los actores. Dichos modelos pueden restringir el modelo (7) al requerir que los actores que comparten un valor de atributo tengan parámetros idénticos de "expansividad" (αi) y "atractivo" (γj) (Fienberg y Wasserman 1981); por ejemplo, la tendencia a producir vínculos podría ser idéntica entre los actores masculinos. Además, los modelos de bloques estocásticos pueden extender p1 al relajar las restricciones de homogeneidad impuestas sobre los parámetros de densidad μij o los parámetros de reciprocidad ρij, por ejemplo al estimar efectos de densidad y / o reciprocidad separados para pares de actores que comparten un valor de atributo y aquellos que difieren en el atributo (Fienberg y Wasserman 1981, Wang y Wong 1987); la densidad de contacto o la tendencia a la reciprocidad puede ser mayor para parejas del mismo sexo que para parejas de distinto género. Tales especificaciones implican la inclusión de estadísticas de red específicas de subgrupo en la función de densidad p1 mostrada anteriormente. Cuando las restricciones en los parámetros implican que dos actores tienen vectores de probabilidades idénticos para sus vínculos con otros en la red, se dice que ese par de actores es estocásticamente equivalente (Holland, Laskey y Leinhardt, 1983).

5.2. Modelos de independencia diádica de efectos mixtos

Como una alternativa a los efectos fijos en el modelo p1, la estructura se puede introducir en el marco del modelo (7) modelando los parámetros del emisor y del receptor usando efectos aleatorios junto con las covariables a nivel de actor. Los efectos de densidad y reciprocidad permanecen fijos y sujetos a condiciones de homogeneidad; sin embargo, pueden depender de las covariables diádicas. Para datos de red con valores binarios, estas especificaciones conducen a un modelo de efectos mixtos conocido como p2 (Van Duijn, Snijders y Zijlstra, 2004) .10

Deje que los vectores x1ij, x2i, x3 j, y x4ij denoten conjuntos covariados que contribuyen al efecto de densidad μij, el efecto emisor αi, el efecto receptor γj y el efecto de reciprocidad ρij, respectivamente; x2i y x3j son a nivel de actor, mientras que x1ij y x4ij son diádicos. El modelo p2 asume la siguiente estructura jerárquica para los parámetros en (7):

 :

μij=μ+xT1ijθ1αi=ai+xT2iθ2γj=bj+xT3jθ3ρij=ρ+xT4ijθ4,
(9)

donde ai y bj son efectos aleatorios medios-0 que se supone tienen una distribución normal multivariada y una matriz de covarianza no restringida. Wong (1987) estudió un modelo bayesiano relacionado que no permite la dependencia de los parámetros en las covariables medidas. Gill y Swartz (2004) generalizan el marco a otras situaciones que incluyen modelos de bloques estocásticos a priori y redes multirelacionales.

La estimación del modelo de efectos mixtos especificado por (9) requiere métodos para ajustar modelos lineales generalizados jerárquicos con efectos aleatorios cruzados. Van Duijn et al. (2004) esbozan un algoritmo iterativo de mínimos cuadrados generalizados, mientras que Zijlstra, Van Duijn y Snijders (2006) adoptan un enfoque bayesiano y sugieren métodos de Markov Chain Monte Carlo (MCMC) para simular la distribución posterior de los parámetros en p2.

Keating et al. (2007) analizaron los datos de la red de médicos utilizando el modelo p2 y la estimación MCMC con priors difusas. Sin covariables, la mediana de la distribución posterior para el parámetro de reciprocidad fue 1,77 (95% intervalo creíble (IC) 1,01 a 2,55), bastante comparable con la estimación (ρ = 1,91) de p1. Al presentar las covariables, descubrieron que los efectos del receptor eran mayores para los médicos cuyos grupos de pacientes incluían grandes porcentajes de mujeres, que eran expertos autoinformados en salud de la mujer y que tenían un mayor número de sesiones de pacientes por semana. El parámetro de densidad μij fue significativamente mayor (mediana 1.61, IC 95% 1.13 a 2.12) para los pares de médicos ubicados en la misma clínica dentro de la práctica. El parámetro de reciprocidad estimado se hizo más pequeño (mediana 1,29; IC del 95%: 0,50 a 2,17) después del ajuste para las covariables. Los efectos del emisor aleatorio residual ai y los efectos del receptor bj no estaban correlacionados (covarianza mediana -0,22, IC del 95%: -0,83 a 0,28)

Los modelos p1 y p2 son restrictivos porque solo consideran las estadísticas de red correspondientes a las configuraciones de uno o dos actores. Sin embargo, una ventaja de los modelos de doble independencia es que la red consta de múltiples configuraciones independientes (a saber, díadas) y, por lo tanto, existe una noción clara de cómo se puede extraer una muestra de la población de actores. Esto permite que las inferencias y las pruebas asintóticas se traten de la manera habitual. Se requieren modelos más complicados para incorporar efectos de red que involucran dependencias que involucran múltiples díadas, como transitividad o cierre. Los modelos de grafo aleatorio exponencial recientemente desarrollados permiten tales análisis de datos de red, aunque los métodos para muestrear tales datos todavía están en su infancia (Sección 6.3).

5.3. Modelos de grafos aleatorios exponenciales (ERGM)

Los ERGM (Anderson, Wasserman y Crouch 1999; Frank y Strauss 1986; Pattison y Wasserman 1999; Robins, Pattison y Wasserman 1999), también conocidos como modelos p *, permiten formas mucho más generales de interdependencia entre las variables de red que las incorporadas en modelos diádicos de independencia. Los ERGM modelan la probabilidad de que una red observada Y sea realizada por una red observada y como:
:
Pr(Yyθ) = κ(θ)−1exp(∑kθkSk(y))
(10)
donde κ (θ) = Σ y Ψ exp(Σk θk Sk (y))  es una constante de normalización que hace que las probabilidades se suman a 1 a través de posibles redes, y Ψ es el conjunto de posibles redes.11 El lado derecho de (10) describe una fórmula para producir redes aleatorias basadas en estadísticas de red Sk que corresponden a características de red; sus parámetros indican la sensibilidad de la fórmula generadora de red a características particulares. Un positivek positivo indica que la regla para producir redes favorece a las redes con la característica k, mientras que un valor negativo indica que tales redes tienden a evitarse.

En principio, cualquier estadística de red Sk (y) puede aparecer en el lado derecho de (10), y cualquier subconjunto de las variables de red N (N - 1) puede ser condicionalmente dependiente entre sí. Muchas aplicaciones enfatizan las estadísticas correspondientes a configuraciones específicas de red local que consisten en un pequeño número de enlaces yij, de modo que Sk (y) = Π yijk yij es la estadística de red binaria que denota la presencia de la configuración k. El ERGM más general permite un parámetro único para cada configuración distinta (es decir, cada subconjunto de enlaces que toma la forma de interés). Típicamente, sin embargo, los modelos se simplifican imponiendo restricciones de homogeneidad en los parámetros para las configuraciones isomórficas, en cuyo caso las estadísticas de red pertinentes son sumas sobre todas esas configuraciones.

Dado que (8) toma la forma de (10), el modelo p1 de efectos fijos es un ERGM con parámetros para configuraciones que consisten en enlaces individuales yij y enlaces mutuos yij yji, así como estadísticas de red a nivel de actor para outdegrees Σi yij y grados Σj y ij. Las restricciones de homogeneidad sobre los efectos de los vínculos y la mutualidad conducen a los términos s S1 (y) = Σi, j yij y S 2 (y) = Σi< j yij yjien el lado derecho de (10). En p1, las variables de red dependen de manera condicional si comparten un remitente, comparten un receptor o implican reciprocidad.

Los ERGM más generales agregan términos de orden superior. Frank y Strauss (1986) introdujeron la noción de dependencia de Markov, según la cual dos variables de red, yij y ykl, pueden ser condicionalmente dependientes si los dos enlaces tienen algún actor en común, es decir, si i = k, i = l, j = k, o j = l. Este enfoque modela las distribuciones de grados a través de la inclusión de estadísticas para "estrellas k". Una estrella k es una configuración en la que k los vínculos son incidentes para un actor en particular; Las configuraciones de k-estrella están anidadas una dentro de la otra, de modo que un actor con grado m contribuye k-estrellas para k <m; 12 un parámetro de regresión positivo para tal configuración indica una tendencia a que los lazos se agrupen alrededor de un actor particular. Existen distintas configuraciones k-out-star y k-in-star en redes dirigidas. Por ejemplo, un indicador de la presencia de una configuración particular de 2 estrellas es yij yih. La imposición de una restricción de homogeneidad en los parámetros para todas las configuraciones de k-out-star (para una k dada) conduce a la siguiente estadística de red para k-out-stars:

S3:k(y)=i(yi+k)dondeyi+=jyijesel grado sal delactori.
13

Una definición análoga vale para k-en-estrellas. Los modelos generalmente incluyen un pequeño número de términos k-star de orden inferior en lugar de ajustar las distribuciones de grado exactamente, para la parsimonia y porque los términos para diferentes k son a menudo altamente colineales.
Una configuración adicional admisible para los datos de red dirigidos bajo la dependencia de Markov es un "camino 2" (o enlace indirecto), bajo el cual un actor dado j es el receptor de un enlace y el emisor de un segundo; un indicador para la presencia de un camino 2 es el producto de las variables de red yij y jh, h ≠ i. Muy importante en las redes de modelado son las configuraciones triádicas (productos de tres vínculos que involucran a tres actores distintos). En las redes dirigidas, las dos configuraciones triádicas de mayor interés son la tríada transitiva y la de 3 ciclos. Con restricciones de homogeneidad, implican las siguientes estadísticas de red en (10):

Transitivetriad:S4(y)=i<j<kyijyikyjk3cycle:S5(y)=i<j<kyijyjkyki.

La tríada transitiva es el término clave para probar las tendencias hacia el cierre en una red. Los análisis de redes no dirigidas usan una única estadística triádica de "triángulos".

Bajo la dependencia de Markov, los lazos son condicionalmente independientes a menos que compartan al menos un actor. Esto implica que las díadas separadas por al menos un vínculo son condicionalmente independientes dado el resto de la red. Un resultado teórico importante, el teorema de Hammersley-Clifford (Besag 1974), muestra que si todos los grafos isomórficos tienen la misma probabilidad bajo un modelo, entonces un grafo aleatorio no dirigido es un grafo de Markov si y solo si su distribución de probabilidad puede escribirse como

Pr(Y=y;θ)=κ(θ)1exp(n1k=1θkS3:k(y)+τS4(y))
(11)
donde S3:k (y) es el número de k-estrellas y S4 (y). Utilizando estadísticas de red apropiadas que reconocen la direccionalidad, el modelo (11) se generaliza a las redes dirigidas.

La afirmación de que las configuraciones de redes isomorfas tienen efectos homogéneos a menudo es indebidamente restrictiva. Una forma de relajarlo es permitiendo que los efectos de una configuración determinada varíen según las características de los actores. Bajo la dependencia de atributos de Markov (Robins et al., 2007), el efecto de una configuración puede depender solo de los atributos de los actores involucrados en él, de modo que (por ejemplo) el parámetro para la configuración de densidad yij puede depender de los atributos de los actores i y j, pero no en los de los actores k ≠ i, j. El efecto de cualquier configuración de red puede depender de los atributos del actor, pero las aplicaciones se centran en el efecto de densidad. Por ejemplo, la probabilidad de que un empate esté presente puede ser mayor cuando el receptor (j) tiene un género particular o un estado socioeconómico xj, lo que implica la siguiente estadística de red para (10):

Covariante del receptor:S6(y) = ∑i,jyijxj.14

Las interacciones de mayor escala entre los atributos del actor y la densidad también son comunes. Por ejemplo, los efectos de homofilia (Sección 3.8) pueden evaluarse usando una estadística de productos cruzados entre la configuración de densidad y un indicador de similitud de atributos:

Covariante del empalme de nodos:S7(y) = ∑i,jyijI(xixj)

Un modelo ERGM se convierte en no Markovian cuando sus estadísticas de red implican configuraciones en las que al menos un par de enlaces no comparte un actor. Tales configuraciones involucran a cuatro o más actores. La cantidad de estadísticas potenciales se incrementa rápidamente. Una configuración de red no markoviana es una k-path (ruta indirecta de longitud k); por ejemplo, un indicador para la presencia de un camino 3 es  yij y jk ykh, ijkh.. Entre muchos otros está el k-ciclo (k> 3), en el cual una secuencia de k vínculos que involucran k actores distintos comienza y termina con el mismo actor; el producto yij y jk ykh yhi, ijkh indica que hay un ciclo de 4 presente.

Los ERGM con términos de tercer orden y más altos se vuelven mucho más difíciles de hacer, ya que se estiman esencialmente a partir de un tamaño de muestra de 1, la red observada, que para la validez de las inferencias se supone que es toda la red. Si la red observada es toda la red, entonces las inferencias se hacen a una superpoblación de redes que se asemeja a la red observada. Sin embargo, si la red observada es solo una muestra de la red, el modelo que generó la red puede no tener las mismas propiedades o incluso parecerse a la red observada. Esta incongruencia entre la red de muestra y la red completa surge porque no existe una forma general de descomponer las redes en componentes disjuntos cuya distribución de muestreo es la de la red completa (la población de interés en este contexto). Como consecuencia, algunos investigadores defienden que solo los modelos que se pueden construir a partir de procesos generativos (es decir, a partir de suposiciones sobre cómo dos actores individuales interactúan y forman conexiones) deberían usarse en el modelado de datos de redes relacionales.

5.4. Estimación y comprobación del modelo

La estimación, interpretación y simulación para los ERGM se complementa con el hecho de que (10) implica la siguiente expresión para las log-odds de que existe un empate dado el resto de la red:
:

logit[Pr(Yij=1ycij)]=θδ(ycij)
(12)
donde ycij es la realización de la red cuando la relación complemento es aplicada a yij, y δ(ycij)=t(y+ij)t(yij)Multiplicar un estadístico de cambio en particular por el valor de parámetro asociado da el cambio en la log-odds que el vínculo está presente asociado con la estadística en cuestión, condicionada al resto de la red (Snijders et al., 2006). Por ejemplo, si un modelo incluye la estadística de mutualidad S2 (y) y existe el vínculo de j a i, la presencia de un vínculo de i a j crearía un vínculo mutuo adicional, y las probabilidades logarítmicas de observar Yij = 1 aumentaría en θ2, el coeficiente de regresión para la reciprocidad.

Inicialmente, los ERGM se estimaron utilizando una función de seudoligibilidad definida como el producto de las distribuciones condicionales implicadas por (12) sobre pares ordenados (para redes dirigidas) o díadas (en el caso no dirigido) (Besag 1975, Strauss e Ikeda 1990; Wasserman y Pattison 1996). ) Debido a que la pseudolikelihood tiene la misma forma que la función de verosimilitud para un modelo de regresión logística, las estimaciones de los parámetros se obtienen fácilmente. Sin embargo, a menos que la independencia diádica se mantenga, la pseudolikelihood difiere de la verdadera función de verosimilitud, por lo que las inferencias basadas en ella pueden ser poco confiables.

Las estimaciones con mejores propiedades se pueden obtener a través de la función de verosimilitud exacta para (10). Debido a que la constante de normalización κ (θ) implica la suma a través de las 2N N (- 1) redes posibles (dirigidas), sin embargo, el cálculo directo se vuelve intratable a medida que aumenta el número de actores N. Los métodos recientemente desarrollados de la cadena de Markov Monte Carlo (MCMC) ahora permiten que las inferencias se basen en la función de verosimilitud real. Un enfoque (Handcock 2003) se basa en la integración de MCMC (Geyer y Thompson 1992). Se implementa en el paquete R Statnet (Handcock et al., 2003), que puede adaptarse a modelos de redes de tamaño moderado (que involucran a cientos de actores). Este algoritmo simula una muestra de redes utilizando un conjunto de estimaciones de parámetros provisionales; luego actualiza las estimaciones, aproximando κ (θ) usando las redes muestreadas y maximizando la función de verosimilitud asociada. Un enfoque alternativo (Snijders 2002) disponible en StOCNET (Huisman y Van Duijn 2004, 2005) se basa en un algoritmo de aproximación estocástico. La obtención de convergencia puede ser difícil utilizando cualquiera de los enfoques porque la superficie de probabilidad basada en (10) a menudo tiene una forma muy irregular de modo que los procedimientos de estimación quedan atrapados a máximos locales, no convergen o convergen a soluciones "degeneradas" inapropiadas (Handcock 2003) . Como se demuestra en el siguiente ejemplo, se debe tener mucho cuidado al instalar los ERGM.
Antes de interpretar o hacer inferencias basadas en modelos equipados con MCMC, es importante asegurarse de que la cadena de Markov ha convergido a su distribución estacionaria al permitir una fase de quemado suficientemente larga, y extraer suficientes muestras post-quemadas para asegurar que el error de simulación está por debajo de un umbral específico para que las inferencias sean lo suficientemente precisas. El paquete de coda (Best, Cowles y Vines, 1995) en R puede realizar los controles necesarios en conjunto con Statnet (Handcock et al., 2003). Encontramos que las configuraciones predeterminadas en Statnet -que permiten 10,000 iteraciones de burn-in y dibujar 10,000 muestras de post-burn-in separadas por intervalos de 100, para un total de 1,010,000 iteraciones- generalmente fueron suficientes para los modelos que no contenían términos triádicos; el último requirió simulaciones más largas.

El ajuste general de un ERGM se puede cuantificar usando estadísticas como la desviación y el criterio de información Bayesian (BIC). La desviación refleja la cantidad de variabilidad explicada por un modelo y, por lo tanto, aumenta a medida que se agregan los términos. El BIC disminuye a medida que aumenta la desviación, atenuado por una penalización que refleja la dimensión (número de parámetros) del modelo.

Una vez que se obtienen las estimaciones y se asegura la convergencia, se puede evaluar la bondad de ajuste simulando una muestra de redes implícitas en un modelo y luego comparando las distribuciones observadas y predichas de las estadísticas de la red. Para las estadísticas Sk (y) incluidas en el modelo, tales comparaciones son un diagnóstico adicional para la convergencia, ya que indican si las ecuaciones de verosimilitud se cumplen estocásticamente. Las comparaciones que involucran estadísticas que no están en el modelo son señales de la adecuación de la especificación del modelo. Las estadísticas comúnmente utilizadas (y disponibles en Statnet) para evaluar el ajuste del modelo incluyen la distribución de grados, la distribución de las distancias geodésicas entre los actores y el número de contactos compartidos por las díadas de los actores o por los pares vinculados por aristas. Ver Hunter, Goodreau, y Handcock (2008) para una discusión detallada de los métodos para evaluar el ajuste del modelo.

5.5. Análisis ilustrativo: red dirigida

Nuestra aplicación se ajusta a los modelos de la red de médicos, incluidas las configuraciones de densidad, reciprocidad y tríada transitiva; no incluimos parámetros de k-star para modelar las distribuciones de grados en este análisis ilustrativo. Permitimos que el término de densidad dependa de tres covariables receptoras: experiencia de salud de las mujeres (variable de indicador), porcentaje de mujeres en el panel de pacientes de un médico y el número de sesiones clínicas por semana. Estimamos modelos usando el software Statnet.

La Tabla 8 presenta estimaciones para cuatro modelos. El primero, un modelo de Bernoulli, incluye solo la estadística de densidad (bordes); su coeficiente estimado es -1.701. El logit inverso asociado, 0.154, es igual a la densidad total de la red. El segundo modelo agrega la estadística de mutualidad, que tiene un coeficiente positivo (1.187) y altamente significativo (p <0.0001). Usando (10), vemos que las probabilidades logarítmicas de que existe un empate aumentan si se observa el empate recíproco, de acuerdo con observaciones anteriores sobre una tendencia hacia la reciprocidad en esta red. Los médicos en esta práctica evidentemente tienden a considerar que sus conversaciones con colegas sobre la salud de las mujeres son mutuamente influyentes. El coeficiente estimado para el término de densidad (bordes) aquí (-1.952, con logit inverso 0.124) es indicativo de la densidad de los vínculos en ausencia de reciprocidad; sin embargo, cuando un empate es recíproco, la densidad pronosticada aumenta a 0.318, el logit inverso de la suma de la densidad estimada y los parámetros de mutualidad..

Tabla 8

Estimados para modelos ERGM ajustado a la red de influencia directa de los médicos





Model Statistics

Model TermEstimateSEp-valueMCMC SEDevianceBIC
Edges



555.4915.5
 edges−1.7010.085<1e-04NA


Edges + Mutuality



589.3888.5
 edges−1.9520.107<1e-040.002

 mutual1.1870.280<1e-040.006


Edges + Mutuality + Receiver covariates



695.4803.3
 edges−4.8940.443< 1e-040.013

 mutual1.2440.282< 1e-040.008

 receivercov.whexpert1.2180.214< 1e-040.008

 receivercov.pctwom0.0290.005< 1e-040.000

 receivercov.numsess0.1280.0380.0010.001


Edges + Mutuality + Transitive Triad



744.3740.5
 edges−3.1580.169<1e-04NA

 mutual0.4070.2360.085NA

 transitive triad0.3360.030<1e-04NA

Nota: MCMC no fue necesaria para ajustarse al modelo Edges ya que la regresión logística genera el MLE. El modelo Edges + Mutuality + Transitive Triad se ajustó mediante pseudo-verosimilitud, por lo que los errores estándar pueden no ser confiables; la desviación basada en la función de pseudo-verosimilitud se informa para ese modelo.

En muchas configuraciones aplicadas, el interés sustancial se centrará en cómo las variables de atributo están asociadas con aspectos de la estructura de la red. El tercer modelo ilustra esto al permitir que el efecto de la configuración de densidad varíe con las tres covariables del receptor. Las estimaciones sugieren que los médicos con experiencia en la salud de la mujer, altas proporciones de pacientes mujeres y más sesiones clínicas por semana eran más propensos a ser citados como influyentes por sus pares.

Cuando intentamos agregar el término tríada transitiva al segundo modelo, encontramos dificultades para estimar los parámetros del modelo por máxima verosimilitud. Aunque los coeficientes de regresión resultantes son finitos y la desviación indica que el ajuste del modelo mejoró, las redes simuladas usando los parámetros estimados tienden a ser extremas, a menudo exhibiendo una distribución bimodal que incluye solo redes totalmente densas o nulas. Las proporciones en cada uno de los modos son tales que los valores promedio simulados de las tres estadísticas de red del modelo (bordes, mutualidad y tríada transitiva) son similares a los observados, lo que sugiere un buen ajuste del modelo, pero esto es engañoso: la incapacidad de simular las redes que se asemejan a la red observada señalan una discrepancia radical entre el modelo y los datos. Esta condición se conoce comúnmente como degeneración, y se encuentra a menudo cuando se ajustan los ERGM, incluidos los términos k-star y triádicos. La degeneración puede surgir porque la red contiene un alto grado de heterogeneidad estructural (por ejemplo, regiones densas con muchos triángulos mezclados o nodos de alto grado mezclados con regiones de baja densidad), lo que dificulta (y quizás imposibilita) encontrar valores de parámetros que describan toda la red .

Debido a la degeneración con el ajuste del modelo con el término de la tríada transitiva, la Tabla 8 informa estimaciones de seudoliminación basadas en (12). Estas estimaciones sugieren una tendencia hacia el cierre de la red; es decir, que si un médico influye en un segundo indirectamente a través de un tercero, el primer médico también tiende a influir directamente sobre el segundo. Debido a que las propiedades de las estimaciones de pseudo-verosimilitud son poco conocidas, la interpretación y la inferencia basadas en estas estimaciones pueden ser solo tentativas y cautelosas.

La degeneración encontrada en nuestro intento de ajustar el último modelo puede indicar que un único efecto de transitividad homogénea no describe bien esta red; observamos en la Figura 1 que parece contener una o dos regiones muy densas. Tal agrupamiento puede indicar que las tríadas transitivas tienden a estar próximas entre sí, por lo que son necesarios términos de orden superior. La siguiente sección presenta algunas estadísticas de redes desarrolladas recientemente que capturan dichos fenómenos y pueden ser útiles cuando se encuentra degeneración.

5.6. Sobrellevando problemas de estimación: Nuevas parametrizaciones

Para simplificar, en esta sección consideramos solo modelos para redes no dirigidas. Allí, la extrema falta de adaptación conocida como degeneración se enfrenta comúnmente cuando se ajustan los modelos ERGM, incluidos los términos k-star o triádicos. Intentar modelar la distribución del grado utilizando un solo término de 2 estrellas a menudo conduce a problemas como los ilustrados por el último modelo en la Tabla 8, que incluyó la estadística de la tríada transitiva.Los modelos que incluyen estrellas de orden superior a menudo producen estimaciones más satisfactorias (Robins et al., 2005). En tales modelos, la magnitud de los coeficientes para términos sucesivos de estrellas a menudo disminuye a medida que aumenta el orden de las estrellas; además, los signos de estos coeficientes tienden a alternarse, de modo que un parámetro negativo de 3 estrellas atenúa la tendencia de los vínculos a concentrarse en actores particulares implicados por un parámetro positivo de 2 estrellas. Dado que los términos de k-estrella múltiples suelen exhibir colinealidad sustancial, la imposición de restricciones lineales sobre sus coeficientes simplifica la estimación, lo que lleva a la estadística de k-estrella alterna propuesta por Snijders et al. (2006):

S8(y,λ1)=k=2N1(1)kS3:k(y)λk21,
donde λ1 es un parámetro (ordinariamente más grande que 1) gobernando la tasa a la cual con la magnitud de los coeficientes de regresión para los términos k-estrella declinan a medida que k crece.16
Una estadística similar ha resultado útil para abordar los problemas de degeneración que se encuentran al intentar ajustar modelos a redes no dirigidas que incluyen un parámetro para las configuraciones "triángulo" yij yik yjk. Una configuración de orden superior que captura la tendencia de los triángulos a agruparse en las proximidades de la otra -como puede ocurrir en la Figura 1-se conoce como el "triángulo k": un conjunto de k triángulos que descansan sobre una base común. Por ejemplo, un indicador de la presencia de un triángulo 2 que descansa sobre la base yij es yij yik yjk yih yjh; dos triángulos (que involucran a los actores i, jyk, y los actores i, jyh) se superponen en yij Los términos del triángulo k se pueden combinar en una estadística para agrupar configuraciones transitorias que no son lineales en el recuento de triángulos, sino da menor probabilidad a las estructuras altamente agrupadas. Paralelamente a la estadística de k-estrella alterna, esta estadística alterna de triángulo k se define como

S9(y,λ2)=3S4:1(y)+k=2N2(1λ2)k1S4:k(y)
where S4:k (y) is the number of k-triangles (S4:1 (y) = S4 (y) is the regular triangle statistic) and λ2 > 1

S10(y,ρ)=eρN2k=1{1(1eρ)k}EPk(y)
donde EPk (y) = Σi<j yij I(spij = k) es el número de pares enlazados quiénes comparten k socios, spij = Σk yik yjk es el número de socios compartidos por actores actores i y j (Goodreau 2007; Hunter 2007) y el parámetro ρ controla la tasa a la cual los ponderadores asigandos asignados a las configruaciones teniendo k socios compartidos declinan con k.

5.7. Análisis ilustrativo: red no dirigida

La Tabla 9 informa las estimaciones de cinco modelos que se ajustan a la red de influencia médica no dirigida. El primero es nuevamente un modelo de Bernoulli que incluye solo el término de los bordes; su coeficiente estimado de -1.049 tiene un logit inverso asociado de 0.259 igual a la densidad de la red no dirigida. El segundo modelo agrega el término GWESP S 10 (y, ρ) con un coeficiente fijo ρ de 1.2.17 El ajuste del modelo no fue degenerado, y el coeficiente de regresión positivo para el término GWESP ofrece evidencia de transitividad en la red no dirigida.

Tabla 9

Estimación de modelos ERGM ajustado para la red de influencia indirecta de médicos





Model Statistics

Model TermEstimateSEp-valueMCMC SEDevianceBIC
Edges



127.4610.8
 edges 1.0490.099<1e-04NA


Edges + gwesp



291.2453.4
 edges 4.2790.550<1e-040.010

 gwesp(1.2)0.9260.146<1e-040.003


Edges + gwesp + kstar(2:3)



300.3463.0
 edges 3.2531.2660.0100.026

 gwesp(ρ)0.6620.2630.0120.004

 ρ0.9300.151<1e-040.002

 kstar20.0450.1220.7110.002

 kstar3 0.0060.0130.6240.000


Edges + gwesp + Node match covariates (pooled)



302.8454.3
 edges 3.9640.782< 1e-040.017

 gwesp(1.2)0.8060.192< 1e-040.004

 nodematch.male0.5320.1720.0020.006

 nodematch.clinic 0.0080.1730.9620.006


Edges + gwesp + Node match covariates (not pooled)



315.3460.5
 edges 4.3400.540<1e-040.028

 gwesp(1.2)0.8720.196<1e-040.009

 nodematch.male0.4330.4690.3570.040

 nodematch.clinic.11.3990.9170.1270.025

 nodematch.clinic.20.0420.7680.9560.146

 nodematch.clinic.32.9891.8840.1131.393

 nodematch.clinic.42.1970.520<1e-040.050

Nota: MCMC no fue necesario para ajustar el modelo Edges como una regresión logística dando el MLE.



El tercer modelo, un modelo exponencial curvo, agrega términos de 2 y 3 estrellas para modelar la distribución de grados, y también estima el parámetro ρ en el término GWESP. Los coeficientes para los dos términos k-star tienen signos opuestos, pero ambos son insignificantes; por lo tanto, parece que no hay tendencia, después de ajustar por agrupamiento, para que los vínculos en esta red se concentren en actores particulares.

Ninguna covariable a nivel de actor se asoció directamente con la densidad de vínculos en esta red; porque el Keating et al. (2007) el análisis p2 de la red dirigida encontró que las covariables de los actores influyeron en la tendencia a recibir pero no a las citas, la ausencia de efectos covariables puede deberse al hecho de que la direccionalidad de los vínculos se eliminó cuando construimos la versión no dirigida de red. En común con Keating et al. (2007), sin embargo, encontramos evidencia de que los médicos del mismo sexo y en la misma clínica dentro de la práctica tendían a citarse entre sí. Además de los bordes y los términos de GWESP, nuestro cuarto modelo introduce covariables diádicas para pares de médicos del mismo género y en la misma clínica; el coeficiente de "misma clínica" está obligado a ser el mismo para cada una de las cuatro clínicas distintas dentro de la práctica. Las estimaciones del coeficiente sugieren una densidad significativamente más alta entre los médicos del mismo sexo, pero, una vez deducido el efecto de agrupación general modelado por el término GWESP, no hay una tendencia similar evidente para los médicos de la misma clínica. Cuando en cambio permitimos que el efecto de "misma clínica" varíe entre las cuatro clínicas distintas, en el quinto modelo, encontramos una densidad significativamente elevada dentro de la cuarta práctica, que incluye médicos que se especializan en la salud de las mujeres. Los parámetros estimados para la densidad dentro de las otras tres clínicas también son positivos, pero tienen valores p mayores que 0.10. El valor de p para el coeficiente de la estadística de "mismo género" en el modelo 5 excede de 0.3, aunque su estimación (0.433) es solo algo menor que la correspondiente en el modelo 4 (0.532, valor de p 0.002); la diferencia puede reflejar una tendencia para que los médicos varones y mujeres se basen en diferentes clínicas.

Los indicadores de bondad de ajuste apuntan a diferentes conclusiones sobre cuál de estos modelos corresponde mejor a los datos. BIC prefiere los modelos más parsimoniosos, tomando sus valores más pequeños para los modelos 2 y 4. La comparación de la desviación para los modelos anidados 4 y 5 sugiere, sin embargo, que este último tiene un mejor ajuste (diferencia en la desviación = 12.5, 3 df), y por lo tanto, la tendencia hacia la homofilia difiere significativamente entre las clínicas. Las estadísticas de red observadas se reproducen mejor a través de simulaciones basadas en los modelos 4 y 5, lo que indica que la homofilia por clínica y género juega un papel importante en la estructuración de esta red.

5.8. Software para modelos relacionales


Mientras que algunos modelos estadísticos elementales para redes como p1 se pueden estimar mediante rutinas en paquetes de software estándar, la mayoría requiere programas especializados. Statnet (Handcock et al., 2003) es un conjunto de paquetes R para el análisis estadístico de redes; su paquete "ergm" lleva a cabo la estimación MCMCMLE de los ERGM. Los módulos en StOCNET (Boer et al., 2006) implementan varios modelos cubiertos aquí, incluyendo pruebas no paramétricas basadas en enumeración o simulación, p2 y modelos de bloques estocásticos a posteriori (ver a continuación). Su módulo SIENA estima los ERGM, así como un modelo de datos longitudinales presentado en la siguiente sección. PNET (Wang, Robins y Pattison 2008) estima los ERGM a través del algoritmo de aproximación estocástica utilizado en SIENA.

6. Desarrollos recientes para modelar redes

Este artículo presentó e ilustró representaciones de datos de red, medidas descriptivas de redes y los dos tipos principales de modelos de redes estadísticas. Aunque cubrimos muchos métodos de red ampliamente utilizados, no podemos ser exhaustivos aquí. Brevemente nos referimos a algunos desarrollos adicionales en el análisis de redes, que incluyen modelos de variables latentes, análisis longitudinales de redes y métodos para el muestreo de redes.

6.1. Modelos de variables latentes para datos de red

Los modelos como los ERGM especifican que las interacciones entre los vínculos observados, junto con las covariables medidas, subyacen a las estructuras de red observadas. Una alternativa es postular covariables no observadas a nivel de actor que tengan en cuenta los patrones de red observados. Tales covariables latentes pueden ser categóricas o cuantitativas. Nowicki y Snijders (2001), por ejemplo, desarrollan modelos de bloques estocásticos a posteriori que buscan asignar actores a las clases de una variable categórica latente, de modo que los actores dentro de una clase exhiban patrones relacionales estocásticamente equivalentes.

Los modelos de posición latente (Hoff, Raftery y Handcock 2002) introducen variables cuantitativas latentes. Una especificación de posición latente afirma que las relaciones de valores binarios observadas Yij son condicionalmente independientes dadas las ubicaciones de los actores i y j en un espacio latente y que los vínculos son más probables cuando los pares están cerca en el espacio latente. Una medida común de distancia es la distancia euclidiana d (zi, zj) = (ΣKk = 1 (zi1-zi1) 2) 1/2, donde zi = (zi1, ..., zik) T es un agente de localización variable latente i en un espacio euclidiano K-dimensional. La presencia de vínculos también puede depender de un vector de covariables medidas, xij, que conduce (en el caso de un enlace logit) a un modelo de la forma



log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=α+βTxij(k=1K(zikzjk)2)1/2.
(13)


Debido a que las distancias latentes para un triple de actores deben obedecer a la desigualdad del triángulo, esta formulación modela las tendencias hacia la transitividad que comúnmente se encuentran en las redes sociales. Un modelo de clúster latente (Handcock, Raftery y Tantrum 2007) es una variación de (10) que especifica que las posiciones latentes para los actores individuales son mezclas de patrones asociados con dos o más grupos categóricos latentes de actores. El paquete LatentNet en R (Handcock et al., 2007) usa métodos bayesianos para ajustarse a dichos modelos.

Un modelo de efectos mixtos bilineal generalizado relacionado desarrollado por Hoff (2005) también supone independencia condicional entre vínculos, pero utiliza una especificación del producto interno para el efecto de la variable cuantitativa latente, agrega efectos aleatorios a nivel de actor para remitentes y receptores e incluye una estructura jerárquica como la del modelo p2 (ver (9)) para los efectos de las covariables medidas. Para datos de red con valores binarios, este modelo toma la forma:

:

log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=βTxij+εijwhereεij=ai+bj+γij+ξijcon(ai,bi)TN(0,ab),ab=(σ2aσabσabσ2b),(γij,γji)TN(0,γ),γ=σ2γ(1ρρ1)log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=βTxij+εijdondeεij=ai+bj+γij+ξijcon(ai,bi)TN(0,ab),ab=(σ2aσabσabσ2b),(γij,γji)TN(0,γ),γ=σ2γ(1ρρ1)
(14)


y ξij=zTizj with zi ~N(0, Σz).. Las varianzas de efecto aleatorio σ2a y σ2b (respectivamente) cuantifican la dependencia entre observaciones que tienen un emisor común o un receptor común, γij representa una interacción emisor-receptor no restringida, y ρ representa reciprocidad, la correlación de valores de γij dentro de una díada. La interacción del producto interior ξij que implica puntuaciones latentes zi y zj implica que la probabilidad de un empate entre los actores i y j aumenta en la medida en que los vectores latentes zi y zj tienen una dirección y magnitud similares. La inclusión de ξij -in (14) que se puede interpretar como un efecto aleatorio de media 0-modela la transitividad al restringir el grado en que los productos internos zTizk, zTizj y zTjzk pueden diferir entre sí. La magnitud de la transitividad de la red puede resumirse mediante y var(zTizj)=trace(Tzz, que se reduce a Kσ4z en el caso especial donde z=σ2zI. . Cuanto mayor es la magnitud de Σz, mayor es la variación de zi y, por lo tanto, de sus productos internos; por lo tanto, mayor es el potencial de transitividad (u otros efectos de tercer orden como los patrones cíclicos). Para evaluar la presencia de dichos efectos de tercer orden, se podría comparar el ajuste del modelo con y sin el término de producto interno (por ejemplo, utilizando el criterio de información de desviación).

Las ubicaciones latentes z estimadas bajo los modelos de efectos mixtos bilineales y de posición latente proporcionan una base con base estadística para la visualización de la red. Además, los grafos de los valores simulados por MCMC de las ubicaciones latentes representan incertidumbre en una representación espacial que no es capturada por las herramientas de visualización descriptiva.

Una característica atractiva de los modelos de variables latentes que dependen de las especificaciones de independencia condicional es que aceptan fácilmente datos de red no binarios. Al alterar la función de enlace en el lado izquierdo de (13) o (14), estos modelos se adaptan fácilmente al análisis de datos relacionales en forma de variables cuantitativas (por ejemplo, enlace lineal) o recuentos (p. Ej., Log-enlace).

6.2. Análisis de red longitudinal


La gran mayoría de las investigaciones anteriores sobre redes sociales examinan datos de un solo punto en el tiempo. Sin embargo, el interés en datos longitudinales adecuados para estudiar la evolución de la red ahora está aumentando rápidamente. Como de costumbre, las observaciones a lo largo del tiempo en una red pueden ayudar a disipar las preocupaciones sobre la causalidad recíproca y proporcionar una base superior para aislar los efectos causales. Además, algunos sostienen que, dado que los modelos de cambio de red condicionan el estado de una red en la línea de base, pueden ser más fáciles de ajustar que los modelos que buscan explicar cómo nació una red (Snijders 2005).

Solo unos pocos modelos existentes para la evolución de la red (Doreian y Stokman, 1997) adoptan un enfoque estadístico. Dichos modelos estudian el cambio de red dentro de un marco de cadena de Markov de tiempo continuo en el que el constructo central es una matriz de intensidad que rige las tasas a las que surgen y desaparecen los vínculos. Los esfuerzos iniciales modelaron el cambio en el estado de empate asumiendo la independencia diádica (Holland y Leinhardt 1977, Wasserman 1979, 1980). En estos, las tasas de cambio dependían de una sola propiedad de red, como la reciprocidad. Debido a la simplicidad de dichos modelos, a menudo existen expresiones cerradas para las probabilidades de transición, de modo que las estimaciones de máxima verosimilitud se pueden calcular utilizando procedimientos de optimización estándar. Sin embargo, tales modelos rara vez proporcionan descripciones adecuadas del cambio de red.

Un modelo estadístico mucho más elaborado para la evolución de la red es el modelo orientado al actor propuesto por (Snijders 1996, 2001, 2005). Esto se centra en una función objetiva para los actores que pueden ser sensibles a múltiples propiedades de red que incluyen (por ejemplo) reciprocidad, cierre, homofilia o contacto con otras personas de prestigio. El modelo asume que los actores controlan sus vínculos salientes y los modifican para aumentar su satisfacción con la red en uno o más aspectos. Los parámetros estimados indican si los cambios en una propiedad determinada aumentan o disminuyen la satisfacción del actor. Una distinción importante de los ERGM es que las estadísticas de red relevantes en el modelo orientado al actor son específicas del actor en lugar de agregaciones en toda la red. Además de la función objetivo, este modelo también puede incluir una función de tasa que describe la tasa de cambio en los vínculos de salida de un actor, y una función de gratificación indicativa de las diferencias de satisfacción que surgen de la formación y disolución de los vínculos.

Estimar el modelo orientado al actor está, por lo general, fuera del alcance de los métodos estándar de máxima verosimilitud. Los métodos de simulación de MCMC que se basan en un algoritmo de aproximación estocástica están disponibles (Snijders 2001) para admitir inferencias a través del método de momentos, la máxima verosimilitud o los criterios bayesianos. Los detalles sobre estos procedimientos se pueden encontrar en la documentación del módulo SIENA en el paquete de software StOCNET (Huisman y Van Duijn 2004, 2005; Snijders et al., 2007).

El modelado longitudinal será un área importante de crecimiento en el análisis de redes. Las elaboraciones recientes del modelo orientado a los actores permiten a los actores unirse o abandonar la red a lo largo del tiempo (Huisman y Snijders 2003; Snijders 2005), ciertos vínculos son inalterables (p. Ej., Lazos imposibles o de certeza) e imputación parcial18 en intervalos de tiempo (Snijders et al., 2007). Finalmente, si se miden tanto el comportamiento de la red como el de los actores, pueden desarrollarse modelos basados ​​en agentes que permitan que la red cambiante influya en el comportamiento de los actores y, al mismo tiempo, permita que los cambios en el comportamiento de los actores influyan en la red. Dichos modelos tratan una red como un mecanismo de retroalimentación endógeno (Zeggelink 1994). Las versiones recientes de SIENA implementan todas estas innovaciones hasta cierto punto.

6.3. Métodos para redes de muestreo

Las redes de muestreo se pueden dividir en dos tipos principales: muestreo de redes parciales y muestreo de redes enteras. En el primero, la muestra típicamente induce la red (a menudo la red completa es inobservable) mientras que en el último se conoce una red subyacente, pero es imposible de observar o analizar en su totalidad (por ejemplo, redes basadas en Internet).

Existen varios esquemas para muestrear redes parciales (Frank 1981). Se obtiene una red inducida por muestra mediante un muestreo del conjunto de unidades / actores, y luego ensamblando datos sobre las relaciones entre las unidades muestreadas. Los diseños de trazado de enlace o "paseo aleatorio" muestrean aleatoriamente cadenas de relaciones en una red.

Otro esquema muestra estrellas (Frank 1981). Una variante ampliamente utilizada en estas muestras de un conjunto de unidades / actores y obtiene datos sobre las subredes que los rodean, incluidos los atributos de las unidades / actores "alterados" a los que están vinculados directamente, y las relaciones entre esas unidades alteradas. Dichos esquemas se han implementado dentro de encuestas de muestra convencionales de individuos (por ejemplo, Marsden 1987). Los estudios que utilizan tales datos de red egocéntricos buscan explicar las variaciones en la estructura de la red local, o explicar las variaciones en las actitudes o comportamientos de las unidades / actores muestreados utilizando las propiedades de sus redes egocéntricas. Ciertas propiedades de redes completas, incluida la distribución de grados (ver Sección 3.2), también pueden ser aproximadas usando muestras de redes egocéntricas. La Encuesta Nacional de Salud y Vida Social (Laumann et al., 2004), por ejemplo, midió redes sexuales y sociales egocéntricas.

Los datos administrativos y los sistemas de comunicación electrónica permiten cada vez más el montaje de datos de red completa para redes grandes a un costo modesto. Sin embargo, si la recopilación de datos es costosa, el muestreo desde grandes redes para conocer las propiedades de la red es atractivo. El trabajo fundacional de Ove Frank (Frank 1971, 1981, 1988) sigue siendo clave en este campo. Frank describe varios diseños para dibujar muestras de redes inducidas por nodos, p. Ej. mediante un muestreo aleatorio simple de una población de actores (con o sin reemplazo) seguido de la observación de las relaciones entre los nodos muestreados y las inferencias sobre las propiedades de red disponibles a partir de ellos. Una muestra inducida por nodo, por ejemplo, produce inferencias sobre totales de nodos, diadas y triadas, así como la distribución de grados (Frank 1978, 1981).

Un uso importante del muestreo de red se orienta menos a la estimación de propiedades de red que a la localización de elementos de poblaciones raras, no incluidas en la lista y / u ocultas, y a la estimación de propiedades de la distribución de atributos de los nodos / actores en dichas poblaciones. Generalmente conocidos como muestreo de bola de nieve o de referencia de cadena, dichos diseños extraen una muestra inicial de actores y luego rastrean uno o más enlaces a diferentes elementos de esa muestra inicial; este rastreo de enlaces puede repetirse varias veces. Por ejemplo, las versiones de red del muestreo de multiplicidad (por ejemplo, Sudman y Kalton 1986) extraen una muestra de primera etapa de una población general por métodos convencionales y luego seleccionan elementos de la población especial de interés que están relacionados con los elementos de la primera etapa en alguna forma bien definida (por ejemplo, parentesco, residencia conjunta). Para desarrollar pesos adecuados, se debe medir el grado (tamaño de la red egocéntrica) de los elementos en la muestra de la población especial que reflejan la densidad de sus vínculos con la muestra de población general. El muestreo impulsado por los encuestados (Salganik y Heckathorn 2004) comienza con "semillas" que se sabe que pertenecen a la población especial de interés, y los alienta a referir a otros en la población a través de los vínculos de la red. Después de varias oleadas de tales derivaciones, este método tiende a una muestra proporcional a la probabilidad de la población especial, incluso si las semillas se eligen de forma arbitraria y no aleatoria.

Thompson (2006) desarrolla un enfoque muy general de rastreo de enlaces denominado muestreo web adaptativo. Se puede usar para estimar tanto las propiedades del actor como las de la red (como la distribución del grado). Comenzando con un conjunto de semillas dibujado al azar, un diseño de muestreo web adaptable puede trazar un vínculo de un actor ya muestreado a un alter relacionado, investigando así los segmentos interconectados de una población. Sin embargo, con cierta probabilidad, también puede dibujar nuevos elementos al azar. La probabilidad de hacer cada tipo de sorteo puede depender de las características de la muestra actual.

7. Conclusión

Históricamente, el análisis de redes sociales se ha llevado a cabo principalmente en las disciplinas de las ciencias sociales, pero su uso ha crecido rápidamente en los últimos años en muchas otras áreas. Entre las aplicaciones recientes en cuidado de la salud y medicina están los estudios de la red de influencia médica de (Keating et al., 2007), la propagación epidémica de la obesidad descrita por Christakis y Fowler (2007) y la de fumar (Christakis y Fowler 2008), la propagación del SIDA (Morris et al., 2006), la difusión del conocimiento sobre la nueva tecnología médica (Miguel y Kremer 2003), los patrones de uso de anticonceptivos a lo largo del tiempo (Behrman, Kohler y Watkins 2002) y la propagación de infecciones de transmisión sexual vía sexual redes de Laumann y colegas (Laumann et al. 2004). Como ha sido la tendencia en salud, la mayoría de las aplicaciones anteriores tratan la red como fija (por ejemplo, como en los modelos de resultados individuales) en lugar de modelar la red como en el análisis de datos relacionales.

Anticipamos que las aplicaciones del análisis de redes sociales relacionadas con la salud crecerán rápidamente durante la próxima década, ya que las relaciones interpersonales y las redes de apoyo son cruciales para el bienestar de la mayoría de las personas y porque los métodos apropiados para abordar los difíciles problemas analíticos planteados por las redes sociales los datos están cada vez más disponibles. Las aplicaciones informadas del análisis de redes sociales en los servicios de salud y la investigación de resultados no solo arrojarán nuevos conocimientos sobre estos fenómenos, sino que contribuirán a seguir mejorando la metodología de las redes sociales.

Hay una amplia gama de temas que los estadísticos pueden abordar en el futuro, incluidos algunos motivados por los datos de la red de médicos. Estos incluyen la predicción de cómo un nuevo médico que se une a una clínica interactuará con los que ya están allí, y la extrapolación de inferencias basadas en una red a otras redes (por ejemplo, otros hospitales). Las soluciones al primer problema probablemente requerirán un modelado dinámico de datos longitudinales de red para identificar los efectos del cambio en la red. El segundo problema requiere una cuidadosa consideración de la población a la cual se aplica la inferencia y las condiciones bajo las cuales los resultados para una red pueden extenderse a otra; hasta cierto punto, esto es un problema de muestreo. El modelado dinámico de las redes y los métodos de las redes de muestreo son dos áreas que hasta ahora no se han investigado exhaustivamente, pero a las cuales los estadísticos pueden y deben estar muy involucrados. Los métodos para manejar datos faltantes en el análisis de redes también están en su infancia en contraste con las estadísticas convencionales.

Además del trabajo metodológico, se puede realizar más trabajo aplicado mediante el desarrollo de nuevas aplicaciones de análisis de redes sociales. Aunque en aumento, las aplicaciones a la atención médica y la medicina son todavía relativamente pocas. Los estadísticos también desempeñarán un papel importante al destacar las limitaciones de los modelos y las posibles trampas de los paquetes de software. Por ejemplo, los profesionales deben estar sensibilizados a cuestiones tales como la posibilidad de degeneración o la escasa convergencia de los algoritmos de estimación y deben ser conscientes de la necesidad de verificar minuciosamente múltiples diagnósticos para garantizar una interpretación válida de los resultados.


Notas al pie 


1 Para ayudar a los lectores a aplicar estos métodos, proporcionamos algunas referencias al software de red, pero nuestra cobertura de software no es exhaustiva. Huisman y van Duijn (2005) revisan los recursos de software disponibles a principios de esta década.2 El grado en que las distancias en una representación gráfica corresponden a los datos en los que descansan -dídica medidas de distancia social o proximidad- depende de la función objetivo que sirve como criterio de ajuste. cuando la trama está construida. El algoritmo de escalamiento multidimensional "no métrico" más ampliamente utilizado requiere una correspondencia ordinal entre datos y distancias trazadas; La escala "métrica" ​​usa un criterio más fuerte (lineal). Las funciones objetivas utilizadas por muchos métodos de inserción de primavera implican un término de "repulsión de nodo" que simplifica la representación visual al desalentar la ubicación conjunta de los vértices dentro de un gráfico, pero al mismo tiempo limita el alcance al que corresponden los datos y las distancias trazadas. Además, una trama cartesiana baja (ordinariamente 2) puede hacer más o menos bien al representar datos sobre las relaciones entre N actores, que en principio pueden ser (N - 1) -dimensionales.3Tenga en cuenta que algunos o todos los intermediarios a lo largo de estas rutas geodésicas pueden ser médicos 11-33.4Recuerde que la red de médicos no dirigidos es idéntica a la que se muestra en la Figura 1, excepto que los enlaces carecen de direccionalidad.5 Calculamos puntajes de centralidad utilizando el paquete de software UCINET 6 (Borgatti, Everett y Freeman, 2002).6 La centralidad de valores propios puede en principio calcularse para una matriz no simétrica, pero la rutina en UCINET 6 maneja solo el caso simétrico.7 Debido a que dos actores tienen grados de 0, las filas asociadas de W suman 0 en oposición a 1. Por lo tanto, aunque estos actores contribuyen a la estimación de β y σ2, no aportan directamente ninguna información sobre los parámetros de autocorrelación α y ρ. Retuvimos a estos actores en el análisis porque otros médicos los citaron como influyentes sobre ellos y, por lo tanto, eliminarlos omitiría información sobre cómo otros actores se vieron influenciados.8 Las pruebas se realizaron utilizando el paquete de software StOCNET (Boer et al., 2006).9 Debajo de p1, la estimación de un parámetro de receptor es infinitamente pequeña para los actores con un grado de 0 indentificado; asimismo, la estimación de un parámetro emisor es -∞ cuando el correspondiente grado de salida es 0.10 El modelo p2 está estrechamente relacionado con un modelo de relaciones sociales desarrollado por Kenny y La Voie (1984) para variables de red cuantitativas.11 La gran cantidad de términos en κ (θ) complica la estimación de los ERGM. Hay 2N (N - 1) posibles redes de valores binarios dirigidas; por ejemplo, con N = 10, el número de redes posibles -por lo tanto, los términos en κ (θ) -es 1.238 × 1027.12Por ejemplo, un actor con grado 3 contribuye con 1 3 estrellas, 3 2 estrellas y 3 1 estrellas; 1-estrellas son equivalentes a los bordes individuales.13 El conjunto de estadísticas de k-estrellas es equivalente al conjunto de estadísticas de grados (el número de nodos de grado k, k = 1,2,3, ...) en que existe una biyección entre los dos conjuntos de estadísticas (Snijders et al. 2006).14 Una estadística análoga de "covariante emisor" permite que el efecto de densidad dependa de un atributo del emisor (i).15 y + ij es la realización de la red de complemento con yij = 1, mientras que y-ij es la realización de la red de complemento con yij = 0.16 Una estadística equivalente basada en la distribución del grado en sí se conoce como la estadística del "grado geométricamente ponderado"; ver Hunter y Handcock (2006).17No se incluye ningún término de mutualidad, ya que esto es redundante con el término de bordes en una red no dirigida. Restringir el valor de ρ al ajustar el modelo con el término GWESP a menudo es útil; lograr una convergencia adecuada es más difícil cuando se estima como un parámetro libre. Descubrimos que establecer ρ = 1.2 funciona bien aquí; la superficie de probabilidad es relativamente plana, por lo que usar un valor entre 1.0 y 1.5 no afectó a inferencias sobre otros parámetros. Nótese, sin embargo, que ρ se estimó en 0.93 cuando lo dejamos como un parámetro libre en el tercer modelo en la Tabla 9.18Aunque los valores perdidos se reemplazan por valores no perdidos durante la adaptación del modelo, las estadísticas que miden el ajuste del modelo solo se evalúan utilizando actores con valores no perdidos a lo largo del intervalo de tiempo correspondiente. Por lo tanto, la imputación estándar no se realiza.

Referencias

  • Anderson C, Wasserman S, Crouch B. A p* primer: logit models for social networks. Social Networks. 1999;21(1):37–66.
  • Anselin L. Spatial Econometrics: Methods and Models. Dordrecht, The Netherlands: Kluwer Academic Publishers; 1988.
  • Anselin L. Some robust approaches to testing and estimation in spatial econometrics. Regional Science and Urban Economics. 1990;20(2):141–63.
  • Banerjee S, Carlin B, Gelfand A. Hierarchical Modeling and Analysis for Spatial Data. Boca Raton, FL: Chapman and Hall; 2004.
  • Barabási A-L. Linked: The New Science of Networks. New York: Perseus; 2002.
  • Bartholomew D, Steele F, Moustaki I, Galbraith J. The Analysis and Interpretation of Multivariate Data for Social Scientists. New York: Chapman and Hall; 2002.
  • Batagelj V, Mrvar A. Pajek: Analysis and visualization of large networks. In: Jünger M, Mutzel P, editors. Graph Drawing Software. New York: Springer; 2003. pp. 77–103.
  • Beauchamp M. An improved index of centrality. Behavioral Science. 1965;10:161–63. [PubMed]
  • Behrman J, Kohler H-P, Watkins S. Social Networks and Changes in Contraceptive Use Over Time: Evidence from a longitudinal study in rural Kenya. Demography. 2002;39:713–38. [PubMed]
  • Berkman L, Glass T. Social integration, social methods, social support, and health. In: Berkman L, Kawachi I, editors. Social Epidemiology. New York: Oxford University Press; 2000. pp. 137–73.
  • Berkman L, Syme S. Social Networks, Host Resistance, and Mortality: A Nine-year Follow-up Study of Alameda County Residents. American Journal of Epidemiology. 1979;109:86–204. [PubMed]
  • Besag J. Spatial interaction and statistical-analysis of lattice systems. Journal of the Royal Statistical Society, Series B: Methodological. 1974;36(2):192–236.
  • Besag J. Statistical analysis of non-lattice data. Journal of the Institute of Statisticians. 1975;24:179–96.
  • Best N, Cowles M, Vines K. Convergence Diagnosis and Output Analysis Software for Gibbs Sampling Output. Robinson Way, Cambridge CB2 2SR, UK: MRC Biostatistics Unit, Institute of Public Health; 1995.
  • Boer P, Huisman M, Snijders T, Steglich M, Wicher L, Zeggelink E. StOCNET User’s Manual, version 1.7. Groningen, NL: ICS; 2006.
  • Bonacich P. Power and Centrality: A Family of Measures. American Journal of Sociology. 1987;92:1170–82.
  • Borgatti S. NetDraw: Graph Visualization Software. Lexington, KY: Analytical Technologies; 2008.
  • Borgatti S, Everett M, Freeman L. UCINET 6 for Windows: Software for Social Network Analysis. Lexington, KY: Analytical Technologies; 2002.
  • Burt R. Structural Holes: The Social Structure of Competition. Cambridge, MA: Harvard University Press; 1992.
  • Burt R, Doreian P. Testing a structural model of perception: conformity and deviance with respect to journal norms in elite sociological methodology. Quality and Quantity. 1982;16:109–50.
  • Butts C. sna: Tools for Social Network Analysis (release 1.5) 2007.
  • Christakis N. Social networks and collateral health effects. British Medical Journal. 2004;329(7459):184–5. [PMC free article] [PubMed]
  • Christakis N, Fowler J. The Spread of Obesity in a Large Social Network over 32 Years. New England Journal of Medicine. 2007;357:370–79. [PubMed]
  • Christakis N, Fowler J. The Collective Dynamics of Smoking in a Large Social Network. New England Journal of Medicine. 2008;358:2249–58. [PMC free article] [PubMed]
  • Coleman J, Katz E, Menzel H. Medical Innovation: A Diffusion Study. Indianapolis: Bobbs-Merrill; 1966.
  • Doreian P. Linear-models with spatially distributed data- spatial disturbances or spatial effects. Sociological Methods and Research. 1980;9(1):29–60.
  • Doreian P. Estimating linear models with spatially distributed data. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 359–88.
  • Doreian P. Network Autocorrelation Models: Problems and Prospects. In: Griffith DA, editor. Spatial Statistics: Past, Present, Future. Ann Arbor: Michigan Document Services; 1989. pp. 369–89.
  • Doreian P, Stokman F. Evolution of social networks: Processes and principles. In: Doreian P, Stokman F, editors. Evolution of Social Networks. Amsterdam: Gordon and Breach Publishers; 1997. pp. 233–50.
  • Dow M. A biparametric approach to network autocorrelation. Sociological Methods and Research. 1984;13:201–17.
  • Erdös P, Rényi A. On random graphs. Publicationes Mathematicae. 1959;6:290–97.
  • Fienberg S, Wasserman S. Categorical data analysis of single sociometric relations. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 156–92.
  • Frank O. Statistical Inference in Graphs. Stockholm: FOA Repro; 1971.
  • Frank O. Sampling and Estimation in Large Social Networks. Social Networks. 1978;11:91–101.
  • Frank O. A Survey of Statistical Methods for Graph Analysis. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 110–55.
  • Frank O. Random Sampling and Social Networks: A survey of various approaches. Mathematiques, Informatique, et Sciences Humaines. 1988;26:19–33.
  • Frank O, Strauss D. Markov graphs. Journal of the American Statistical Association. 1986;81(395):832–42.
  • Freeman L. Centrality in Social Networks, I. Conceptual Clarification. Social Networks. 1979;1:215–39.
  • Freeman L. Social Networks and the Structure Experiment. In: Freeman L, White D, Romney A, editors. Research Methods in Social Network Analysis. Fairfax, VA: George Mason University Press; 1989. pp. 11–40.
  • Freeman L. The Development of Social Network Analysis: A Study in the Sociology of Science. Vancouver, BC: Empirical Press; 2004.
  • Friedkin N. Social Networks in Structural Equations Models. Social Psychology Quarterly. 1990;53:316–28.
  • Friedkin N, Cook K. Peer Group Influence. Sociological Methods and Research. 1990;19(1):122–43.
  • Fruchterman T, Reingold E. Graph Drawing by Force-Directed Placement. Software-Practice and Experience. 1991;21(11):1129–64.
  • Geyer C, Thompson E. Constrained Monte Carlo Maximum Likelihood for Dependent Data. Journal of the Royal Statistical Society, Series B. 1992;54(3):657–99.
  • Gill P, Swartz T. Bayesian analysis of directed graphs data with applications to social networks. Journal of the Royal Statistical Society, Series C: Applied Statistics. 2004;53:249–60.
  • Goodreau S. Advances in Exponential Random Graph (p*) Models Applied to a Large Social Network. Social Networks. 2007;29:231–48. [PMC free article] [PubMed]
  • Haines V, Hurlbert J. Network Range and Health. Journal of Health and Social Behavior. 1992;33:254–66. [PubMed]
  • Handcock M. Assessing Degeneracy in Statistical Models of Social Networks. Seattle: Center for Statistics and Social Sciences, University of Washington; 2003.
  • Handcock M, Hunter D, Butts C, Goodreau S, Morris M. Statnet: Software tools for the Statistical Modeling of Network Data (release Version 2.1) Seattle, WA: Center for Statistics and Social Sciences, University of Washington; 2003. Project home page at http://statnetproject.org; Software available at http://CRAN.R-projectorg/package=statnet.
  • Handcock M, Raftery A, Tantrum J. Model-based clustering for social networks. Journal of the Royal Statistical Society Series A. 2007;170(2):301–54.
  • Harville D. Matrix algebra from a statistician’s perspective. New York: Springer-Verlag Inc; 1997.
  • Hoff P. Bilinear mixed-effects models for dyadic data. Journal of the American Statistical Association. 2005;100:286–95.
  • Hoff P, Raftery A, Handcock M. Latent space approaches to social network analysis. Journal of the American Statistical Association. 2002;97:1090–98.
  • Holland P, Laskey K, Leinhardt S. Stochastic Blockmodels: First Steps. Social Networks. 1983;5:109–37.
  • Holland P, Leinhardt S. Local Structure in Social Networks. In: Heise D, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1976. pp. 1–45.
  • Holland P, Leinhardt S. A Dynamic Model for Social Networks. Journal of Mathematical Sociology. 1977;5:5–20.
  • Holland P, Leinhardt S. An exponential family of probability-distributions for directed-graphs. Journal of the American Statistical Association. 1981;76(373):33–50.
  • House J, Kahn R. Measures and concepts of social support. In: Cohen S, Syme S, editors. Social Support and Health. New York: Academic Press; 1985. pp. 83–108.
  • Huisman M, Snijders T. Statistical analysis of longitudinal network data with changing composition. Sociological Methods and Research. 2003;32:253–87.
  • Huisman M, Van Duijn M. Software for Statistical Analysis of Social Networks. The Sixth International Conference on Logic and Methodology; Amsterdam, The Netherlands. 2004.
  • Huisman M, van Duijn M. Software for Social Networks Analysis. In: Carrington PJ, Scott J, Wasserman S, editors. Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press; 2005. pp. 270–316.
  • Hunter D. Curved Exponential Family Models for Social Networks. Social Networks. 2007;29:216–30. [PMC free article] [PubMed]
  • Hunter D, Goodreau S, Handcock M. Goodness of fit of social network models. Journal of the American Statistical Association. 2008;103:248–58.
  • Hunter D, Handcock M. Inference in Curved Exponential Family Models for Networks. Journal of Computational and Graphical Statistics. 2006;15(565–583)
  • Katz L, Powell J. Probability distributions of random variables associated with a structure of the sample space of sociometric investigations. Annals of Mathematical Statistics. 1957;28:442–48.
  • Keating N, Ayanian J, Cleary P, Marsden P. Factors Affecting Influential Discussions Among Physicians: A Social Network Analysis of a Primary Care Practice. Journal of General Internal Medicine. 2007;22(6):794–98. [PMC free article] [PubMed]
  • Kenny D, Voie LLa. The Social Relations Model. In: Berkowitz L, editor. Advances in Experimental Social Psychology. New York: Academic Press; 1984. pp. 142–82.
  • Klovdahl A. Social Networks and the Spread of Infectious Diseases. Social Science and Medicine. 1985;21:1203–16. [PubMed]
  • Land K, Deane G. On the large-sample estimation of Regression Models with Spatial or Network Effects Terms: A Two-Stage Least-Squares Approach. In: Marsden PV, editor. Sociological Methodology. Oxford: Basil Blackwell, Ltd; 1992. pp. 221–48.
  • Laumann E, Mahay J, Paik A, Youm Y. Network Data Collection and Its Relevance for the Analysis of STDs: The NHSLS and CHSLS. In: Morris M, editor. Network Epidemiology: A Handbook for Survey Design and Data Collection. New York: Oxford University Press; 2004. pp. 27–41.
  • Laumann E, Marsden P, Prensky D. The Boundary Specification Problem in Network Analysis. In: Burt R, Minor M, editors. Applied Network Analysis: A Methodological Introduction. Beverly Hills, CA: Sage Publications; 1983. pp. 18–34.
  • Laumann E, Youm Y. Racial/Ethnic Group Differences in the Prevalence of Sexually Transmitted Diseases in the United States: A Network Explanation. Sexually Transmitted Diseases. 1999;26:250–61. [PubMed]
  • Leenders R. Modeling social influence through network autocorrelation: constructing the weight matrix. Social Networks. 2002;24(1):21–47.
  • Marsden P. Core Discussion Networks of Americans. American Sociological Review. 1987;52(1):122–31.
  • Marsden P. Network Data and Measurement. Annual Review of Sociology. 1990;16:435–63.
  • Marsden P. Egocentric and Sociocentric Measures of Network Centrality. Social Networks. 2002;24:407–22.
  • Marsden P. Network Methods in Social Epidemiology. In: Oakes JM, Kaufman JS, editors. Methods in Social Epidemiology. San Francisco: Jossey-Bass; 2006. pp. 267–86.
  • McGrath C, Blythe J, Krackhardt D. The Effect of Spatial Arrangement on Judgments and Errors in Interpreting Graphs. Social Networks. 1997;19(3):223–42.
  • McPherson M, Smith-Lovin L, Cook J. Birds of a Feather: Homophily in Social Networks. Annual Review of Sociology. 2001;27:415–44.
  • Miguel E, Kremer M. Networks, Social Learning, and Technology Adoption: The Case of Deworming Drugs in Kenya. Poverty Action Laboratory 2003
  • Morris M, Handcock M, Miller W, Ford C, Schmitz J, Hobbs M, Cohen M, Harris K, Udry J. Prevalence of HIV infection among young adults in the U.S.: Results from the Add Health study. American Journal of Public Health. 2006;96(6):1091–97. [PMC free article] [PubMed]
  • Nowicki K, Snijders TAB. Estimation and Prediction for Stochastic Blockstructures. Journal of the American Statistical Association. 2001;96:1077–87.
  • Pattison P, Wasserman S. Logit models and logistic regressions for social networks: II. Multivariate relations. British Journal of Mathematical and Statistical Psychology. 1999;52(Pt 2):169–93. [PubMed]
  • Robins G, Pattison P, Kalish Y, Lusher D. An Introduction to Exponential Random Graph (p*) Models for Social Networks. Social Networks. 2007;29(2):173–91.
  • Robins G, Pattison P, Wasserman S. Logit models and logistic regressions for social networks: III. Valued relations. Psychometrika. 1999;64(3):371–94.
  • Robins G, Pattison P, Woolcock J. Small and Other Worlds: Global Network Structures from Local Processes. American Journal of Sociology. 2005;110(4):894–936.
  • Rothenberg R, Potterat J, Woodhouse D, Muth S, Darrow W, Klovdahl A. Social Network Dynamics and HIV Transmission. AIDS. 1998;12:1529–36. [PubMed]
  • Salganik M, Heckathorn D. Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling. Sociological Methodology. 2004;34:193–239.
  • Snijders T. The Degree Variance: An Index of Graph Heterogeneity. Social Networks. 1981;3:163–74.
  • Snijders T. Enumeration and Simulation Methods for 0–1 Matrices with Given Marginals. Psychometrika. 1991;56(3):397–417.
  • Snijders T. Stochastic Actor-oriented Models for Network Change. Journal of Mathematical Sociology. 1996;21:149–72.
  • Snijders T. The statistical evaluation of social network dynamics. In: Sobel ME, Becker MP, editors. Sociological Methodology. Boston: Basil Blackwell; 2001. pp. 361–95.
  • Snijders T. Markov Chain Monte Carlo Estimation of Exponential Random Graph Models. Journal of Social Structure. 2002;3.2
  • Snijders T. Models for longitudinal social network data. In: Carrington P, Scott J, Wasserman S, editors. Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press; 2005. pp. 215–47.
  • Snijders T, Pattison P, Robins G, Handcock M. New specifications for exponential random graph models. In: Stolzenberg R, editor. Sociological Methodology. Boston, MA: Blackwell; 2006. pp. 99–153.
  • Snijders T, Steglich C, Schweinberger M, Huisman M. Manual for SIENA version 3.2. Groningen, The Netherlands: University of Groningen; 2007.
  • Strauss D, Ikeda M. Pseudolikelihood estimation for social networks. Journal of the American Statistical Association. 1990;85:204–12.
  • Sudman S, Kalton G. New Developments in the Sampling of Special Populations. Annual Review of Sociology. 1986;12:401–29.
  • Thompson S. Adaptive Web Sampling. Biometrics. 2006;62(4):1224–34. [PubMed]
  • Travers J, Milgram S. An Experimental Study of the Small World Problem. Sociometry. 1969;32(4):425–43.
  • Unger J, Chen X. The role of social networks and media receptivity in predicting age of smoking initiation: A proportional hazards model of risk and protective factors. Addictive Behaviors. 1999;24:371–81. [PubMed]
  • Valente T, Watkins S, Jato M, van der Straten A, Tsitol L. Social network associations with contraceptive use among Cameroonian women in voluntary associations. Social Science and Medicine. 1997;45:1837–43. [PubMed]
  • Van Duijn M, Snijders T, Zijlstra B. P2: A Random Effects Model with Covariates for Directed Graphs. Statistica Neerlandica. 2004;58(2):234–54.
  • Van Duijn M, Van Busschback J, Snijders T. Multilevel analysis of personal networks as dependent variables. Social Networks. 1999;21:187–209.
  • Waller L, Gotway C. Applied Spatial Statistics for Public Health Data. Hoboken, NJ: Wiley Interscience; 2004.
  • Wang P, Robins G, Pattison P. PNet: Program for the Simulation and Estimation of P* Exponential Random Graph Models. (release Department of Psychology, University of Melbourne; 2008.
  • Wang W, Wong G. Stochastic Blockmodels for Directed Graphs. Journal of the American Statistical Association. 1987;82:8–19.
  • Wasserman S. A Stochastic Model for Directed Graphs With Transition Rates Determined by Reciprocity. In: Schuessler KF, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1979. pp. 392–412.
  • Wasserman S. Analyzing Social Networks As Stochastic Processes. Journal of the American Statistical Association. 1980;75:280–94.
  • Wasserman S, Faust K. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press; 1994.
  • Wasserman S, Pattison P. Logit models and logistic regressions for social networks: I. An introduction to Markov graphs and p*. Psychometrika. 1996;61:401–25.
  • Wellman B, Frank K. Network capital in a multilevel world: getting support from personal communities. Social Captial: Theory and Research. 2001:233–73.
  • White D, Harary F. The Cohesiveness of Blocks in Social Networks: Node Connectivity and Conditional Density. In: Becker MP, editor. Sociological Methodology. Boston: Blackwell; 2001. pp. 140–48.
  • Wolfram S. A New Kind of Science. Wolfram Media; 2002.
  • Wong G. Bayesian Models for Directed Graphs. Journal of the American Statistical Association. 1987;82:140–148.
  • Zeggelink E. Dynamics of structure- an individual oriented approach. Social Networks. 1994;16(4):295–333.
  • Zijlstra B, Van Duijn M, Snijders T. The Multilevel p2 Model: A Random Effects Model for the Analysis of Multiple Social Networks. Methodology. 2006;21:42–47.