martes, 4 de septiembre de 2018

Introducción: Análisis de redes sociales, con referencias a Salud

El análisis de las redes sociales

A. James O'Malley * y Peter V. Marsden #
Health Serv Outcomes Res Methodol. 2008 Dec 1; 8(4): 222–269.
doi:  10.1007/s10742-008-0041-z


Resumen
Muchas preguntas sobre la organización social de la medicina y los servicios de salud implican interdependencias entre los actores sociales que pueden ser representadas por las redes de relaciones. Los estudios de redes sociales se han llevado a cabo durante algún tiempo en las disciplinas de las ciencias sociales, donde se han propuesto numerosos métodos descriptivos para analizarlos. Más recientemente, el interés en el análisis de los datos de las redes sociales ha crecido entre los estadísticos, que han desarrollado modelos y métodos más elaborados para adaptarlos a los datos de red. Este artículo revisa los fundamentos y las innovaciones recientes en el análisis de redes sociales utilizando una red de influencia médica como ejemplo. Después de introducir formas de datos de red, estadísticas básicas de red y medidas descriptivas comunes, describe dos tipos distintos de modelos estadísticos para datos de red: modelos de resultados individuales en los que las redes entran en la construcción de variables explicativas y modelos relacionales en los que la red misma es una variable dependiente multivariada. Las complejidades en la estimación de ambos tipos de modelos surgen debido a las complejas estructuras de correlación entre las medidas de resultado.
Palabras clave: correlación, modelo de grafo aleatorio exponencial, modelo de espacio latente, modelo de autocorrelación de red, relación social, red social



1. Introducción

El análisis de redes sociales estudia las estructuras de las relaciones que vinculan a los individuos (u otras unidades sociales, como las organizaciones) y las interdependencias en el comportamiento o las actitudes relacionadas con las configuraciones de las relaciones sociales. Dado que muchos fenómenos médicos y relacionados con la salud involucran actores interdependientes (por ejemplo, pacientes, enfermeras, médicos y hospitales), las redes son cada vez más interesantes para los investigadores de los servicios de salud. Entre muchos otros ejemplos se encuentran las redes de apoyo social que pueden servir para mejorar el bienestar individual proporcionando recursos psicosociales o tangibles (Berkman y Syme, 1979); las redes de influencia de los grupos de pares pueden aumentar o proteger contra el riesgo de abuso de sustancias (Unger y Chen 1999) o influir en las decisiones sobre el uso de anticonceptivos (Valente et al., 1997); redes familiares y de amistad que pueden influir en las prácticas alimentarias, los hábitos de ejercicio y otros comportamientos que afectan el riesgo de obesidad (Christakis y Fowler 2007) o de fumar (Christakis y Fowler 2008); redes de asociación sexual que pueden aumentar o reducir el riesgo de contraer enfermedades de transmisión sexual (Laumann y Youm 1999); y redes de discusión entre colegas profesionales que pueden influir en los protocolos de tratamiento o decisiones para prescribir nuevos regímenes de medicamentos (Coleman, Katz y Menzel 1966).

Se han propuesto cinco principales vías de mediación a través de las cuales las relaciones sociales pueden influir en la salud de las personas (Berkman y Glass 2000). Destaca entre ellos el apoyo social, que tiene aspectos emocionales, instrumentales, de evaluación (asistencia en la toma de decisiones) e informativos (House y Kahn 1985). Más allá del apoyo social, las redes también pueden ofrecer acceso a recursos tangibles, como asistencia financiera o transporte. También pueden transmitir la influencia social mediante la definición de normas sobre conductas relacionadas con la salud como el tabaquismo o la dieta, o mediante controles sociales que promueven (por ejemplo) el cumplimiento de los regímenes de medicación (Marsden 2006). Las redes también son canales a través de los cuales se propagan ciertas enfermedades transmisibles, especialmente las de transmisión sexual (Klovdahl 1985), y algunas sostienen que ciertas estructuras de red reducen la exposición a los factores estresantes (Haines y Hurlbert, 1992).

Christakis (2004) ha sugerido recientemente que las intervenciones de salud pueden tener efectos "colaterales", que incluyen no solo al individuo al que se dirige una intervención, sino a otras personas en la red social del objetivo. Tales efectos directos e indirectos (o multiplicadores) en la salud de las intervenciones podrían ser de interés tanto para los médicos como para los pacientes en la selección de tratamientos, y merecen la atención de los formuladores de políticas y los profesionales de la salud pública al evaluar el valor de las intervenciones. Los modelos de redes sociales sobre cómo las personas se influyen mutuamente ofrecen un enfoque para medir la presencia y la magnitud de dichos efectos colaterales para la salud, y un camino hacia la evaluación de los efectos totales de las intervenciones.

El análisis de redes sociales mide las relaciones entre los actores sociales, evalúa los factores que dan forma a su estructura y determina hasta qué punto afectan los resultados relacionados con la salud. Está relacionado pero es distinto de los análisis de los mecanismos a través de los cuales el apoyo social afecta la salud. Los estudios de apoyo social a menudo evalúan solo la recepción agregada o la disponibilidad de apoyo, no necesariamente configuraciones de vínculos entre actores específicos, mientras que solo algunos análisis de redes sociales se enfocan en los resultados de salud; muchos toman la red como el objeto de estudio.

Varias disciplinas de las ciencias sociales, especialmente la antropología y la sociología, han participado durante mucho tiempo en análisis de redes sociales (Freeman 2004). Muchas técnicas y medidas descriptivas de redes se han desarrollado allí. Más recientemente, el interés en el análisis de redes ha aumentado entre los estadísticos. Los avances en el poder de la computación han posibilitado soluciones a problemas previamente insolubles, lo que ha dado lugar a una serie de nuevos modelos y métodos para analizar redes. Junto con el reconocimiento de que las redes son componentes integrales de muchas preguntas de investigación que involucran la convivencia y el funcionamiento de individuos, comunidades, dominios de políticas, lugares de trabajo y escuelas, esto ha llevado a la aplicación ampliada del análisis de redes sociales.

Dos tipos distintos de modelos de red son comunes. Nos referiremos a estos aquí como modelos de nivel individual y relacional, respectivamente. En el primero, el análisis se centra en un resultado a nivel individual, y los datos de la red se usan para definir variables explicativas. El segundo tipo de aplicación modela las relaciones entre los individuos en una red, en esencia tratándola como una variable dependiente multivariada con enlaces individuales (o vínculos) como sus elementos. Tales análisis relacionales representan la estructura de la red utilizando estadísticas de red correspondientes a regularidades en propiedades relacionales (es decir, dependencias entre enlaces de red) y covariables tales como las características de las unidades dentro de la red. Por lo tanto, aunque los modelos a nivel individual hacen inferencias sobre los atributos de los individuos, los modelos a nivel relacional hacen inferencias sobre los vínculos que unen a los individuos. Los modelos a nivel individual se parecen a los modelos de regresión estándar que buscan predecir la distribución de algún resultado medido en un individuo focal o ego, pero difieren en que los predictores pueden involucrar características medidas en otros individuos (a menudo conocidos como "alteradores") de una manera que involucra estructura de red, lo que permite pruebas de hipótesis sobre la influencia social. En los modelos relacionales, la variable dependiente mide un aspecto de la relación entre individuos en la red y se prueban las hipótesis de la selección social. En ambos tipos de problemas, un desafío importante es tener en cuenta una estructura de correlación compleja entre los resultados que surgen debido a la red. Si hay N individuos en un conjunto de datos, esto es de orden N2 en un análisis de nivel individual, pero de orden N2 × N2 en un análisis de nivel relacional.

La siguiente sección revisa algunos fundamentos del análisis de redes sociales, presenta una red que utilizamos como ilustración a lo largo del artículo y describe cómo los conjuntos de datos de red se representan numérica y visualmente. La Sección 3 presenta estadísticas básicas de red tales como densidad y grado, algunas medidas de red descriptivas fundamentales que incluyen índices de centralidad y enfoques para la detección de subgrupos dentro de la red.

2. Antecedentes

2.1. Definición de redes sociales

Una red social consiste en uno o más conjuntos de unidades, también conocidos como "nodos", "actores" o "vértices", junto con las relaciones o vínculos sociales entre ellos. Las unidades o nodos suelen ser personas individuales, p. pacientes o clínicos. Sin embargo, también pueden ser otras unidades sociales (como hospitales) u objetos (como textos). Las relaciones a menudo representan comunicación, influencia, confianza o afecto (por ejemplo, amistad), pero también pueden referirse a conflictos (por ejemplo, disputas). La mayoría de los estudios de redes sociales también incluyen datos de atributos que describen los nodos / actores, las relaciones o ambos.

Ciertas subredes son a menudo de interés. Un par de actores se conoce como una díada y un triple como una tríada. Una estrella consiste en un actor y todas las relaciones que le incumben. Una red egocéntrica consiste en un actor, los otros actores en su vecindad o localidad inmediata, y las relaciones entre ellos.

Cuando -como es lo más típico- la atención se centra en las relaciones que vinculan elementos dentro de un conjunto de unidades / actores, una red se conoce como un modo. La mayor parte de la discusión en este artículo se refiere al caso de un modo. Sin embargo, las redes pueden involucrar a más de un conjunto de unidades / actores. En particular, muchos estudios involucran dos tipos distintos de unidades, como pacientes y médicos, o médicos y hospitales. En estas redes de dos modos, las relaciones elementales de interés usualmente se refieren a las afiliaciones de unidades en un conjunto con aquellas en el otro-p. Ej. de pacientes con los médicos responsables de su cuidado, o de los médicos con los hospitales en los que se les permite practicar. Por lo tanto, las redes de dos modos también se conocen como redes de afiliación.

Si bien la mayoría de los estudios de redes se centran en una sola relación o tipo de vínculo observado en una ocasión, existen datos de redes sociales tanto multirelacionales como longitudinales. Los datos multirelacionales reconocen el carácter multidimensional en muchos vínculos sociales; la relación entre dos médicos, por ejemplo, puede implicar colaboración profesional y amistad personal. Los datos longitudinales permiten el estudio de la creación, transformación y disolución de los vínculos sociales. Muy a menudo, las relaciones medidas son de valor binario (presente / ausente), pero también pueden ser ordinales o cuantitativas.

2.2. Diseños de estudio de red

Aunque se han llevado a cabo algunos experimentos de red (por ejemplo, Friedkin y Cook 1990, Travers y Milgram 1969), la mayoría de los datos de redes sociales son observacionales. Los estudios generalmente miden redes utilizando encuestas y métodos de cuestionarios. Los analistas también explotan los datos registrados en los archivos, incluidos los registros mantenidos por los sistemas de comunicación electrónica (Marsden 1990).

Los estudios de "toda la red" buscan reunir datos sobre las relaciones en una población teórica, es decir, sobre los vínculos que unen a todas las unidades / actores dentro de un colectivo social limitado, como todos los médicos dentro de una práctica médica. En tales estudios, es esencial que se especifiquen límites claros o reglas de inclusión para unidades / actores (Laumann, Marsden y Prensky, 1983).

Los modelos estadísticos, como los modelos de grafos aleatorios exponenciales (ver Sección 5.3) se emplean generalmente para analizar datos de toda la red (como los de la red de médicos) que proporcionan información sobre las relaciones entre todas las unidades / actores dentro de una población cerrada. Por lo tanto, las inferencias pertenecen al modelo postulado que generó esos datos, más que al diseño utilizado para muestrear las relaciones para el estudio de una red más grande. La mayoría de las aplicaciones de tales métodos examinan redes de orden modesto, incluidos entre 10 y 50 actores, aunque se han informado análisis de redes de orden mucho mayor (por ejemplo, Goodreau 2007).

2.3. Ejemplo: Discusiones influyentes entre médicos dentro de una práctica de atención primaria

Una red de influencia médica en una práctica de atención primaria (Keating et al., 2007) se utilizará como ejemplo a lo largo de este artículo. La red se midió como parte de un estudio que examina cómo las redes sociales influyen en las creencias de los médicos y el uso de terapias como la terapia de reemplazo hormonal (TRH). Ejemplifica un estudio de una sola modalidad, transversal, de toda la red. Los actores son médicos en la práctica, y las relaciones son discusiones influyentes sobre los problemas de salud de las mujeres. De 38 médicos, 33 respondieron a una encuesta, informando el número de discusiones influyentes sobre cuestiones de salud de la mujer (medidas ordinalmente, como 0, 1-3 o 4+) que tuvieron con otros médicos en la práctica durante los seis meses anteriores. Nuestros análisis ilustrativos tratan estos datos como de valor binario, distinguiendo entre los informes de ausencia de discusión y de uno o más debates. La encuesta reunió datos de atributos para cada médico, incluidos elementos de viñetas que miden la propensión a recomendar TRH, áreas autoevaluadas de pericia médica y la fracción de mujeres en su panel de pacientes. Los registros administrativos proporcionaron información sobre el sexo del médico y el número de sesiones clínicas por semana.

Creamos dos versiones de valores binarios de la red de influencia médica utilizando estos datos. En la red "dirigida", se dice que existe una relación entre el médico i y el médico j si presento j como socio en una o más discusiones influyentes. Tales citas no necesitan ser correspondidas. En la red "no dirigida", una relación entre i y j está presente si cualquiera de las dos cita al otro como alguien con quien tuvo lugar una discusión influyente. Aquí, la relación está presente o ausente para cada díada, sin direccionalidad.

2.4. Representaciones de redes

Dos formas de representar redes son comunes (Freeman 1989): como matrices y como grafos. En una representación matricial, las filas y columnas corresponden a unidades / actores; la matriz es cuadrada para una red de modo único y rectangular para una red de dos modos. Se requieren matrices múltiples para datos multirelacionales o longitudinales. Las entradas de celda contienen el valor de la relación que vincula las unidades / actores correspondientes, de modo que la celda ijth representa la relación entre el actor i y el actor j. Con los vínculos de valores binarios (1s indica la presencia de un empate), la representación de la matriz se conoce como una matriz de adyacencia. La Tabla 1 muestra la matriz de adyacencia para los primeros diez médicos en la red de influencia de salud dirigida por mujeres. La red parece bastante escasa, ya que hay muchos más de 0 que de 1.

Tabla 1

Matriz de adyancencia (primeros 10 actores) para la red dirigida de influencia de médicos
Start/End12345678910
10000001010
20010001001
30000000000
40000000001
50000000000
60000000000
70000000000
80000001010
91000001000
100000000000
Note: Las celdas conteniendo 1 y 0 denotan la presencia y ausencia de enlace respectivamente.

Las redes a menudo se representan utilizando grafos en los que los actores / unidades son vértices y las relaciones no nulas son líneas. Las relaciones no dirigidas se conocen como "bordes" y las dirigidas como "arcos"; las flechas al final (s) de los arcos denotan su direccionalidad. Las representaciones gráficas a menudo son binarias, pero los gráficos de valor ponderado también se pueden construir mostrando valores de enlace no nulos a lo largo de arcos / aristas, o dejando que las líneas más finas y gruesas representen valores de línea. Dichas imágenes gráficas son un sello distintivo del análisis de redes sociales (Freeman 2004); Las primeras representaciones gráficas de redes se conocían como "sociogramas".

Los grafos de redes son abstractos en el sentido de que no tienen ejes de coordenadas subyacentes. Muchos de esos dibujos son representaciones ad hoc, construidas usando criterios estéticos (por ejemplo, minimizando el número de líneas de cruce). Los algoritmos que incluyen escalamiento multidimensional (Bartholomew y otros 2002) y embedders de primavera (Fruchterman y Reingold 1991) ahora se utilizan a menudo para posicionar unidades / actores en el espacio cartesiano mediante la optimización de alguna función de los datos de red y las coordenadas espaciales de las unidades. Por ejemplo, el algoritmo Fruchterman-Reingold ubica unidades / actores de manera que aquellos conectados por un borde / arco son casi-pero (para evitar el desorden visual) no demasiado cerca el uno del otro, mientras que los desconectados están más separados. Los grafos se pueden mejorar permitiendo que los tamaños, las formas, los colores o las etiquetas de los vértices representen diferentes valores de atributos para unidades / actores.

La Figura 1 muestra la red de influencia del médico dirigida, como la representa el algoritmo Fruchterman-Reingold programado en el paquete de software statnet (Handcock et al., 2003). Excepto por la omisión de las flechas direccionales, el grafo para la red no dirigida correspondiente es idéntico. Los 33 actores (médicos) están etiquetados del 1 al 33. En general, los médicos que a menudo citan o son citados por otros como interlocutores influyentes (como los médicos 21 y 27) tienden a aparecer más cerca del centro del grafo.


Figura 1. Red de influencia médica dirigida cuando los vínculos se definen como 1 o más discusiones influyentes.

Nota: Con la excepción de la omisión de las flechas direccionales, el grafo para la red no dirigida correspondiente es el mismo que el anterior.


Las representaciones graficas de las redes son visualmente atractivas y evocadoras, pero es importante no sobreinterpretarlas. Las distancias trazadas no se corresponden directamente con "distancias sociales" medidas. 2 Disposiciones espaciales distintas, pero formalmente equivalentes, basadas en los mismos datos de red pueden influir en las percepciones de las características estructurales (McGrath, Blythe y Krackhardt, 1997). Los muchos vértices y líneas en grafos de redes grandes y densas pueden volverlos ilegibles. En general, los grafos son más útiles para identificar distintas regiones o clusters dentro de una red, distinguir nodos centrales y periféricos, y revelar nodos intermediarios que unen distintas regiones de la red. Los análisis cuidadosos de las redes generalmente se enfocan en sus características matemáticas y estadísticas, sin embargo, como se discute en las secciones que siguen.

Las visualizaciones de red se pueden construir utilizando numerosos paquetes de software. Entre estos se encuentran el paquete R y sna (Butts 2007), NetDraw (Borgatti 2008) y Pajek (Batagelj y Mrvar 2003).


3. Propiedades descriptivas de las redes

El análisis de los datos de la red a menudo comienza al examinar las estadísticas y medidas descriptivas a nivel de actor y de red. Esta sección revisa muchos de los más comunes. Wasserman y Faust (1994) ofrecen una introducción exhaustiva a las medidas descriptivas de red.

Usamos el símbolo yij para referirnos a una variable de red que registra los datos sobre la relación entre el actor i y el actor j. Una matriz y incluye todas esas variables. En muchas aplicaciones yij tiene un valor binario, tomando el valor 1 si i está vinculado a j y 0 de lo contrario; en este artículo, consideramos que yij tiene valor binario, a menos que así se indique. Las relaciones personales yij generalmente no están definidas. Cuando las relaciones tienen valores binarios, y es la matriz de adyacencia.

3.1. Tamaño y Densidad

Quizás la propiedad más simple de una red es su número de unidades / actores (N), conocido como su orden. Para las redes de valores binarios, la estadística de nivel de relación correspondiente es el número de vínculos, conocido como tamaño (L = Σi, j yij). Una estadística ampliamente citada es la densidad de la red, definida como el tamaño relativo al número de enlaces posibles e igual a L / (N (N - 1)) para las redes dirigidas. De manera más general, para los datos cuantitativos sobre las relaciones, la densidad podría definirse como la fuerza media de un empate.

La red de influencia de 33 médicos es de orden 33. La red de influencia dirigida tiene el tamaño 163, es decir, se observaron 163 enlaces no nulos. Como fueron posibles 33 * 32 = 1056 relaciones, la densidad de la red es 0.154.

3.2 Grado y la distribución del grado

En una red no dirigida, un grado de actor es el número de otros actores con los que está directamente conectado. Los análisis de redes dirigidas distinguen entre los vínculos entrantes y salientes. El número de arcos orientados hacia un actor es el grado de actor (y + j = Σi yij), a veces denominado popularidad o atractivo; el número de arcos que emanan de un actor es su out-grado (yi + = Σj yij), también conocido como expansividad. A menudo, los actores que tienen grados superiores tienen papeles prominentes en la red; de hecho, las medidas más simples de centralidad (Sección 3.6) se basan en el grado (Freeman 1979).

La distribución de grados es la distribución de frecuencia que da el número de actores que tienen grados numéricos particulares. Su variación mide la medida en que la conexión directa varía entre los actores (Snijders 1981). Barabási y sus colegas se han centrado en el grado como su interés analítico fundamental (Barabási 2002; Wolfram 2002), lo que demuestra que muchas propiedades de la red están determinadas por la distribución del grado. Como ilustran los ejemplos en la Figura 2, las redes con la misma densidad global pero diferentes distribuciones de grados pueden tener estructuras bastante diferentes. Una red de "círculo" -en la que el grado de actor es constante (y por lo tanto, la variación de grado es 0) - y una red "de estrella" en la que un actor tiene un grado N - 1 mientras que todos los demás tienen un grado 1 - se encuentra en extremos opuestos de el espectro con respecto a la variación de grado.




Figura 2. Redes circular y estrella


Los histogramas de las distribuciones de grados para la red de influencia médica dirigida se muestran en la Figura 3. La distribución fuera de grado es más uniforme que la distribución en grados, que está marcadamente sesgada hacia la derecha. La desviación estándar entre grados es 5.20, mientras que entre grados es solo 3.29. Muchos médicos rara vez son citados por otros como interlocutores influyentes, mientras que uno tiene un título de 24. Una lista de estadísticas de redes a nivel de actor (Tabla 2) muestra que el médico 27 tiene un grado de out 24 pero en grado de solo 2 Este médico influye directamente en la mayoría de los otros médicos, pero está influenciado por pocos de ellos. Tres médicos no influyen en los demás (tienen un grado 0) mientras que otros dos no están influenciados por otros (tienen un grado 0).



Figura 3. Distribuciones de grados para la red de influencia médica dirigida

Tabla 2

Estadísticas a nivel de nodo para la red dirigida de influencia de médicos
NodoGrado

Intermediación
SalienteEntrante

1730.39
2900
3410.09
4564.39
5231.18
6361.18
72120.78
8800
9101127.64
10050
11430.61
12610.09
13463.36
14020
151034.31

3.3 Rutas y distancia geodésica

Los actores en las redes están conectados entre sí indirectamente a través de intermediarios, así como directamente. Los vínculos distintos de cero en la matriz de adyacencia proporcionan conexiones directas. Una conexión indirecta está presente cuando uno o más caminos de múltiples pasos existen de un actor a un segundo, en cuyo caso se dice que este último es accesible desde el primero. Existe una ruta de longitud 2 desde el actor i hasta el actor j cuando hay un tercer actor h tal que i es adyacente a hyh, a su vez, es adyacente a j. Las rutas pueden involucrar múltiples adyacencias; la longitud de una ruta es la cantidad de relaciones o líneas que contiene. Una ruta geodésica es la ruta más corta entre un par de actores determinado. La distancia geodésica, es decir, la longitud de una ruta geodésica, es quizás la medida de la distancia social más utilizada entre las unidades / actores.

La multiplicación matricial de una matriz de adyacencia y por sí misma produce el número de caminos de una longitud dada entre dos actores. Por ejemplo, el elemento ijth de yk contiene el número de caminos de longitud k desde el actor i hasta el actor j. La distancia geodésica de i a j está dada por el entero positivo k más pequeño para el cual la entrada ijth en yk es distinta de cero. Si no existe un camino de i a j, se dice que la distancia geodésica de i a j es infinita. En redes dirigidas, la distancia geodésica de i a j no tiene por qué ser igual a j a i.

Para la red de médicos dirigidos, el número de rutas de longitud 2 y longitud 3 que comienzan y terminan con los actores 1 a 10 se muestran en los cuadros 3 y 4,4, respectivamente. Hay una disminución rápida en el número de celdas distintas de cero y un aumento en el número de caminos de distancia-k que conectan a la mayoría de los pares de médicos a medida que aumenta la longitud de la trayectoria (k). Sin embargo, algunos pares de médicos conectados directamente no están vinculados indirectamente. Por ejemplo, existe una relación directa entre el médico 2 y el médico 3 (Tabla 1), pero no la ruta de longitud 2 o 3, lo que indica que ninguna secuencia de vínculos a través de uno o dos médicos intermediarios lleva del médico 2 al médico 3.

Tabla 3

Senderos de longitud 2 (primeros 10 actores) para la red dirigida de influencia de médicos
Start/End12345678910
12000114030
20000123040
31000102030
41001112031
50000100010
60000021010
70000011010
81000213030
91001214050
100000000000

Tabla 4

Senderos de longitud 3 (primeros 10 actores) de la red de influencia directa de médicos
Start/End12345678910
1600458180201
2800468200232
3500335130131
4400426130123
51001135051
61000022020
71000022010
8600558200232
910006412230234
100000000000

La Tabla 5 muestra las distancias geodésicas entre los actores 1-10 en la red médica dirigida. Los valores de -1 indican que no existe una ruta de ninguna longitud entre un médico y el otro, es decir, que la distancia geodésica entre ellos es "infinita". Por ejemplo, no hay un camino para el médico 2 de ninguno de los médicos 1-10. Del mismo modo, el médico 10 no puede comunicarse con los médicos 1-9. La distancia geodésica más larga que se muestra es 5, de médico 6 a 10 y de médico 7 a 10.3 Las distancias geodésicas no son simétricas; por ejemplo, del médico 1 al 4 la distancia es 3, pero de 4 a 1 es 2.

Tabla 5

Distancias geódesicas (primeros 10 actores) para la red de influencia directa de médicos
Start/End12345678910
10−1−13221−113
23013221−121
32−103232−123
42−1−10222−121
53−1−13033−123
63−1−14402−125
73−1−14420−125
82−1−13221013
91−1−12221−103
10−1−1−1−1−1−1−1−1−10
Nota: valores  −1 denotan distancias geodésicas “infinitas”.

3.4. El censo de tríadas y la reciprocidad


En las redes dirigidas de valores binarios, pueden existir tres tipos de relaciones diádicas: díadas mutuas, en las que un vínculo de i a j va acompañado de uno de j a i; díadas asimétricas en las que existe una relación entre i y j en una dirección, pero no en la otra; díadas nulas en las que no hay empate en ninguna dirección. El censo díada es el conjunto de tres estadísticas de red que dan el número de cada tipo de díada que se encuentra dentro de una red dada; por ejemplo, el número de vínculos mutuos es M = Σi<j yij yji.

Si todos los vínculos en una red binaria son mutuales o nulos, se dice que la red es simétrica, en cuyo caso la matriz de adyacencia yy su transposición yT son idénticos; una red no dirigida es simétrica por construcción. La presencia y la magnitud de una tendencia hacia la simetría o la reciprocidad en una red dirigida pueden medirse comparando el número de díadas mutuas con el número esperado según un modelo en el que los vínculos se reciprocan al azar. Si el número de mutuas es menor de lo esperado, hay una tendencia a alejarse de la reciprocidad.

El padrón díada para la red de médicos dirigidos incluye 26 díadas mutuas (que abarcan 52 vínculos dirigidos), 111 díadas asimétricas y 391 díadas nulas. La distribución del número de lazos mutuos entre los médicos está sesgada en la derecha (Figura 3), con una media de 1.45 y una desviación estándar de 1.68. Debido a que la proporción de mutuas entre díadas no nulas, 26 / (26 + 111) = 0.190, excede la densidad de la red (que estima la probabilidad de que cualquier vínculo esté presente en una red puramente aleatoria), 0.154, parece haber una tendencia hacia la reciprocidad en esta red. Una prueba formal requiere información sobre la distribución del número esperado de mutuas bajo la hipótesis de reciprocidad aleatoria; pruebas más potentes condicionan las características observadas de la red, como la distribución de grados (Holland y Leinhardt 1981; Snijders 1991). Las pruebas de reciprocidad también pueden realizarse utilizando modelos de regresión que controlan otros efectos de red; La Sección 5 presenta una prueba de reciprocidad basada en la regresión en la red de influencia médica.

3.5. El censo de tríadas, la transitividad y la clausura


Las tríadas en redes binarias no dirigidas pueden incluir relaciones 0, 1, 2 o 3. Se dice que las tríadas que tienen 3 relaciones son cerradas o transitorias, en el sentido de que cada par de unidades / actores vinculados por un vínculo directo también está vinculado por un camino indirecto a través de la tercera unidad / actor. Para las redes binarias dirigidas, existen 16 tipos distintos de tríadas, que se distinguen por el número y la orientación de los vínculos dirigidos que incluyen (Wasserman y Faust 1994). De estos, los tipos de tríadas, incluidas las subestructuras transitivas, en las que la presencia de un vínculo directo de i a j está acompañado por la presencia de un camino indirecto desde i hasta j a través de h, son indicativas del cierre de la red. El censo de la tríada es el conjunto de estadísticas de la red que proporciona la cantidad de tríadas de cada tipo posible en una red observada. El censo de la tríada se relaciona con la media y la varianza de la distribución de grados, y tiene fuertes implicaciones para la estructura general de la red, especialmente para las redes de bajo orden (Frank 1981).

Una indicación de transitividad se puede obtener considerando el subconjunto de tríadas en las que un actor está conectado a las otras y comparando la proporción de triadas que están cerradas (es decir, la proporción en la que j y k están conectados, dado que tanto j como k están conectadas a i) con la densidad de la red (que estima la probabilidad de que dicha tríada se cierre en una red totalmente aleatoria). La red de influencia médica no dirigida4 incluye 1429 tríadas en las cuales un actor tiene vínculos con los otros dos, y 624 tríadas transitorias. La proporción de tríadas transitivas entre las que incluyen al menos dos vínculos es 0.437, que supera con creces la densidad de red no dirigida de 0.256, lo que implica que tales tríadas ocurren con más frecuencia de lo esperado por casualidad. Sin embargo, esta comparación no es una prueba estadística formal, ya que no considera la distribución del número de tríadas cerradas y no cerradas, ni condiciona en el censo díada, la distribución de grados u otras estadísticas de red. Los documentos mencionados anteriormente describen pruebas formales de transitividad, mientras que la Sección 5 lo prueba dentro de un marco de regresión.

3.6. Centralidad

Las medidas de centralidad reflejan la prominencia de los actores / unidades dentro de una red. Se encuentran entre las medidas de nivel de actor más ampliamente utilizadas que se derivan de los datos de red.

Distintas medidas de centralidad (Freeman 1979, Wasserman y Faust 1994) son sensibles a diferentes aspectos de la ubicación de la red de un actor. La más simple se basa en un grado de actor. Existen medidas separadas de centralidad en grado y fuera de grado para las redes dirigidas. La centralidad basada en el grado refleja el nivel de actividad o participación de la red de un actor. Una segunda medida común se basa en la interdependencia: la frecuencia con que un actor se encuentra en una posición intermedia a lo largo de las rutas geodésicas que unen pares de otros actores. En las redes de comunicación o intercambio, los actores con alta centralidad de intermediación tienen una gran capacidad para intermediar o controlar las relaciones entre otros actores. Una tercera medida de centralidad importante, la cercanía, se basa en la suma de las distancias geodésicas de un actor dado a todos los demás; la prominencia de la red basada en la proximidad es inversamente proporcional a esta suma. Los actores vinculados a otros a través de geodésicas cortas tienen comparativamente poca necesidad de unidades intermediarias (intermediarios) y, por lo tanto, tienen una independencia relativa en la gestión de sus relaciones. Las medidas de proximidad están definidas solo para redes en las que todos los actores están mutuamente relacionados entre sí por caminos de distancia geodésica finita; esta condición se aplica a la red de médicos no dirigidos, pero no a la dirigida.

Otro índice de centralidad es sensible a la presencia y / o la fuerza de las conexiones, así como a la centralidad de los actores a los que se vincula un actor focal. Supone que las conexiones con los actores centrales indican una mayor prominencia que las conexiones de fuerza similar con los actores periféricos. Las medidas basadas en esta conceptualización implican el vector propio correspondiente al valor propio más grande de una representación matricial de una red y, por lo tanto, se conocen como medidas de centralidad de vectores propios (por ejemplo, Bonacich 1987). Las diferentes medidas de centralidad a menudo, aunque no siempre, están bien correlacionadas, pero encarnan diferentes aspectos de la prominencia de la red.

Las medidas de centralidad para la red de médicos dirigidos (Tabla 2) muestran que el médico 19 afirma estar influenciado por la mayoría de los demás, teniendo el grado más grande (13), mientras que el médico 27 ​​(con el mayor grado de 24) influye en la mayoría de los demás5. La medida de la interferencia informada en la Tabla 2 se ha escalado para que las puntuaciones indiquen la intermediación como un porcentaje de su nivel máximo posible. Los médicos 9 (escalado entre 27,6) y 27 (escalado entre 20,1) son los más centrales en esta definición. No informamos puntajes de proximidad para la red dirigida, porque no todos los pares de médicos están vinculados por caminos geodésicos finitos.

Los puntajes de proximidad para la red no dirigida (Tabla 6) están estandarizados para la cantidad de médicos en la red (Beauchamp 1965); los valores se encuentran entre 0 y 1 con valores más altos que reflejan una mayor centralidad. El médico 27 ​​(cercanía 0,8) es de lejos el actor más importante de acuerdo con esta medida y los médicos 14, 20 y 25 son los menos. Obsérvese que el médico 25 es menos central en términos de cercanía que el médico 26, aunque el médico 25 tiene un grado más alto. Las centralidades de vectores propios para esta red6 también muestran que el médico 27 ​​(0,35) es el más central, seguido por el médico 9 (0,29); estos se escalan aquí de modo que la centralidad del vector propio de cada actor sea igual al elemento correspondiente del primer vector propio de la matriz de adyacencia.

Tabla 6

Estadístico a nivel de red de la red de influencia de médicos
NodeGradoCercaníaAutovector

180.540.18
290.580.18
350.510.12
4100.580.16
540.480.08
670.550.12
7130.630.24
880.550.18
9160.670.29
1050.450.07
1160.50.12
1270.540.13
1370.540.13
1420.420.04
15100.590.18
16130.630.26
1770.530.13
1840.50.08
19170.680.3
2020.430.04
21170.680.29
2230.470.05
2350.480.09
24150.650.29
2550.430.06
2620.470.06
27240.80.35
2860.510.1
2960.530.14
30120.60.2
3180.550.14
3220.460.04
3390.560.2


Las medidas de centralidad a menudo se toman como indicadores del "poder estructural" basado en la red de un actor; la idoneidad de tal interpretación depende, por supuesto, del contenido de cualquier aplicación en particular. Tales medidas se utilizan a menudo como variables explicativas en modelos de regresión a nivel individual, pero tales aplicaciones no siempre dan cuenta de las interdependencias entre los actores en los conjuntos de datos de toda la red.

Los índices de centralización (Freeman 1979) son estadísticas a nivel de red que se asemejan a la variación de grado, cada vez más grandes en la medida en que todas las relaciones involucran un solo actor (como en la red "estrella" que se muestra en la Figura 2).

3.7. Cliques, componentes y clusters

Los análisis descriptivos a menudo usan datos de red para asignar actores a subgrupos, razonando que ciertos patrones en las relaciones revelan distinciones sociales sobresalientes. A menudo esto implica una búsqueda de regiones densas localmente dentro de una red, es decir, subconjuntos de actores que tienen relaciones fuertes entre sí. Para las redes de valores binarios, un modelo idealizado de dicho subgrupo solidario es la camarilla, un subconjunto máximo de actores con densidad 1.0. Este requisito de densidad de subgrupos es muy estricto, y los análisis de datos de redes empíricas raramente encuentran camarillas de tamaño apreciable. Otros enfoques para identificar subgrupos cohesivos relajan ese estándar de varias maneras (Wasserman y Faust 1994).

Los componentes son un concepto de subgrupo mucho más débil. En una red dirigida, los componentes fuertes son subconjuntos de actores mutuamente vinculados entre sí por caminos de longitud finita. Los componentes fuertes dividen a los actores en una red en subconjuntos mutuamente excluyentes y exhaustivos, que a su vez están parcialmente ordenados. Los componentes débiles se definen de manera similar, excepto que la direccionalidad de las relaciones se ignora al evaluar si dos actores están conectados; por construcción, los componentes débiles están aislados el uno del otro. Muchas redes constan de un componente grande, a veces junto con varios más pequeños y actores únicos. Un estudio de Colorado Springs sobre personas en riesgo de contraer el VIH (Rothenberg et al., 1998) documentó una disminución de horas extras en el tamaño de los componentes en redes de vínculos de riesgo (sexual, consumo de drogas, uso compartido de agujas), conectando esto con una caída en personal toma de riesgos.

Otro concepto de cohesión más es el componente k-conectado (White y Harary 2001): un subconjunto máximo de actores mutuamente vinculados entre sí por al menos k caminos independientes del nodo (es decir, caminos que involucran conjuntos disjuntos de actores intermediarios que también se encuentran dentro el subconjunto). Esta noción enfatiza la solidez de las conexiones entre los elementos dentro de los subgrupos. El mapeo de actores para los componentes conectados a k no es mutuamente exclusivo, y los componentes k para k más altos están anidados dentro de aquellos para k menor.

La red de médicos parece ser relativamente cohesiva. En la red dirigida, un componente fuerte principal incluye 27 de los 33 actores. Los seis restantes son únicos: cuatro de ellos mencionan a los médicos en el componente principal pero no reciben citas de él, mientras que los otros dos son citados por médicos de componentes principales, pero no citan a nadie. La red no dirigida consta de un único componente conectado (débil). De hecho, toda la red no dirigida es un componente biológico, ya que todos los pares de médicos están conectados a través de al menos dos rutas independientes del nodo. La red no dirigida se centra en una camarilla de 7 médicos (médicos 9, 16, 19, 21, 24, 27 y 33 en la Figura 1), que es parte de un componente de 6 conexiones que incluye 17 médicos.

3.8. Homofilia


La tendencia a que las relaciones se formen entre personas que tienen atributos similares se conoce como homofilia (McPherson, Smith-Lovin y Cook 2001). La homofilia implica interacciones estadísticas tripartitas entre los atributos de los actores y la presencia de relaciones, o de forma equivalente, estadísticas de densidad de red específicas de subgrupos. Con una alta homofilia de acuerdo con algún atributo, las redes tienden a la segregación por ese atributo, lo que contribuye al cierre de la red.

Los estudios empíricos en la literatura de la red a menudo informan tendencias hacia la homofilia. En su análisis de la red de médicos, Keating et al. (2007) documentaron fuertes tendencias hacia la homofilia por la ubicación de la organización: las discusiones influyentes tendieron a llevarse a cabo con otros en una clínica médica (subpráctica) dentro de la práctica. Por el contrario, encontraron una tendencia débil e insignificante hacia la homofilia por género.

3.9. Propiedades descriptivas para redes egocéntricas


Numerosas propiedades de la estructura de red en la localidad de un actor se pueden medir usando datos de la red egocéntrica de ese actor (Marsden 1987). Dos de los más comunes son el grado de actor (a menudo denominado tamaño de red egocéntrica) y la densidad de red local: el grado de conexión entre los pares de alteraciones dentro de una red egocéntrica dada. La alta densidad local indica el cierre dentro del vecindario que rodea a un actor. Existe una medida de centralidad de intermediación para los datos de red egocéntricos (Marsden 2002). Las estadísticas específicas de los actores que resumen la distribución de las características alteradas en una red egocéntrica, como la media y la desviación estándar de las edades de los alteradores, miden la composición y la heterogeneidad de la red. Burt (1992) presenta un conjunto refinado de índices que miden el cierre egocéntrico de la red.

Tales propiedades de redes egocéntricas pueden derivarse de datos de toda la red, y también pueden basarse en datos de red egocéntricos obtenidos en encuestas de muestra representativas. Una vez construidos, tales índices se utilizan a menudo como variables explicativas en análisis de regresión que buscan explicar las variaciones en algunos resultados a nivel individual, como el bienestar, o como variables dependientes en los análisis relacionados con los determinantes de la estructura local. Sin embargo, con medidas de red egocéntricas basadas en datos de toda la red (como en la red de médicos), los análisis deben reconocer el complejo patrón de interdependencia entre redes egocéntricas debido al agrupamiento de actores. Sin embargo, no surgen problemas analíticos especiales cuando tales datos se ensamblan dentro de encuestas por muestreo, ya que los actores alternos en una red egocéntrica generalmente no están entre las unidades del ego muestreadas, por lo que es razonable asumir la independencia entre las observaciones en diferentes redes egocéntricas.

Los modelos jerárquicos a menudo se usan para analizar datos egocéntricos ya que las observaciones se agrupan por ego. Este modelo utiliza tanto las covariables entre-ego como las covariantes dentro del yo medidas en los alter o en los vínculos de alter ego (Van Duijn, Van Busschback y Snijders 1999). Debido a la independencia entre los egos, los modelos multinivel cuya matriz de covarianza dentro del ego captura la asociación entre los alteradores vinculados a cada yo y entre ellos pueden aplicarse a dichos datos. Wellman y Frank (2001) proporcionan un ejemplo de modelado jerárquico de este tipo de datos en el contexto del capital de redes sociales. Los modelos jerárquicos estándar no se pueden usar para analizar las estructuras de datos descritas en las Secciones 4 y 5.

3.10 Software para Análisis de Red Descriptivo

La mayoría del software de red actual se encuentra en programas independientes en lugar de en paquetes de software integrado como SAS o Stata, aunque dichos paquetes pueden construir muchas medidas para datos de red egocéntricos. UCINET 6 (Borgatti et al., 2002) es relativamente completo y ampliamente utilizado en la gestión de datos de red y la realización de análisis descriptivos. El paquete R de sna (Butts 2007) también puede realizar la mayoría de los análisis discutidos en esta sección. Ver Huisman y Van Duijn (2005) para otro software de red a menudo más especializado.

4. Modelos de regresión de resultados individuales

Los modelos de regresión de resultado individual están, como de costumbre, principalmente relacionados con cómo la distribución de alguna variable dependiente (por ejemplo, una actitud u opinión) medida en un actor focal se relaciona con una o más variables explicativas. Cuando tales actitudes u opiniones se forman en parte como resultado de la influencia interpersonal, los resultados para los actores no son estadísticamente independientes, como lo suponen muchos modelos de regresión. En cambio, el resultado para un actor estará relacionado con los de los otros actores que lo influencian, lo que lleva a una compleja estructura de correlación. En teoría, cada actor puede influir directa o indirectamente en el otro actor. Los análisis de resultados individuales utilizan datos de red para modelar esta estructura de correlación. Las redes pueden ingresar a través de la construcción de variables explicativas o la modelización de covarianzas entre errores.Deje que Z sea un vector que contenga medidas de un resultado sobre los N actores en una red, X sea una matriz cuya fila contenga un vector de variables predictoras exógenas (por ejemplo, género) para el i-ésimo actor, y W sea una matriz N × N cuya los elementos Wij miden la medida en que el actor i está influenciado por el actor j, los valores más grandes indican una mayor influencia. En los análisis de resultados individuales, las covariables X generalmente miden los atributos de los actores individuales. Estos pueden incluir estadísticas de la red a nivel de actor, como un grado de actor focal, centralidad o densidad local (ver la Sección 3). Si un análisis se basa en datos para actores dentro de redes múltiples disjuntas, las estadísticas a nivel de red, como la densidad global o la centralización de red, pueden variar entre los actores y, por lo tanto, usarse como predictores. Los elementos de W se miden mediante alguna función de los datos de red (por ejemplo, adyacencia, fuerza de enlace o distancia geodésica inversa); normalmente los términos diagonales de Wii se establecen en 0. Típicamente, las filas de W se escalan para sumar a 1, de modo que Wij se puede interpretar como una medida de la influencia relativa de j en i.La interdependencia relacionada con la red entre los resultados Z puede incorporarse de dos maneras distintas. En primer lugar, el resultado de un actor puede depender directamente de los resultados de los alterados con los que está vinculado. El vector Z̄ W = WZ contiene, para cada actor focal, el valor promedio (ponderado) de la medida de resultado para aquellos otros actores a los que ese actor está vinculado por una influencia distinta de cero Wij; como tal, los resultados para otros actores contribuyen a Z̄ W en proporción a su influencia en el ego. Por lo tanto, Z̄ W es un resultado de retraso de red. Para el caso especial en el que W es una matriz de adyacencia escalada (es decir, . Wij=y1i+ if yij = 1 y 0 de lo contrario, donde yi + es el grado de fuera de, es decir, el número de actores que influyen en el actor i), Z̄ W es un vector cuyo i-ésimo elemento es el valor promedio no ponderado del resultado para los alteradores en la red egocéntrica del actor i.

Un modelo de resultado autorregresivo explica la interdependencia entre los resultados al incluir directamente Z̄ W como predictor. Tal modelo de regresión es
Z = αWZXβε, (1)donde ε denota un vector de errores estocásticos, aquí tomados para ser independientes el uno del otro, el parámetro α mide la magnitud del efecto de red, y β es un vector de parámetros de regresión.Alternativamente, los errores ε, en lugar de los resultados Z en sí mismos, pueden ser interdependientes. Dicha autocorrelación de red puede modelarse mediante la inclusión de un término ε̄ W = Wε al especificar la distribución del término de error. El vector ε̄ W contiene, para cada actor focal, el error estocástico promedio (ponderado) para los otros actores a los que ese actor está vinculado por una influencia distinta de cero Wij, nuevamente en proporción a su influencia basada en la red sobre el ego. La relación entre ε̄ W y ε es un efecto de segundo orden que refleja un componente de correlación entre los elementos de Z debido a factores no observables. Obsérvese que bajo la suposición común de que los errores ε son estocásticamente independientes de las variables explicativas X, el término de autocorrelación de red ε̄ W también es independiente de X, mientras que el término rezagado Z̄ W se correlacionará en general con X. Un modelo de regresión que incorpora ε̄ W puede escribirse como
ZXβε,  with ε = ρWεν, (2)donde υ es un vector de perturbaciones aleatorias independientes y el parámetro ρ mide la fuerza de la autocorrelación de la red. La media implícita del vector y la matriz de covarianza de ε son 0 y
var(υ){(IρWT)(IρW)}−1 respectivamente. El modelo (2) puede reescribirse como sigue

Z = ρWZXβ − ρWXβυ.
(3)
La ecuación (3) revela que el modelo (2) difiere del (1) solo por la adición del término de la convariante rezagada  ρWXβ, que mide el efecto de las covariables de otros actores sobre el resultado para un actor. Debido a que los resultados y las covariables retrasadas en la red tienen efectos iguales (aunque opuestos) en el modelo (2), el modelo (1) no está anidado en el modelo (2). Sin embargo, si el modelo (2) se extendiera permitiendo diferentes coeficientes para los términos de autocorrelación para los resultados rezagados Z y las covariables X, entonces tanto (1) como (2) serían casos especiales de ese modelo más general; ver Friedkin (1990) para un ejemplo.

Los modelos de resultados individuales también se pueden especificar usando tanto Z̄ W como ε̄ W. El siguiente modelo de regresión contiene autoregresivos y autocorrelación de red (Anselin 1988, Burt y Doreian 1982), lo que permite diferentes matrices de ponderación para los dos:


Z = αW1ZXβε where ε = ρW2ευ
(4)
donde W1 y W2 son las matrices de peso para los efectos de red espaciados y los efectos de autocorrelación de red, respectivamente. Este modelo incluye dos fuentes de correlación en Z y una fuente de correlación en Xβ.
Varios autores en la literatura de la red (por ejemplo, Doreian 1980, Dow 1984, Doreian 1989, Friedkin 1990) han introducido los modelos (1) y (2), que están relacionados con los modelos utilizados para explicar la autocorrelación en el análisis de datos espaciales. El modelo (2) se conoce comúnmente como un modelo autorregresivo (SAR) simultáneo (Banerjee, Carlin y Gelfand 2004, Waller y Gotway 2004). En contextos puramente espaciales, a menudo se usa una alternativa al modelo SAR conocido como el modelo autorregresivo condicional (CAR) (Waller y Gotway 2004). El modelo CAR especifica la distribución de probabilidad condicional de cada Zi dadas todas las componentes de Z distintas de Zi y luego usa el Teorema de Hammersley-Clifford (Besag 1974) para derivar la distribución conjunta de Z, mientras que el modelo SAR y el modelo de resultado autorregresivo en ( 1) especifique la distribución conjunta del término de error ε y luego induzca la distribución conjunta de Z. Sin embargo, el modelo de CAR no se ha utilizado hasta la fecha en análisis de redes sociales tanto como el modelo de SAR o sus variantes.Las técnicas ordinarias de mínimos cuadrados (MCO) no son adecuadas para estimar los modelos (1), (2) y (4). OLS es inconsistente en el caso de los modelos (1) y (4) porque Z aparece en ambos lados de la ecuación. En el modelo (2), o equivalentemente (3), MCO es ineficiente porque la matriz de covarianza de ε no es diagonal. Estos modelos se pueden estimar mediante métodos mínimos cuadrados generalizados o máxima verosimilitud (Waller y Gotway 2004) o variables instrumentales (es decir, basados ​​en momentos) (Anselin 1988, 1990; Land y Deane 1992). Decidir cómo usar los datos de red para construir la matriz de pesos (o matrices) es un paso importante en la aplicación de estos modelos (Leenders 2002).


4.1. Análisis ilustrativo

Para ilustrar el uso de modelos de resultados individuales para la red de médicos, examinamos los posibles efectos de red en la propensión de un médico a recomendar TRH; denotado RecHRT, este es un puntaje general que promedia las respuestas a varios elementos de viñeta. Nuestra hipótesis fue que RecHRT aumentaría entre médicos fuertemente vinculados a otros con alta propensión a recomendar HRT. En el modelo de resultado autorregresivo (1), la variable explicativa clave (denominada AltHRT) es el valor promedio de RecHRT entre los otros médicos vinculados a cada médico focal a través de vínculos de conversación influyentes. Construimos AltHRT y probamos la autocorrelación de red usando dos versiones diferentes de la matriz de ponderación W, una basada en adyacencias de red directa, la otra en distancias geodésicas inversas escaladas.7 Sexo de médicos, porcentaje de mujeres en el panel de pacientes de un médico y el médico de enfoque outdegree sirve como covariables adicionales.Ajustamos el modelo de resultado autorregresivo y el modelo de autocorrelación de red utilizando cada una de las matrices de peso. Para un W dado, el modelo de resultado autorregresivo es

RecHRTi = β0 + β1Malei + β2PcntWomeni + β3OutDegreei + αAltHRTi + εi
(5)
donde ε ~ N(0, σ2I), y el modelo de autocorrelación de red es
RecHRTi = β0 + β1Malei + β2PcntWomeni + β3OutDegreei + εi
(6)
donde ε ~ N[0, σ2{(IρWT)(IρW)}−1].

Los modelos en (5) y (6) pueden ajustarse maximizando directamente las funciones de verosimilitud respectivas de los datos. Cuando se construye usando los datos de red dirigidos, W es asimétrica incluso antes de que sus filas estén estandarizadas para sumar 1. Esto requirió extender las expresiones para las matrices de covarianza asintóticas usuales del estimador de máxima verosimilitud de los parámetros del modelo (ver Doreian (1981) y Waller y Gotway (2004), en el caso de los modelos autorregresivos y de autocorrelación de redes (SAR), respectivamente) para acomodar W. asimétrico.Las estimaciones para el modelo 5A y el modelo 5B en la Tabla 7 sugieren que AltHRT tiene un modesto efecto positivo sobre la propensión de un médico a recomendar TRH. Sin embargo, debido a que el valor de p para el efecto de AltHRT en RecHRT está muy por encima de 0,05, se requiere más estudio antes de poder llegar a una conclusión firme. El tamaño del efecto estimado es aproximadamente el mismo para las dos versiones de la matriz de peso W. Las estimaciones para los modelos 6A y 6B en la Tabla 7 sugieren que la autocorrelación de la red residual es más débil que el efecto directo de AltHRT en RecHRT. Outdegree tiene un coeficiente negativo moderado en todos los modelos, lo que sugiere que los médicos focales influenciados por un mayor número de otros médicos podrían ser menos propensos a recomendar el uso de HRT.

Tabla 7

Resultados análisis a nivel individual- de la red dirigida de médicos
Model 5A: Autoregressive outcomes, adjacency weight matrix

TermEstimateStd. Errort-valuePr(>|t|)
Intercept16.0783.8974.1260.000
Male−0.2062.331−0.0880.930
PercentWomenPatients−0.0520.048−1.0890.285
Outdegree−0.3530.198−1.7800.086
α(AdjacencyWeightedHRT)0.2770.1691.6350.113
Model 5B: Autoregressive outcomes, geodesic weight matrix
Intercept16.2463.8784.1900.000
Male−0.9862.422−0.4070.687
PercentWomenPatients−0.0630.049−1.2890.207
Outdegree−0.4020.207−1.9400.062
α(GeodesicWeightedHRT)0.3600.1991.8060.081
Model 6A: Network Autocorrelation, adjacency weight matrix
Intercept16.4714.0514.0660.000
Male1.3242.1540.6150.544
PercentWomenPatients−0.0230.045−0.5060.617
Outdegree−0.2090.189−1.1080.277
ρ(AdjacencyWeightedHRT)0.0260.2970.0890.929
Model 6B: Network Autocorrelation, geodesic weight matrix
Intercept16.3664.0684.0230.000
Male1.3712.1600.6350.530
PercentWomenPatients−0.0190.045−0.4230.676
Outdegree−0.2290.188−1.2200.232
ρ(GeodesicWeightedHRT)−0.2330.771−0.3030.764
Nota: Los errores estándar residuales en los modelos 5A, 5B, 6A y 6B son 3.264, 3.248, 3.398 y 3.393, respectivamente. Outdegree es la cantidad de médicos distintos citados por el médico focal como socio en al menos una conversación influyente sobre la salud de la mujer.

El grado en que estos resultados pueden extenderse a otros médicos y clínicas depende de la similitud de los médicos, sus clínicas y el grado en que las diferencias (por ejemplo, debido a las características clínicas o ambientes) afectan el comportamiento del médico. Si el proceso de generación de datos es el mismo, o al menos es intercambiable con, lo que generó la red de influencia del médico, entonces las inferencias tendrán relevancia. Sin embargo, no hay forma de conocer la similitud de las clínicas y sus médicos sin realizar un estudio que extraiga datos de múltiples prácticas (por ejemplo, un diseño de clúster).

4.2. Software para análisis de resultados individuales


Aunque los modelos ajustados en la Sección 4.1 no son estándar en el sentido de que la estructura de covarianza es una función de un parámetro desconocido, nos pareció fácil (e instructivo) escribir nuestros propios procedimientos R para ajustarlos (ver Apéndice). Alternativamente, el procedimiento lnam en el paquete sna (Butts 2007) en R se puede usar para ajustar los resultados autorregresivos y los modelos de autocorrelación de red (ver Apéndice), así como los modelos que contienen ambos términos. Algunos modelos también se pueden estimar utilizando el software existente disponible para el análisis espacial. Por ejemplo, el paquete S + SpatialStats en SPlus se puede usar para adaptarse a los modelos SAR y CAR, y el paquete GeoBUGS en WinBUGS se ajustará a los modelos con términos CAR. Al aplicar paquetes existentes a datos de red, o al desarrollar un código propio, se debe tener el cuidado apropiado para acomodar las matrices de peso asimétricas que comúnmente surgen con los datos de red.

5. Modelos relacionales o de díadas

Los análisis relacionales de topología de red modelan las relaciones en una red social simultáneamente, reconociendo las interdependencias entre ellas. Postulan que las propiedades de red global son el resultado de un conjunto de regularidades localizadas que crean correlaciones que involucran subconjuntos de vínculos de red, p. dentro de actores, díadas, tríadas o tétradas (Robins, Pattison y Woolcock 2005). Ejemplos de tales regularidades son las tendencias a nivel de actor para producir y / o atraer vínculos, las tendencias diádicas hacia la reciprocidad y las tendencias triádicas hacia el cierre o la transitividad. Los modelos relacionales también pueden incorporar datos de atributos sobre actores o relaciones. Por ejemplo, ciertos tipos de actores pueden tender a atraer vínculos, los actores que tienen los mismos atributos o similares pueden tender a estar vinculados (homofilia), o los actores vinculados en una red también pueden estar relacionados en un segundo.

Un modelo relacional, en esencia, especifica un conjunto de reglas de nivel micro que rigen la estructura local de una red. Cuando se aplica a las relaciones entre un conjunto completo de actores, tales reglas podrían generar muchas realizaciones aleatorias. Un modelo exitoso para una red observada debe producir realizaciones con propiedades típicas que coincidan con las propiedades observadas correspondientes. Por lo tanto, la capacidad de reproducir las propiedades de red observadas, especialmente las propiedades que no están explícitamente modeladas, indica que un modelo se ajusta bien. Si un modelo no captura una característica dada de una red empírica, seguramente omite alguna regla consecuente que gobierna la formación de la red.

Desde la década de 1930, una variedad de métodos estadísticos se han utilizado para analizar datos de redes sociales (Wasserman y Faust 1994). Los primeros modelos generalmente se basaban en distribuciones nulas condicionalmente uniformes, postulando que una red observada se extraía de un conjunto de posibles redes que se sabía que tenían características particulares. Inicialmente, los modelos probaron la reciprocidad y la transitividad, condicionando las estadísticas de red de orden inferior. Por ejemplo, Katz y Powell (1957) derivaron la distribución del censo díada para una red dirigida dada la distribución de outdegrees. Holland y Leinhardt (1976) propusieron pruebas de transitividad (y otras propiedades reflejadas en combinaciones lineales de recuentos en el censo de la tríada) frente a un modelo nulo que afirma que la distribución de redes es condicionalmente uniforme dado el padrón díada. Sin embargo, pocas de tales distribuciones son tratables analíticamente. Por ejemplo, la función de masa de probabilidad para una distribución uniforme de redes dadas tanto los grados exteriores como los grados, no se puede anotar, aunque sería claramente deseable condicionar ambas al probar la reciprocidad.

La potencia informática ahora permite la enumeración (para redes de orden pequeña, digamos N <10) o la simulación de redes desde distribuciones hasta ahora intratables (Snijders 1991), permitiendo pruebas no paramétricas para ciertas propiedades de red. Para ilustrar, simulamos 10.000 redes de valores binarios al azar que tienen las distribuciones en y fuera de grado que se muestran en la Tabla 2 para la red médica dirigida. En estas redes simuladas, el número medio de díadas mutuas fue de 15, con un máximo de 24 y un percentil 99 de 20. Dado que el censo díada de la red médica real incluye 26 díadas mutuas, su nivel de reciprocidad parece ser bastante inusual dado sus distribuciones de grado.8

A partir de la década de 1970 y acelerando en la última década, los estadísticos han formulado nuevos modelos estadísticos paramétricos para datos relacionales que pueden incorporar múltiples propiedades de red, así como datos de atributos. Las próximas secciones revisan dichos modelos. Comenzamos definiendo la notación. La variable aleatoria binaria Y ij = 1 si existe un vínculo de red del actor i al actor j e Y ij = 0 en caso contrario. Una matriz de adyacencia Y incluye todas esas variables. Las letras minúsculas, yij y y, respectivamente, denotan realizaciones de estas variables.

5.1. Modelos de independencia de díadas de efecto fijo

Algunos modelos estadísticos para redes enteras son equivalentes a modelos para relaciones individuales Yij o díadas (Yij, Yji). Destacan las distribuciones de grados y la reciprocidad como características que configuran la estructura de la red. Entre los primeros modelos estadísticos que se formularán para los datos de red, dichos modelos son comparativamente simples de estimar e interpretar. Especifican que las variables de red en diferentes díadas son condicionalmente independientes dadas las covariables, por lo que la función de verosimilitud para una red observada es el producto de las distribuciones de probabilidad para las díadas. Por lo tanto, estos modelos se pueden estimar utilizando técnicas de regresión con lazos o díadas como casos.Uno de los modelos más simples corresponde al dígrafo de independencia (Erdös y Rényi 1959) en el cual la presencia de cada posible vínculo es independiente con Yij ~ Bernoulli(pij), donde μij = log(pij)  denota el logaritmo de la probabilidad de un empate de i a j. La aplicación de una hipótesis de homogeneidad μij = μ para todos los i y j simplifica esto a un modelo de parámetro único, en virtud del cual la distribución de probabilidad de posibles redes
Pr(Yy; μ) = exp(μt1(y))(1−exp(μ))N(N−1)−t1(y)
depende sólo del estadístico de red  t1(y) = Σi, j yij, la cantidad total de enlaces.

Los modelos más generales para grafos dirigidos especifican que las díadas, en lugar de vínculos, son independientes. Esto permite que el par de enlaces dentro de una díada (Yij, Yji) se correlacione (positivamente, en el caso de la reciprocidad). Tales modelos generalmente permiten correlaciones entre vínculos que tienen una fuente
(Yij,Yik), jk u objetivo (Yij,Yhj), i ≠ h en común al introducir los efectos "emisor" αi y los efectos "receptor" γi, ajustando así la distribuciones de gradosComo una díada tiene cuatro estados posibles, una distribución multinomial de cuatro componentes sirve como base de un modelo, tomando el par de arcos en una díada (Yij, Yji) como una variable aleatoria multinomial independiente con


Pr(Yij=0,Yji=0)=κ1ij(θ)Pr(Yij=1,Yji=0)=κ1ij(θ)exp(μij+αi+γj)Pr(Yij=0,Yji=1)=κ1ij(θ)exp(μji+αj+γi)Pr(Yij=1,Yji=1)=κ1ij(θ)exp(μij+αi+γj+μji+αj+γi+ρij),

donde κij (θ) = 1 + exp(μij + αi + γj) + exp(μji + αj + γi) + exp(μij + αi + γj + μji + αj + γi + ρij)   es una constante de normalización y θ es una vector que contiene todos los parámetros del modelo. Para la red de influencia del médico, el parámetro μij es un término constante que refleja la probabilidad general de que el médico informe una conversación influyente con el médico j (es decir, densidad de red), el efecto emisor αi refleja la propensión del médico a ser influenciado por otros, el el efecto receptor γj refleja la propensión del médico j a influir en los demás, el parámetro de reciprocidad ρij explica la dependencia dentro de la pareja, y κij (θ) = κji (θ) es una constante de normalización. El modelo (7) está completamente saturado; ordinariamente se simplifica imponiendo condiciones de homogeneidad en μij y ρij.Holland y Leinhardt (1981) introdujeron la densidad de probabilidad p1 incluyendo las condiciones de homogeneidad μij = μ y ρij = ρ para todos los i y j, y tratando los conjuntos de parámetros {αi} y {γj} como efectos fijos. Esto lleva a la función de densidad de probabilidad


p1(y)=Pr(Y=y)=exp{μt1(y)+Niαit2i(y)+Njγjt3j(y)+ρt4(y)}/K(θ)
(8)

donde las estadísticas de red t2i (y), t3 j (y), y t4 (y) se refieren a la diferencia del actor i, la indegree del actor jy el número de díadas mutuas, respectivamente, y K(θ) es una normalización constante. Bajo este modelo, la distribución de probabilidad de posibles redes es condicionalmente uniforme dadas las distribuciones de dos grados y el padrón díada.

Estimamos el modelo p1 para los datos de la red del médico por máxima verosimilitud usando métodos para ajustar modelos log-lineales (Fienberg y Wasserman 1981), imponiendo las restricciones de identificación Σi αi = 0 y Σj γj = 0 en los parámetros emisor y receptor, respectivamente. Las estimaciones de estos últimos parámetros generalmente corresponden a las distribuciones de grados que se muestran en la Tabla 2; por ejemplo, el médico 27 ​​tiene el mayor grado de indegrado (24) y también el mayor parámetro de receptor estimado (γˆ24 = 4.12) .9 El parámetro de reciprocidad estimado (ρ) es 1.91. Interpretable como una razón logarítmica de probabilidades, indica que las probabilidades pronosticadas de un empate entre el médico j y el médico i son casi 7 veces mayores (exp (1.91) = 6.75) si existe un vínculo entre el médico i y el médico j. Una estadística de prueba de razón de verosimilitud para reciprocidad es 20.3 con 1 df. La distribución de esta estadística parece aproximarse a χ2 (1) a medida que aumenta el número de actores (N) (Holland y Leinhardt 1981), sugiriendo (de acuerdo con la prueba no paramétrica presentada anteriormente) una tendencia estadísticamente significativa hacia la reciprocidad.

Las variaciones en la versión de efecto fijo del modelo (7), a veces conocidos como modelos de bloques estocásticos a priori, acomodan datos de atributos categóricos sobre los actores. Dichos modelos pueden restringir el modelo (7) al requerir que los actores que comparten un valor de atributo tengan parámetros idénticos de "expansividad" (αi) y "atractivo" (γj) (Fienberg y Wasserman 1981); por ejemplo, la tendencia a producir vínculos podría ser idéntica entre los actores masculinos. Además, los modelos de bloques estocásticos pueden extender p1 al relajar las restricciones de homogeneidad impuestas sobre los parámetros de densidad μij o los parámetros de reciprocidad ρij, por ejemplo al estimar efectos de densidad y / o reciprocidad separados para pares de actores que comparten un valor de atributo y aquellos que difieren en el atributo (Fienberg y Wasserman 1981, Wang y Wong 1987); la densidad de contacto o la tendencia a la reciprocidad puede ser mayor para parejas del mismo sexo que para parejas de distinto género. Tales especificaciones implican la inclusión de estadísticas de red específicas de subgrupo en la función de densidad p1 mostrada anteriormente. Cuando las restricciones en los parámetros implican que dos actores tienen vectores de probabilidades idénticos para sus vínculos con otros en la red, se dice que ese par de actores es estocásticamente equivalente (Holland, Laskey y Leinhardt, 1983).

5.2. Modelos de independencia diádica de efectos mixtos

Como una alternativa a los efectos fijos en el modelo p1, la estructura se puede introducir en el marco del modelo (7) modelando los parámetros del emisor y del receptor usando efectos aleatorios junto con las covariables a nivel de actor. Los efectos de densidad y reciprocidad permanecen fijos y sujetos a condiciones de homogeneidad; sin embargo, pueden depender de las covariables diádicas. Para datos de red con valores binarios, estas especificaciones conducen a un modelo de efectos mixtos conocido como p2 (Van Duijn, Snijders y Zijlstra, 2004) .10

Deje que los vectores x1ij, x2i, x3 j, y x4ij denoten conjuntos covariados que contribuyen al efecto de densidad μij, el efecto emisor αi, el efecto receptor γj y el efecto de reciprocidad ρij, respectivamente; x2i y x3j son a nivel de actor, mientras que x1ij y x4ij son diádicos. El modelo p2 asume la siguiente estructura jerárquica para los parámetros en (7):

 :

μij=μ+xT1ijθ1αi=ai+xT2iθ2γj=bj+xT3jθ3ρij=ρ+xT4ijθ4,
(9)

donde ai y bj son efectos aleatorios medios-0 que se supone tienen una distribución normal multivariada y una matriz de covarianza no restringida. Wong (1987) estudió un modelo bayesiano relacionado que no permite la dependencia de los parámetros en las covariables medidas. Gill y Swartz (2004) generalizan el marco a otras situaciones que incluyen modelos de bloques estocásticos a priori y redes multirelacionales.

La estimación del modelo de efectos mixtos especificado por (9) requiere métodos para ajustar modelos lineales generalizados jerárquicos con efectos aleatorios cruzados. Van Duijn et al. (2004) esbozan un algoritmo iterativo de mínimos cuadrados generalizados, mientras que Zijlstra, Van Duijn y Snijders (2006) adoptan un enfoque bayesiano y sugieren métodos de Markov Chain Monte Carlo (MCMC) para simular la distribución posterior de los parámetros en p2.

Keating et al. (2007) analizaron los datos de la red de médicos utilizando el modelo p2 y la estimación MCMC con priors difusas. Sin covariables, la mediana de la distribución posterior para el parámetro de reciprocidad fue 1,77 (95% intervalo creíble (IC) 1,01 a 2,55), bastante comparable con la estimación (ρ = 1,91) de p1. Al presentar las covariables, descubrieron que los efectos del receptor eran mayores para los médicos cuyos grupos de pacientes incluían grandes porcentajes de mujeres, que eran expertos autoinformados en salud de la mujer y que tenían un mayor número de sesiones de pacientes por semana. El parámetro de densidad μij fue significativamente mayor (mediana 1.61, IC 95% 1.13 a 2.12) para los pares de médicos ubicados en la misma clínica dentro de la práctica. El parámetro de reciprocidad estimado se hizo más pequeño (mediana 1,29; IC del 95%: 0,50 a 2,17) después del ajuste para las covariables. Los efectos del emisor aleatorio residual ai y los efectos del receptor bj no estaban correlacionados (covarianza mediana -0,22, IC del 95%: -0,83 a 0,28)

Los modelos p1 y p2 son restrictivos porque solo consideran las estadísticas de red correspondientes a las configuraciones de uno o dos actores. Sin embargo, una ventaja de los modelos de doble independencia es que la red consta de múltiples configuraciones independientes (a saber, díadas) y, por lo tanto, existe una noción clara de cómo se puede extraer una muestra de la población de actores. Esto permite que las inferencias y las pruebas asintóticas se traten de la manera habitual. Se requieren modelos más complicados para incorporar efectos de red que involucran dependencias que involucran múltiples díadas, como transitividad o cierre. Los modelos de grafo aleatorio exponencial recientemente desarrollados permiten tales análisis de datos de red, aunque los métodos para muestrear tales datos todavía están en su infancia (Sección 6.3).

5.3. Modelos de grafos aleatorios exponenciales (ERGM)

Los ERGM (Anderson, Wasserman y Crouch 1999; Frank y Strauss 1986; Pattison y Wasserman 1999; Robins, Pattison y Wasserman 1999), también conocidos como modelos p *, permiten formas mucho más generales de interdependencia entre las variables de red que las incorporadas en modelos diádicos de independencia. Los ERGM modelan la probabilidad de que una red observada Y sea realizada por una red observada y como:
:
Pr(Yyθ) = κ(θ)−1exp(∑kθkSk(y))
(10)
donde κ (θ) = Σ y Ψ exp(Σk θk Sk (y))  es una constante de normalización que hace que las probabilidades se suman a 1 a través de posibles redes, y Ψ es el conjunto de posibles redes.11 El lado derecho de (10) describe una fórmula para producir redes aleatorias basadas en estadísticas de red Sk que corresponden a características de red; sus parámetros indican la sensibilidad de la fórmula generadora de red a características particulares. Un positivek positivo indica que la regla para producir redes favorece a las redes con la característica k, mientras que un valor negativo indica que tales redes tienden a evitarse.

En principio, cualquier estadística de red Sk (y) puede aparecer en el lado derecho de (10), y cualquier subconjunto de las variables de red N (N - 1) puede ser condicionalmente dependiente entre sí. Muchas aplicaciones enfatizan las estadísticas correspondientes a configuraciones específicas de red local que consisten en un pequeño número de enlaces yij, de modo que Sk (y) = Π yijk yij es la estadística de red binaria que denota la presencia de la configuración k. El ERGM más general permite un parámetro único para cada configuración distinta (es decir, cada subconjunto de enlaces que toma la forma de interés). Típicamente, sin embargo, los modelos se simplifican imponiendo restricciones de homogeneidad en los parámetros para las configuraciones isomórficas, en cuyo caso las estadísticas de red pertinentes son sumas sobre todas esas configuraciones.

Dado que (8) toma la forma de (10), el modelo p1 de efectos fijos es un ERGM con parámetros para configuraciones que consisten en enlaces individuales yij y enlaces mutuos yij yji, así como estadísticas de red a nivel de actor para outdegrees Σi yij y grados Σj y ij. Las restricciones de homogeneidad sobre los efectos de los vínculos y la mutualidad conducen a los términos s S1 (y) = Σi, j yij y S 2 (y) = Σi< j yij yjien el lado derecho de (10). En p1, las variables de red dependen de manera condicional si comparten un remitente, comparten un receptor o implican reciprocidad.

Los ERGM más generales agregan términos de orden superior. Frank y Strauss (1986) introdujeron la noción de dependencia de Markov, según la cual dos variables de red, yij y ykl, pueden ser condicionalmente dependientes si los dos enlaces tienen algún actor en común, es decir, si i = k, i = l, j = k, o j = l. Este enfoque modela las distribuciones de grados a través de la inclusión de estadísticas para "estrellas k". Una estrella k es una configuración en la que k los vínculos son incidentes para un actor en particular; Las configuraciones de k-estrella están anidadas una dentro de la otra, de modo que un actor con grado m contribuye k-estrellas para k <m; 12 un parámetro de regresión positivo para tal configuración indica una tendencia a que los lazos se agrupen alrededor de un actor particular. Existen distintas configuraciones k-out-star y k-in-star en redes dirigidas. Por ejemplo, un indicador de la presencia de una configuración particular de 2 estrellas es yij yih. La imposición de una restricción de homogeneidad en los parámetros para todas las configuraciones de k-out-star (para una k dada) conduce a la siguiente estadística de red para k-out-stars:

S3:k(y)=i(yi+k)dondeyi+=jyijesel grado sal delactori.
13

Una definición análoga vale para k-en-estrellas. Los modelos generalmente incluyen un pequeño número de términos k-star de orden inferior en lugar de ajustar las distribuciones de grado exactamente, para la parsimonia y porque los términos para diferentes k son a menudo altamente colineales.
Una configuración adicional admisible para los datos de red dirigidos bajo la dependencia de Markov es un "camino 2" (o enlace indirecto), bajo el cual un actor dado j es el receptor de un enlace y el emisor de un segundo; un indicador para la presencia de un camino 2 es el producto de las variables de red yij y jh, h ≠ i. Muy importante en las redes de modelado son las configuraciones triádicas (productos de tres vínculos que involucran a tres actores distintos). En las redes dirigidas, las dos configuraciones triádicas de mayor interés son la tríada transitiva y la de 3 ciclos. Con restricciones de homogeneidad, implican las siguientes estadísticas de red en (10):

Transitivetriad:S4(y)=i<j<kyijyikyjk3cycle:S5(y)=i<j<kyijyjkyki.

La tríada transitiva es el término clave para probar las tendencias hacia el cierre en una red. Los análisis de redes no dirigidas usan una única estadística triádica de "triángulos".

Bajo la dependencia de Markov, los lazos son condicionalmente independientes a menos que compartan al menos un actor. Esto implica que las díadas separadas por al menos un vínculo son condicionalmente independientes dado el resto de la red. Un resultado teórico importante, el teorema de Hammersley-Clifford (Besag 1974), muestra que si todos los grafos isomórficos tienen la misma probabilidad bajo un modelo, entonces un grafo aleatorio no dirigido es un grafo de Markov si y solo si su distribución de probabilidad puede escribirse como

Pr(Y=y;θ)=κ(θ)1exp(n1k=1θkS3:k(y)+τS4(y))
(11)
donde S3:k (y) es el número de k-estrellas y S4 (y). Utilizando estadísticas de red apropiadas que reconocen la direccionalidad, el modelo (11) se generaliza a las redes dirigidas.

La afirmación de que las configuraciones de redes isomorfas tienen efectos homogéneos a menudo es indebidamente restrictiva. Una forma de relajarlo es permitiendo que los efectos de una configuración determinada varíen según las características de los actores. Bajo la dependencia de atributos de Markov (Robins et al., 2007), el efecto de una configuración puede depender solo de los atributos de los actores involucrados en él, de modo que (por ejemplo) el parámetro para la configuración de densidad yij puede depender de los atributos de los actores i y j, pero no en los de los actores k ≠ i, j. El efecto de cualquier configuración de red puede depender de los atributos del actor, pero las aplicaciones se centran en el efecto de densidad. Por ejemplo, la probabilidad de que un empate esté presente puede ser mayor cuando el receptor (j) tiene un género particular o un estado socioeconómico xj, lo que implica la siguiente estadística de red para (10):

Covariante del receptor:S6(y) = ∑i,jyijxj.14

Las interacciones de mayor escala entre los atributos del actor y la densidad también son comunes. Por ejemplo, los efectos de homofilia (Sección 3.8) pueden evaluarse usando una estadística de productos cruzados entre la configuración de densidad y un indicador de similitud de atributos:

Covariante del empalme de nodos:S7(y) = ∑i,jyijI(xixj)

Un modelo ERGM se convierte en no Markovian cuando sus estadísticas de red implican configuraciones en las que al menos un par de enlaces no comparte un actor. Tales configuraciones involucran a cuatro o más actores. La cantidad de estadísticas potenciales se incrementa rápidamente. Una configuración de red no markoviana es una k-path (ruta indirecta de longitud k); por ejemplo, un indicador para la presencia de un camino 3 es  yij y jk ykh, ijkh.. Entre muchos otros está el k-ciclo (k> 3), en el cual una secuencia de k vínculos que involucran k actores distintos comienza y termina con el mismo actor; el producto yij y jk ykh yhi, ijkh indica que hay un ciclo de 4 presente.

Los ERGM con términos de tercer orden y más altos se vuelven mucho más difíciles de hacer, ya que se estiman esencialmente a partir de un tamaño de muestra de 1, la red observada, que para la validez de las inferencias se supone que es toda la red. Si la red observada es toda la red, entonces las inferencias se hacen a una superpoblación de redes que se asemeja a la red observada. Sin embargo, si la red observada es solo una muestra de la red, el modelo que generó la red puede no tener las mismas propiedades o incluso parecerse a la red observada. Esta incongruencia entre la red de muestra y la red completa surge porque no existe una forma general de descomponer las redes en componentes disjuntos cuya distribución de muestreo es la de la red completa (la población de interés en este contexto). Como consecuencia, algunos investigadores defienden que solo los modelos que se pueden construir a partir de procesos generativos (es decir, a partir de suposiciones sobre cómo dos actores individuales interactúan y forman conexiones) deberían usarse en el modelado de datos de redes relacionales.

5.4. Estimación y comprobación del modelo

La estimación, interpretación y simulación para los ERGM se complementa con el hecho de que (10) implica la siguiente expresión para las log-odds de que existe un empate dado el resto de la red:
:

logit[Pr(Yij=1ycij)]=θδ(ycij)
(12)
donde ycij es la realización de la red cuando la relación complemento es aplicada a yij, y δ(ycij)=t(y+ij)t(yij)Multiplicar un estadístico de cambio en particular por el valor de parámetro asociado da el cambio en la log-odds que el vínculo está presente asociado con la estadística en cuestión, condicionada al resto de la red (Snijders et al., 2006). Por ejemplo, si un modelo incluye la estadística de mutualidad S2 (y) y existe el vínculo de j a i, la presencia de un vínculo de i a j crearía un vínculo mutuo adicional, y las probabilidades logarítmicas de observar Yij = 1 aumentaría en θ2, el coeficiente de regresión para la reciprocidad.

Inicialmente, los ERGM se estimaron utilizando una función de seudoligibilidad definida como el producto de las distribuciones condicionales implicadas por (12) sobre pares ordenados (para redes dirigidas) o díadas (en el caso no dirigido) (Besag 1975, Strauss e Ikeda 1990; Wasserman y Pattison 1996). ) Debido a que la pseudolikelihood tiene la misma forma que la función de verosimilitud para un modelo de regresión logística, las estimaciones de los parámetros se obtienen fácilmente. Sin embargo, a menos que la independencia diádica se mantenga, la pseudolikelihood difiere de la verdadera función de verosimilitud, por lo que las inferencias basadas en ella pueden ser poco confiables.

Las estimaciones con mejores propiedades se pueden obtener a través de la función de verosimilitud exacta para (10). Debido a que la constante de normalización κ (θ) implica la suma a través de las 2N N (- 1) redes posibles (dirigidas), sin embargo, el cálculo directo se vuelve intratable a medida que aumenta el número de actores N. Los métodos recientemente desarrollados de la cadena de Markov Monte Carlo (MCMC) ahora permiten que las inferencias se basen en la función de verosimilitud real. Un enfoque (Handcock 2003) se basa en la integración de MCMC (Geyer y Thompson 1992). Se implementa en el paquete R Statnet (Handcock et al., 2003), que puede adaptarse a modelos de redes de tamaño moderado (que involucran a cientos de actores). Este algoritmo simula una muestra de redes utilizando un conjunto de estimaciones de parámetros provisionales; luego actualiza las estimaciones, aproximando κ (θ) usando las redes muestreadas y maximizando la función de verosimilitud asociada. Un enfoque alternativo (Snijders 2002) disponible en StOCNET (Huisman y Van Duijn 2004, 2005) se basa en un algoritmo de aproximación estocástico. La obtención de convergencia puede ser difícil utilizando cualquiera de los enfoques porque la superficie de probabilidad basada en (10) a menudo tiene una forma muy irregular de modo que los procedimientos de estimación quedan atrapados a máximos locales, no convergen o convergen a soluciones "degeneradas" inapropiadas (Handcock 2003) . Como se demuestra en el siguiente ejemplo, se debe tener mucho cuidado al instalar los ERGM.
Antes de interpretar o hacer inferencias basadas en modelos equipados con MCMC, es importante asegurarse de que la cadena de Markov ha convergido a su distribución estacionaria al permitir una fase de quemado suficientemente larga, y extraer suficientes muestras post-quemadas para asegurar que el error de simulación está por debajo de un umbral específico para que las inferencias sean lo suficientemente precisas. El paquete de coda (Best, Cowles y Vines, 1995) en R puede realizar los controles necesarios en conjunto con Statnet (Handcock et al., 2003). Encontramos que las configuraciones predeterminadas en Statnet -que permiten 10,000 iteraciones de burn-in y dibujar 10,000 muestras de post-burn-in separadas por intervalos de 100, para un total de 1,010,000 iteraciones- generalmente fueron suficientes para los modelos que no contenían términos triádicos; el último requirió simulaciones más largas.

El ajuste general de un ERGM se puede cuantificar usando estadísticas como la desviación y el criterio de información Bayesian (BIC). La desviación refleja la cantidad de variabilidad explicada por un modelo y, por lo tanto, aumenta a medida que se agregan los términos. El BIC disminuye a medida que aumenta la desviación, atenuado por una penalización que refleja la dimensión (número de parámetros) del modelo.

Una vez que se obtienen las estimaciones y se asegura la convergencia, se puede evaluar la bondad de ajuste simulando una muestra de redes implícitas en un modelo y luego comparando las distribuciones observadas y predichas de las estadísticas de la red. Para las estadísticas Sk (y) incluidas en el modelo, tales comparaciones son un diagnóstico adicional para la convergencia, ya que indican si las ecuaciones de verosimilitud se cumplen estocásticamente. Las comparaciones que involucran estadísticas que no están en el modelo son señales de la adecuación de la especificación del modelo. Las estadísticas comúnmente utilizadas (y disponibles en Statnet) para evaluar el ajuste del modelo incluyen la distribución de grados, la distribución de las distancias geodésicas entre los actores y el número de contactos compartidos por las díadas de los actores o por los pares vinculados por aristas. Ver Hunter, Goodreau, y Handcock (2008) para una discusión detallada de los métodos para evaluar el ajuste del modelo.

5.5. Análisis ilustrativo: red dirigida

Nuestra aplicación se ajusta a los modelos de la red de médicos, incluidas las configuraciones de densidad, reciprocidad y tríada transitiva; no incluimos parámetros de k-star para modelar las distribuciones de grados en este análisis ilustrativo. Permitimos que el término de densidad dependa de tres covariables receptoras: experiencia de salud de las mujeres (variable de indicador), porcentaje de mujeres en el panel de pacientes de un médico y el número de sesiones clínicas por semana. Estimamos modelos usando el software Statnet.

La Tabla 8 presenta estimaciones para cuatro modelos. El primero, un modelo de Bernoulli, incluye solo la estadística de densidad (bordes); su coeficiente estimado es -1.701. El logit inverso asociado, 0.154, es igual a la densidad total de la red. El segundo modelo agrega la estadística de mutualidad, que tiene un coeficiente positivo (1.187) y altamente significativo (p <0.0001). Usando (10), vemos que las probabilidades logarítmicas de que existe un empate aumentan si se observa el empate recíproco, de acuerdo con observaciones anteriores sobre una tendencia hacia la reciprocidad en esta red. Los médicos en esta práctica evidentemente tienden a considerar que sus conversaciones con colegas sobre la salud de las mujeres son mutuamente influyentes. El coeficiente estimado para el término de densidad (bordes) aquí (-1.952, con logit inverso 0.124) es indicativo de la densidad de los vínculos en ausencia de reciprocidad; sin embargo, cuando un empate es recíproco, la densidad pronosticada aumenta a 0.318, el logit inverso de la suma de la densidad estimada y los parámetros de mutualidad..

Tabla 8

Estimados para modelos ERGM ajustado a la red de influencia directa de los médicos





Model Statistics

Model TermEstimateSEp-valueMCMC SEDevianceBIC
Edges



555.4915.5
 edges−1.7010.085<1e-04NA


Edges + Mutuality



589.3888.5
 edges−1.9520.107<1e-040.002

 mutual1.1870.280<1e-040.006


Edges + Mutuality + Receiver covariates



695.4803.3
 edges−4.8940.443< 1e-040.013

 mutual1.2440.282< 1e-040.008

 receivercov.whexpert1.2180.214< 1e-040.008

 receivercov.pctwom0.0290.005< 1e-040.000

 receivercov.numsess0.1280.0380.0010.001


Edges + Mutuality + Transitive Triad



744.3740.5
 edges−3.1580.169<1e-04NA

 mutual0.4070.2360.085NA

 transitive triad0.3360.030<1e-04NA

Nota: MCMC no fue necesaria para ajustarse al modelo Edges ya que la regresión logística genera el MLE. El modelo Edges + Mutuality + Transitive Triad se ajustó mediante pseudo-verosimilitud, por lo que los errores estándar pueden no ser confiables; la desviación basada en la función de pseudo-verosimilitud se informa para ese modelo.

En muchas configuraciones aplicadas, el interés sustancial se centrará en cómo las variables de atributo están asociadas con aspectos de la estructura de la red. El tercer modelo ilustra esto al permitir que el efecto de la configuración de densidad varíe con las tres covariables del receptor. Las estimaciones sugieren que los médicos con experiencia en la salud de la mujer, altas proporciones de pacientes mujeres y más sesiones clínicas por semana eran más propensos a ser citados como influyentes por sus pares.

Cuando intentamos agregar el término tríada transitiva al segundo modelo, encontramos dificultades para estimar los parámetros del modelo por máxima verosimilitud. Aunque los coeficientes de regresión resultantes son finitos y la desviación indica que el ajuste del modelo mejoró, las redes simuladas usando los parámetros estimados tienden a ser extremas, a menudo exhibiendo una distribución bimodal que incluye solo redes totalmente densas o nulas. Las proporciones en cada uno de los modos son tales que los valores promedio simulados de las tres estadísticas de red del modelo (bordes, mutualidad y tríada transitiva) son similares a los observados, lo que sugiere un buen ajuste del modelo, pero esto es engañoso: la incapacidad de simular las redes que se asemejan a la red observada señalan una discrepancia radical entre el modelo y los datos. Esta condición se conoce comúnmente como degeneración, y se encuentra a menudo cuando se ajustan los ERGM, incluidos los términos k-star y triádicos. La degeneración puede surgir porque la red contiene un alto grado de heterogeneidad estructural (por ejemplo, regiones densas con muchos triángulos mezclados o nodos de alto grado mezclados con regiones de baja densidad), lo que dificulta (y quizás imposibilita) encontrar valores de parámetros que describan toda la red .

Debido a la degeneración con el ajuste del modelo con el término de la tríada transitiva, la Tabla 8 informa estimaciones de seudoliminación basadas en (12). Estas estimaciones sugieren una tendencia hacia el cierre de la red; es decir, que si un médico influye en un segundo indirectamente a través de un tercero, el primer médico también tiende a influir directamente sobre el segundo. Debido a que las propiedades de las estimaciones de pseudo-verosimilitud son poco conocidas, la interpretación y la inferencia basadas en estas estimaciones pueden ser solo tentativas y cautelosas.

La degeneración encontrada en nuestro intento de ajustar el último modelo puede indicar que un único efecto de transitividad homogénea no describe bien esta red; observamos en la Figura 1 que parece contener una o dos regiones muy densas. Tal agrupamiento puede indicar que las tríadas transitivas tienden a estar próximas entre sí, por lo que son necesarios términos de orden superior. La siguiente sección presenta algunas estadísticas de redes desarrolladas recientemente que capturan dichos fenómenos y pueden ser útiles cuando se encuentra degeneración.

5.6. Sobrellevando problemas de estimación: Nuevas parametrizaciones

Para simplificar, en esta sección consideramos solo modelos para redes no dirigidas. Allí, la extrema falta de adaptación conocida como degeneración se enfrenta comúnmente cuando se ajustan los modelos ERGM, incluidos los términos k-star o triádicos. Intentar modelar la distribución del grado utilizando un solo término de 2 estrellas a menudo conduce a problemas como los ilustrados por el último modelo en la Tabla 8, que incluyó la estadística de la tríada transitiva.Los modelos que incluyen estrellas de orden superior a menudo producen estimaciones más satisfactorias (Robins et al., 2005). En tales modelos, la magnitud de los coeficientes para términos sucesivos de estrellas a menudo disminuye a medida que aumenta el orden de las estrellas; además, los signos de estos coeficientes tienden a alternarse, de modo que un parámetro negativo de 3 estrellas atenúa la tendencia de los vínculos a concentrarse en actores particulares implicados por un parámetro positivo de 2 estrellas. Dado que los términos de k-estrella múltiples suelen exhibir colinealidad sustancial, la imposición de restricciones lineales sobre sus coeficientes simplifica la estimación, lo que lleva a la estadística de k-estrella alterna propuesta por Snijders et al. (2006):

S8(y,λ1)=k=2N1(1)kS3:k(y)λk21,
donde λ1 es un parámetro (ordinariamente más grande que 1) gobernando la tasa a la cual con la magnitud de los coeficientes de regresión para los términos k-estrella declinan a medida que k crece.16
Una estadística similar ha resultado útil para abordar los problemas de degeneración que se encuentran al intentar ajustar modelos a redes no dirigidas que incluyen un parámetro para las configuraciones "triángulo" yij yik yjk. Una configuración de orden superior que captura la tendencia de los triángulos a agruparse en las proximidades de la otra -como puede ocurrir en la Figura 1-se conoce como el "triángulo k": un conjunto de k triángulos que descansan sobre una base común. Por ejemplo, un indicador de la presencia de un triángulo 2 que descansa sobre la base yij es yij yik yjk yih yjh; dos triángulos (que involucran a los actores i, jyk, y los actores i, jyh) se superponen en yij Los términos del triángulo k se pueden combinar en una estadística para agrupar configuraciones transitorias que no son lineales en el recuento de triángulos, sino da menor probabilidad a las estructuras altamente agrupadas. Paralelamente a la estadística de k-estrella alterna, esta estadística alterna de triángulo k se define como

S9(y,λ2)=3S4:1(y)+k=2N2(1λ2)k1S4:k(y)
where S4:k (y) is the number of k-triangles (S4:1 (y) = S4 (y) is the regular triangle statistic) and λ2 > 1

S10(y,ρ)=eρN2k=1{1(1eρ)k}EPk(y)
donde EPk (y) = Σi<j yij I(spij = k) es el número de pares enlazados quiénes comparten k socios, spij = Σk yik yjk es el número de socios compartidos por actores actores i y j (Goodreau 2007; Hunter 2007) y el parámetro ρ controla la tasa a la cual los ponderadores asigandos asignados a las configruaciones teniendo k socios compartidos declinan con k.

5.7. Análisis ilustrativo: red no dirigida

La Tabla 9 informa las estimaciones de cinco modelos que se ajustan a la red de influencia médica no dirigida. El primero es nuevamente un modelo de Bernoulli que incluye solo el término de los bordes; su coeficiente estimado de -1.049 tiene un logit inverso asociado de 0.259 igual a la densidad de la red no dirigida. El segundo modelo agrega el término GWESP S 10 (y, ρ) con un coeficiente fijo ρ de 1.2.17 El ajuste del modelo no fue degenerado, y el coeficiente de regresión positivo para el término GWESP ofrece evidencia de transitividad en la red no dirigida.

Tabla 9

Estimación de modelos ERGM ajustado para la red de influencia indirecta de médicos





Model Statistics

Model TermEstimateSEp-valueMCMC SEDevianceBIC
Edges



127.4610.8
 edges 1.0490.099<1e-04NA


Edges + gwesp



291.2453.4
 edges 4.2790.550<1e-040.010

 gwesp(1.2)0.9260.146<1e-040.003


Edges + gwesp + kstar(2:3)



300.3463.0
 edges 3.2531.2660.0100.026

 gwesp(ρ)0.6620.2630.0120.004

 ρ0.9300.151<1e-040.002

 kstar20.0450.1220.7110.002

 kstar3 0.0060.0130.6240.000


Edges + gwesp + Node match covariates (pooled)



302.8454.3
 edges 3.9640.782< 1e-040.017

 gwesp(1.2)0.8060.192< 1e-040.004

 nodematch.male0.5320.1720.0020.006

 nodematch.clinic 0.0080.1730.9620.006


Edges + gwesp + Node match covariates (not pooled)



315.3460.5
 edges 4.3400.540<1e-040.028

 gwesp(1.2)0.8720.196<1e-040.009

 nodematch.male0.4330.4690.3570.040

 nodematch.clinic.11.3990.9170.1270.025

 nodematch.clinic.20.0420.7680.9560.146

 nodematch.clinic.32.9891.8840.1131.393

 nodematch.clinic.42.1970.520<1e-040.050

Nota: MCMC no fue necesario para ajustar el modelo Edges como una regresión logística dando el MLE.



El tercer modelo, un modelo exponencial curvo, agrega términos de 2 y 3 estrellas para modelar la distribución de grados, y también estima el parámetro ρ en el término GWESP. Los coeficientes para los dos términos k-star tienen signos opuestos, pero ambos son insignificantes; por lo tanto, parece que no hay tendencia, después de ajustar por agrupamiento, para que los vínculos en esta red se concentren en actores particulares.

Ninguna covariable a nivel de actor se asoció directamente con la densidad de vínculos en esta red; porque el Keating et al. (2007) el análisis p2 de la red dirigida encontró que las covariables de los actores influyeron en la tendencia a recibir pero no a las citas, la ausencia de efectos covariables puede deberse al hecho de que la direccionalidad de los vínculos se eliminó cuando construimos la versión no dirigida de red. En común con Keating et al. (2007), sin embargo, encontramos evidencia de que los médicos del mismo sexo y en la misma clínica dentro de la práctica tendían a citarse entre sí. Además de los bordes y los términos de GWESP, nuestro cuarto modelo introduce covariables diádicas para pares de médicos del mismo género y en la misma clínica; el coeficiente de "misma clínica" está obligado a ser el mismo para cada una de las cuatro clínicas distintas dentro de la práctica. Las estimaciones del coeficiente sugieren una densidad significativamente más alta entre los médicos del mismo sexo, pero, una vez deducido el efecto de agrupación general modelado por el término GWESP, no hay una tendencia similar evidente para los médicos de la misma clínica. Cuando en cambio permitimos que el efecto de "misma clínica" varíe entre las cuatro clínicas distintas, en el quinto modelo, encontramos una densidad significativamente elevada dentro de la cuarta práctica, que incluye médicos que se especializan en la salud de las mujeres. Los parámetros estimados para la densidad dentro de las otras tres clínicas también son positivos, pero tienen valores p mayores que 0.10. El valor de p para el coeficiente de la estadística de "mismo género" en el modelo 5 excede de 0.3, aunque su estimación (0.433) es solo algo menor que la correspondiente en el modelo 4 (0.532, valor de p 0.002); la diferencia puede reflejar una tendencia para que los médicos varones y mujeres se basen en diferentes clínicas.

Los indicadores de bondad de ajuste apuntan a diferentes conclusiones sobre cuál de estos modelos corresponde mejor a los datos. BIC prefiere los modelos más parsimoniosos, tomando sus valores más pequeños para los modelos 2 y 4. La comparación de la desviación para los modelos anidados 4 y 5 sugiere, sin embargo, que este último tiene un mejor ajuste (diferencia en la desviación = 12.5, 3 df), y por lo tanto, la tendencia hacia la homofilia difiere significativamente entre las clínicas. Las estadísticas de red observadas se reproducen mejor a través de simulaciones basadas en los modelos 4 y 5, lo que indica que la homofilia por clínica y género juega un papel importante en la estructuración de esta red.

5.8. Software para modelos relacionales


Mientras que algunos modelos estadísticos elementales para redes como p1 se pueden estimar mediante rutinas en paquetes de software estándar, la mayoría requiere programas especializados. Statnet (Handcock et al., 2003) es un conjunto de paquetes R para el análisis estadístico de redes; su paquete "ergm" lleva a cabo la estimación MCMCMLE de los ERGM. Los módulos en StOCNET (Boer et al., 2006) implementan varios modelos cubiertos aquí, incluyendo pruebas no paramétricas basadas en enumeración o simulación, p2 y modelos de bloques estocásticos a posteriori (ver a continuación). Su módulo SIENA estima los ERGM, así como un modelo de datos longitudinales presentado en la siguiente sección. PNET (Wang, Robins y Pattison 2008) estima los ERGM a través del algoritmo de aproximación estocástica utilizado en SIENA.

6. Desarrollos recientes para modelar redes

Este artículo presentó e ilustró representaciones de datos de red, medidas descriptivas de redes y los dos tipos principales de modelos de redes estadísticas. Aunque cubrimos muchos métodos de red ampliamente utilizados, no podemos ser exhaustivos aquí. Brevemente nos referimos a algunos desarrollos adicionales en el análisis de redes, que incluyen modelos de variables latentes, análisis longitudinales de redes y métodos para el muestreo de redes.

6.1. Modelos de variables latentes para datos de red

Los modelos como los ERGM especifican que las interacciones entre los vínculos observados, junto con las covariables medidas, subyacen a las estructuras de red observadas. Una alternativa es postular covariables no observadas a nivel de actor que tengan en cuenta los patrones de red observados. Tales covariables latentes pueden ser categóricas o cuantitativas. Nowicki y Snijders (2001), por ejemplo, desarrollan modelos de bloques estocásticos a posteriori que buscan asignar actores a las clases de una variable categórica latente, de modo que los actores dentro de una clase exhiban patrones relacionales estocásticamente equivalentes.

Los modelos de posición latente (Hoff, Raftery y Handcock 2002) introducen variables cuantitativas latentes. Una especificación de posición latente afirma que las relaciones de valores binarios observadas Yij son condicionalmente independientes dadas las ubicaciones de los actores i y j en un espacio latente y que los vínculos son más probables cuando los pares están cerca en el espacio latente. Una medida común de distancia es la distancia euclidiana d (zi, zj) = (ΣKk = 1 (zi1-zi1) 2) 1/2, donde zi = (zi1, ..., zik) T es un agente de localización variable latente i en un espacio euclidiano K-dimensional. La presencia de vínculos también puede depender de un vector de covariables medidas, xij, que conduce (en el caso de un enlace logit) a un modelo de la forma



log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=α+βTxij(k=1K(zikzjk)2)1/2.
(13)


Debido a que las distancias latentes para un triple de actores deben obedecer a la desigualdad del triángulo, esta formulación modela las tendencias hacia la transitividad que comúnmente se encuentran en las redes sociales. Un modelo de clúster latente (Handcock, Raftery y Tantrum 2007) es una variación de (10) que especifica que las posiciones latentes para los actores individuales son mezclas de patrones asociados con dos o más grupos categóricos latentes de actores. El paquete LatentNet en R (Handcock et al., 2007) usa métodos bayesianos para ajustarse a dichos modelos.

Un modelo de efectos mixtos bilineal generalizado relacionado desarrollado por Hoff (2005) también supone independencia condicional entre vínculos, pero utiliza una especificación del producto interno para el efecto de la variable cuantitativa latente, agrega efectos aleatorios a nivel de actor para remitentes y receptores e incluye una estructura jerárquica como la del modelo p2 (ver (9)) para los efectos de las covariables medidas. Para datos de red con valores binarios, este modelo toma la forma:

:

log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=βTxij+εijwhereεij=ai+bj+γij+ξijcon(ai,bi)TN(0,ab),ab=(σ2aσabσabσ2b),(γij,γji)TN(0,γ),γ=σ2γ(1ρρ1)log(pr(Yij=1zi,zj,xij)1pr(Yij=1zi,zj,xij))=βTxij+εijdondeεij=ai+bj+γij+ξijcon(ai,bi)TN(0,ab),ab=(σ2aσabσabσ2b),(γij,γji)TN(0,γ),γ=σ2γ(1ρρ1)
(14)


y ξij=zTizj with zi ~N(0, Σz).. Las varianzas de efecto aleatorio σ2a y σ2b (respectivamente) cuantifican la dependencia entre observaciones que tienen un emisor común o un receptor común, γij representa una interacción emisor-receptor no restringida, y ρ representa reciprocidad, la correlación de valores de γij dentro de una díada. La interacción del producto interior ξij que implica puntuaciones latentes zi y zj implica que la probabilidad de un empate entre los actores i y j aumenta en la medida en que los vectores latentes zi y zj tienen una dirección y magnitud similares. La inclusión de ξij -in (14) que se puede interpretar como un efecto aleatorio de media 0-modela la transitividad al restringir el grado en que los productos internos zTizk, zTizj y zTjzk pueden diferir entre sí. La magnitud de la transitividad de la red puede resumirse mediante y var(zTizj)=trace(Tzz, que se reduce a Kσ4z en el caso especial donde z=σ2zI. . Cuanto mayor es la magnitud de Σz, mayor es la variación de zi y, por lo tanto, de sus productos internos; por lo tanto, mayor es el potencial de transitividad (u otros efectos de tercer orden como los patrones cíclicos). Para evaluar la presencia de dichos efectos de tercer orden, se podría comparar el ajuste del modelo con y sin el término de producto interno (por ejemplo, utilizando el criterio de información de desviación).

Las ubicaciones latentes z estimadas bajo los modelos de efectos mixtos bilineales y de posición latente proporcionan una base con base estadística para la visualización de la red. Además, los grafos de los valores simulados por MCMC de las ubicaciones latentes representan incertidumbre en una representación espacial que no es capturada por las herramientas de visualización descriptiva.

Una característica atractiva de los modelos de variables latentes que dependen de las especificaciones de independencia condicional es que aceptan fácilmente datos de red no binarios. Al alterar la función de enlace en el lado izquierdo de (13) o (14), estos modelos se adaptan fácilmente al análisis de datos relacionales en forma de variables cuantitativas (por ejemplo, enlace lineal) o recuentos (p. Ej., Log-enlace).

6.2. Análisis de red longitudinal


La gran mayoría de las investigaciones anteriores sobre redes sociales examinan datos de un solo punto en el tiempo. Sin embargo, el interés en datos longitudinales adecuados para estudiar la evolución de la red ahora está aumentando rápidamente. Como de costumbre, las observaciones a lo largo del tiempo en una red pueden ayudar a disipar las preocupaciones sobre la causalidad recíproca y proporcionar una base superior para aislar los efectos causales. Además, algunos sostienen que, dado que los modelos de cambio de red condicionan el estado de una red en la línea de base, pueden ser más fáciles de ajustar que los modelos que buscan explicar cómo nació una red (Snijders 2005).

Solo unos pocos modelos existentes para la evolución de la red (Doreian y Stokman, 1997) adoptan un enfoque estadístico. Dichos modelos estudian el cambio de red dentro de un marco de cadena de Markov de tiempo continuo en el que el constructo central es una matriz de intensidad que rige las tasas a las que surgen y desaparecen los vínculos. Los esfuerzos iniciales modelaron el cambio en el estado de empate asumiendo la independencia diádica (Holland y Leinhardt 1977, Wasserman 1979, 1980). En estos, las tasas de cambio dependían de una sola propiedad de red, como la reciprocidad. Debido a la simplicidad de dichos modelos, a menudo existen expresiones cerradas para las probabilidades de transición, de modo que las estimaciones de máxima verosimilitud se pueden calcular utilizando procedimientos de optimización estándar. Sin embargo, tales modelos rara vez proporcionan descripciones adecuadas del cambio de red.

Un modelo estadístico mucho más elaborado para la evolución de la red es el modelo orientado al actor propuesto por (Snijders 1996, 2001, 2005). Esto se centra en una función objetiva para los actores que pueden ser sensibles a múltiples propiedades de red que incluyen (por ejemplo) reciprocidad, cierre, homofilia o contacto con otras personas de prestigio. El modelo asume que los actores controlan sus vínculos salientes y los modifican para aumentar su satisfacción con la red en uno o más aspectos. Los parámetros estimados indican si los cambios en una propiedad determinada aumentan o disminuyen la satisfacción del actor. Una distinción importante de los ERGM es que las estadísticas de red relevantes en el modelo orientado al actor son específicas del actor en lugar de agregaciones en toda la red. Además de la función objetivo, este modelo también puede incluir una función de tasa que describe la tasa de cambio en los vínculos de salida de un actor, y una función de gratificación indicativa de las diferencias de satisfacción que surgen de la formación y disolución de los vínculos.

Estimar el modelo orientado al actor está, por lo general, fuera del alcance de los métodos estándar de máxima verosimilitud. Los métodos de simulación de MCMC que se basan en un algoritmo de aproximación estocástica están disponibles (Snijders 2001) para admitir inferencias a través del método de momentos, la máxima verosimilitud o los criterios bayesianos. Los detalles sobre estos procedimientos se pueden encontrar en la documentación del módulo SIENA en el paquete de software StOCNET (Huisman y Van Duijn 2004, 2005; Snijders et al., 2007).

El modelado longitudinal será un área importante de crecimiento en el análisis de redes. Las elaboraciones recientes del modelo orientado a los actores permiten a los actores unirse o abandonar la red a lo largo del tiempo (Huisman y Snijders 2003; Snijders 2005), ciertos vínculos son inalterables (p. Ej., Lazos imposibles o de certeza) e imputación parcial18 en intervalos de tiempo (Snijders et al., 2007). Finalmente, si se miden tanto el comportamiento de la red como el de los actores, pueden desarrollarse modelos basados ​​en agentes que permitan que la red cambiante influya en el comportamiento de los actores y, al mismo tiempo, permita que los cambios en el comportamiento de los actores influyan en la red. Dichos modelos tratan una red como un mecanismo de retroalimentación endógeno (Zeggelink 1994). Las versiones recientes de SIENA implementan todas estas innovaciones hasta cierto punto.

6.3. Métodos para redes de muestreo

Las redes de muestreo se pueden dividir en dos tipos principales: muestreo de redes parciales y muestreo de redes enteras. En el primero, la muestra típicamente induce la red (a menudo la red completa es inobservable) mientras que en el último se conoce una red subyacente, pero es imposible de observar o analizar en su totalidad (por ejemplo, redes basadas en Internet).

Existen varios esquemas para muestrear redes parciales (Frank 1981). Se obtiene una red inducida por muestra mediante un muestreo del conjunto de unidades / actores, y luego ensamblando datos sobre las relaciones entre las unidades muestreadas. Los diseños de trazado de enlace o "paseo aleatorio" muestrean aleatoriamente cadenas de relaciones en una red.

Otro esquema muestra estrellas (Frank 1981). Una variante ampliamente utilizada en estas muestras de un conjunto de unidades / actores y obtiene datos sobre las subredes que los rodean, incluidos los atributos de las unidades / actores "alterados" a los que están vinculados directamente, y las relaciones entre esas unidades alteradas. Dichos esquemas se han implementado dentro de encuestas de muestra convencionales de individuos (por ejemplo, Marsden 1987). Los estudios que utilizan tales datos de red egocéntricos buscan explicar las variaciones en la estructura de la red local, o explicar las variaciones en las actitudes o comportamientos de las unidades / actores muestreados utilizando las propiedades de sus redes egocéntricas. Ciertas propiedades de redes completas, incluida la distribución de grados (ver Sección 3.2), también pueden ser aproximadas usando muestras de redes egocéntricas. La Encuesta Nacional de Salud y Vida Social (Laumann et al., 2004), por ejemplo, midió redes sexuales y sociales egocéntricas.

Los datos administrativos y los sistemas de comunicación electrónica permiten cada vez más el montaje de datos de red completa para redes grandes a un costo modesto. Sin embargo, si la recopilación de datos es costosa, el muestreo desde grandes redes para conocer las propiedades de la red es atractivo. El trabajo fundacional de Ove Frank (Frank 1971, 1981, 1988) sigue siendo clave en este campo. Frank describe varios diseños para dibujar muestras de redes inducidas por nodos, p. Ej. mediante un muestreo aleatorio simple de una población de actores (con o sin reemplazo) seguido de la observación de las relaciones entre los nodos muestreados y las inferencias sobre las propiedades de red disponibles a partir de ellos. Una muestra inducida por nodo, por ejemplo, produce inferencias sobre totales de nodos, diadas y triadas, así como la distribución de grados (Frank 1978, 1981).

Un uso importante del muestreo de red se orienta menos a la estimación de propiedades de red que a la localización de elementos de poblaciones raras, no incluidas en la lista y / u ocultas, y a la estimación de propiedades de la distribución de atributos de los nodos / actores en dichas poblaciones. Generalmente conocidos como muestreo de bola de nieve o de referencia de cadena, dichos diseños extraen una muestra inicial de actores y luego rastrean uno o más enlaces a diferentes elementos de esa muestra inicial; este rastreo de enlaces puede repetirse varias veces. Por ejemplo, las versiones de red del muestreo de multiplicidad (por ejemplo, Sudman y Kalton 1986) extraen una muestra de primera etapa de una población general por métodos convencionales y luego seleccionan elementos de la población especial de interés que están relacionados con los elementos de la primera etapa en alguna forma bien definida (por ejemplo, parentesco, residencia conjunta). Para desarrollar pesos adecuados, se debe medir el grado (tamaño de la red egocéntrica) de los elementos en la muestra de la población especial que reflejan la densidad de sus vínculos con la muestra de población general. El muestreo impulsado por los encuestados (Salganik y Heckathorn 2004) comienza con "semillas" que se sabe que pertenecen a la población especial de interés, y los alienta a referir a otros en la población a través de los vínculos de la red. Después de varias oleadas de tales derivaciones, este método tiende a una muestra proporcional a la probabilidad de la población especial, incluso si las semillas se eligen de forma arbitraria y no aleatoria.

Thompson (2006) desarrolla un enfoque muy general de rastreo de enlaces denominado muestreo web adaptativo. Se puede usar para estimar tanto las propiedades del actor como las de la red (como la distribución del grado). Comenzando con un conjunto de semillas dibujado al azar, un diseño de muestreo web adaptable puede trazar un vínculo de un actor ya muestreado a un alter relacionado, investigando así los segmentos interconectados de una población. Sin embargo, con cierta probabilidad, también puede dibujar nuevos elementos al azar. La probabilidad de hacer cada tipo de sorteo puede depender de las características de la muestra actual.

7. Conclusión

Históricamente, el análisis de redes sociales se ha llevado a cabo principalmente en las disciplinas de las ciencias sociales, pero su uso ha crecido rápidamente en los últimos años en muchas otras áreas. Entre las aplicaciones recientes en cuidado de la salud y medicina están los estudios de la red de influencia médica de (Keating et al., 2007), la propagación epidémica de la obesidad descrita por Christakis y Fowler (2007) y la de fumar (Christakis y Fowler 2008), la propagación del SIDA (Morris et al., 2006), la difusión del conocimiento sobre la nueva tecnología médica (Miguel y Kremer 2003), los patrones de uso de anticonceptivos a lo largo del tiempo (Behrman, Kohler y Watkins 2002) y la propagación de infecciones de transmisión sexual vía sexual redes de Laumann y colegas (Laumann et al. 2004). Como ha sido la tendencia en salud, la mayoría de las aplicaciones anteriores tratan la red como fija (por ejemplo, como en los modelos de resultados individuales) en lugar de modelar la red como en el análisis de datos relacionales.

Anticipamos que las aplicaciones del análisis de redes sociales relacionadas con la salud crecerán rápidamente durante la próxima década, ya que las relaciones interpersonales y las redes de apoyo son cruciales para el bienestar de la mayoría de las personas y porque los métodos apropiados para abordar los difíciles problemas analíticos planteados por las redes sociales los datos están cada vez más disponibles. Las aplicaciones informadas del análisis de redes sociales en los servicios de salud y la investigación de resultados no solo arrojarán nuevos conocimientos sobre estos fenómenos, sino que contribuirán a seguir mejorando la metodología de las redes sociales.

Hay una amplia gama de temas que los estadísticos pueden abordar en el futuro, incluidos algunos motivados por los datos de la red de médicos. Estos incluyen la predicción de cómo un nuevo médico que se une a una clínica interactuará con los que ya están allí, y la extrapolación de inferencias basadas en una red a otras redes (por ejemplo, otros hospitales). Las soluciones al primer problema probablemente requerirán un modelado dinámico de datos longitudinales de red para identificar los efectos del cambio en la red. El segundo problema requiere una cuidadosa consideración de la población a la cual se aplica la inferencia y las condiciones bajo las cuales los resultados para una red pueden extenderse a otra; hasta cierto punto, esto es un problema de muestreo. El modelado dinámico de las redes y los métodos de las redes de muestreo son dos áreas que hasta ahora no se han investigado exhaustivamente, pero a las cuales los estadísticos pueden y deben estar muy involucrados. Los métodos para manejar datos faltantes en el análisis de redes también están en su infancia en contraste con las estadísticas convencionales.

Además del trabajo metodológico, se puede realizar más trabajo aplicado mediante el desarrollo de nuevas aplicaciones de análisis de redes sociales. Aunque en aumento, las aplicaciones a la atención médica y la medicina son todavía relativamente pocas. Los estadísticos también desempeñarán un papel importante al destacar las limitaciones de los modelos y las posibles trampas de los paquetes de software. Por ejemplo, los profesionales deben estar sensibilizados a cuestiones tales como la posibilidad de degeneración o la escasa convergencia de los algoritmos de estimación y deben ser conscientes de la necesidad de verificar minuciosamente múltiples diagnósticos para garantizar una interpretación válida de los resultados.


Notas al pie 


1 Para ayudar a los lectores a aplicar estos métodos, proporcionamos algunas referencias al software de red, pero nuestra cobertura de software no es exhaustiva. Huisman y van Duijn (2005) revisan los recursos de software disponibles a principios de esta década.2 El grado en que las distancias en una representación gráfica corresponden a los datos en los que descansan -dídica medidas de distancia social o proximidad- depende de la función objetivo que sirve como criterio de ajuste. cuando la trama está construida. El algoritmo de escalamiento multidimensional "no métrico" más ampliamente utilizado requiere una correspondencia ordinal entre datos y distancias trazadas; La escala "métrica" ​​usa un criterio más fuerte (lineal). Las funciones objetivas utilizadas por muchos métodos de inserción de primavera implican un término de "repulsión de nodo" que simplifica la representación visual al desalentar la ubicación conjunta de los vértices dentro de un gráfico, pero al mismo tiempo limita el alcance al que corresponden los datos y las distancias trazadas. Además, una trama cartesiana baja (ordinariamente 2) puede hacer más o menos bien al representar datos sobre las relaciones entre N actores, que en principio pueden ser (N - 1) -dimensionales.3Tenga en cuenta que algunos o todos los intermediarios a lo largo de estas rutas geodésicas pueden ser médicos 11-33.4Recuerde que la red de médicos no dirigidos es idéntica a la que se muestra en la Figura 1, excepto que los enlaces carecen de direccionalidad.5 Calculamos puntajes de centralidad utilizando el paquete de software UCINET 6 (Borgatti, Everett y Freeman, 2002).6 La centralidad de valores propios puede en principio calcularse para una matriz no simétrica, pero la rutina en UCINET 6 maneja solo el caso simétrico.7 Debido a que dos actores tienen grados de 0, las filas asociadas de W suman 0 en oposición a 1. Por lo tanto, aunque estos actores contribuyen a la estimación de β y σ2, no aportan directamente ninguna información sobre los parámetros de autocorrelación α y ρ. Retuvimos a estos actores en el análisis porque otros médicos los citaron como influyentes sobre ellos y, por lo tanto, eliminarlos omitiría información sobre cómo otros actores se vieron influenciados.8 Las pruebas se realizaron utilizando el paquete de software StOCNET (Boer et al., 2006).9 Debajo de p1, la estimación de un parámetro de receptor es infinitamente pequeña para los actores con un grado de 0 indentificado; asimismo, la estimación de un parámetro emisor es -∞ cuando el correspondiente grado de salida es 0.10 El modelo p2 está estrechamente relacionado con un modelo de relaciones sociales desarrollado por Kenny y La Voie (1984) para variables de red cuantitativas.11 La gran cantidad de términos en κ (θ) complica la estimación de los ERGM. Hay 2N (N - 1) posibles redes de valores binarios dirigidas; por ejemplo, con N = 10, el número de redes posibles -por lo tanto, los términos en κ (θ) -es 1.238 × 1027.12Por ejemplo, un actor con grado 3 contribuye con 1 3 estrellas, 3 2 estrellas y 3 1 estrellas; 1-estrellas son equivalentes a los bordes individuales.13 El conjunto de estadísticas de k-estrellas es equivalente al conjunto de estadísticas de grados (el número de nodos de grado k, k = 1,2,3, ...) en que existe una biyección entre los dos conjuntos de estadísticas (Snijders et al. 2006).14 Una estadística análoga de "covariante emisor" permite que el efecto de densidad dependa de un atributo del emisor (i).15 y + ij es la realización de la red de complemento con yij = 1, mientras que y-ij es la realización de la red de complemento con yij = 0.16 Una estadística equivalente basada en la distribución del grado en sí se conoce como la estadística del "grado geométricamente ponderado"; ver Hunter y Handcock (2006).17No se incluye ningún término de mutualidad, ya que esto es redundante con el término de bordes en una red no dirigida. Restringir el valor de ρ al ajustar el modelo con el término GWESP a menudo es útil; lograr una convergencia adecuada es más difícil cuando se estima como un parámetro libre. Descubrimos que establecer ρ = 1.2 funciona bien aquí; la superficie de probabilidad es relativamente plana, por lo que usar un valor entre 1.0 y 1.5 no afectó a inferencias sobre otros parámetros. Nótese, sin embargo, que ρ se estimó en 0.93 cuando lo dejamos como un parámetro libre en el tercer modelo en la Tabla 9.18Aunque los valores perdidos se reemplazan por valores no perdidos durante la adaptación del modelo, las estadísticas que miden el ajuste del modelo solo se evalúan utilizando actores con valores no perdidos a lo largo del intervalo de tiempo correspondiente. Por lo tanto, la imputación estándar no se realiza.

Referencias

  • Anderson C, Wasserman S, Crouch B. A p* primer: logit models for social networks. Social Networks. 1999;21(1):37–66.
  • Anselin L. Spatial Econometrics: Methods and Models. Dordrecht, The Netherlands: Kluwer Academic Publishers; 1988.
  • Anselin L. Some robust approaches to testing and estimation in spatial econometrics. Regional Science and Urban Economics. 1990;20(2):141–63.
  • Banerjee S, Carlin B, Gelfand A. Hierarchical Modeling and Analysis for Spatial Data. Boca Raton, FL: Chapman and Hall; 2004.
  • Barabási A-L. Linked: The New Science of Networks. New York: Perseus; 2002.
  • Bartholomew D, Steele F, Moustaki I, Galbraith J. The Analysis and Interpretation of Multivariate Data for Social Scientists. New York: Chapman and Hall; 2002.
  • Batagelj V, Mrvar A. Pajek: Analysis and visualization of large networks. In: Jünger M, Mutzel P, editors. Graph Drawing Software. New York: Springer; 2003. pp. 77–103.
  • Beauchamp M. An improved index of centrality. Behavioral Science. 1965;10:161–63. [PubMed]
  • Behrman J, Kohler H-P, Watkins S. Social Networks and Changes in Contraceptive Use Over Time: Evidence from a longitudinal study in rural Kenya. Demography. 2002;39:713–38. [PubMed]
  • Berkman L, Glass T. Social integration, social methods, social support, and health. In: Berkman L, Kawachi I, editors. Social Epidemiology. New York: Oxford University Press; 2000. pp. 137–73.
  • Berkman L, Syme S. Social Networks, Host Resistance, and Mortality: A Nine-year Follow-up Study of Alameda County Residents. American Journal of Epidemiology. 1979;109:86–204. [PubMed]
  • Besag J. Spatial interaction and statistical-analysis of lattice systems. Journal of the Royal Statistical Society, Series B: Methodological. 1974;36(2):192–236.
  • Besag J. Statistical analysis of non-lattice data. Journal of the Institute of Statisticians. 1975;24:179–96.
  • Best N, Cowles M, Vines K. Convergence Diagnosis and Output Analysis Software for Gibbs Sampling Output. Robinson Way, Cambridge CB2 2SR, UK: MRC Biostatistics Unit, Institute of Public Health; 1995.
  • Boer P, Huisman M, Snijders T, Steglich M, Wicher L, Zeggelink E. StOCNET User’s Manual, version 1.7. Groningen, NL: ICS; 2006.
  • Bonacich P. Power and Centrality: A Family of Measures. American Journal of Sociology. 1987;92:1170–82.
  • Borgatti S. NetDraw: Graph Visualization Software. Lexington, KY: Analytical Technologies; 2008.
  • Borgatti S, Everett M, Freeman L. UCINET 6 for Windows: Software for Social Network Analysis. Lexington, KY: Analytical Technologies; 2002.
  • Burt R. Structural Holes: The Social Structure of Competition. Cambridge, MA: Harvard University Press; 1992.
  • Burt R, Doreian P. Testing a structural model of perception: conformity and deviance with respect to journal norms in elite sociological methodology. Quality and Quantity. 1982;16:109–50.
  • Butts C. sna: Tools for Social Network Analysis (release 1.5) 2007.
  • Christakis N. Social networks and collateral health effects. British Medical Journal. 2004;329(7459):184–5. [PMC free article] [PubMed]
  • Christakis N, Fowler J. The Spread of Obesity in a Large Social Network over 32 Years. New England Journal of Medicine. 2007;357:370–79. [PubMed]
  • Christakis N, Fowler J. The Collective Dynamics of Smoking in a Large Social Network. New England Journal of Medicine. 2008;358:2249–58. [PMC free article] [PubMed]
  • Coleman J, Katz E, Menzel H. Medical Innovation: A Diffusion Study. Indianapolis: Bobbs-Merrill; 1966.
  • Doreian P. Linear-models with spatially distributed data- spatial disturbances or spatial effects. Sociological Methods and Research. 1980;9(1):29–60.
  • Doreian P. Estimating linear models with spatially distributed data. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 359–88.
  • Doreian P. Network Autocorrelation Models: Problems and Prospects. In: Griffith DA, editor. Spatial Statistics: Past, Present, Future. Ann Arbor: Michigan Document Services; 1989. pp. 369–89.
  • Doreian P, Stokman F. Evolution of social networks: Processes and principles. In: Doreian P, Stokman F, editors. Evolution of Social Networks. Amsterdam: Gordon and Breach Publishers; 1997. pp. 233–50.
  • Dow M. A biparametric approach to network autocorrelation. Sociological Methods and Research. 1984;13:201–17.
  • Erdös P, Rényi A. On random graphs. Publicationes Mathematicae. 1959;6:290–97.
  • Fienberg S, Wasserman S. Categorical data analysis of single sociometric relations. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 156–92.
  • Frank O. Statistical Inference in Graphs. Stockholm: FOA Repro; 1971.
  • Frank O. Sampling and Estimation in Large Social Networks. Social Networks. 1978;11:91–101.
  • Frank O. A Survey of Statistical Methods for Graph Analysis. In: Leinhardt S, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1981. pp. 110–55.
  • Frank O. Random Sampling and Social Networks: A survey of various approaches. Mathematiques, Informatique, et Sciences Humaines. 1988;26:19–33.
  • Frank O, Strauss D. Markov graphs. Journal of the American Statistical Association. 1986;81(395):832–42.
  • Freeman L. Centrality in Social Networks, I. Conceptual Clarification. Social Networks. 1979;1:215–39.
  • Freeman L. Social Networks and the Structure Experiment. In: Freeman L, White D, Romney A, editors. Research Methods in Social Network Analysis. Fairfax, VA: George Mason University Press; 1989. pp. 11–40.
  • Freeman L. The Development of Social Network Analysis: A Study in the Sociology of Science. Vancouver, BC: Empirical Press; 2004.
  • Friedkin N. Social Networks in Structural Equations Models. Social Psychology Quarterly. 1990;53:316–28.
  • Friedkin N, Cook K. Peer Group Influence. Sociological Methods and Research. 1990;19(1):122–43.
  • Fruchterman T, Reingold E. Graph Drawing by Force-Directed Placement. Software-Practice and Experience. 1991;21(11):1129–64.
  • Geyer C, Thompson E. Constrained Monte Carlo Maximum Likelihood for Dependent Data. Journal of the Royal Statistical Society, Series B. 1992;54(3):657–99.
  • Gill P, Swartz T. Bayesian analysis of directed graphs data with applications to social networks. Journal of the Royal Statistical Society, Series C: Applied Statistics. 2004;53:249–60.
  • Goodreau S. Advances in Exponential Random Graph (p*) Models Applied to a Large Social Network. Social Networks. 2007;29:231–48. [PMC free article] [PubMed]
  • Haines V, Hurlbert J. Network Range and Health. Journal of Health and Social Behavior. 1992;33:254–66. [PubMed]
  • Handcock M. Assessing Degeneracy in Statistical Models of Social Networks. Seattle: Center for Statistics and Social Sciences, University of Washington; 2003.
  • Handcock M, Hunter D, Butts C, Goodreau S, Morris M. Statnet: Software tools for the Statistical Modeling of Network Data (release Version 2.1) Seattle, WA: Center for Statistics and Social Sciences, University of Washington; 2003. Project home page at http://statnetproject.org; Software available at http://CRAN.R-projectorg/package=statnet.
  • Handcock M, Raftery A, Tantrum J. Model-based clustering for social networks. Journal of the Royal Statistical Society Series A. 2007;170(2):301–54.
  • Harville D. Matrix algebra from a statistician’s perspective. New York: Springer-Verlag Inc; 1997.
  • Hoff P. Bilinear mixed-effects models for dyadic data. Journal of the American Statistical Association. 2005;100:286–95.
  • Hoff P, Raftery A, Handcock M. Latent space approaches to social network analysis. Journal of the American Statistical Association. 2002;97:1090–98.
  • Holland P, Laskey K, Leinhardt S. Stochastic Blockmodels: First Steps. Social Networks. 1983;5:109–37.
  • Holland P, Leinhardt S. Local Structure in Social Networks. In: Heise D, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1976. pp. 1–45.
  • Holland P, Leinhardt S. A Dynamic Model for Social Networks. Journal of Mathematical Sociology. 1977;5:5–20.
  • Holland P, Leinhardt S. An exponential family of probability-distributions for directed-graphs. Journal of the American Statistical Association. 1981;76(373):33–50.
  • House J, Kahn R. Measures and concepts of social support. In: Cohen S, Syme S, editors. Social Support and Health. New York: Academic Press; 1985. pp. 83–108.
  • Huisman M, Snijders T. Statistical analysis of longitudinal network data with changing composition. Sociological Methods and Research. 2003;32:253–87.
  • Huisman M, Van Duijn M. Software for Statistical Analysis of Social Networks. The Sixth International Conference on Logic and Methodology; Amsterdam, The Netherlands. 2004.
  • Huisman M, van Duijn M. Software for Social Networks Analysis. In: Carrington PJ, Scott J, Wasserman S, editors. Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press; 2005. pp. 270–316.
  • Hunter D. Curved Exponential Family Models for Social Networks. Social Networks. 2007;29:216–30. [PMC free article] [PubMed]
  • Hunter D, Goodreau S, Handcock M. Goodness of fit of social network models. Journal of the American Statistical Association. 2008;103:248–58.
  • Hunter D, Handcock M. Inference in Curved Exponential Family Models for Networks. Journal of Computational and Graphical Statistics. 2006;15(565–583)
  • Katz L, Powell J. Probability distributions of random variables associated with a structure of the sample space of sociometric investigations. Annals of Mathematical Statistics. 1957;28:442–48.
  • Keating N, Ayanian J, Cleary P, Marsden P. Factors Affecting Influential Discussions Among Physicians: A Social Network Analysis of a Primary Care Practice. Journal of General Internal Medicine. 2007;22(6):794–98. [PMC free article] [PubMed]
  • Kenny D, Voie LLa. The Social Relations Model. In: Berkowitz L, editor. Advances in Experimental Social Psychology. New York: Academic Press; 1984. pp. 142–82.
  • Klovdahl A. Social Networks and the Spread of Infectious Diseases. Social Science and Medicine. 1985;21:1203–16. [PubMed]
  • Land K, Deane G. On the large-sample estimation of Regression Models with Spatial or Network Effects Terms: A Two-Stage Least-Squares Approach. In: Marsden PV, editor. Sociological Methodology. Oxford: Basil Blackwell, Ltd; 1992. pp. 221–48.
  • Laumann E, Mahay J, Paik A, Youm Y. Network Data Collection and Its Relevance for the Analysis of STDs: The NHSLS and CHSLS. In: Morris M, editor. Network Epidemiology: A Handbook for Survey Design and Data Collection. New York: Oxford University Press; 2004. pp. 27–41.
  • Laumann E, Marsden P, Prensky D. The Boundary Specification Problem in Network Analysis. In: Burt R, Minor M, editors. Applied Network Analysis: A Methodological Introduction. Beverly Hills, CA: Sage Publications; 1983. pp. 18–34.
  • Laumann E, Youm Y. Racial/Ethnic Group Differences in the Prevalence of Sexually Transmitted Diseases in the United States: A Network Explanation. Sexually Transmitted Diseases. 1999;26:250–61. [PubMed]
  • Leenders R. Modeling social influence through network autocorrelation: constructing the weight matrix. Social Networks. 2002;24(1):21–47.
  • Marsden P. Core Discussion Networks of Americans. American Sociological Review. 1987;52(1):122–31.
  • Marsden P. Network Data and Measurement. Annual Review of Sociology. 1990;16:435–63.
  • Marsden P. Egocentric and Sociocentric Measures of Network Centrality. Social Networks. 2002;24:407–22.
  • Marsden P. Network Methods in Social Epidemiology. In: Oakes JM, Kaufman JS, editors. Methods in Social Epidemiology. San Francisco: Jossey-Bass; 2006. pp. 267–86.
  • McGrath C, Blythe J, Krackhardt D. The Effect of Spatial Arrangement on Judgments and Errors in Interpreting Graphs. Social Networks. 1997;19(3):223–42.
  • McPherson M, Smith-Lovin L, Cook J. Birds of a Feather: Homophily in Social Networks. Annual Review of Sociology. 2001;27:415–44.
  • Miguel E, Kremer M. Networks, Social Learning, and Technology Adoption: The Case of Deworming Drugs in Kenya. Poverty Action Laboratory 2003
  • Morris M, Handcock M, Miller W, Ford C, Schmitz J, Hobbs M, Cohen M, Harris K, Udry J. Prevalence of HIV infection among young adults in the U.S.: Results from the Add Health study. American Journal of Public Health. 2006;96(6):1091–97. [PMC free article] [PubMed]
  • Nowicki K, Snijders TAB. Estimation and Prediction for Stochastic Blockstructures. Journal of the American Statistical Association. 2001;96:1077–87.
  • Pattison P, Wasserman S. Logit models and logistic regressions for social networks: II. Multivariate relations. British Journal of Mathematical and Statistical Psychology. 1999;52(Pt 2):169–93. [PubMed]
  • Robins G, Pattison P, Kalish Y, Lusher D. An Introduction to Exponential Random Graph (p*) Models for Social Networks. Social Networks. 2007;29(2):173–91.
  • Robins G, Pattison P, Wasserman S. Logit models and logistic regressions for social networks: III. Valued relations. Psychometrika. 1999;64(3):371–94.
  • Robins G, Pattison P, Woolcock J. Small and Other Worlds: Global Network Structures from Local Processes. American Journal of Sociology. 2005;110(4):894–936.
  • Rothenberg R, Potterat J, Woodhouse D, Muth S, Darrow W, Klovdahl A. Social Network Dynamics and HIV Transmission. AIDS. 1998;12:1529–36. [PubMed]
  • Salganik M, Heckathorn D. Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling. Sociological Methodology. 2004;34:193–239.
  • Snijders T. The Degree Variance: An Index of Graph Heterogeneity. Social Networks. 1981;3:163–74.
  • Snijders T. Enumeration and Simulation Methods for 0–1 Matrices with Given Marginals. Psychometrika. 1991;56(3):397–417.
  • Snijders T. Stochastic Actor-oriented Models for Network Change. Journal of Mathematical Sociology. 1996;21:149–72.
  • Snijders T. The statistical evaluation of social network dynamics. In: Sobel ME, Becker MP, editors. Sociological Methodology. Boston: Basil Blackwell; 2001. pp. 361–95.
  • Snijders T. Markov Chain Monte Carlo Estimation of Exponential Random Graph Models. Journal of Social Structure. 2002;3.2
  • Snijders T. Models for longitudinal social network data. In: Carrington P, Scott J, Wasserman S, editors. Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press; 2005. pp. 215–47.
  • Snijders T, Pattison P, Robins G, Handcock M. New specifications for exponential random graph models. In: Stolzenberg R, editor. Sociological Methodology. Boston, MA: Blackwell; 2006. pp. 99–153.
  • Snijders T, Steglich C, Schweinberger M, Huisman M. Manual for SIENA version 3.2. Groningen, The Netherlands: University of Groningen; 2007.
  • Strauss D, Ikeda M. Pseudolikelihood estimation for social networks. Journal of the American Statistical Association. 1990;85:204–12.
  • Sudman S, Kalton G. New Developments in the Sampling of Special Populations. Annual Review of Sociology. 1986;12:401–29.
  • Thompson S. Adaptive Web Sampling. Biometrics. 2006;62(4):1224–34. [PubMed]
  • Travers J, Milgram S. An Experimental Study of the Small World Problem. Sociometry. 1969;32(4):425–43.
  • Unger J, Chen X. The role of social networks and media receptivity in predicting age of smoking initiation: A proportional hazards model of risk and protective factors. Addictive Behaviors. 1999;24:371–81. [PubMed]
  • Valente T, Watkins S, Jato M, van der Straten A, Tsitol L. Social network associations with contraceptive use among Cameroonian women in voluntary associations. Social Science and Medicine. 1997;45:1837–43. [PubMed]
  • Van Duijn M, Snijders T, Zijlstra B. P2: A Random Effects Model with Covariates for Directed Graphs. Statistica Neerlandica. 2004;58(2):234–54.
  • Van Duijn M, Van Busschback J, Snijders T. Multilevel analysis of personal networks as dependent variables. Social Networks. 1999;21:187–209.
  • Waller L, Gotway C. Applied Spatial Statistics for Public Health Data. Hoboken, NJ: Wiley Interscience; 2004.
  • Wang P, Robins G, Pattison P. PNet: Program for the Simulation and Estimation of P* Exponential Random Graph Models. (release Department of Psychology, University of Melbourne; 2008.
  • Wang W, Wong G. Stochastic Blockmodels for Directed Graphs. Journal of the American Statistical Association. 1987;82:8–19.
  • Wasserman S. A Stochastic Model for Directed Graphs With Transition Rates Determined by Reciprocity. In: Schuessler KF, editor. Sociological Methodology. San Francisco: Jossey-Bass; 1979. pp. 392–412.
  • Wasserman S. Analyzing Social Networks As Stochastic Processes. Journal of the American Statistical Association. 1980;75:280–94.
  • Wasserman S, Faust K. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press; 1994.
  • Wasserman S, Pattison P. Logit models and logistic regressions for social networks: I. An introduction to Markov graphs and p*. Psychometrika. 1996;61:401–25.
  • Wellman B, Frank K. Network capital in a multilevel world: getting support from personal communities. Social Captial: Theory and Research. 2001:233–73.
  • White D, Harary F. The Cohesiveness of Blocks in Social Networks: Node Connectivity and Conditional Density. In: Becker MP, editor. Sociological Methodology. Boston: Blackwell; 2001. pp. 140–48.
  • Wolfram S. A New Kind of Science. Wolfram Media; 2002.
  • Wong G. Bayesian Models for Directed Graphs. Journal of the American Statistical Association. 1987;82:140–148.
  • Zeggelink E. Dynamics of structure- an individual oriented approach. Social Networks. 1994;16(4):295–333.
  • Zijlstra B, Van Duijn M, Snijders T. The Multilevel p2 Model: A Random Effects Model for the Analysis of Multiple Social Networks. Methodology. 2006;21:42–47.

sábado, 25 de agosto de 2018

Círculos de amigos y elecciones

Lo que nuestros amigos pueden decirnos sobre las elecciones

Preguntarle a la gente sobre sus amigos mejora las predicciones electorales.

En una reciente noche de chicas, rompimos una regla cardinal de conversación educada: discutimos sobre política.


Mirta Galesic Ph.D. | Psychology Today



Los "amigos de una misma pluma" (homofilia) tienden a estar de acuerdo en la mayoría de las cosas. Esa noche, la mayoría estuvo de acuerdo en que el país necesita cambios, y para avanzar hacia este cambio es esencial ir a votar en noviembre. Pero no todos se pusieron de acuerdo. Una novia dijo que no votaría si su partido favorito no presenta un candidato progresivo. Esta actitud fue una sorpresa para mí. Viniendo de un país balcánico con una historia turbulenta, experimenté de primera mano cuán rápidamente pueden fallar los sistemas políticos. Omita una elección y puede encontrar que todo el sistema ha cambiado irrevocablemente. O no es más.

Sin embargo, disfruté esta información porque me ayudó a actualizar mis propias predicciones de elección. Si este amigo querido y respetado piensa de esta manera, podría haber muchos otros como ella en el país. Decidí que debía cancelar mi anticipación de la "ola azul" que todos esperaban.

Discusiones similares están sucediendo en cenas en todo el país. La reticencia habitual a hablar de política en una sociedad educada parece desaparecer junto con la diversidad en los círculos sociales de las personas. Después de todo, cualquier persona con acceso a las plataformas de redes sociales puede obtener mucha información sobre las actitudes de sus amigos, incluso sin pedirlo. Si uno así lo desea, uno puede preseleccionar a sus amigos para evitar la discordia.

Sabemos mejor que nunca cómo se sienten nuestros amigos sobre cuestiones políticas. ¿Se puede aprovechar este conocimiento? Resulta que la respuesta es sí, cuando se trata de predecir las elecciones. En un estudio publicado recientemente, mis colegas y yo incluimos una pregunta sobre los círculos sociales en las encuestas anteriores a los EE.UU. 2016 y las elecciones presidenciales francesas de 2017. En ambos casos, preguntarle a las personas cómo pensaban que votarían sus amigos mejoró las predicciones de los resultados electorales, en comparación con solo confiar en lo que dijeron acerca de ellos mismos [1].



Los cambios en las intenciones de voto individual y el comportamiento (a) se anuncian con semanas de antelación por turnos en los círculos sociales (b). [1]
Fuente: Mirta Galesic

En los EE. UU. tuvimos la oportunidad de incluir estas preguntas sobre el círculo social en un estudio longitudinal realizado durante varios meses previos a las elecciones. Notamos que las preguntas del círculo social mejoraron no solo las predicciones del resultado general de las elecciones, sino también las predicciones de las intenciones de voto y el comportamiento de las personas (ver figura).

Hay varias razones por las que preguntar sobre los círculos sociales mejora las predicciones electorales. Primero, la gente sabe bastante sobre las características de sus amigos, incluida su orientación política [2]. Este "conocimiento interno" puede ayudar a los encuestadores a superar los límites de sus muestras, e incluir información sobre personas que de otra manera nunca participarían en las encuestas en primer lugar.

La segunda razón es que podría ser más fácil para las personas decir que los amigos votarán por un candidato "vergonzoso" que el que ellos mismos lo harán [3]. Si bien este podría haber sido el caso en las elecciones estadounidenses de 2016, parece que las personas no tenían ningún problema en admitir que votarían por un candidato de extrema derecha en las elecciones francesas de 2017. Tampoco parece que quede mucha vergüenza cuando se trata de expresar las preferencias de voto en los Estados Unidos de 2018.

La tercera y tal vez la razón más interesante es que los amigos nos influyen con el tiempo. Entonces, aunque no estemos de acuerdo con nuestros amigos ahora, podríamos ver el mundo como lo hacen en uno o dos meses. En cierto modo, informar sobre nuestros amigos es como mirar hacia nuestro propio futuro.

Por supuesto, también podemos optar por desconectarnos de los amigos en desacuerdo. Afortunadamente, al menos en lo que respecta a las amistades cercanas, los desacuerdos políticos no tienen por qué ser fatales para una relación. En mi caso, ciertamente seguiré gustando y respetando a mi amigo. Quién sabe, tal vez dentro de unos meses llegue a ver las cosas de la forma en que lo hace.


Referencias

[1] Galesic, M., Bruine de Bruin, W., Dumas, M., Kapteyn, A., Darling, J., & Meijer, E. (2018). Asking about social circles improves election predictions. Nature Human Behaviour, 2, 187-193.
[2] Galesic, M., Olsson, H., & Rieskamp, J. (2018). A sampling model of social judgment. Psychological Review, 125, 363-390.
[3] Barton, A. J. (1958). Asking the embarrassing question. Public Opinion Quarterly, 22, 67-68.

miércoles, 22 de agosto de 2018

La teoría de grafos ayudó a desinfectar Londres

La teoría de grafos ayudó a los británicos a ser menos apestosos


Este es el segundo de una serie de artículos que explican los principios de la teoría de grafos para quienes pueden usarlo en un contexto de ciencia de datos. El primer artículo, que se centra en los orígenes de la teoría de grafos y las propiedades básicas de los grafos, se puede encontrar aquí.


Keith McNulty | Towards Data Science


Una mañana de julio a mediados del siglo XIX, la gente de Londres se despertó con un hedor repugnante y retorcido. No podían salir de sus casas sin estar enfermos. Los más acomodados se ataban los pañuelos con perfume y caminaban cubriéndose permanentemente la cara. Muchos de los pobres abandonaron la ciudad para buscar trabajo en el campo porque simplemente no podían soportarlo. Fue sin duda el incidente más oloroso de la historia británica.

Fue el comienzo de lo que se conoció como la Gran Peste de 1858. El río Támesis, lleno hasta el tope de siglos de desechos humanos que habían sido vertidos directamente del sistema de alcantarillado de madera medieval, finalmente se estaba vengando. El lavado en las orillas del río, el lodo plagado de cólera se deleitaba con las temperaturas inusualmente cálidas del verano y formaba un hedor miasmático que era ineludible por millas.

La Corporación de la Ciudad de Londres, desconocida en ese momento por ser particularmente proactiva en materia de salud pública, se dio cuenta de que ya era suficiente e invitó a enviar propuestas para el diseño de un nuevo plan de alcantarillado para la ciudad. El hombre cuyos planes fueron aceptados, Joseph Bazalgette, ahora es considerado uno de los principales héroes cívicos del pasado de Londres. Ingeniero civil talentoso, supervisó un proyecto monumental de obras públicas que transformó los niveles de higiene y la calidad de vida en Londres. La red de alcantarillado de Bazalgette es ampliamente considerada como el primer paso en la creación de la ciudad moderna de hoy, así como el comienzo del fin del cólera en Londres.



La Gran Peste de 1858 se resolvió con la ayuda de la teoría de grafos.


La red de alcantarillado de Bazalgette seguía siendo fuerte, llevando los desechos de millones de personas hacia el este a las instalaciones de procesamiento hacia la desembocadura del Támesis. Como proyecto de ingeniería, fue un ejemplo asombroso de esfuerzo humano: 22,000 kilómetros de alcantarillas, 318 millones de ladrillos, 2,7 millones de metros cúbicos de tierra excavada.

Bazalgette era conocido por lo duro que trabajaba. No dejó piedra sin remover al hacer este esfuerzo masivo a prueba de futuro. La gravedad y la pendiente de la red para garantizar el flujo del agua, los diámetros de los túneles, todos eran detalles que él obsesionaba. Pero hubo dos preguntas que fueron cruciales de responder desde el principio para hacer el proyecto manejable y sostenible: primero, ¿cómo minimizamos la ruta de alcantarillado entre dos puntos cualquiera de la red y segundo, cuáles son los puntos de conexión más importantes?

La hazaña de ingeniería de Bazalgette es un ejemplo de algunos de los primeros usos del campo emergente de la teoría de grafos e ilustra la importancia de dos conceptos que observamos todo el tiempo hoy en relación con las redes: la distancia entre vértices y la importancia de los vértices.


 

Medición de distancia en un grafo


La distancia es un concepto bastante simple en teoría de grafos, pero extremadamente útil en la práctica. Recuerde del artículo anterior de esta serie que un grafo consiste en un conjunto de vértices y un conjunto de aristas que vinculan pares de vértices. Dado dos vértices, la distancia entre ellos se define como el número de aristas en el camino más corto entre ellos. Esto también se denomina a veces "distancia geodésica" y, por convención, se describe como "infinito" si no existe una ruta entre los vértices. Por ejemplo, en el grafo simple anterior, la distancia entre el vértice 2 y el vértice 6 es 3 (hay dos caminos de esta longitud que pueden llevarlo allí).

La distancia es un concepto extremadamente útil porque a menudo querremos optimizarlo. Minimizar la distancia es un requisito extremadamente común en redes complejas para fines de ingeniería. En el estudio de las personas, la distancia mínima también es una cuestión de interés común. La cuestión de los seis grados de separación, que sostiene que dos personas en el mundo se pueden conectar entre sí por un máximo de seis vértices intermedios o siete bordes, es una cuestión de distancia mínima en una red de grafos. Estudios recientes en Facebook muestran que la distancia mínima promedio entre individuos en esa red es 4.57.

Pero la distancia máxima también puede ser de interés, porque implica desconocimiento y diferencia. Por ejemplo, puede ser posible utilizar ciertos datos de la compañía para desarrollar un grafo que represente la colaboración anterior entre los empleados. Luego, en eventos de la compañía en los que organiza personas en grupos de discusión, si desea maximizar la formación de nuevas conexiones y una diversidad de puntos de vista, puede hacer preguntas como: ¿cómo dividimos estas 100 personas en diez grupos de diez? , para que estos grupos tengan la distancia promedio máxima y, por lo tanto, ¿es menos probable que hayan trabajado entre ellos antes? Utilizada de esta manera, la teoría de grafos puede tener un impacto significativo en la experiencia de las personas dentro de una organización.



Midiendo la importancia de los vértices en un grafo


En cualquier grafo, algunos nodos son más importantes. En la red de alcantarillado de Bazalgette, por ejemplo, habrá algunos cruces que requieren una mayor supervisión porque cualquier falla o fuga tendrá un mayor impacto en toda la red. Del mismo modo, en una red de personas, ciertas personas tienen una mayor influencia debido a su posicionamiento y conectividad en relación con otros en la red.

Una medida simple de importancia es la valencia de un vértice. Ese es el número de bordes diferentes que se conectan al vértice. En Facebook, por ejemplo, su valencia es la cantidad de conexiones que tiene. Pero eso no comprende completamente el concepto de influencia o importancia, ¿verdad? No todos los que tienen una gran cantidad de conexiones están jugando un papel realmente importante en la red.

En mi experiencia, la mejor medida de importancia en una red es la centralidad de la intermediación. En pocas palabras, la centralidad de intersección de un vértice dado es el número de veces que se ve que el vértice está en el camino más corto entre los otros dos vértices de la red. Los vértices con altos grados de centralidad intermedia influyen en la difusión de la información en mayor medida, y su pérdida de la red tiende a tener un impacto mucho más significativo en su conectividad general. En el grafo anterior, los vértices rojos tienen el menor grado de centralidad de intermediación, mientras que los vértices azules tienen el mayor.

Comprender la centralidad de la intermediación puede ser muy importante en las redes de personas. Puede ayudar a identificar en qué personas invertir para garantizar que un determinado mensaje se difunda lo más ampliamente posible. Puede ayudar a que los nuevos miembros de una red estén más conectados mediante presentaciones a las personas adecuadas. Puede ayudar a determinar cuánta preocupación debería tener con respecto a la pérdida de un individuo de la red y su posible impacto en otros.

La centralidad de la interconexión es complicada de medir porque necesitas calcular las rutas entre todos los pares de vértices en una red. Para redes grandes, esto puede ser altamente computacionalmente intensivo. Sin embargo, existen excelentes paquetes de ciencia de datos para calcular las características de la red, incluida la centralidad de intersección. En el ecosistema R, en el que trabajo, el igraphpackage es particularmente útil.

domingo, 12 de agosto de 2018

Algoritmo para la detección de fake news

La gente es mala al detectar noticias falsas. ¿Pueden los programas de computadora funcionar mejor?

Hay demasiada desinformación en línea para que los verificadores de datos humanos la atrapen
Por
Maria Temming


MONITORES DE DECEPCIÓN Los investigadores están creando algoritmos en línea para verificar la veracidad de las noticias en línea.

Alex Nabaum
Número de la revista: Science Magazine Vol. 194, No. 3, 4 de agosto de 2018, p. 22



Desplazarse a través de una fuente de noticias a menudo se siente como jugar Dos verdades y una mentira.

Algunas falsedades son fáciles de detectar. Como informes de que la Primera Dama Melania Trump quería un exorcista para limpiar los demonios de la Casa Blanca de la era Obama, o que un director de una escuela de Ohio fue arrestado por defecar frente a una asamblea estudiantil. En otros casos, la ficción se combina demasiado bien con los hechos. CNN fue realmente allanado por la Comisión Federal de Comunicaciones? ¿La policía descubrió realmente un laboratorio de metanfetamina dentro de un Walmart de Alabama? No y no. Pero cualquiera que se mueva por una serie de historias fácilmente podría ser engañado.

Vivimos en una era dorada de desinformación. En Twitter, las falsedades se extienden más y más rápido que la verdad (SN: 31/3/18, p.14). En el período previo a las elecciones presidenciales estadounidenses de 2016, los artículos falsos más populares obtuvieron más acciones, reacciones y comentarios de Facebook que las principales noticias reales, según un análisis de BuzzFeed News.

Antes de Internet, "no se podía tener a una persona sentada en un ático y generando teorías de conspiración a gran escala", dice Luca de Alfaro, científico informático de la Universidad de California en Santa Cruz. Pero con las redes sociales de hoy en día, vender mentiras es demasiado fácil: si esas mentiras provienen de disfraces como Disinfomedia, una compañía que ha sido propietaria de varios sitios web de noticias falsas o un grupo de adolescentes en Macedonia que recaudaron el dinero escribiendo noticias falsas populares durante las elecciones de 2016

La mayoría de los usuarios de internet probablemente no estén transmitiendo literas intencionalmente. La sobrecarga de información y la capacidad limitada de atención de la persona que practica surf de la web promedio no son exactamente propicias para la vigilancia de la verificación de los hechos. El sesgo de confirmación se alimenta también. "Cuando se trata de información no filtrada, es probable que las personas elijan algo que se ajuste a su propio pensamiento, incluso si esa información es falsa", dice Fabiana Zollo, científica informática de la Universidad de Venecia Ca 'Foscari, que estudia cómo circula la información en las redes sociales.

Intencional o no, compartir información errónea puede tener graves consecuencias. Las noticias falsas no solo amenazan la integridad de las elecciones y erosionan la confianza pública en las noticias reales. Amenaza vidas. Los falsos rumores que se propagan en WhatsApp, un sistema de mensajería de teléfono inteligente, por ejemplo, provocaron linchamientos en India este año que dejaron más de una docena de personas muertas.

Para ayudar a clasificar las noticias falsas de la verdad, los programadores están construyendo sistemas automatizados que juzgan la veracidad de las historias en línea. Un programa de computadora podría considerar ciertas características de un artículo o la recepción de un artículo en las redes sociales. Las computadoras que reconocen ciertas señales de advertencia podrían alertar a los verificadores de datos humanos, que harían la verificación final.

Las herramientas automáticas de búsqueda de mentiras "todavía están en su infancia", dice el científico informático Giovanni Luca Ciampaglia de la Universidad de Indiana en Bloomington. Los investigadores están explorando qué factores marcan de manera más confiable las noticias falsas. Desafortunadamente, no tienen un conjunto acordado de historias verdaderas y falsas para usar para probar sus tácticas. Algunos programadores confían en medios de comunicación establecidos o agencias de prensa estatales para determinar qué historias son ciertas o no, mientras que otros recurren a listas de noticias falsas informadas en las redes sociales. Por lo tanto, la investigación en esta área es algo así como una lucha libre.

Pero los equipos de todo el mundo están avanzando porque internet es una manguera de información, y pedirle a los inspectores de datos humanos que se mantengan al día es como apuntar esa manguera a un filtro Brita. "Es una especie de entumecimiento de la mente", dice Alex Kasprak, un escritor de ciencia en Snopes, el sitio de verificación de datos en línea más antiguo y más grande, "solo el volumen de cosas realmente de mala calidad que hay por ahí".




Sustancia y estilo

Cuando se trata de inspeccionar el contenido de las noticias directamente, hay dos formas principales de saber si una historia encaja en la factura de la fraudulencia: qué dice el autor y cómo lo dice el autor.

Ciampaglia y sus colegas automatizaron esta tediosa tarea con un programa que verifica cuán estrechamente relacionados están el sujeto y el objeto de una declaración. Para hacer esto, el programa usa una vasta red de nombres construidos a partir de hechos encontrados en el cuadro de información en el lado derecho de cada página de Wikipedia, aunque redes similares han sido construidas a partir de otros depósitos de conocimiento, como bases de datos de investigación.

En la red de nombres del grupo Ciampaglia, dos sustantivos están conectados si un sustantivo apareció en la caja de información de otro. Cuantos menos grados de separación entre el sujeto y el objeto de una declaración en esta red, y cuanto más específicas sean las palabras intermedias que conectan el sujeto y el objeto, más probable es que el programa de computadora etiquete una afirmación como verdadera.

Tomemos la falsa afirmación de que "Barack Obama es musulmán". Hay siete grados de separación entre "Obama" e "Islam" en la red de sustantivos, incluidos los sustantivos muy generales, como "Canadá", que se conectan con muchas otras palabras. Dada esta larga y serpenteante ruta, el verificador automatizado de datos, descrito en 2015 en PLoS ONE, consideró que Obama probablemente no sea musulmán.

Ruta de la rotonda

Un verificador automático de hechos juzga la afirmación "Barack Obama es musulmán" al estudiar los grados de separación entre las palabras "Obama" e "Islam" en una red de sustantivos construida a partir de la información de Wikipedia. La conexión muy suelta entre estos dos sustantivos sugiere que el enunciado es falso.


Fuente: G.L. Ciampaglia et al / PLOS One 2015

Pero estimar la veracidad de las declaraciones basadas en este tipo de separación sujeto-objeto tiene límites. Por ejemplo, el sistema consideró probable que el ex presidente George W. Bush esté casado con Laura Bush. Estupendo. También decidió que George W. Bush probablemente esté casado con Barbara Bush, su madre. Menos genial. Ciampaglia y sus colegas han estado trabajando para dar a su programa una visión más matizada de las relaciones entre los nombres en la red.

Verificar cada declaración en un artículo no es la única manera de ver si una historia pasa la prueba del olfato. El estilo de escritura puede ser otro regalo. Benjamin Horne y Sibel Adali, informáticos del Rensselaer Polytechnic Institute en Troy, N.Y., analizaron 75 artículos verdaderos de los medios de comunicación considerados más confiables por Business Insider, así como 75 historias falsas de sitios en una lista negra de sitios web engañosos. En comparación con las noticias reales, los artículos falsos tienden a ser más cortos y repetitivos con más adverbios. Las historias falsas también tienen menos citas, palabras técnicas y sustantivos.

Sobre la base de estos resultados, los investigadores crearon un programa informático que utilizaba los cuatro factores distintivos más fuertes de las noticias falsas: número de sustantivos y número de citas, redundancia y recuentos de palabras, para juzgar la veracidad del artículo. El programa, presentado en la Conferencia Internacional sobre Web y Redes Sociales en Montreal, clasificó correctamente las noticias falsas del verdadero 71 por ciento del tiempo (un programa que clasifica las noticias falsas de las verdaderas al azar mostraría una precisión del 50 por ciento). Horne y Adali están buscando características adicionales para aumentar la precisión.

Verónica Pérez-Rosas, una científica informática de la Universidad de Michigan en Ann Arbor, y sus colegas compararon 240 artículos originales y 240 inventados. Al igual que Horne y Adali, el equipo de Pérez-Rosas encontró más adverbios en los artículos de noticias falsos que en los reales. Las noticias falsas en este análisis, informadas en arXiv.org el 23 de agosto de 2017, también tienden a utilizar un lenguaje más positivo y a expresar más certeza.

Verdad y mentiras

Un estudio de cientos de artículos reveló diferencias estilísticas entre las noticias originales y las inventadas. Las historias reales contenían más lenguaje que transmitía diferenciación, mientras que las historias falsas expresaban más certeza.


Fuente: V. Pérez-Rosas et al / arxiv.org 2017

Las computadoras no necesitan necesariamente que los humanos les digan qué aspectos de los artículos falsos dan estas historias. El ingeniero informático e ingeniero Vagelis Papalexakis de la Universidad de California en Riverside y sus colegas construyeron un detector de noticias falso que comenzó clasificando un caché de artículos en grupos según lo similares que eran las historias. Los investigadores no proporcionaron instrucciones explícitas sobre cómo evaluar la similitud. Una vez que el programa agrupaba los artículos de acuerdo con la semejanza, los investigadores etiquetaron el 5 por ciento de todos los artículos como fácticos o falsos. A partir de esta información, el algoritmo, descrito el 24 de abril en arXiv.org, predijo etiquetas para el resto de los artículos sin marcar. El equipo de Papalexakis probó este sistema en casi 32,000 artículos reales y 32,000 falsos compartidos en Twitter. Alimentado con ese pequeño núcleo de verdad, el programa predijo correctamente las etiquetas de alrededor del 69 por ciento de las otras historias.

Supervisión de adultos

Hacer las cosas bien el 70 por ciento de las veces no es lo suficientemente preciso como para confiar en los programas de investigación de noticias por sí mismos. Pero los detectores de noticias falsos podrían ofrecer una alerta de proceder con precaución cuando un usuario abre una historia sospechosa en un navegador web, similar a la alerta que aparece cuando está a punto de visitar un sitio sin certificado de seguridad.

En un tipo similar de primer paso, las plataformas de medios sociales podrían usar perros guardianes de la información errónea para buscar fuentes de noticias cuestionables y luego enviarlas a verificadores de datos humanos. Hoy, Facebook considera los comentarios de los usuarios, como aquellos que publican comentarios incrédulos o informan que un artículo es falso, al elegir qué historias verificar. La compañía luego envía estas historias a los escépticos profesionales en FactCheck.org, PolitiFact o Snopes para su verificación. Pero Facebook está abierto a usar otras señales para encontrar fraudes de manera más eficiente, dice la portavoz de Facebook, Lauren Svensson.

No importa qué tan buenas sean las computadoras para encontrar noticias falsas, estos sistemas no deberían reemplazar totalmente a los verificadores de datos humanos, dice Horne. La decisión final sobre si una historia es falsa puede requerir una comprensión más matizada de la que puede proporcionar una computadora.

"Hay una gran escala de grises" de desinformación, dice Julio Amador Díaz López, un científico informático y economista del Imperial College de Londres. Ese espectro, que incluye la verdad tomada fuera de contexto, la propaganda y las declaraciones que son prácticamente imposibles de verificar, como las convicciones religiosas, puede ser difícil para las computadoras para navegar.

El escritor de ciencia de Snopes, Kasprak, imagina que el futuro de la verificación de los hechos será como la transcripción de audio asistida por computadora. Primero, el sistema automatizado elabora un borrador de la transcripción. Pero un humano todavía tiene que revisar ese texto para detalles que se pasan por alto, como errores de ortografía y puntuación, o palabras que el programa acaba de equivocarse. De manera similar, las computadoras podrían compilar listas de artículos sospechosos para que las personas revisen, dice Kasprak, enfatizando que los humanos aún deben tener la última palabra sobre lo que se etiqueta como verdadero.

Ojos en la audiencia

A pesar de que los algoritmos se vuelven más astutos al marcar artículos falsos, no hay garantía de que los creadores de noticias falsas no intensifiquen su juego para eludir la detección. Si los programas de computadora están diseñados para ser escépticos de las historias que son demasiado positivas o expresan mucha certeza, entonces los autores engañosos podrían refinar sus estilos de escritura en consecuencia.

"Las noticias falsas, como un virus, pueden evolucionar y actualizarse a sí mismas", dice Daqing Li, un científico de redes de la Universidad de Beihang en Beijing que ha estudiado noticias falsas en Twitter. Afortunadamente, las noticias en línea se pueden juzgar en más que el contenido de sus narraciones. Y otros signos reveladores de noticias falsas podrían ser mucho más difíciles de manipular, a saber, los tipos de participación del público que estas historias atraen en las redes sociales.

Sin ovejas

La mayoría de los usuarios de Twitter que discutieron rumores falsos sobre dos desastres publicaron tweets que simplemente difundieron estos rumores. Solo se publicó una pequeña fracción buscando verificación o expresando dudas sobre las historias.


H. Thompson

Juan Cao, científico informático del Instituto de Tecnología Informática de la Academia de Ciencias de China en Beijing, descubrió que en la versión china de Twitter, Sina Weibo, los tweets específicos sobre una determinada noticia son buenos indicadores de si una historia en particular es cierto. El equipo de Cao creó un sistema que podría resumir los tweets sobre un evento noticioso en particular, y luego ordenarlos en dos grupos: los que expresaron su apoyo a la historia y los que se opusieron. El sistema consideró varios factores para medir la credibilidad de esos puestos. Si, por ejemplo, la historia se centra en un evento local que un usuario estaba geográficamente cerca, la entrada del usuario se vio como más creíble que la entrada de un usuario más lejano. Si un usuario estuvo inactivo por un tiempo prolongado y comenzó a publicar una sola historia, ese comportamiento anormal contó con la credibilidad del usuario. Al sopesar el carácter distintivo de los tweets de apoyo y escépticos, el programa decidió si una historia en particular podría ser falsa.

El grupo de Cao probó esta técnica en 73 historias reales y 73 falsas, etiquetadas como tales por organizaciones como la Agencia de Noticias Xinhua dirigida por el gobierno de China. El algoritmo examinó alrededor de 50,000 tweets sobre estas historias en Sina Weibo, y reconoció noticias falsas correctamente alrededor del 84 por ciento del tiempo. El equipo de Cao describió los hallazgos en 2016 en Phoenix en una conferencia de la Asociación para el Avance de la Inteligencia Artificial. De Alfaro y sus colegas de UC Santa Cruz informaron similarmente en Macedonia en la Conferencia Europea sobre Aprendizaje Automático y Principios y Prácticas de Descubrimiento de Conocimiento en Bases de Datos del año pasado, que los engaños se pueden distinguir de las noticias reales que circulan en Facebook en base a qué usuarios les gustan estas historias.

En lugar de ver quién está reaccionando a un artículo, una computadora puede ver cómo se transmite la historia en las redes sociales. Li y sus colegas estudiaron las formas de las redes de repost que se ramificaron de las noticias en las redes sociales. Los investigadores analizaron las redes de publicación de aproximadamente 1,700 historias falsas y 500 noticias verdaderas en Weibo, así como alrededor de 30 redes de noticias falsas y 30 redes de noticias reales en Twitter. En ambos sitios de redes sociales, el equipo de Li descubrió que la mayoría de la gente tendía a publicar noticias reales directamente de una sola fuente, mientras que las noticias falsas tendían a extenderse más a través de la gente que publicaba datos de otros remitentes.

Una red típica de repositorios de noticias reales "se parece mucho más a una estrella, pero las noticias falsas se extienden más como un árbol", dice Li. Esto se mantuvo incluso cuando el equipo de Li ignoró las noticias publicadas originalmente por fuentes oficiales conocidas, como los propios medios de noticias. Informado el 9 de marzo en arXiv.org, estos hallazgos sugieren que las computadoras podrían usar el compromiso con las redes sociales como una prueba de fuego para la veracidad, incluso sin poner las publicaciones individuales bajo el microscopio.

Ramificando

En Twitter, la mayoría de las personas que publican (puntos rojos) noticias reales lo obtienen de una única fuente central (punto verde). Las noticias falsas se propagan más a través de las personas que reposten de otros remitentes.


Z. Zhao et al / arxiv.org 2018

Verdad a la gente


Cuando se capta la desinformación circulando en las redes sociales, la mejor forma de lidiar con ella sigue siendo una pregunta abierta. Simplemente fregar artículos falsos de los feeds de noticias probablemente no sea el camino a seguir. Las plataformas de medios sociales que ejercen ese nivel de control sobre lo que los visitantes pueden ver "serían como un estado totalitario", dice Murphy Choy, analista de datos de SSON Analytics en Singapur. "Va a ser muy incómodo para todas las partes involucradas".

Las plataformas podrían poner señales de advertencia sobre la desinformación. Pero etiquetar las historias que han sido verificadas como falsas puede tener un desafortunado "efecto de verdad implícita". Las personas pueden confiar más en las historias que no están señaladas explícitamente como falsas, ya sea que hayan sido verificadas o no, de acuerdo con una investigación publicada el pasado Septiembre en la Red de Investigación de Ciencias Sociales por los investigadores del comportamiento humano Gordon Pennycook, de la Universidad de Regina en Canadá, y David Rand en la Universidad de Yale.

En lugar de eliminar las historias, Facebook muestra menos historias desacreditadas en las noticias de los usuarios, lo que puede reducir las opiniones futuras de un artículo falso en un 80 por ciento, dice el portavoz de la compañía, Svensson. Facebook también muestra artículos que desacreditan historias falsas cada vez que los usuarios encuentran las historias relacionadas, aunque esa técnica puede ser contraproducente. En un estudio de usuarios de Facebook a los que les gusta y comparten noticias de conspiración, Zollo y su colega Walter Quattrociocchi descubrieron que, después de que los conspiradores interactuaran con artículos desacreditados, estos usuarios realmente aumentaron su actividad en las páginas de conspiración de Facebook. Los investigadores informaron este hallazgo en junio en Complex Spreading Phenomena in Social Systems.

Todavía hay mucho trabajo por hacer en la enseñanza de computadoras, y personas, para reconocer noticias falsas. Como dice el viejo refrán: una mentira puede llegar a la mitad del mundo antes de que la verdad se ponga en sus zapatos. Pero los algoritmos informáticos de ojos penetrantes pueden al menos frenar las historias falsas con algunos nuevos pesos de tobillo.

Este artículo aparece en la edición del 4 de agosto de 2018 de Science News con el titular "Detectando noticias falsas: los programas informáticos invocan mentiras en Internet".