viernes, 8 de mayo de 2015

Recolección de datos para identificar grupos de pares adolescentes

¿Densidad o distinción? El papel de la estructura de datos y métodos de detección de grupo al describir grupos de pares de adolescentes

Scott D. Gest, gest@psu.edu
Universidad del Estado de Pennsylvania [1]

James Moody, jmoody77@soc.duke.edu
Universidad de Duke

Kelly L. Rulison, klr250@psu.edu
Universidad del Estado de Pennsylvania

Journal of Social Structures

Resumen: A pesar del interés interdisciplinario en la influencia social entre grupos de pares adolescentes, variaciones significativas en la recolección y análisis de datos de la red de pares no se han explorado, por lo que es difícil separar las diferencias sustantivas y metodológicas en los estudios de la influencia de pares. Analizamos dos tipos de datos de la red (amistades auto-reportadas y los informes de varios informantes de niños que "pasan mucho tiempo juntos") con tres métodos de identificación de estructuras de grupo (dos enfoques grafo teóricos y análisis de componentes principales) para explorar las diferencias sustantivas en los resultados. Entonces vinculamos estas diferencias de nuevo a las características de las redes subyacentes, lo que les permitimos una mayor penetración en el problema general de la identificación de los grupos de datos de la red. Encontramos que los diferentes enfoques analíticos aplicados a los mismos datos de la red producidos soluciones grupo moderadamente concordantes, con concordancias más altas para datos de múltiples informantes. Los mismos enfoques analíticos aplicados a diferentes datos relacionales (en los mismos nodos) producen la concordancia más débil, lo que sugiere que la estructura de datos subyacente puede ser más relevante de enfoque analítico en la contabilización de los resultados diferentes entre los estudios. La similitud de comportamiento entre los miembros del grupo fue mayor para los enfoques que se apoyan directamente sobre la densidad de los lazos directos.

I. Introducción

La investigación sociológica y psicológica de los grupos de pares adolescentes a menudo se ha procedido a lo largo de vías paralelas, la exploración de fenómenos similares, pero dentro de las tradiciones distintas para recopilar y analizar datos de la red de pares. Basándose en una rica tradición de la teoría de análisis de redes sociales en general y métodos (Doreian, Kapuscinski, Krackhardt, y Szczypula, 1996; Freeman, 2003; Friedkin & Cook, 1990; Moody, 2001a) sociólogos han estudiado la estructura de los grupos de pares adolescentes y su cambio dinámico en el tiempo (Doreian et al., 1996; Hallinan y Tuma, 1978; Hallinan, 1978; Haynie, 2001; Holanda y Leinhardt, 1977; Moody, 2001b), así como la influencia social y de difusión de los procesos (Cohen, 1977; Giordano , Cernkovich, Groat, Pugh y Swinford, 1998; Jussim y Osgood, 1989). Del mismo modo, los psicólogos han construido sobre teorías enfatizando pares como contextos de desarrollo individual (Hartup, 1996; Kindermann, 1996; Sullivan, 1953) para el estudio de la estructura y el cambio en diádica y redes de grupos (Berndt y Hoyle, 1985; Cairns, Leung, Buchanan y Cairns, 1995; Farmer, Estell, obispo, O'Neal, y Cairns, 2003>; Urberg, Degirmencioglu, Tolson, y Halliday Scher, 1995) y la influencia de los compañeros en la adaptación individual (Berndt, 1982, 1992; Cairns y Cairns , 1994; Hanish, Martin, Fabes, Leonard y Herzog, 2005; Kindermann, 1993).

A pesar de este interés en paralelo, hay relativamente pocos-citas cruzadas en las principales revistas sociológicas y de desarrollo que se ocupan de los procesos de grupo de pares. Esto es lamentable porque diferentes recopilación de datos y tradiciones analíticas han surgido en los dos campos, por lo que es difícil de integrar los hallazgos y la desaceleración de la transferencia de conocimientos e innovaciones de un campo a otro. Nuestro objetivo en este trabajo es contribuir a una integración productiva de estas tradiciones utilizando datos exclusivos de un solo entorno para explorar la comparabilidad de los grupos de pares identificados cuando se analizan dos procedimientos de recolección de datos de la red de pares adolescentes comunes con tres algoritmos de identificación de grupo común.

En el contexto de pares, los procedimientos de recolección de datos suelen variar a lo largo de tres dimensiones: el significado sustantivo de un vínculo social (amistad / afecto frente a la interacción), el nivel de análisis (díada vs. grupo) y el informante (autoinforme versus múltiples -informant). Estas tres dimensiones permiten muchas estrategias de medición distintos, pero por razones conceptuales y prácticos de dos estrategias de medición han ganado amplio uso: auto-informes de amistades diádicas e informes de varios informantes de los grupos de interacción basado. Del mismo modo, mientras que el número de algoritmos de agrupamiento encontrado en la literatura es grande, la identificación de ejes de principio de diferencia es más difícil. Dos enfoques generales comunes en la literatura son algoritmos de grafos teórica basada en la densidad de la red social de la tradición y algoritmos basados ​​en patrones correlacionados de los vínculos sociales de la tradición de estudios de desarrollo.

Mientras que otros han estudiado un conjunto más amplio de algoritmos de agrupamiento (Freeman, 2003), nos centramos en estos enfoques disciplinarios básicos para ayudar a la comparabilidad de acogida a través de una amplia brecha literatura y para ayudar a comparaciones de grupos de enlace directamente a las características de la estructura de la red. La comparación de los algoritmos de agrupación plantea un difícil trampa de diseño de la investigación: si cada enfoque es maximizar eficazmente su grupo-definición específica, se corre un riesgo claro de la simple comparación definiciones incompatibles - es decir, no hay un indicador externo clara de la verdadera solución. Sin embargo, en ausencia de una métrica externa, siendo capaz de comparar diferentes soluciones de primera continuación, vincular esas diferencias en los patrones de gráficos subyacentes ayuda a profundizar en el significado sustantivo de diferencias de definición de lo contrario implícitos incorporados en la agrupación de los algoritmos. En el contexto de un grupo de pares adolescentes explorado aquí, esperamos que las diferencias en el tipo de datos afectarán a la transitividad, la densidad y la cohesión estructural (estructura de ruta) de la gráfica, y por lo tanto dar lugar a diferencias en cómo los tres algoritmos asignan nodos para grupos. Sustancialmente, esperamos que estas comparaciones proporcionarán un primer paso para establecer el grado en que los estudios de "redes de pares" en diferentes de medición y análisis tradiciones identifican fenómenos similares.

Enfoques para recolectar detps de redes de pares de adolescentes

Las díadas de amistadas auto-reportadas. Preguntar a los adolescentes a nombrar sus amigos es quizás el procedimiento de medición más común tanto en la sociología y la psicología. Debido a que las amistades suelen definirse como relaciones voluntarias basadas en gusto, este procedimiento puede ser visto como un caso especial de la definición de los vínculos sociales significativos en términos de cercanía, afecto o cariño, que tiene largas raíces tanto sociológica (Homans, 1950; Sampson, 1969 ) y la investigación en el desarrollo (Bukowski, Newcomb y Hartup, 1996). Algunos investigadores subrayan este punto preguntando a los adolescentes a nombrar a sus "mejores" o "amigos cercanos" o preguntando a los adolescentes para nombrar compañeros de clase que les gusta o se sienten cerca. Los teóricos del desarrollo han sostenido durante mucho tiempo que los sentimientos de amistad o cercanía motivan intentos de entender y acomodar las preocupaciones del amigo, proporcionando así un proceso de influencia de los compañeros (Hartup, 1996; Newcomb y Bagwell, 1995; Sullivan, 1953). Debido a los sentimientos de agrado o afecto son inherentemente subjetiva, auto-informes son vistos como el método definitivo para identificar las preferencias de amistad adolescentes.

Existe una considerable variabilidad dentro y entre las disciplinas de la manera investigadores analizan auto-informes de amistades. Los psicólogos suelen centrarse en diadas amistad y por razones teóricas suelen restringir la atención a las opciones de la amistad recíprocos (Berndt y Murphy, 2002; Hartup 1996), aunque algunos también consideran nominaciones no recíprocos (Hektner, Agosto y Realmuto, 2000; Mrug, Hoza y Bukowski , 2004;. Snyder, Horsch, y Childs, 1997) y estructuras de los grupos más grandes (Urberg et al, 1995). En contraste, los sociólogos a menudo se centran en la estructura del grupo y por lo general se ven a las asimetrías en las nominaciones como indicadores de la jerarquía del grupo y el estado, aunque algunos permanecen también se centró en diadas (Hallinan y Tuma, 1978; Hallinan, 1978) o en las candidaturas recíprocos (Coleman, 1961 ).

Grupos de interacción basado en multi-informantes. Un segundo procedimiento de medida que cada vez más se está utilizando en la investigación psicológica consiste en pedir a todos los adolescentes en una red social para identificar compañeros de clase que "cuelgan alrededor mucho juntos" (Cairns, Perrin y Cairns, 1985; Cairns, Cairns, Neckerman, Gest y Gariepy, 1988). Al igual que con las amistades de auto-reporte, este procedimiento representa una perspectiva particular sobre la naturaleza de las relaciones sociales, el nivel correspondiente de análisis y el informante más adecuado. Preguntar a los adolescentes a identificar sus compañeros que "cuelgan alrededor mucho juntos" significa que los lazos sociales se definen en términos de frecuencia de interacción. Esto tiene sentido desde la perspectiva de las teorías de aprendizaje social (Cairns, 1979; Patterson, 1974, 1982), que sugieren que los comportamientos sociales se establecen, mantienen y cambian a través de instancias repetidas de modelado y refuerzo que se producen en las interacciones sociales. Por ejemplo, la cantidad de interacciones niñas en edad preescolar 'con sus compañeros agresivos predijo aumenta con el tiempo en su propia conducta problema (Hanish et al., 2005); y la cantidad de conversaciones amistad muchachos adolescentes delincuentes 'que implicó un enfoque bien organizada en actividades antisociales predijo la persistencia de patrones antisociales (Dishion, Nelson, Invierno, y Bullock, 2004).

La naturaleza visible de las interacciones sociales sugiere que los informes se pueden obtener de cualquier persona con acceso a la configuración de interacción pertinentes. Ciertamente auto-informes de los patrones de interacción son factibles y cara válido (Bagwell, Coie, Terry, y Lochman, 2000). Observaciones investigador directos también pueden ser muy eficaces con niños pequeños (Hanish et al, 2005; Ladd, 1983; Strayer & Santos, 1996; Vaughn y Waters, 1981.), Pero son caros de recopilar y tienen dos desventajas durante la adolescencia: algunas importantes configuración de interacción pueden ser inaccesibles para los investigadores (por ejemplo, pasillos, autobuses), y las que están disponibles (por ejemplo, aulas) pueden ser engañosos debido a las fuertes restricciones que imponen a los patrones de interacción (Feld, 1981). En contraste, los compañeros pueden ser vistos como expertos participantes-observadores en la red social de los adolescentes con acceso exclusivo a una serie de ajustes pertinentes. En un procedimiento desarrollado por Cairns (que se describe en detalle más adelante), todos los compañeros en una red se le pide identificar compañeros de clase que "cuelgan alrededor juntos mucho", y los múltiples informes se resumen en un simétrico "matriz de co-nominación." El uso de información de múltiples informantes para construir una red global se desarrolló independientemente en la línea de investigación sobre las estructuras sociales cognitivas. (CSS; Krackhardt, 1987) El método Cairns difiere del enfoque CSS en que los informantes ("perceptores" en términos CSS) son no se limita a informar sobre la pertenencia al grupo común, sino más bien se les permite informar sobre cualquier relación que conecta a otros en la red.

Auto-informes de diadas amistad e informes de varios informantes de los grupos de interacción basados ​​son conceptual y operacionalmente distintas maneras de evaluar las redes de pares adolescentes. Los dos enfoques difieren en cómo definen la base de las relaciones sociales (cercanía vs. interacción), el nivel de análisis en el que se produce la recogida de datos (díada vs. grupo) y el informante (auto vs. multi-informante). Las estructuras de datos resultantes son muy diferentes: auto-informes de amistades producen una matriz de adyacencia dirigido mientras que los grupos sociales de múltiples informantes producen una matriz de co-nominación simétrica. Estas diferencias de datos a menudo resultan en diferentes grados de densidad y transitividad. El grupo-base de los resultados de datos de múltiples informantes en gráficos similares a la proyección de un modo de gráficos de dos modos, con tríadas significativamente más cerrados que los gráficos de auto-reporte, que tienden a ser más escasa. Cada enfoque es una estrategia conceptualmente coherente para la identificación de "grupos de pares adolescentes", pero no es en absoluto evidente que grupos derivados de subjetivamente percibidos, los lazos de amistad diádicas son equivalentes a las derivadas de consensualmente percibidas, patrones de interacción de grupo visible. Cuando los investigadores utilizan estas dos estrategias diferentes para identificar los "grupos de pares", están estudiando la misma cosa?

Enfoques para la identificación de estructuras de grupo

Las similitudes en los patrones de lazos. Hay una larga tradición de la agrupación de individuos que comparten patrones similares de los vínculos sociales. Red investigadores sociales tempranas utilizaron análisis de componentes principales o análisis factorial centroide para identificar grupos (factores) de la interacción (por ejemplo, Wright y Evitts, 1961) y las matrices de nominación (por ejemplo, Bock y Husain, 1952; MacRae, 1960). Más recientemente, un número creciente de investigadores del desarrollo han utilizado algoritmos basados ​​en la correlación para identificar los grupos de pares de los informes de múltiples informantes (Boivin y Hymel, 1997; Cairns et al, 1985, 1988;. Estell, Cairns, Farmer & Cairns, 2002; Farmer et al, 2003;. Rodkin, Agricultor, Pearl, y Van Acker, 2000; Xie, Cairns y Cairns, 1999). Un grupo ha utilizado director factorización eje para identificar los grupos de una matriz de adyacencia (Bagwell et al., 2000). El análisis de componentes principales (PCA) se ha aplicado también a co-nominación matrices (Gest, Rulison y Welsh, 2005). Estos enfoques comparten la premisa de que los grupos pueden ser conceptualizados como individuos cuyos patrones de nominaciones amistad recibidos o cuyo perfil de los compañeros de nominaciones con sus compañeros son similares (es decir, correlacionados). Estos enfoques tienen vínculos claros con las tradiciones de bloque de modelado arraigadas en CONCOR (White, Boorman, y Breiger, 1976), donde los actores se clasifican como semejantes si tienen patrones similares de nominación a / de otros en la red. Una de las ventajas potenciales del enfoque PCA, como se hará evidente más adelante, es que un elemento de equivalencia estructural informa a la construcción de grupos primarios, que permite una para identificar grupos que son tanto interna densa y de manera similar situado en el gráfico en general.

Enfoques directos. El campo red social ha identificado muchos enfoques para encontrar grupos primarios en las redes (Frank, 1995; Fershtman, 1997; Burt, 1978; Freeman, 1992; Richards, 1995; Seidman y Foster, 1978). Una división básica en tales métodos es entre aquellos que identifican características exactas teoría de grafos y los que buscar el gráfico para identificar una solución iterativa. Muchos métodos gráfico-teórico para la búsqueda de grupos primarios tienen el reto en los entornos donde los datos están desordenados, lo que resulta en tareas que no son robustos a los tipos de datos que los analistas suelen encuentran (ver Moody, 2001a para una revisión). Estos métodos también suelen identificar grupos que en gran medida se superponen. Trabajos recientes sobre la cohesión estructural ha tenido esta característica como una fuerza de la modelo, en el que los componentes de k-conectada tener una estructura solapamiento estrictamente definido e interpretable y son más robustos para la calidad de datos a medida que aumenta k-cohesión. [2]

El enfoque alternativo ha sido identificar grupos basados ​​en un proceso de búsqueda y la agrupación, utilizando algoritmos que tratan de generar grupos con densidad relativamente alta en grupo. Los algoritmos exactos varían significativamente. Una línea de trabajo hace que muchas asignaciones de nodos a los grupos en los intentos de minimizar una función de coste (Borgatti, Everett, y Freeman, 1999; Guimera y Amaral, 2005). Gran parte de la investigación sobre los algoritmos de detección de grupo ha sido identificar maneras de semilla o acelerar este tipo de búsquedas, con algunos muy sofisticados de reconocimiento de patrones enfoques siendo más popular (Richards, 1995; Fershtman, 1997). Aunque a menudo con éxito en pequeños grupos, estas soluciones iterativas pueden ser muy lento en grandes redes. Trabajos recientes han intentado identificar los procesos de búsqueda, ya sea directamente en los gráficos, como extensiones de los procesos de recocido simulado (Guimera y Amaral, 2005) o en las estadísticas de resumen generados por la estructura de la red (Moody, 2001a) que permiten búsquedas de redes muy grandes. Por último, una tercera línea de investigación se ha adoptado un enfoque de modelado estadístico, utilizando algoritmos de búsqueda guiadas basadas en un modelo de lazo probabilidad (Frank, 1995). Estos modelos trabajan en la lógica de que los grupos deben centrarse en los lazos, por lo que la probabilidad de un empate entre i y j (pij) es una función de un parámetro en la partición de grupo, y los nodos están malabares a través de particiones hasta que se maximiza ese parámetro.

El Estudio Actual

Hasta donde sabemos, dentro de la literatura en las redes sociales de pares adolescentes, no hay reportes empíricos que comparan las soluciones grupales obtenidos al aplicar el factor de análisis y algoritmos de agrupamiento gráfico-teórico a dos de los tipos más comunes de datos de la red de pares. Para empezar a vincular estos diferentes de recopilación de datos y analíticos tradiciones, utilizamos un solo conjunto de datos para identificar los grupos de pares adolescentes basado en dos tipos de datos de la red de pares (amistades auto-reporte y grupos de interacción basada en múltiples informantes) con cada uno de los tres identificación de grupo métodos (análisis de componentes principales y dos algoritmos de grafos teórico).

II. Métodos


Los participantes

Los datos fueron proporcionados por 134 (62 niñas, 72 niños) de los 150 estudiantes (89%) que participaron en el sexto grado en una escuela secundaria que sirven a una comunidad pequeña, de la clase obrera en el centro de Pensilvania. Estos datos nos permitió describir las redes de pares de 148 (68 niñas, 80 niños) de los 150 estudiantes (ver más abajo). Los estudiantes de la escuela con los resultados cerca del promedio estatal en las pruebas de logros, aunque las tasas de pobreza en la comunidad superaron el promedio estatal. Casi todos los estudiantes (99%) eran de raza caucásica, lo que refleja la demografía de la comunidad. Este proyecto fue un componente de un Estudiantes Escuelas / Healthy Segura donativos obtenido por el distrito escolar de los Departamentos de Educación, Justicia y Salud y Servicios Humanos. Antes de la encuesta estudiantil octubre, los padres se enviaron cartas describiendo el proyecto con un formulario para firmar si no desean que su hijo participe. Los estudiantes cuyos padres no volvieron una forma exonerarlos de les hizo el proyecto para completar una encuesta grupo administrado con una duración aproximada de 45 minutos. Los estudiantes son libres de negarse a participar en la encuesta.

Datos de redes de pares

Amistades auto-reportadas. Construimos grupos de amistad de los informes de las amistades de los estudiantes. Se pedirá a los estudiantes: "Algunos niños tienen un montón de amigos, algunos niños tienen una amiga y algunos niños no tienen un amigo. ¿Y usted? Enumere los nombres de los amigos que tiene en su grado. "Los estudiantes recibieron una lista con los nombres de todos los estudiantes del sexto grado, organizado por aula. Espacio se proporcionó a los estudiantes a la lista de hasta diez nombres, aunque algunos estudiantes enumeran varios más que eso (rango: 0-31 nominaciones). Estos datos se organizan en una matriz de adyacencia. Para los principales análisis de componentes, entramos queridos a lo largo de la diagonal (MacRae, 1960).

Grupos de múltiples informantes. Construimos grupos de varios informantes, utilizando el método socio-cognitivo Mapa de Cairns (SCM). Se pedirá a los estudiantes: "¿Hay algunos niños en el grado que cuelgan alrededor juntos mucho? Enumere los nombres de los niños en cada uno de los diferentes grupos en tu grado. Trate de pensar en tantos grupos como sea posible. "El espacio se proporciona para que los estudiantes enumeran hasta nueve grupos con un máximo de diez personas por grupo y los estudiantes eran libres para listar a sí mismos en un grupo. Dos estudios observacionales confirman que la frecuencia de ser nombrado para el mismo grupo se correlaciona con tasas de interacción observables (Cairns et al, 1985;. Gest, Agricultor, Cairns y Xie, 2003). Por ejemplo, los estudiantes de cuarto y séptimo grado interactuaron con los miembros de sus grupos de varios informantes a tasas de tres a cuatro veces más altas que con otros compañeros del mismo sexo (Gest et al., 2003). En el presente estudio, todas las nominaciones fueron organizados en una matriz de co-nominación simétrica en la que las células fuera de la diagonal indican el número total de veces que dos individuos fueron nombrados al mismo grupo. Los valores a lo largo de la diagonal indican el número total de veces que un niño determinado fue nombrado a ningún grupo social. Los estudiantes no están obligados a clasificar todos los compañeros en grupos, así que había variabilidad en la frecuencia con diferentes adolescentes fueron nombrados para grupos.

El comportamiento social, las actitudes educativas y los logros. Examinamos la homogeneidad del grupo con respecto a cuatro medidas de comportamiento social y las actitudes educativas y los logros. Siguiendo los procedimientos habituales en la literatura del desarrollo de las relaciones entre pares (Coie, Dodge y Copotelli, 1982), nos preguntamos cada adolescente para nombrar el compañeros s / él le gustaba más y los compañeros s / le gustaba lo más mínimo. El número de veces que cada adolescente fue nombrado como gustado más y menos se anotó y estar normalizados dentro de género. La diferencia entre las puntuaciones de cada uno de los adolescentes normalizados le gustaba más y estandarizados querido menos se calcula como un índice de preferencia social por pares, y esta partitura en sí se estandarizó en el género (M = 0, SD = 1, inclinación = 0,04). La agresión se midió con cinco elementos valorados por los profesores en una escala de 5 puntos (a = 0,92; 1 = bajo, 5 = alto). Para captar mejor las puntuaciones altamente sesgadas sobre la agresión, cada niño fue clasificado como no agresivo (76,6% de la muestra con la media de las puntuaciones <2,0 en la escala de 5 puntos), moderadamente agresivos (14.6% con puntuaciones medias entre 2 y 3) o Muy agresivo (8,8% con puntuaciones medias superiores a 3,0). Gusto por la escuela se midió con un solo elemento medido en una escala Likert de 5 puntos ("Me gusta ir a la escuela"; M = 3,31, SD = 1,32, Skew = .29). Promedio de calificaciones (GPA) se calculó como el promedio de calificaciones de los estudiantes en Lectura, Estudios Sociales, Matemáticas y Ciencias durante el periodo de calificación primero (M = 3,40, SD = 0,66, Skew = -1,01).

Análisis de Componentes Principales (PCA)

Se aplicaron análisis de componentes principales a ambos tipos de datos de la red de pares. En primer lugar, hemos extraído todos los factores [3] que tenía valores propios superiores a 1,0, lo que resulta en 39 factores para la amistad de datos auto-reporte y 38 factores para los datos de la red de múltiples informantes. Los factores con valores propios de menos de 1 no fueron extraídos debido a que estos factores explican menos variación en la solución de una sola variable. En segundo lugar, hemos aplicado una rotación Varimax y luego determinamos si cada factor se define por al menos tres individuos cuya principal carga (> 0,30) estaba en ese factor. Necesitábamos tres individuos por factor porque la definición teórica de un grupo requiere al menos tres miembros y requiere cargas factoriales anterior 0.30 para asegurar que cada individuo comparte al menos 9% de su varianza con el grupo. [4] Cuando uno o más factores no cumplían estos criterios, nos re-encontramos con el PCA extraer un factor menor, resultando en 24 factores (grupo) soluciones para ambos tipos de datos de la red. Este proceso, junto con el uso de la rotación Varimax, nos ha permitido obtener la máxima diferenciación mientras sigue identificando grupos empíricamente fiables y conceptualmente significativas. Algunos adolescentes tuvieron cargas factoriales significativas en más de un factor que podría interpretarse como un reflejo de la pertenencia a más de un grupo, pero para efectos de comparar soluciones de agrupación a través de métodos, se asignan tales "dual-miembros" al grupo de los que tuvieron la carga más alta.

Técnicas Grafo-teóricas

Utilizamos dos métodos de detección de grupo basadas en la red social para comparar con la rutina PCA: (. Borgatti et al, 1999) recursivas Barrio Medios (RNM) enfoque de Moody (2001a) y las facciones (FAC) la rutina de UCINET VI. El enfoque RNM fue elegido debido a su vinculación teórica a los problemas de fondo de efectos de pares y la rutina FAC porque es comúnmente disponibles y por lo tanto susceptibles de ser utilizados por otros. Al igual que la rutina de PCA, ambos enfoques son "indirecta", en el que no buscan un determinado patrón gráfico teórico (como camarillas), pero en lugar de utilizar la red observada para generar una puntuación de costo / similitud que se agrupa o maximizada. Estos tipos de rutinas indirectos son útiles, ya que muchos de los enfoques teóricos gráfico directa (como la búsqueda de camarillas o k-núcleos) son o muy lento algorítmicamente o tiene dificultades sustantivas que identifican grupos primarios.

Rutina RNM Moody fue diseñado originalmente como un medio eficaz para agrupar muy grandes (10.000 nodos>) las redes, pero su fundamento teórico en los modelos de influencia pares (Friedkin, 1998; Friedkin y Cook, 1990) sugiere que debería ser sustantivamente útil para entornos en los que influencia de los compañeros es la preocupación central. La rutina de RNM utiliza un procedimiento de dos pasos. En el primer paso, uno simula un proceso de influencia de los pares de variables aleatorias k. La influencia de los pares de simulación luego ajusta la puntuación de cada persona en cada variable aleatoria para igualar el (tie-fortaleza ponderado) media de las personas a las que están conectados. Debido a que las variables originales no están correlacionados, densos racimos de nodos llegan a ocupar posiciones únicas en el espacio k-dimensional definido por la distribución resultante de variables aleatorias. En el segundo paso, se utiliza el análisis de conglomerados (aquí usamos método de la varianza mínima de Ward) para identificar grupos en función de las variables de influencia resultantes. El número de grupos se determina mediante el examen de los cambios en las estadísticas de ajuste (en este caso hemos utilizado (índice 1972) la segregación de Freeman como nuestro guía), de tal manera que dos grupos inicialmente distintas se unen si al hacerlo significativamente mejora el ajuste para ambos grupos. Además, los grupos pequeños o desconectados fueron examinados manualmente para ver si los nodos estarían mejor clasificados por la colocación de estos nodos en un "entre" posición de grupo. [5]

Las búsquedas de rutina del CAA para grupos con una estructura "-camarilla como". Una estructura perfectamente camarilla similar tendría grupos que están completamente conectados internamente (todos atado a todos los demás) y no hay lazos fuera de los grupos. Por lo tanto, los recuentos de rutina díadas nulos dentro de los grupos y lazos fuera de los grupos como desviaciones de lo ideal y ajusta los límites del grupo para reducir al mínimo el número de tales desviaciones. Al igual que con muchos de los algoritmos de detección de grupo, hay que determinar el número de facciones inicialmente. Los exámenes iniciales de estos datos mostraron que el enfoque RNM fue encontrar un menor número de grupos que el enfoque PCA, por lo que elegir 20 grupos como un número que "dividir la diferencia" entre los otros dos enfoques.

Tanto para el RNM y las rutinas del CAA, se trataron los datos como simétrica, pero ponderamos lazos recíprocos más de lazos asimétricos. [6] Para la nominación de datos multi-informante, se utilizó el número de veces que cada par fue nominado como estar en el mismo grupo que la base para el peso lazo. Carreras FAC iniciales sugirieron que el predominio de la denominación única menudo no concordantes estaba arrojando los resultados, por lo que limitan el análisis de pares con 2 o más compañeros de nominaciones.

Comparando resultados alternativos

Parte de la dificultad en la búsqueda de grupos primarios en las redes es definir exactamente qué características representan un grupo primario. Si bien los avances teóricos y algoritmos se han hecho en la identificación de aspectos particulares de la estructura de la red que aclaran nuestro entendimiento de los grupos primarios [como la cohesión estructural (Moody y Negro, 2003), la corbata fuerza (Freeman, 1992), la agrupación y la distancia (Holanda y Leinhardt , 1970; Holanda y Leinhardt, 1971; Watts, 1999) y la proporción de en grupo a las relaciones fuera del grupo (Fershtman, 1997; Guimera y Amaral, 2005)], no hay acuerdo unificado sobre lo que se considera una "camarilla -como "subgrupo. En la configuración sustantiva de interés aquí, esperamos que los grupos de pares primarios a ser pequeñas y muy unida. En general, también esperamos que sean en gran medida distinta, [7] con las relaciones / interacciones caer de manera desproporcionada en el grupo principal. Utilizamos seis medidas para examinar cómo "muy unida" y distintas soluciones de grupo son para ambos tipos de datos.

Los grupos muy unidos primarios es probable que sean relativamente densa y tienen muchas tríadas cerrados que sostienen el grupo local juntos. En general, la densidad de la red es el valor medio de las relaciones tomadas sobre todas las díadas posibles. Medimos la densidad relativa como la densidad de los lazos que caen dentro del grupo dividido por la densidad de los vínculos que se encuentran fuera de los grupos. Para dar cuenta de la estructura del grupo, así como el volumen (Freeman, 1992), utilizamos dos medidas basadas en la tríada. Tríadas cerrados capturan los casos en que los amigos de los amigos son amigos (relaciones transitivas), y esperamos que sustantivamente grupos de amistad primarias se caracterizan por un número relativamente alto de tríadas cerrados. La relación de transitividad se define como la proporción de todas las tríadas potencialmente cerrados que en realidad están cerrados. Se calcula como la proporción de todos los caminos de dos pasos (IAJ, JAK) que también son caminos directos (Îak). Se define la relación de transitividad relativa como la relación de transitividad calculado sólo entre dentro del grupo díadas sobre la relación de transitividad de toda la red. Idealmente, los grupos deben encierran tríadas cerrados, así cualquier caso de un límite del grupo de la separación de una tríada cerrada es una desviación del modelo de tipo ideal. Por lo tanto Medimos la proporción de todos tríadas cerrados (T300) que caen totalmente dentro del grupo para capturar la frecuencia con soluciones de grupo encapsulan tríadas cerradas. [8]

El carácter distintivo de un grupo se mide por la frecuencia de relaciones comprendidas en lugar de entre los grupos. Utilizamos el índice de segregación Freeman (1972), la proporción de todos los lazos que caen fuera de los grupos, y el índice de modularidad (Newman y Girvan, 2004), tres medidas de distinción grupo. Freeman razonó que si un grupo de partición era irrelevante, a continuación, las relaciones deben ser distribuidos al azar a través de las fronteras de grupo. Índice de segregación de la red de Freeman se calcula como la diferencia entre el número de relaciones a través del grupo observados y el número de relaciones a través del grupo esperados al azar, dividido por el número de relaciones a través del grupo esperados al azar. Cuando el valor es 1,0, todas las relaciones entran en grupos separados. Cuando el valor es 0, entonces las relaciones se distribuyen al azar entre los grupos. La estadística de la modularidad (Newman y Girvan, 2004) sigue una lógica similar y será 0 si los vínculos están distribuidos al azar. La ventaja de la puntuación de la modularidad es que la medida alcanza un valor máximo claro cuando los lazos son más propensos a caer dentro de los grupos, por lo que es ideal para la comparación de carácter distintivo del grupo a través de soluciones. Por último, la proporción de los lazos que quedan fuera de los grupos proporciona una fácil interpretación (aunque no calibrada contra el azar) métrica para la gran cantidad de relaciones a través del grupo.

El tamaño del grupo entra en nuestra consideración tanto sustantiva y metodológicamente. Al fondo, los grupos primarios de los niños tienden a ser pequeñas (Rubin, Bukowski y Parker, 1998) y por lo tanto cualquier solución que genera grupos muy grandes carece de un cierto nivel de validez aparente. Sin embargo, también esperamos un grupo para tener un cierto carácter extra-individual que se extiende más allá de cualquier miembro individual (Simmel, 1950; Moody y White, 2003). La colección más pequeña que puede existir independiente de cualquier solo actor es la tríada, y por lo tanto los grupos se define típicamente como que tiene 3 o más nodos. Metodológicamente, la distribución de tamaños de grupo afecta a todos los demás parámetros utilizados para definir los grupos. Por un lado, si todos los nodos se repartieron en un solo grupo, entonces no habría ningún vínculo fuera del grupo y todas las tríadas caerían dentro del grupo (no habría, por supuesto, haber reducción de datos que aquí tampoco!).


Estrategia Analítica

III. Resultados


Breve descripción de Peer red de datos


Informes de amigos y grupos. En promedio, los adolescentes enumeran 9.72 amigos (SD = 3,95) e identificados 3,76 grupos (SD = 2,01) con 4,60 individuos por grupo (SD = 2,10) (es decir, un total de 17.26 miembros del grupo). Más de la mitad de todos los amigos de auto-reporte (59,4%) y más de la mitad de todos los compañeros nominados a los grupos sociales (51,1%) estaban fuera de la propia aula del adolescente, lo que confirma que la red social se considera adecuada a nivel de toda la grado.

Estadísticas de grafos. Los datos del grupo de múltiples informantes demostraron una alta densidad de lazos (0.486) y transitividad (0.571). Esto sugiere amplia "clusteredness" para ser explotado por cada método de agrupación, que es de esperar, ya que los datos genera lazos entre todos los pares nombrados como miembros del mismo grupo. Por el contrario, los datos de amistad auto-reporte tenían menor densidad (0.121) y (0.302) marca transitividad. Esto hará que la búsqueda de grupos consistentemente más difícil que con los datos de varios informantes, ya que habrá menos agrupación de los algoritmos para explotar.

Sociogramas. Siguiente construimos sociogramas que ilustran cada tipo de datos de la red. En cada sociograma, posición en el plano xy se determina mediante un algoritmo de diseño automático fuerza dirigida implementada en Pajek (Batagelj y Mrvar, 2001). Para estos diseños, los vínculos sociales son análogos a los muelles, con valores más fuertes que indica un tirón más fuerte entre los nodos. Como tal, dos nodos que están conectados tenderá a ser cerca uno del otro, mientras que los nodos que están desconectados estarán más separados. En un sentido típico-ideal, si la red se compone de grupos muy distintos (y las nominaciones refleja estos grupos), entonces la figura contendría "grumos" distintas para cada grupo.

Figura 1. Nominaciones Auto-reportadas de Amistad 


Las líneas azules gruesas son correspondidos nominaciones amistad, gris fina son nominaciones asimétricos. Letras identifican nodos particulares para comparar con la Figura 2.

En la Figura 1, cada nodo representa un estudiante y cada línea representa una nominación amistad. Para el presente análisis, las relaciones asimétricas (líneas delgadas) cuentan menos que los lazos simétricos (líneas gruesas). Esta figura muestra que las candidaturas de amistad entre los alumnos de 6to grado están fuertemente condicionados por el sexo. Más allá de esta fuerte segregación sexual, la red no sugiere muchos grupos pequeños, especialmente entre los varones. En cambio, tanto el macho y la hembra lados de la red tienen una estructura de "centro-periferia", con un pequeño número de individuos que no tienen lazos recíprocos, y un gran grupo de personas que están fuertemente conectados. Las hembras en la red son un poco más diferenciado, con lo que parece ser dos o tres "grumos" superpuestas que se extienden a lo largo del eje "norte-sur". Además, hay dos pequeños grupos en la parte "sureste" de la figura sin conexiones recíprocos con el resto de la red, pero un vínculo entre ellos. Estos fueron los estudiantes que pasaron parte de su día en un aula de Educación Especial: a pesar de ser "integrado" en las aulas de Educación General para gran parte de la jornada escolar, amistades de estos niños fueron en gran medida independiente del resto de la nota.



En la Figura 2, cada línea indica el número de veces que dos estudiantes (nodos) fueron nombrados como miembros del mismo grupo. El espesor y la sombra de la línea corresponde a la frecuencia de co-nominación al mismo grupo. Aunque el número de compañeros de nominaciones que unen nodos individuales fue de 1 a 33, para mayor claridad estos valores se agruparon en seis rangos. Hay tres impresiones inmediatas dadas por esta figura. En primer lugar, hay grupos claros con acuerdos muy fuertes (líneas gruesas), sobre todo entre las mujeres, lo que indica un consenso sustancial entre los estudiantes con respecto a los patrones de interacción de sus compañeros. En segundo lugar, hay grandes diferencias individuales en el máximo número de compañeros de nominaciones que unen un estudiante dado a otros estudiantes: el número máximo de compañeros de nominaciones se centra alrededor de 10 (media = 11,1, mediana = 9,0), pero 39 (27,1%) estudiantes nunca fueron nombrados más de 5 veces con cualquier par, mientras que 18 (12,5%) estudiantes alcanzaron más de 20 compañeros de nominaciones con al menos uno de sus compañeros. En tercer lugar, los amplios vínculos en los niveles bajos (las líneas muy delgadas que conectan un amplio conjunto de nodos a través del gráfico) sugiere que algunas personas proporcionan informes idiosincrásicos de los grupos que están en desacuerdo con el consenso del grupo.

En general, los dos sociogramas corresponden muy de cerca en términos de la forma general, la separación de machos y hembras, y la ubicación de los nodos individuales (catorce de los cuales están etiquetados, A través de N, en cada gráfico). [10] Los dos grupos de alumnos de educación especial en la porción sur de la gráfica (incluyendo nodos G, J y K), por ejemplo, contienen miembros casi idénticos. Además, 3 de los 4 nodos masculinos en la sección "femenina" de la gráfica la amistad (incluyendo nodos E y I) están igualmente más estrechamente asociado con el lado femenino de la gráfica multi-informante. En ambos gráficos, muchachos L y M ocupan posiciones similares en grupos fuera del grupo principal de los niños, mientras que las niñas HF y BC se encuentran en posiciones paralelas dentro de los grupos relativamente fundamentales de las niñas. Niños N y D residen en la periferia de ambos gráficos, mientras que A es chica periférica en el gráfico de amistad pero más cerca del núcleo de la gráfica multi-informante.

La correspondencia entre la amistad y nominaciones múltiples informantes. Pusimos a prueba el grado en que el número de veces que dos personas fueron nominados como salir nominaciones amistad juntos predichos. Modelamos la probabilidad de una nominación amistad, el control de las medidas de la red y de participación de grupo, incluyendo: número de amigos con nombre, número de nominaciones amistad recibidas, número de nominaciones de grupo recibida y la composición por sexo de la díada. Debido a que la variable dependiente es dicotómica (nominado o no), se utiliza un modelo de regresión logística. Los resultados (Tabla 1) muestran claramente que el número de veces que una díada está nominado a un mismo grupo predice fuertemente una nominación amistad.

Tabla 1. Regresión logística de Nominación Amistad en Multi-informante Compañeros de nominaciones (odds ratio entre paréntesis)
Variable
Model 1
Model 2
Model 3
Model 4
Intercept
-4.87
-6.31
-6.54
-6.28
# of friends named by ego (ODG)
0.138
(1.15)
0.145
(1.16)
0.144
(1.16)
0.145
(1.16)
# of times alter was named as a friend (IDG)
0.146
(1.16)
0.144
(1.16)
0.144
(1.16)
0.153
(1.17)
# of times ego named as a group member (ego visibility)
-0.015
(0.989)
-0.011
(0.989)
-0.01
(0.989)
-0.01
(0.989)
# of times alter named as a group member (alter visibility)
-0.008
(0.992)
-0.008
(0.992)
-0.007
(0.993)
-.009
(0.991)
Same sex dyad

1.84
(6.355)
2.05
(7.76)

Both Male



1.74
(5.71)
Both Female



2.04
(7.69)
Number of Co-Nominations
0.603
(1.83)
0.508
(1.66)
1.09
(2.99)
0.506
(1.66)
Group x Same Sex


-0.610
(0.544)






Pseudo R2
0.37
0.423
0.428
0.424
Note.  All variables are statistically significant at the .0001 level.

Después de controlar la composición por sexo de la díada, por cada vez que se dice que las probabilidades de un aumento nominación amistad por 1,66 el par de pertenecer al mismo grupo. Este efecto difiere en composición de género. En concreto, un compañero de candidatura es más probable para predecir una amistad cuando la díada es cruz-sexo, aunque la relativa rareza de estas nominaciones hace que esta búsqueda de algo menos importante. Como se esperaba, los controles para la expansividad de red (ODG) y el atractivo (IDG) también son importantes. Aunque estadísticamente significativa sencilla visibilidad de cualquiera de las partes, realmente no importa mucho (los odds ratios están cerca de 1.0). Para simplificar la interpretación de este coeficiente, la Figura 3 parcelas de la probabilidad predicha de una nominación amistad por una díada entre personas del mismo sexo, por el número de veces que son nombrados como miembros de un mismo grupo (estimaciones basadas en el modelo 2). [11] Esta cifra indica que (en estos datos) la probabilidad de que una amistad de auto-reporte alcanza el 50% en el número de múltiples informantes interacción compañeros de nominaciones llega a alrededor de 7, y supera el 95% cuando el número de compañeros de nominaciones alcanza alrededor de 13.




Comparabilidad de soluciones de grupo

Tabla 2. Comparabilidad de soluciones de grupo 


Self Nominations
Multi-Informant Nominations


RNM
FAC
PCA
RNM
FAC
PCA
Self Nom
RNM
---
0.328
0.362
0.417
0.392
0.316
FAC
0.861
---
0.475
0.464
0.498
0.465
PCA
0.873
0.949
---
0.584
0.572
0.465
Mult Nom
RNM
0.881
0.942
0.958
---
0.687
0.695
FAC
0.872
0.947
0.957
0.965
---
0.665
PCA
0.862
0.948
0.948
0.969
0.966
---
Nota. Los valores por encima de la diagonal son los Rand estadística probabilidad ajustada (Morey y Agresti, 1984). Los valores por debajo de la diagonal son la estadística Rand simple, sin ajustar por casualidad. La interpretación de la estadística de Rand es la probabilidad de que un par elegido al azar será clasificado de manera similar por las dos particiones. La interpretación de la Rand ajustado es la diferencia porcentual entre el número de acuerdos observadas y el número de acuerdos de azar.
A continuación examinó las similitudes entre la agrupación de algoritmos para ambos tipos de datos. Tabla 2 contiene los coeficientes emparejan Rand describen la comparabilidad de las particiones de nodos a través de las seis combinaciones diferentes de datos de red y el algoritmo de identificación de grupo. Los coeficientes positivos a través de todas las comparaciones indican que las particiones se correlacionaron significativamente, pero las diferencias que se producen son sistemáticos. Acuerdo general es más alta en las tres soluciones de múltiples informantes (media = 0,97 Rand, Rand ajustado = 0,68) que a través de las tres soluciones amistad auto-reporte (media R = 0,89; AR = 0,39). Este efecto principal de los datos de la red es bastante grande, y en gran parte debido a la clara agrupación evidente en la matriz multi-informante. Efectivamente, los subgrupos de la red multi-informante son objetivos mucho más fácil golpear que en la red de amistad menos agrupado, por lo que las diferencias en la agrupación de los algoritmos tienen menos probabilidades de conducir a soluciones de agrupación divergentes.

Dentro de la red de amistad, la solución RNM es menos similar al de los otros dos (AR: RNM, FAC = 0,33; RNM, PCA = 0,36) de lo que son el uno al otro (FAC, PCA = 0,48). Esto sugiere que los tres métodos difieren en sus estrategias básicas que, como veremos más adelante, el comercio fuera, las agrupaciones más grandes distintivos (RNM) y las agrupaciones más pequeñas con mayor densidad en grupo (FAC, PCA). En general, los grupos derivados de los datos de amistad auto-reporte con un algoritmo particular eran tan similares a los grupos derivados de los datos de múltiples informantes (cuadrante superior derecho del cuadro 2; mediana AR = 0.47), ya que eran el uno al otro (AR rango de 0,33 hasta 0,48).

Desde la perspectiva de la comparación de los resultados entre diferentes combinaciones de técnicas de recolección de datos y estrategias analíticas, estos resultados envían una señal mixta. Por un lado, el acuerdo significativa oportunidad ajustados en todos los seis soluciones indica que los investigadores usando una amplia gama de métodos (medidas algoritmos *) son de hecho describiendo fenómenos similares. Por otra parte, en comparación con los datos de la amistad de auto-reporte, los datos de varios informantes más agrupados producen agrupaciones mucho más consistentes a través de varios métodos analíticos. Pasamos ahora a los detalles de los tipos de grupos identificados por cada enfoque.

Las diferencias en las características estructurales de soluciones de grupo


Tabla 3. Características estructurales de grupos
Type of Network Data
Group Identification Procedure
Recursive Neighborhood Means
FAC
Principal Components Analysis
Gender x Homeroom

Self-Reported Friendships
Density = .12
Transitivity Ratio = .57




   # of Groups
10 + 14  between
20*
24 + 3 unclassified

   Size: M (SD)
13.3 (11.6)
7.3 (1.9)
6.04 (2.22)

   Min  -  Max
5 - 43
5  - 12
3 – 12

   Groups of size = 3
0
0
3

   Relative Density
9.76
11.43
13.61
7.84
   Relative Transitivity
1.58
2.56
2.60
2.14
   Prop. closed triads in same group
0.60
0.27
0.24
0.21
   Freeman Segregation
0.57
0.32
0.33
0.311
   Modularity
0.46
0.30
0.31
0.41
   Proportion of ties out-of-group
0.346
0.641
0.636
0.636






Multi-informant Groups
Density .49
Transitivity Ratio = .57




   # of Groups
20+9 between
20*
24 + 1 unclassified

   Size: M (SD)
6.95 (3.03)
7.4 (2.6)
6.13 (2.44)

   Min  -  Max
4 – 14
5 – 13
3 – 11

   Groups of size = 3
0
0
4

   Relative Density
27.22
30.83
29.72
10.87
   Relative Transitivity
1.54
1.66
1.67
1.54
   Prop. closed triads in same group
0.41
0.52
0.31
0.21
   Freeman Segregation
0.56
0.58
0.53
0.394
   Modularity
0.52
0.53
0.50
0.36
   Proportion of ties out-of-group
0.399
0.383
0.439
0.556
* Number of groups is definitional

Tabla 4. Conducta de homogeneidad intragrupo



Type of Network Data


Group structure Index
Self-Reported Friendships
Multi-Informant Groups
Group Identification Procedure
Recursive Neighborhood Means
Like Going to School
.080 / .066 a
.228
Peer Social Preference
.142 / .143
.281**
Teacher-rated Aggression
.048 / .088
.204
Grade Point Average
.080 / .226*
.224
FAC
Like Going to School
.126
.220
Peer Social Preference
.197
.342***
Teacher-rated Aggression
.171
.229*
Grade Point Average
.247+
.246*
Principal Components Analysis
Like Going to School
.235
.276*
Peer Social Preference
.366***
.317**
Teacher-rated Aggression
.403***
.439***
Grade Point Average
.332**
.289*
p < .05. ** p < .01. *** p < .001.
Note. Effects of group membership (Partial eta-squared) after controlling for gender. For the RCN self-reported friendship solution, values after the slash are the partial eta-squared values after removing group 1.

La Tabla 3 contiene las estadísticas de la estructura del grupo de los seis soluciones de agrupamiento y, por comparación, las estadísticas de una sencilla agrupación atributo basado en el sexo y el aula. Tabla 4 contiene estimaciones del grupo de la homogeneidad del comportamiento. A continuación se resumen brevemente los resultados de las redes de múltiples informantes antes de examinar razones de la variabilidad en las soluciones para los datos de la amistad.

Tabla 3 contiene las estadísticas de la estructura del grupo de los seis soluciones de clustering y, por comparación, las estadísticas de una sencilla agrupación atributo basado en el sexo y el aula. Tabla 4 contiene estimaciones del grupo de la homogeneidad del comportamiento. A continuación se resumen brevemente los resultados de las redes de múltiples informantes antes de examinar razones de la variabilidad en las soluciones para los datos de la amistad.

Estructuras Grupo Multi-informantes. Los tres métodos producen grupos de tamaño similar de los datos de múltiples informantes. Los tamaños de grupo promedio fueron muy similares para RNM y FAC (6,95 vs. 7,40) con una distribución similar de tamaño del grupo (intervalo de 4 a 14 para RNM; 5 a 13 para FAC), y grupos de PCA eran sólo un poco más pequeño (M = 6,13 , rango de 3 a 11). Grupo tight-knittedness era muy similar a través de soluciones, con la densidad relativa de los lazos de fuera del grupo en grupos más o menos tres veces mayor para las soluciones de RNM, FAC y PCA (27.22, 30.83, 29.72) que para una partición que refleja la división por género y salón hogar (10,87). Diferenciación Grupo también fue similar en las soluciones.

Las estimaciones del grupo de la homogeneidad de comportamiento fueron generalmente confiable y moderada en magnitud para cada solución. Dada la similitud en las particiones, fue sorprendente que la homogeneidad fue consistentemente mayor para los grupos de PCA que para los grupos RNM, con homogeneidad de los grupos FAC a niveles intermedios. Los niveles sustancialmente más altos de similitud en el comportamiento agresivo de los grupos de PCA se debió en gran parte a un subgrupo de 13 niños, 5 de los cuales eran muy agresivos (que representan casi la mitad de los estudiantes altamente agresivas en todo el grado). RNM y FAC colocan los 13 individuos en el mismo grupo, mientras que la ACP les separa en un grupo de 8 que contenía los 5 individuos altamente agresivos y un grupo de 5 chicos no agresivos. La explicación más probable para las diferencias modestas en la similitud de los otros comportamientos es que PCA producida agrupaciones ligeramente más pequeñas, pero examinamos esta cuestión con más detalle en el contexto de las soluciones de redes de amistad, que diferían sustancialmente más en formas adicionales. En esta etapa, la característica más notable de datos multi-informante fue que tres procedimientos de identificación de grupo distintos producen soluciones que eran altamente comparables en términos de características estructurales, la colocación de los individuos en grupos, y estimaciones de la homogeneidad del comportamiento.

Estructuras de grupo de amistad auto-reportadas

Tamaño. Al igual que con los datos de la red de múltiples informantes, las soluciones RNM y Facción tendieron a producir grupos de amistad de más de la solución de PCA. FAC y PCA producen tamaños de los grupos que eran muy similares a los obtenidos cuando el método comparable se aplicó a los datos multi-informante (FAC: M = 7,3 para los datos de amistad, M = 7,4 para los datos multi-informante; PCA: M = 6,0 y M = 6.1, respectivamente). La solución amistad RNM genera un grupo masculino de 43 nodos. Este cluster grande domina la solución RNM, y parece conducir un número de las diferencias reportadas en la estructura del grupo a continuación. Cuando este grupo se excluye de la consideración, la solución para los datos de RNM amistad produce grupos solamente un poco más grande que los de datos de múltiples informantes (M = 8,5 vs. M = 6,95).

Densidad interna. La solución PCA produce grupos con la densidad más alta y transitividad interna, con los grupos FAC de ser bastante similar. Más específicamente, la densidad relativa de los lazos de la PCA, FAC y grupos RNM fue de 13,6, 11,4 y 9,8, respectivamente, y la relación de transitividad dentro del grupo para cada era 2.60, 2.56 y 1.58. Una vez más, gran parte de la diferencia en este "tight-knittedness" para la solución RNM es atribuible al gran grupo de 43 nodos. Cuando se excluye que grupo, los indicadores de densidad interna son más similares para los grupos RNM restantes.

Diferenciación. Los grupos RNM fueron más altamente diferenciados que los grupos de PCA o FAC. El sesenta por ciento de las tríadas cerrados caen dentro de los grupos RNM, mientras que la mayoría de las tríadas cerrados tanto en el PCA y rutinas FAC límites del grupo transversales, lo que sugiere que la solución RNM construye con eficacia grupos a fin de tener relativamente menos contactos con otros grupos. Esto es evidente en las otras estadísticas de agrupamiento grupo también. El índice de segregación para la solución RNM es de 0,56, frente a 0,32 y 0,33 para las soluciones del CAA y PCA, respectivamente y la puntuación de la modularidad de RNM es 0.456, frente a los 0,299 y 0,311 para la FAC y PCA, respectivamente. Del mismo modo, mientras que el 64% de los lazos quedan fuera de los grupos de las FAC y PCA, sólo el 35% de los lazos quedan fuera de los grupos de RNM.

Homogeneidad del comportamiento. Las tres soluciones producidas variando las estimaciones de la homogeneidad del comportamiento. El orden de estas diferencias fue el mismo que para los datos multi-informante: PCA produce las estimaciones más grandes de homogeneidad, FAC producido estimaciones intermedia, pero a menudo estadísticamente insignificante, y RNM produce generalmente estimaciones estadísticamente insignificantes y más débil, que aumentó sólo modestamente cuando el se excluyó gran grupo integrado por 43 personas. Dentro de los métodos, las estimaciones basadas en la PCA de homogeneidad fueron comparables para la amistad y de datos de múltiples informantes, pero para ambos FAC y (especialmente) RNM, las estimaciones de la homogeneidad eran claramente más alta para los datos de múltiples informantes.

Resumen. Los datos amistad auto-reporte de menos agrupados produjeron resultados que variaron más en todo método analítico que lo hicieron los datos de múltiples informantes. En estas circunstancias, el procedimiento RNM logra su ventaja relativa en la diferenciación a costa de los grupos menos muy unidas. Es decir, parece que el procedimiento de RNM tiende a favorecer a grupos distintos, incluso si son menos densos internamente, mientras que las soluciones de PCA y FAC vuelven grupos que son internamente muy densa y transitiva, pero que también tienen muchos lazos y tríadas cerrados que quedan fuera de los grupos respectivos. Estas diferencias se correlacionaron con las estimaciones de la homogeneidad de comportamiento.

Una mirada más cercana

¿Qué explica las diferencias en los resultados de partición para los datos de la amistad de auto-reporte? Figura 4 a continuación ofrece una comparación intuitiva de la RNM y soluciones de PCA. [12] El panel A presenta las parcelas de sombra para la superposición de tareas (primera matriz) y los datos en bruto utilizados para generar las soluciones de clúster (segunda matriz). El alto nivel de acuerdo a los datos de varios informante es evidente por el hecho de que la mayoría de las celdas en la primera columna son negro - lo que indica que la pareja fue clasificado en el mismo grupo de ambas soluciones. La matriz se ha permutado para tirar racimos a lo largo de la diagonal. Los lugares donde los algoritmos se pierda uno al otro son de color gris (el par se agrupan por un algoritmo, pero no a la inversa). Se puede ver que cuando los algoritmos "perdidas" tendían a ser en regiones muy similares de la gráfica. Por ejemplo, la mayor cantidad de desajuste entre las dos soluciones se produjo en la celda diagonal por bloques en la parte inferior derecha de esta imagen, donde ambos coincidieron en la colocación de pares de dos secciones más pequeñas, pero no están de acuerdo sobre el resto de los pares. Si nos fijamos en la región correspondiente de los datos en bruto, vemos que esta sección tenía niveles muy altos de candidaturas conjuntas. La tendencia de PCA para recoger grupos densos en lugar de distintas explica la diferencia en las dos soluciones.




Consideremos ahora el caso de auto-nominación en el panel B. El acuerdo global inferior es evidente en el mayor número de células grises, pero nota también la mayor diversidad de distribución empate en los datos en bruto en la segunda matriz. La región de mayor desacuerdo es en la parte inferior derecha de la matriz de adyacencia. Aquí vemos que la ACP y RNM de acuerdo en la asignación de pares de esos nodos con los lazos más fuertes, pero PCA dividir el conjunto en muchos grupos pequeños y RNM los mantuvo juntos. Este es exactamente el equilibrio entre la distinción y la densidad aludido anteriormente.

Este equilibrio se hace más evidente si nos acercamos en la región de la red de amistad auto-reporte en donde la mayoría de los tres enfoques no están de acuerdo: la gran 'maraña' de las relaciones recíprocos en el lado masculino de la figura 1. Figura 5 parcelas de los 60 nodos implicados en este conjunto, la identificación de los grupos con cuatro métodos diferentes. Para facilitar la comparación, las cifras utilizan el mismo diseño para cada solución, pero los colores y regiones sombreadas encapsulan nodos de acuerdo a cómo cada algoritmo agrupan el conjunto de datos. [13] La figura incluye las tres rutinas de agrupamiento indirectos en comparación aquí, así como un cohesiva bloqueando rutina descrita por Moody & White (2003), que ayuda a informar por qué los otros tres soluciones difieren. Para ayudar a visualizar los resultados de clúster, los nodos del mismo color están envueltos en una región semi-transparente con sombra del mismo color que los nodos.



Los tres métodos de agrupación están de acuerdo exactamente en agrupar a los siete nodos en la parte superior de la figura y tener asignaciones relativamente similares de los nodos alrededor de la estrella de nueve personas en el extremo derecho de la figura. Estos centro de nueve nodos alrededor de un actor central, y cada solución encuentra un grupo en torno a este actor, aunque difieren ligeramente en su composición exacta. La sección amarilla en la solución de RNM, sin embargo, domina la mayor parte de este subgrafo. Si se fijan bien en las tres soluciones, se ve poco acuerdo sobre la ubicación de los nodos dentro de este conjunto. [14] La solución FAC cruza la sección lazo más fuerte de múltiples maneras (otros diseños, que no peso lazos por ejemplo correspondido, hacer no ayuda aquí). La solución ACC, divisiones más compactos, pero una serie de puntos reparten el grueso de este enredo. El enfoque RNM simplemente lo llamó un solo grupo.

¿Por qué es tan difícil para dividir sistemáticamente esta sección? La respuesta está en el bloqueo directo dado en el panel inferior derecha de la figura 5. En lugar de identificar los grupos primarios, aquí contamos con un bloqueo de cohesión de la gráfica. Un bloque cohesionado contiene nodos que se encuentran de manera similar en la estructura de ruta de nodo independiente (en este caso basado únicamente en la red de gala correspondido). Si un componente es k-conectado, entonces la gráfica no puede ser dividido en piezas separadas a menos que al menos nodos k se eliminan (Moody & White 2003). Todos los nodos son parte de la 1-componente, pero anidado dentro de este conjunto es un bicomponente de 47 personas, dos de 3 componentes (tamaño 4 - el corazón de la sección de todos los métodos están de acuerdo en, y tamaño 35 - la región de naranja grande), y el núcleo de esta red es un 22-persona 4-componente (sección verde oliva) que admite que no hay k-componentes ligados más fuertemente. [15]

Conectividad Node proporciona un límite natural para los grupos primarios, como los puntos de corte en el gráfico proporcionan una partición clara de bordes en conjuntos distintos. Puesto que no hay división natural en la estructura de cohesión a explotar, las divisiones resultantes se basan en otras características del gráfico. [16] FAC parece incorporar débiles lazos, mientras que la solución de PCA parece utilizar tanto la información lazo débil y sacar provecho de la aumento de la correlación que viene de dos actores no ser conectados a terceros similares. Este elemento de la equivalencia estructural es evidente en el trío rosa claro compuesto por actores todos conectados a una estrella central (es decir, en otro grupo), y tal vez sugiere un mecanismo para explicar la mayor homogeneidad dentro del grupo. RNM, en cambio, se centra en gran medida de carácter distintivo del grupo, a partir de estos cutponts, y por lo tanto no intenta dividir este grupo.

IV. Conclusión y Discusión

¿Son los investigadores que utilizan diferentes métodos de recopilación de datos y diferentes técnicas de análisis para encontrar adolescentes "grupos de pares" el estudio de la misma cosa? Nuestros resultados sugieren que (estos datos) todos los métodos a encontrar grupos más o menos similares, pero que: (a) las diferencias que aparecen son sistemática y fuertemente afectado por el método de recogida de datos, dependiendo más en el algoritmo de detección de grupo para amistad autoinformada datos; (B) cuando los algoritmos de detección diferentes, que el comercio de la medida en que detectan grupos son distintos del resto de la red en lugar de internamente denso y (c) los algoritmos favoreciendo lazos internamente densos identifican grupos con mayor similitud de comportamiento.

Con respecto a los datos, los datos de varios informante produce blancos más fáciles para cualquier algoritmo de clúster. Tenemos la sospecha de que la diferencia sustancial en el "clusteredness" de la amistad de auto-reporte y datos multi-grupo informante sigue en gran parte de las diferencias en el nivel en que las afiliaciones son reportados (diadas vs. grupos). Las listas de amistades diádicas no implican vínculos directos entre los amigos de la lista. Por el contrario, registró las respuestas a nivel de grupos están completamente conectados (y distinta) camarillas, por lo que las redes resultantes tienen que parecerse a los solapamientos de camarillas. Las diferencias en la clusteredness de los dos tipos de datos se magnifican aún más por el hecho de que los adolescentes enumeran casi el doble de los pares en respuesta a los grupos cuestionan (M = 17,3) como lo hicieron cuando se enumeran sólo a sus propios amigos (M = 9.72) . Por último, es posible que existan diferencias en la transitividad de los patrones de interacción (peer-percibida) y (auto-reporte) lazos afectivos: en otras palabras, los sentimientos de amistad pueden ser organizados más difusa que los patrones de interacción percibidos por sus compañeros. Dentro de estos datos, no podemos desentrañar cómo cada uno de estos factores (grupo-vs-diada; multi-vs-auto-informantes; interacción vs-cercanía) contribuyeron a la mayor clusteredness de los datos de varios informantes, pero juntos claramente dado lugar a diferencias sustanciales en las estructuras de datos de los que proceden los grupos.

En la comparación de los algoritmos de detección, el procedimiento de RNM está sesgado hacia la identificación de los grupos que son distintos el uno del otro, mientras que FAC y PCA encontrar grupos que son más internamente denso, incluso si no son fuertemente distinto de otros grupos en la red. La tensión entre el carácter distintivo de grupo (RNM) y la densidad interna (FAC, PCA) es más evidente cuando la estructura de la red no se presta a un conjunto de grupos claramente diferenciados, como con los datos de la amistad (Figura 5). El hecho de que los grupos más pequeños, más densas identificados por FAC y PCA son más comportamiento homogéneo de las agrupaciones más grandes identificados por RNM sugiere que están haciendo diferenciaciones no aleatorias dentro de la gran "maraña" de las relaciones. La tensión entre los algoritmos de agrupación que hacen hincapié en el carácter distintivo sobre la densidad interna puede reducirse permitiendo que los grupos se superponen. En el procedimiento de PCA, por ejemplo, cargas importantes sobre dos factores pueden interpretarse como ejemplos de la pertenencia a dos grupos superpuestos: permite explícitamente como "doble pertenencia" probablemente disminuir el número de tríadas cerrados que se dividen cuando estas personas se ven obligadas a ser miembros de un solo grupo.

Es de destacar que el comportamiento fue mayor similitud dentro de los grupos identificados por PCA que dentro de los grupos identificados por los otros dos algoritmos. ¿Por qué esto es cierto, sobre todo teniendo fundamento teórico de RNM en los modelos de influencia de los compañeros? Dos explicaciones merecen un examen más detenido. En primer lugar, PCA utiliza un perfil puntuación de similitud (la correlación de los lazos a través de todos los actores), que es una medida clásica de la equivalencia estructural. Encontrar un efecto conductual más fuerte de grupos de PCA en los otros dos algoritmos sugiere el trabajo futuro podría centrarse en los mecanismos basados ​​en roles que se relacionan con la posición de un grupo en la estructura general de la red (Burt, 1978, 1987; Friedkin, 1984; Mizruchi, 1993) . En segundo lugar, podría ser que las díadas, en lugar de grupos, son la unidad relevante por la influencia en la adolescencia temprana. Investigadores del Desarrollo han sugerido que la dinámica a nivel de grupo y la influencia comienzan durante la adolescencia (Rubin et al., 1998), pero la investigación sistemática aclarar exactamente cuando estos procesos surgen que falta. Si influencias a nivel díada prevalecen en la adolescencia temprana, entonces la ligera ventaja en fuerza diádica identificado dentro de los grupos de PCA hace que sea una mejor representación de esos procesos.

La rutina RNM implementa un modelo de comportamiento que asume la misma influencia de los lazos ponderados de manera similar, pero trabajos recientes sociológico sobre la influencia social (Friedkin, 1998; Friedkin y Johnsen, 1997; Haynie, 2001) sugiere que los compañeros se cuentan diferencialmente en función de su posición. Una manera de probar esta hipótesis sería generar similitud resultados RNM que interactúan con la posición de los compañeros, dando mayor peso a los actores centrales o el número de terceros comúnmente unir cada par. Investigadores del desarrollo se están moviendo en una dirección similar al considerar estrategias que diferencialmente peso pares en la red social basada en la información sobre los dos lazos de amistad y la frecuencia de interacción (Kindermann, 1996). Por ejemplo, el peso extra podría ser asignado a amigos dentro de los grupos de interacción basados, o amigos recíprocos podría ser ponderado de acuerdo con el número de compañeros que informan que "cuelgan alrededor juntos mucho."

¿Qué recomendaciones generales sobre la recopilación de datos y el método de detección de grupo se pueden hacer de esta comparación? En primer lugar, está claro que los resultados de pertenencia a grupo dependen en gran medida el método de recogida de datos y parece que la característica más relevante del método depende del nivel de densidad y transitividad / agrupación que genera. En segundo lugar, mientras que nos encontramos con un amplio consenso general entre los métodos y los datos, cuando estos métodos de agrupación no están de acuerdo, que tiende a ser a lo largo de una dimensión de distinción frente a la densidad. Con los datos de amistad auto-reporte normalmente dispersas y menos en clúster, los investigadores deben reconocer este desacuerdo probable a través de métodos y proporcionar una justificación teórica clara de por qué la densidad sería preferible a la distinción (o viceversa). Los investigadores podrían buscar idealmente evidencia de la generalización de las conclusiones sustantivas mediante la comparación de las conclusiones sustantivas en varios algoritmos de agrupación aplicado a la misma red o el mismo algoritmo de agrupación aplicado a través de múltiples redes. Cuando no son convincentes razones conceptuales o logísticos para medir grupos de pares en términos de amistades de auto-reporte, a continuación, la recogida de datos en forma de grupos de múltiples informantes probablemente proporcionar una base más sólida para la identificación de grupo.

Las investigaciones futuras deberían explorar más a fondo varias cuestiones que estaban más allá del alcance de estos análisis. Fundamentalmente, si la similitud entre pares y la influencia operan principalmente a nivel diádico en la adolescencia temprana, podría ser más eficiente para centrarse en estos lazos directos y renunciar a la identificación de las estructuras de los grupos en total? ¿En qué etapa en el desarrollo de estructuras de grupo no agregan poder explicativo más allá de los lazos directos? ¿Cómo podrían permitir la superposición entre los grupos afectan las diferencias entre las soluciones de grupo y estimaciones de similitud de comportamiento? ¿Cómo podría la información sobre las amistades y las relaciones sociales de interacción basado combinarse para ponderar compañeros diferencialmente en función de su probable influencia? Teniendo en cuenta que tanto los investigadores de la red de desarrollo y sociológicos han articulado preguntas similares y las posibles soluciones a estas preguntas, continuó la fertilización cruzada de métodos conceptuales, metodológicos y analíticos debe producir beneficios para ambos campos.