Análisis de redes sociales

viernes, 8 de mayo de 2015

Recolección de datos para identificar grupos de pares adolescentes

¿Densidad o distinción? El papel de la estructura de datos y métodos de detección de grupo al describir grupos de pares de adolescentes

Scott D. Gest, gest@psu.edu
Universidad del Estado de Pennsylvania [1]

James Moody, jmoody77@soc.duke.edu
Universidad de Duke

Kelly L. Rulison, klr250@psu.edu
Universidad del Estado de Pennsylvania

Journal of Social Structures

Resumen: A pesar del interés interdisciplinario en la influencia social entre grupos de pares adolescentes, variaciones significativas en la recolección y análisis de datos de la red de pares no se han explorado, por lo que es difícil separar las diferencias sustantivas y metodológicas en los estudios de la influencia de pares. Analizamos dos tipos de datos de la red (amistades auto-reportadas y los informes de varios informantes de niños que "pasan mucho tiempo juntos") con tres métodos de identificación de estructuras de grupo (dos enfoques grafo teóricos y análisis de componentes principales) para explorar las diferencias sustantivas en los resultados. Entonces vinculamos estas diferencias de nuevo a las características de las redes subyacentes, lo que les permitimos una mayor penetración en el problema general de la identificación de los grupos de datos de la red. Encontramos que los diferentes enfoques analíticos aplicados a los mismos datos de la red producidos soluciones grupo moderadamente concordantes, con concordancias más altas para datos de múltiples informantes. Los mismos enfoques analíticos aplicados a diferentes datos relacionales (en los mismos nodos) producen la concordancia más débil, lo que sugiere que la estructura de datos subyacente puede ser más relevante de enfoque analítico en la contabilización de los resultados diferentes entre los estudios. La similitud de comportamiento entre los miembros del grupo fue mayor para los enfoques que se apoyan directamente sobre la densidad de los lazos directos.

I. Introducción

La investigación sociológica y psicológica de los grupos de pares adolescentes a menudo se ha procedido a lo largo de vías paralelas, la exploración de fenómenos similares, pero dentro de las tradiciones distintas para recopilar y analizar datos de la red de pares. Basándose en una rica tradición de la teoría de análisis de redes sociales en general y métodos (Doreian, Kapuscinski, Krackhardt, y Szczypula, 1996; Freeman, 2003; Friedkin & Cook, 1990; Moody, 2001a) sociólogos han estudiado la estructura de los grupos de pares adolescentes y su cambio dinámico en el tiempo (Doreian et al., 1996; Hallinan y Tuma, 1978; Hallinan, 1978; Haynie, 2001; Holanda y Leinhardt, 1977; Moody, 2001b), así como la influencia social y de difusión de los procesos (Cohen, 1977; Giordano , Cernkovich, Groat, Pugh y Swinford, 1998; Jussim y Osgood, 1989). Del mismo modo, los psicólogos han construido sobre teorías enfatizando pares como contextos de desarrollo individual (Hartup, 1996; Kindermann, 1996; Sullivan, 1953) para el estudio de la estructura y el cambio en diádica y redes de grupos (Berndt y Hoyle, 1985; Cairns, Leung, Buchanan y Cairns, 1995; Farmer, Estell, obispo, O'Neal, y Cairns, 2003>; Urberg, Degirmencioglu, Tolson, y Halliday Scher, 1995) y la influencia de los compañeros en la adaptación individual (Berndt, 1982, 1992; Cairns y Cairns , 1994; Hanish, Martin, Fabes, Leonard y Herzog, 2005; Kindermann, 1993).

A pesar de este interés en paralelo, hay relativamente pocos-citas cruzadas en las principales revistas sociológicas y de desarrollo que se ocupan de los procesos de grupo de pares. Esto es lamentable porque diferentes recopilación de datos y tradiciones analíticas han surgido en los dos campos, por lo que es difícil de integrar los hallazgos y la desaceleración de la transferencia de conocimientos e innovaciones de un campo a otro. Nuestro objetivo en este trabajo es contribuir a una integración productiva de estas tradiciones utilizando datos exclusivos de un solo entorno para explorar la comparabilidad de los grupos de pares identificados cuando se analizan dos procedimientos de recolección de datos de la red de pares adolescentes comunes con tres algoritmos de identificación de grupo común.

En el contexto de pares, los procedimientos de recolección de datos suelen variar a lo largo de tres dimensiones: el significado sustantivo de un vínculo social (amistad / afecto frente a la interacción), el nivel de análisis (díada vs. grupo) y el informante (autoinforme versus múltiples -informant). Estas tres dimensiones permiten muchas estrategias de medición distintos, pero por razones conceptuales y prácticos de dos estrategias de medición han ganado amplio uso: auto-informes de amistades diádicas e informes de varios informantes de los grupos de interacción basado. Del mismo modo, mientras que el número de algoritmos de agrupamiento encontrado en la literatura es grande, la identificación de ejes de principio de diferencia es más difícil. Dos enfoques generales comunes en la literatura son algoritmos de grafos teórica basada en la densidad de la red social de la tradición y algoritmos basados en patrones correlacionados de los vínculos sociales de la tradición de estudios de desarrollo.

Mientras que otros han estudiado un conjunto más amplio de algoritmos de agrupamiento (Freeman, 2003), nos centramos en estos enfoques disciplinarios básicos para ayudar a la comparabilidad de acogida a través de una amplia brecha literatura y para ayudar a comparaciones de grupos de enlace directamente a las características de la estructura de la red. La comparación de los algoritmos de agrupación plantea un difícil trampa de diseño de la investigación: si cada enfoque es maximizar eficazmente su grupo-definición específica, se corre un riesgo claro de la simple comparación definiciones incompatibles - es decir, no hay un indicador externo clara de la verdadera solución. Sin embargo, en ausencia de una métrica externa, siendo capaz de comparar diferentes soluciones de primera continuación, vincular esas diferencias en los patrones de gráficos subyacentes ayuda a profundizar en el significado sustantivo de diferencias de definición de lo contrario implícitos incorporados en la agrupación de los algoritmos. En el contexto de un grupo de pares adolescentes explorado aquí, esperamos que las diferencias en el tipo de datos afectarán a la transitividad, la densidad y la cohesión estructural (estructura de ruta) de la gráfica, y por lo tanto dar lugar a diferencias en cómo los tres algoritmos asignan nodos para grupos. Sustancialmente, esperamos que estas comparaciones proporcionarán un primer paso para establecer el grado en que los estudios de "redes de pares" en diferentes de medición y análisis tradiciones identifican fenómenos similares.

Enfoques para recolectar detps de redes de pares de adolescentes

Las díadas de amistadas auto-reportadas. Preguntar a los adolescentes a nombrar sus amigos es quizás el procedimiento de medición más común tanto en la sociología y la psicología. Debido a que las amistades suelen definirse como relaciones voluntarias basadas en gusto, este procedimiento puede ser visto como un caso especial de la definición de los vínculos sociales significativos en términos de cercanía, afecto o cariño, que tiene largas raíces tanto sociológica (Homans, 1950; Sampson, 1969 ) y la investigación en el desarrollo (Bukowski, Newcomb y Hartup, 1996). Algunos investigadores subrayan este punto preguntando a los adolescentes a nombrar a sus "mejores" o "amigos cercanos" o preguntando a los adolescentes para nombrar compañeros de clase que les gusta o se sienten cerca. Los teóricos del desarrollo han sostenido durante mucho tiempo que los sentimientos de amistad o cercanía motivan intentos de entender y acomodar las preocupaciones del amigo, proporcionando así un proceso de influencia de los compañeros (Hartup, 1996; Newcomb y Bagwell, 1995; Sullivan, 1953). Debido a los sentimientos de agrado o afecto son inherentemente subjetiva, auto-informes son vistos como el método definitivo para identificar las preferencias de amistad adolescentes.

Existe una considerable variabilidad dentro y entre las disciplinas de la manera investigadores analizan auto-informes de amistades. Los psicólogos suelen centrarse en diadas amistad y por razones teóricas suelen restringir la atención a las opciones de la amistad recíprocos (Berndt y Murphy, 2002; Hartup 1996), aunque algunos también consideran nominaciones no recíprocos (Hektner, Agosto y Realmuto, 2000; Mrug, Hoza y Bukowski , 2004;. Snyder, Horsch, y Childs, 1997) y estructuras de los grupos más grandes (Urberg et al, 1995). En contraste, los sociólogos a menudo se centran en la estructura del grupo y por lo general se ven a las asimetrías en las nominaciones como indicadores de la jerarquía del grupo y el estado, aunque algunos permanecen también se centró en diadas (Hallinan y Tuma, 1978; Hallinan, 1978) o en las candidaturas recíprocos (Coleman, 1961 ).

Grupos de interacción basado en multi-informantes. Un segundo procedimiento de medida que cada vez más se está utilizando en la investigación psicológica consiste en pedir a todos los adolescentes en una red social para identificar compañeros de clase que "cuelgan alrededor mucho juntos" (Cairns, Perrin y Cairns, 1985; Cairns, Cairns, Neckerman, Gest y Gariepy, 1988). Al igual que con las amistades de auto-reporte, este procedimiento representa una perspectiva particular sobre la naturaleza de las relaciones sociales, el nivel correspondiente de análisis y el informante más adecuado. Preguntar a los adolescentes a identificar sus compañeros que "cuelgan alrededor mucho juntos" significa que los lazos sociales se definen en términos de frecuencia de interacción. Esto tiene sentido desde la perspectiva de las teorías de aprendizaje social (Cairns, 1979; Patterson, 1974, 1982), que sugieren que los comportamientos sociales se establecen, mantienen y cambian a través de instancias repetidas de modelado y refuerzo que se producen en las interacciones sociales. Por ejemplo, la cantidad de interacciones niñas en edad preescolar 'con sus compañeros agresivos predijo aumenta con el tiempo en su propia conducta problema (Hanish et al., 2005); y la cantidad de conversaciones amistad muchachos adolescentes delincuentes 'que implicó un enfoque bien organizada en actividades antisociales predijo la persistencia de patrones antisociales (Dishion, Nelson, Invierno, y Bullock, 2004).

La naturaleza visible de las interacciones sociales sugiere que los informes se pueden obtener de cualquier persona con acceso a la configuración de interacción pertinentes. Ciertamente auto-informes de los patrones de interacción son factibles y cara válido (Bagwell, Coie, Terry, y Lochman, 2000). Observaciones investigador directos también pueden ser muy eficaces con niños pequeños (Hanish et al, 2005; Ladd, 1983; Strayer & Santos, 1996; Vaughn y Waters, 1981.), Pero son caros de recopilar y tienen dos desventajas durante la adolescencia: algunas importantes configuración de interacción pueden ser inaccesibles para los investigadores (por ejemplo, pasillos, autobuses), y las que están disponibles (por ejemplo, aulas) pueden ser engañosos debido a las fuertes restricciones que imponen a los patrones de interacción (Feld, 1981). En contraste, los compañeros pueden ser vistos como expertos participantes-observadores en la red social de los adolescentes con acceso exclusivo a una serie de ajustes pertinentes. En un procedimiento desarrollado por Cairns (que se describe en detalle más adelante), todos los compañeros en una red se le pide identificar compañeros de clase que "cuelgan alrededor juntos mucho", y los múltiples informes se resumen en un simétrico "matriz de co-nominación." El uso de información de múltiples informantes para construir una red global se desarrolló independientemente en la línea de investigación sobre las estructuras sociales cognitivas. (CSS; Krackhardt, 1987) El método Cairns difiere del enfoque CSS en que los informantes ("perceptores" en términos CSS) son no se limita a informar sobre la pertenencia al grupo común, sino más bien se les permite informar sobre cualquier relación que conecta a otros en la red.

Auto-informes de diadas amistad e informes de varios informantes de los grupos de interacción basados son conceptual y operacionalmente distintas maneras de evaluar las redes de pares adolescentes. Los dos enfoques difieren en cómo definen la base de las relaciones sociales (cercanía vs. interacción), el nivel de análisis en el que se produce la recogida de datos (díada vs. grupo) y el informante (auto vs. multi-informante). Las estructuras de datos resultantes son muy diferentes: auto-informes de amistades producen una matriz de adyacencia dirigido mientras que los grupos sociales de múltiples informantes producen una matriz de co-nominación simétrica. Estas diferencias de datos a menudo resultan en diferentes grados de densidad y transitividad. El grupo-base de los resultados de datos de múltiples informantes en gráficos similares a la proyección de un modo de gráficos de dos modos, con tríadas significativamente más cerrados que los gráficos de auto-reporte, que tienden a ser más escasa. Cada enfoque es una estrategia conceptualmente coherente para la identificación de "grupos de pares adolescentes", pero no es en absoluto evidente que grupos derivados de subjetivamente percibidos, los lazos de amistad diádicas son equivalentes a las derivadas de consensualmente percibidas, patrones de interacción de grupo visible. Cuando los investigadores utilizan estas dos estrategias diferentes para identificar los "grupos de pares", están estudiando la misma cosa?

Enfoques para la identificación de estructuras de grupo

Las similitudes en los patrones de lazos. Hay una larga tradición de la agrupación de individuos que comparten patrones similares de los vínculos sociales. Red investigadores sociales tempranas utilizaron análisis de componentes principales o análisis factorial centroide para identificar grupos (factores) de la interacción (por ejemplo, Wright y Evitts, 1961) y las matrices de nominación (por ejemplo, Bock y Husain, 1952; MacRae, 1960). Más recientemente, un número creciente de investigadores del desarrollo han utilizado algoritmos basados en la correlación para identificar los grupos de pares de los informes de múltiples informantes (Boivin y Hymel, 1997; Cairns et al, 1985, 1988;. Estell, Cairns, Farmer & Cairns, 2002; Farmer et al, 2003;. Rodkin, Agricultor, Pearl, y Van Acker, 2000; Xie, Cairns y Cairns, 1999). Un grupo ha utilizado director factorización eje para identificar los grupos de una matriz de adyacencia (Bagwell et al., 2000). El análisis de componentes principales (PCA) se ha aplicado también a co-nominación matrices (Gest, Rulison y Welsh, 2005). Estos enfoques comparten la premisa de que los grupos pueden ser conceptualizados como individuos cuyos patrones de nominaciones amistad recibidos o cuyo perfil de los compañeros de nominaciones con sus compañeros son similares (es decir, correlacionados). Estos enfoques tienen vínculos claros con las tradiciones de bloque de modelado arraigadas en CONCOR (White, Boorman, y Breiger, 1976), donde los actores se clasifican como semejantes si tienen patrones similares de nominación a / de otros en la red. Una de las ventajas potenciales del enfoque PCA, como se hará evidente más adelante, es que un elemento de equivalencia estructural informa a la construcción de grupos primarios, que permite una para identificar grupos que son tanto interna densa y de manera similar situado en el gráfico en general.

Enfoques directos. El campo red social ha identificado muchos enfoques para encontrar grupos primarios en las redes (Frank, 1995; Fershtman, 1997; Burt, 1978; Freeman, 1992; Richards, 1995; Seidman y Foster, 1978). Una división básica en tales métodos es entre aquellos que identifican características exactas teoría de grafos y los que buscar el gráfico para identificar una solución iterativa. Muchos métodos gráfico-teórico para la búsqueda de grupos primarios tienen el reto en los entornos donde los datos están desordenados, lo que resulta en tareas que no son robustos a los tipos de datos que los analistas suelen encuentran (ver Moody, 2001a para una revisión). Estos métodos también suelen identificar grupos que en gran medida se superponen. Trabajos recientes sobre la cohesión estructural ha tenido esta característica como una fuerza de la modelo, en el que los componentes de k-conectada tener una estructura solapamiento estrictamente definido e interpretable y son más robustos para la calidad de datos a medida que aumenta k-cohesión. [2]

El enfoque alternativo ha sido identificar grupos basados en un proceso de búsqueda y la agrupación, utilizando algoritmos que tratan de generar grupos con densidad relativamente alta en grupo. Los algoritmos exactos varían significativamente. Una línea de trabajo hace que muchas asignaciones de nodos a los grupos en los intentos de minimizar una función de coste (Borgatti, Everett, y Freeman, 1999; Guimera y Amaral, 2005). Gran parte de la investigación sobre los algoritmos de detección de grupo ha sido identificar maneras de semilla o acelerar este tipo de búsquedas, con algunos muy sofisticados de reconocimiento de patrones enfoques siendo más popular (Richards, 1995; Fershtman, 1997). Aunque a menudo con éxito en pequeños grupos, estas soluciones iterativas pueden ser muy lento en grandes redes. Trabajos recientes han intentado identificar los procesos de búsqueda, ya sea directamente en los gráficos, como extensiones de los procesos de recocido simulado (Guimera y Amaral, 2005) o en las estadísticas de resumen generados por la estructura de la red (Moody, 2001a) que permiten búsquedas de redes muy grandes. Por último, una tercera línea de investigación se ha adoptado un enfoque de modelado estadístico, utilizando algoritmos de búsqueda guiadas basadas en un modelo de lazo probabilidad (Frank, 1995). Estos modelos trabajan en la lógica de que los grupos deben centrarse en los lazos, por lo que la probabilidad de un empate entre i y j (pij) es una función de un parámetro en la partición de grupo, y los nodos están malabares a través de particiones hasta que se maximiza ese parámetro.

El Estudio Actual

Hasta donde sabemos, dentro de la literatura en las redes sociales de pares adolescentes, no hay reportes empíricos que comparan las soluciones grupales obtenidos al aplicar el factor de análisis y algoritmos de agrupamiento gráfico-teórico a dos de los tipos más comunes de datos de la red de pares. Para empezar a vincular estos diferentes de recopilación de datos y analíticos tradiciones, utilizamos un solo conjunto de datos para identificar los grupos de pares adolescentes basado en dos tipos de datos de la red de pares (amistades auto-reporte y grupos de interacción basada en múltiples informantes) con cada uno de los tres identificación de grupo métodos (análisis de componentes principales y dos algoritmos de grafos teórico).

II. Métodos

Los participantes

Los datos fueron proporcionados por 134 (62 niñas, 72 niños) de los 150 estudiantes (89%) que participaron en el sexto grado en una escuela secundaria que sirven a una comunidad pequeña, de la clase obrera en el centro de Pensilvania. Estos datos nos permitió describir las redes de pares de 148 (68 niñas, 80 niños) de los 150 estudiantes (ver más abajo). Los estudiantes de la escuela con los resultados cerca del promedio estatal en las pruebas de logros, aunque las tasas de pobreza en la comunidad superaron el promedio estatal. Casi todos los estudiantes (99%) eran de raza caucásica, lo que refleja la demografía de la comunidad. Este proyecto fue un componente de un Estudiantes Escuelas / Healthy Segura donativos obtenido por el distrito escolar de los Departamentos de Educación, Justicia y Salud y Servicios Humanos. Antes de la encuesta estudiantil octubre, los padres se enviaron cartas describiendo el proyecto con un formulario para firmar si no desean que su hijo participe. Los estudiantes cuyos padres no volvieron una forma exonerarlos de les hizo el proyecto para completar una encuesta grupo administrado con una duración aproximada de 45 minutos. Los estudiantes son libres de negarse a participar en la encuesta.

Datos de redes de pares

Amistades auto-reportadas. Construimos grupos de amistad de los informes de las amistades de los estudiantes. Se pedirá a los estudiantes: "Algunos niños tienen un montón de amigos, algunos niños tienen una amiga y algunos niños no tienen un amigo. ¿Y usted? Enumere los nombres de los amigos que tiene en su grado. "Los estudiantes recibieron una lista con los nombres de todos los estudiantes del sexto grado, organizado por aula. Espacio se proporcionó a los estudiantes a la lista de hasta diez nombres, aunque algunos estudiantes enumeran varios más que eso (rango: 0-31 nominaciones). Estos datos se organizan en una matriz de adyacencia. Para los principales análisis de componentes, entramos queridos a lo largo de la diagonal (MacRae, 1960).

Grupos de múltiples informantes. Construimos grupos de varios informantes, utilizando el método socio-cognitivo Mapa de Cairns (SCM). Se pedirá a los estudiantes: "¿Hay algunos niños en el grado que cuelgan alrededor juntos mucho? Enumere los nombres de los niños en cada uno de los diferentes grupos en tu grado. Trate de pensar en tantos grupos como sea posible. "El espacio se proporciona para que los estudiantes enumeran hasta nueve grupos con un máximo de diez personas por grupo y los estudiantes eran libres para listar a sí mismos en un grupo. Dos estudios observacionales confirman que la frecuencia de ser nombrado para el mismo grupo se correlaciona con tasas de interacción observables (Cairns et al, 1985;. Gest, Agricultor, Cairns y Xie, 2003). Por ejemplo, los estudiantes de cuarto y séptimo grado interactuaron con los miembros de sus grupos de varios informantes a tasas de tres a cuatro veces más altas que con otros compañeros del mismo sexo (Gest et al., 2003). En el presente estudio, todas las nominaciones fueron organizados en una matriz de co-nominación simétrica en la que las células fuera de la diagonal indican el número total de veces que dos individuos fueron nombrados al mismo grupo. Los valores a lo largo de la diagonal indican el número total de veces que un niño determinado fue nombrado a ningún grupo social. Los estudiantes no están obligados a clasificar todos los compañeros en grupos, así que había variabilidad en la frecuencia con diferentes adolescentes fueron nombrados para grupos.

El comportamiento social, las actitudes educativas y los logros. Examinamos la homogeneidad del grupo con respecto a cuatro medidas de comportamiento social y las actitudes educativas y los logros. Siguiendo los procedimientos habituales en la literatura del desarrollo de las relaciones entre pares (Coie, Dodge y Copotelli, 1982), nos preguntamos cada adolescente para nombrar el compañeros s / él le gustaba más y los compañeros s / le gustaba lo más mínimo. El número de veces que cada adolescente fue nombrado como gustado más y menos se anotó y estar normalizados dentro de género. La diferencia entre las puntuaciones de cada uno de los adolescentes normalizados le gustaba más y estandarizados querido menos se calcula como un índice de preferencia social por pares, y esta partitura en sí se estandarizó en el género (M = 0, SD = 1, inclinación = 0,04). La agresión se midió con cinco elementos valorados por los profesores en una escala de 5 puntos (a = 0,92; 1 = bajo, 5 = alto). Para captar mejor las puntuaciones altamente sesgadas sobre la agresión, cada niño fue clasificado como no agresivo (76,6% de la muestra con la media de las puntuaciones <2,0 en la escala de 5 puntos), moderadamente agresivos (14.6% con puntuaciones medias entre 2 y 3) o Muy agresivo (8,8% con puntuaciones medias superiores a 3,0). Gusto por la escuela se midió con un solo elemento medido en una escala Likert de 5 puntos ("Me gusta ir a la escuela"; M = 3,31, SD = 1,32, Skew = .29). Promedio de calificaciones (GPA) se calculó como el promedio de calificaciones de los estudiantes en Lectura, Estudios Sociales, Matemáticas y Ciencias durante el periodo de calificación primero (M = 3,40, SD = 0,66, Skew = -1,01).

Análisis de Componentes Principales (PCA)

Se aplicaron análisis de componentes principales a ambos tipos de datos de la red de pares. En primer lugar, hemos extraído todos los factores [3] que tenía valores propios superiores a 1,0, lo que resulta en 39 factores para la amistad de datos auto-reporte y 38 factores para los datos de la red de múltiples informantes. Los factores con valores propios de menos de 1 no fueron extraídos debido a que estos factores explican menos variación en la solución de una sola variable. En segundo lugar, hemos aplicado una rotación Varimax y luego determinamos si cada factor se define por al menos tres individuos cuya principal carga (> 0,30) estaba en ese factor. Necesitábamos tres individuos por factor porque la definición teórica de un grupo requiere al menos tres miembros y requiere cargas factoriales anterior 0.30 para asegurar que cada individuo comparte al menos 9% de su varianza con el grupo. [4] Cuando uno o más factores no cumplían estos criterios, nos re-encontramos con el PCA extraer un factor menor, resultando en 24 factores (grupo) soluciones para ambos tipos de datos de la red. Este proceso, junto con el uso de la rotación Varimax, nos ha permitido obtener la máxima diferenciación mientras sigue identificando grupos empíricamente fiables y conceptualmente significativas. Algunos adolescentes tuvieron cargas factoriales significativas en más de un factor que podría interpretarse como un reflejo de la pertenencia a más de un grupo, pero para efectos de comparar soluciones de agrupación a través de métodos, se asignan tales "dual-miembros" al grupo de los que tuvieron la carga más alta.

Técnicas Grafo-teóricas

Utilizamos dos métodos de detección de grupo basadas en la red social para comparar con la rutina PCA: (. Borgatti et al, 1999) recursivas Barrio Medios (RNM) enfoque de Moody (2001a) y las facciones (FAC) la rutina de UCINET VI. El enfoque RNM fue elegido debido a su vinculación teórica a los problemas de fondo de efectos de pares y la rutina FAC porque es comúnmente disponibles y por lo tanto susceptibles de ser utilizados por otros. Al igual que la rutina de PCA, ambos enfoques son "indirecta", en el que no buscan un determinado patrón gráfico teórico (como camarillas), pero en lugar de utilizar la red observada para generar una puntuación de costo / similitud que se agrupa o maximizada. Estos tipos de rutinas indirectos son útiles, ya que muchos de los enfoques teóricos gráfico directa (como la búsqueda de camarillas o k-núcleos) son o muy lento algorítmicamente o tiene dificultades sustantivas que identifican grupos primarios.

Rutina RNM Moody fue diseñado originalmente como un medio eficaz para agrupar muy grandes (10.000 nodos>) las redes, pero su fundamento teórico en los modelos de influencia pares (Friedkin, 1998; Friedkin y Cook, 1990) sugiere que debería ser sustantivamente útil para entornos en los que influencia de los compañeros es la preocupación central. La rutina de RNM utiliza un procedimiento de dos pasos. En el primer paso, uno simula un proceso de influencia de los pares de variables aleatorias k. La influencia de los pares de simulación luego ajusta la puntuación de cada persona en cada variable aleatoria para igualar el (tie-fortaleza ponderado) media de las personas a las que están conectados. Debido a que las variables originales no están correlacionados, densos racimos de nodos llegan a ocupar posiciones únicas en el espacio k-dimensional definido por la distribución resultante de variables aleatorias. En el segundo paso, se utiliza el análisis de conglomerados (aquí usamos método de la varianza mínima de Ward) para identificar grupos en función de las variables de influencia resultantes. El número de grupos se determina mediante el examen de los cambios en las estadísticas de ajuste (en este caso hemos utilizado (índice 1972) la segregación de Freeman como nuestro guía), de tal manera que dos grupos inicialmente distintas se unen si al hacerlo significativamente mejora el ajuste para ambos grupos. Además, los grupos pequeños o desconectados fueron examinados manualmente para ver si los nodos estarían mejor clasificados por la colocación de estos nodos en un "entre" posición de grupo. [5]

Las búsquedas de rutina del CAA para grupos con una estructura "-camarilla como". Una estructura perfectamente camarilla similar tendría grupos que están completamente conectados internamente (todos atado a todos los demás) y no hay lazos fuera de los grupos. Por lo tanto, los recuentos de rutina díadas nulos dentro de los grupos y lazos fuera de los grupos como desviaciones de lo ideal y ajusta los límites del grupo para reducir al mínimo el número de tales desviaciones. Al igual que con muchos de los algoritmos de detección de grupo, hay que determinar el número de facciones inicialmente. Los exámenes iniciales de estos datos mostraron que el enfoque RNM fue encontrar un menor número de grupos que el enfoque PCA, por lo que elegir 20 grupos como un número que "dividir la diferencia" entre los otros dos enfoques.

Tanto para el RNM y las rutinas del CAA, se trataron los datos como simétrica, pero ponderamos lazos recíprocos más de lazos asimétricos. [6] Para la nominación de datos multi-informante, se utilizó el número de veces que cada par fue nominado como estar en el mismo grupo que la base para el peso lazo. Carreras FAC iniciales sugirieron que el predominio de la denominación única menudo no concordantes estaba arrojando los resultados, por lo que limitan el análisis de pares con 2 o más compañeros de nominaciones.

Comparando resultados alternativos

Parte de la dificultad en la búsqueda de grupos primarios en las redes es definir exactamente qué características representan un grupo primario. Si bien los avances teóricos y algoritmos se han hecho en la identificación de aspectos particulares de la estructura de la red que aclaran nuestro entendimiento de los grupos primarios [como la cohesión estructural (Moody y Negro, 2003), la corbata fuerza (Freeman, 1992), la agrupación y la distancia (Holanda y Leinhardt , 1970; Holanda y Leinhardt, 1971; Watts, 1999) y la proporción de en grupo a las relaciones fuera del grupo (Fershtman, 1997; Guimera y Amaral, 2005)], no hay acuerdo unificado sobre lo que se considera una "camarilla -como "subgrupo. En la configuración sustantiva de interés aquí, esperamos que los grupos de pares primarios a ser pequeñas y muy unida. En general, también esperamos que sean en gran medida distinta, [7] con las relaciones / interacciones caer de manera desproporcionada en el grupo principal. Utilizamos seis medidas para examinar cómo "muy unida" y distintas soluciones de grupo son para ambos tipos de datos.

Los grupos muy unidos primarios es probable que sean relativamente densa y tienen muchas tríadas cerrados que sostienen el grupo local juntos. En general, la densidad de la red es el valor medio de las relaciones tomadas sobre todas las díadas posibles. Medimos la densidad relativa como la densidad de los lazos que caen dentro del grupo dividido por la densidad de los vínculos que se encuentran fuera de los grupos. Para dar cuenta de la estructura del grupo, así como el volumen (Freeman, 1992), utilizamos dos medidas basadas en la tríada. Tríadas cerrados capturan los casos en que los amigos de los amigos son amigos (relaciones transitivas), y esperamos que sustantivamente grupos de amistad primarias se caracterizan por un número relativamente alto de tríadas cerrados. La relación de transitividad se define como la proporción de todas las tríadas potencialmente cerrados que en realidad están cerrados. Se calcula como la proporción de todos los caminos de dos pasos (IAJ, JAK) que también son caminos directos (Îak). Se define la relación de transitividad relativa como la relación de transitividad calculado sólo entre dentro del grupo díadas sobre la relación de transitividad de toda la red. Idealmente, los grupos deben encierran tríadas cerrados, así cualquier caso de un límite del grupo de la separación de una tríada cerrada es una desviación del modelo de tipo ideal. Por lo tanto Medimos la proporción de todos tríadas cerrados (T300) que caen totalmente dentro del grupo para capturar la frecuencia con soluciones de grupo encapsulan tríadas cerradas. [8]

El carácter distintivo de un grupo se mide por la frecuencia de relaciones comprendidas en lugar de entre los grupos. Utilizamos el índice de segregación Freeman (1972), la proporción de todos los lazos que caen fuera de los grupos, y el índice de modularidad (Newman y Girvan, 2004), tres medidas de distinción grupo. Freeman razonó que si un grupo de partición era irrelevante, a continuación, las relaciones deben ser distribuidos al azar a través de las fronteras de grupo. Índice de segregación de la red de Freeman se calcula como la diferencia entre el número de relaciones a través del grupo observados y el número de relaciones a través del grupo esperados al azar, dividido por el número de relaciones a través del grupo esperados al azar. Cuando el valor es 1,0, todas las relaciones entran en grupos separados. Cuando el valor es 0, entonces las relaciones se distribuyen al azar entre los grupos. La estadística de la modularidad (Newman y Girvan, 2004) sigue una lógica similar y será 0 si los vínculos están distribuidos al azar. La ventaja de la puntuación de la modularidad es que la medida alcanza un valor máximo claro cuando los lazos son más propensos a caer dentro de los grupos, por lo que es ideal para la comparación de carácter distintivo del grupo a través de soluciones. Por último, la proporción de los lazos que quedan fuera de los grupos proporciona una fácil interpretación (aunque no calibrada contra el azar) métrica para la gran cantidad de relaciones a través del grupo.

El tamaño del grupo entra en nuestra consideración tanto sustantiva y metodológicamente. Al fondo, los grupos primarios de los niños tienden a ser pequeñas (Rubin, Bukowski y Parker, 1998) y por lo tanto cualquier solución que genera grupos muy grandes carece de un cierto nivel de validez aparente. Sin embargo, también esperamos un grupo para tener un cierto carácter extra-individual que se extiende más allá de cualquier miembro individual (Simmel, 1950; Moody y White, 2003). La colección más pequeña que puede existir independiente de cualquier solo actor es la tríada, y por lo tanto los grupos se define típicamente como que tiene 3 o más nodos. Metodológicamente, la distribución de tamaños de grupo afecta a todos los demás parámetros utilizados para definir los grupos. Por un lado, si todos los nodos se repartieron en un solo grupo, entonces no habría ningún vínculo fuera del grupo y todas las tríadas caerían dentro del grupo (no habría, por supuesto, haber reducción de datos que aquí tampoco!).

Estrategia Analítica

III. Resultados

Breve descripción de Peer red de datos

Informes de amigos y grupos. En promedio, los adolescentes enumeran 9.72 amigos (SD = 3,95) e identificados 3,76 grupos (SD = 2,01) con 4,60 individuos por grupo (SD = 2,10) (es decir, un total de 17.26 miembros del grupo). Más de la mitad de todos los amigos de auto-reporte (59,4%) y más de la mitad de todos los compañeros nominados a los grupos sociales (51,1%) estaban fuera de la propia aula del adolescente, lo que confirma que la red social se considera adecuada a nivel de toda la grado.

Estadísticas de grafos. Los datos del grupo de múltiples informantes demostraron una alta densidad de lazos (0.486) y transitividad (0.571). Esto sugiere amplia "clusteredness" para ser explotado por cada método de agrupación, que es de esperar, ya que los datos genera lazos entre todos los pares nombrados como miembros del mismo grupo. Por el contrario, los datos de amistad auto-reporte tenían menor densidad (0.121) y (0.302) marca transitividad. Esto hará que la búsqueda de grupos consistentemente más difícil que con los datos de varios informantes, ya que habrá menos agrupación de los algoritmos para explotar.

Sociogramas. Siguiente construimos sociogramas que ilustran cada tipo de datos de la red. En cada sociograma, posición en el plano xy se determina mediante un algoritmo de diseño automático fuerza dirigida implementada en Pajek (Batagelj y Mrvar, 2001). Para estos diseños, los vínculos sociales son análogos a los muelles, con valores más fuertes que indica un tirón más fuerte entre los nodos. Como tal, dos nodos que están conectados tenderá a ser cerca uno del otro, mientras que los nodos que están desconectados estarán más separados. En un sentido típico-ideal, si la red se compone de grupos muy distintos (y las nominaciones refleja estos grupos), entonces la figura contendría "grumos" distintas para cada grupo.

Figura 1. Nominaciones Auto-reportadas de Amistad

Las líneas azules gruesas son correspondidos nominaciones amistad, gris fina son nominaciones asimétricos. Letras identifican nodos particulares para comparar con la Figura 2.

En la Figura 1, cada nodo representa un estudiante y cada línea representa una nominación amistad. Para el presente análisis, las relaciones asimétricas (líneas delgadas) cuentan menos que los lazos simétricos (líneas gruesas). Esta figura muestra que las candidaturas de amistad entre los alumnos de 6to grado están fuertemente condicionados por el sexo. Más allá de esta fuerte segregación sexual, la red no sugiere muchos grupos pequeños, especialmente entre los varones. En cambio, tanto el macho y la hembra lados de la red tienen una estructura de "centro-periferia", con un pequeño número de individuos que no tienen lazos recíprocos, y un gran grupo de personas que están fuertemente conectados. Las hembras en la red son un poco más diferenciado, con lo que parece ser dos o tres "grumos" superpuestas que se extienden a lo largo del eje "norte-sur". Además, hay dos pequeños grupos en la parte "sureste" de la figura sin conexiones recíprocos con el resto de la red, pero un vínculo entre ellos. Estos fueron los estudiantes que pasaron parte de su día en un aula de Educación Especial: a pesar de ser "integrado" en las aulas de Educación General para gran parte de la jornada escolar, amistades de estos niños fueron en gran medida independiente del resto de la nota.

En la Figura 2, cada línea indica el número de veces que dos estudiantes (nodos) fueron nombrados como miembros del mismo grupo. El espesor y la sombra de la línea corresponde a la frecuencia de co-nominación al mismo grupo. Aunque el número de compañeros de nominaciones que unen nodos individuales fue de 1 a 33, para mayor claridad estos valores se agruparon en seis rangos. Hay tres impresiones inmediatas dadas por esta figura. En primer lugar, hay grupos claros con acuerdos muy fuertes (líneas gruesas), sobre todo entre las mujeres, lo que indica un consenso sustancial entre los estudiantes con respecto a los patrones de interacción de sus compañeros. En segundo lugar, hay grandes diferencias individuales en el máximo número de compañeros de nominaciones que unen un estudiante dado a otros estudiantes: el número máximo de compañeros de nominaciones se centra alrededor de 10 (media = 11,1, mediana = 9,0), pero 39 (27,1%) estudiantes nunca fueron nombrados más de 5 veces con cualquier par, mientras que 18 (12,5%) estudiantes alcanzaron más de 20 compañeros de nominaciones con al menos uno de sus compañeros. En tercer lugar, los amplios vínculos en los niveles bajos (las líneas muy delgadas que conectan un amplio conjunto de nodos a través del gráfico) sugiere que algunas personas proporcionan informes idiosincrásicos de los grupos que están en desacuerdo con el consenso del grupo.

En general, los dos sociogramas corresponden muy de cerca en términos de la forma general, la separación de machos y hembras, y la ubicación de los nodos individuales (catorce de los cuales están etiquetados, A través de N, en cada gráfico). [10] Los dos grupos de alumnos de educación especial en la porción sur de la gráfica (incluyendo nodos G, J y K), por ejemplo, contienen miembros casi idénticos. Además, 3 de los 4 nodos masculinos en la sección "femenina" de la gráfica la amistad (incluyendo nodos E y I) están igualmente más estrechamente asociado con el lado femenino de la gráfica multi-informante. En ambos gráficos, muchachos L y M ocupan posiciones similares en grupos fuera del grupo principal de los niños, mientras que las niñas HF y BC se encuentran en posiciones paralelas dentro de los grupos relativamente fundamentales de las niñas. Niños N y D residen en la periferia de ambos gráficos, mientras que A es chica periférica en el gráfico de amistad pero más cerca del núcleo de la gráfica multi-informante.

La correspondencia entre la amistad y nominaciones múltiples informantes. Pusimos a prueba el grado en que el número de veces que dos personas fueron nominados como salir nominaciones amistad juntos predichos. Modelamos la probabilidad de una nominación amistad, el control de las medidas de la red y de participación de grupo, incluyendo: número de amigos con nombre, número de nominaciones amistad recibidas, número de nominaciones de grupo recibida y la composición por sexo de la díada. Debido a que la variable dependiente es dicotómica (nominado o no), se utiliza un modelo de regresión logística. Los resultados (Tabla 1) muestran claramente que el número de veces que una díada está nominado a un mismo grupo predice fuertemente una nominación amistad.

Tabla 1. Regresión logística de Nominación Amistad en Multi-informante Compañeros de nominaciones (odds ratio entre paréntesis)

Variable	Model 1	Model 2	Model 3	Model 4
Intercept	-4.87	-6.31	-6.54	-6.28
# of friends named by ego (ODG)	0.138 (1.15)	0.145 (1.16)	0.144 (1.16)	0.145 (1.16)
# of times alter was named as a friend (IDG)	0.146 (1.16)	0.144 (1.16)	0.144 (1.16)	0.153 (1.17)
# of times ego named as a group member (ego visibility)	-0.015 (0.989)	-0.011 (0.989)	-0.01 (0.989)	-0.01 (0.989)
# of times alter named as a group member (alter visibility)	-0.008 (0.992)	-0.008 (0.992)	-0.007 (0.993)	-.009 (0.991)
Same sex dyad		1.84 (6.355)	2.05 (7.76)
Both Male				1.74 (5.71)
Both Female				2.04 (7.69)
Number of Co-Nominations	0.603 (1.83)	0.508 (1.66)	1.09 (2.99)	0.506 (1.66)
Group x Same Sex			-0.610 (0.544)

Pseudo R²	0.37	0.423	0.428	0.424

Note. All variables are statistically significant at the .0001 level.

Después de controlar la composición por sexo de la díada, por cada vez que se dice que las probabilidades de un aumento nominación amistad por 1,66 el par de pertenecer al mismo grupo. Este efecto difiere en composición de género. En concreto, un compañero de candidatura es más probable para predecir una amistad cuando la díada es cruz-sexo, aunque la relativa rareza de estas nominaciones hace que esta búsqueda de algo menos importante. Como se esperaba, los controles para la expansividad de red (ODG) y el atractivo (IDG) también son importantes. Aunque estadísticamente significativa sencilla visibilidad de cualquiera de las partes, realmente no importa mucho (los odds ratios están cerca de 1.0). Para simplificar la interpretación de este coeficiente, la Figura 3 parcelas de la probabilidad predicha de una nominación amistad por una díada entre personas del mismo sexo, por el número de veces que son nombrados como miembros de un mismo grupo (estimaciones basadas en el modelo 2). [11] Esta cifra indica que (en estos datos) la probabilidad de que una amistad de auto-reporte alcanza el 50% en el número de múltiples informantes interacción compañeros de nominaciones llega a alrededor de 7, y supera el 95% cuando el número de compañeros de nominaciones alcanza alrededor de 13.

Comparabilidad de soluciones de grupo

Tabla 2. Comparabilidad de soluciones de grupo

		Self Nominations			Multi-Informant Nominations
		RNM	FAC	PCA	RNM	FAC	PCA
Self Nom	RNM	---	0.328	0.362	0.417	0.392	0.316
	FAC	0.861	---	0.475	0.464	0.498	0.465
	PCA	0.873	0.949	---	0.584	0.572	0.465
Mult Nom	RNM	0.881	0.942	0.958	---	0.687	0.695
	FAC	0.872	0.947	0.957	0.965	---	0.665
	PCA	0.862	0.948	0.948	0.969	0.966	---

Nota. Los valores por encima de la diagonal son los Rand estadística probabilidad ajustada (Morey y Agresti, 1984). Los valores por debajo de la diagonal son la estadística Rand simple, sin ajustar por casualidad. La interpretación de la estadística de Rand es la probabilidad de que un par elegido al azar será clasificado de manera similar por las dos particiones. La interpretación de la Rand ajustado es la diferencia porcentual entre el número de acuerdos observadas y el número de acuerdos de azar.
A continuación examinó las similitudes entre la agrupación de algoritmos para ambos tipos de datos. Tabla 2 contiene los coeficientes emparejan Rand describen la comparabilidad de las particiones de nodos a través de las seis combinaciones diferentes de datos de red y el algoritmo de identificación de grupo. Los coeficientes positivos a través de todas las comparaciones indican que las particiones se correlacionaron significativamente, pero las diferencias que se producen son sistemáticos. Acuerdo general es más alta en las tres soluciones de múltiples informantes (media = 0,97 Rand, Rand ajustado = 0,68) que a través de las tres soluciones amistad auto-reporte (media R = 0,89; AR = 0,39). Este efecto principal de los datos de la red es bastante grande, y en gran parte debido a la clara agrupación evidente en la matriz multi-informante. Efectivamente, los subgrupos de la red multi-informante son objetivos mucho más fácil golpear que en la red de amistad menos agrupado, por lo que las diferencias en la agrupación de los algoritmos tienen menos probabilidades de conducir a soluciones de agrupación divergentes.

Dentro de la red de amistad, la solución RNM es menos similar al de los otros dos (AR: RNM, FAC = 0,33; RNM, PCA = 0,36) de lo que son el uno al otro (FAC, PCA = 0,48). Esto sugiere que los tres métodos difieren en sus estrategias básicas que, como veremos más adelante, el comercio fuera, las agrupaciones más grandes distintivos (RNM) y las agrupaciones más pequeñas con mayor densidad en grupo (FAC, PCA). En general, los grupos derivados de los datos de amistad auto-reporte con un algoritmo particular eran tan similares a los grupos derivados de los datos de múltiples informantes (cuadrante superior derecho del cuadro 2; mediana AR = 0.47), ya que eran el uno al otro (AR rango de 0,33 hasta 0,48).

Desde la perspectiva de la comparación de los resultados entre diferentes combinaciones de técnicas de recolección de datos y estrategias analíticas, estos resultados envían una señal mixta. Por un lado, el acuerdo significativa oportunidad ajustados en todos los seis soluciones indica que los investigadores usando una amplia gama de métodos (medidas algoritmos *) son de hecho describiendo fenómenos similares. Por otra parte, en comparación con los datos de la amistad de auto-reporte, los datos de varios informantes más agrupados producen agrupaciones mucho más consistentes a través de varios métodos analíticos. Pasamos ahora a los detalles de los tipos de grupos identificados por cada enfoque.

Las diferencias en las características estructurales de soluciones de grupo

Tabla 3. Características estructurales de grupos

Type of Network Data	Group Identification Procedure
Type of Network Data	Recursive Neighborhood Means	FAC	Principal Components Analysis	Gender x Homeroom
Self-Reported Friendships Density = .12 Transitivity Ratio = .57
# of Groups	10 + 14 between	20*	24 + 3 unclassified
Size: M (SD)	13.3 (11.6)	7.3 (1.9)	6.04 (2.22)
Min - Max	5 - 43	5 - 12	3 – 12
Groups of size = 3	0	0	3
Relative Density	9.76	11.43	13.61	7.84
Relative Transitivity	1.58	2.56	2.60	2.14
Prop. closed triads in same group	0.60	0.27	0.24	0.21
Freeman Segregation	0.57	0.32	0.33	0.311
Modularity	0.46	0.30	0.31	0.41
Proportion of ties out-of-group	0.346	0.641	0.636	0.636

Multi-informant Groups Density .49 Transitivity Ratio = .57
# of Groups	20+9 between	20*	24 + 1 unclassified
Size: M (SD)	6.95 (3.03)	7.4 (2.6)	6.13 (2.44)
Min - Max	4 – 14	5 – 13	3 – 11
Groups of size = 3	0	0	4
Relative Density	27.22	30.83	29.72	10.87
Relative Transitivity	1.54	1.66	1.67	1.54
Prop. closed triads in same group	0.41	0.52	0.31	0.21
Freeman Segregation	0.56	0.58	0.53	0.394
Modularity	0.52	0.53	0.50	0.36
Proportion of ties out-of-group	0.399	0.383	0.439	0.556

* Number of groups is definitional

Tabla 4. Conducta de homogeneidad intragrupo

			Type of Network Data
		Group structure Index	Self-Reported Friendships	Multi-Informant Groups
Group Identification Procedure	Recursive Neighborhood Means	Like Going to School	.080 / .066^a	.228
		Peer Social Preference	.142 / .143	.281**
		Teacher-rated Aggression	.048 / .088	.204
		Grade Point Average	.080 / .226*	.224
	FAC	Like Going to School	.126	.220
		Peer Social Preference	.197	.342***
		Teacher-rated Aggression	.171	.229*
		Grade Point Average	.247+	.246*
	Principal Components Analysis	Like Going to School	.235	.276*
		Peer Social Preference	.366***	.317**
		Teacher-rated Aggression	.403***	.439***
		Grade Point Average	.332**	.289*

* p < .05. ** p < .01. *** p < .001.

Note. Effects of group membership (Partial eta-squared) after controlling for gender. For the RCN self-reported friendship solution, values after the slash are the partial eta-squared values after removing group 1.

La Tabla 3 contiene las estadísticas de la estructura del grupo de los seis soluciones de agrupamiento y, por comparación, las estadísticas de una sencilla agrupación atributo basado en el sexo y el aula. Tabla 4 contiene estimaciones del grupo de la homogeneidad del comportamiento. A continuación se resumen brevemente los resultados de las redes de múltiples informantes antes de examinar razones de la variabilidad en las soluciones para los datos de la amistad.

Tabla 3 contiene las estadísticas de la estructura del grupo de los seis soluciones de clustering y, por comparación, las estadísticas de una sencilla agrupación atributo basado en el sexo y el aula. Tabla 4 contiene estimaciones del grupo de la homogeneidad del comportamiento. A continuación se resumen brevemente los resultados de las redes de múltiples informantes antes de examinar razones de la variabilidad en las soluciones para los datos de la amistad.

Estructuras Grupo Multi-informantes. Los tres métodos producen grupos de tamaño similar de los datos de múltiples informantes. Los tamaños de grupo promedio fueron muy similares para RNM y FAC (6,95 vs. 7,40) con una distribución similar de tamaño del grupo (intervalo de 4 a 14 para RNM; 5 a 13 para FAC), y grupos de PCA eran sólo un poco más pequeño (M = 6,13 , rango de 3 a 11). Grupo tight-knittedness era muy similar a través de soluciones, con la densidad relativa de los lazos de fuera del grupo en grupos más o menos tres veces mayor para las soluciones de RNM, FAC y PCA (27.22, 30.83, 29.72) que para una partición que refleja la división por género y salón hogar (10,87). Diferenciación Grupo también fue similar en las soluciones.

Las estimaciones del grupo de la homogeneidad de comportamiento fueron generalmente confiable y moderada en magnitud para cada solución. Dada la similitud en las particiones, fue sorprendente que la homogeneidad fue consistentemente mayor para los grupos de PCA que para los grupos RNM, con homogeneidad de los grupos FAC a niveles intermedios. Los niveles sustancialmente más altos de similitud en el comportamiento agresivo de los grupos de PCA se debió en gran parte a un subgrupo de 13 niños, 5 de los cuales eran muy agresivos (que representan casi la mitad de los estudiantes altamente agresivas en todo el grado). RNM y FAC colocan los 13 individuos en el mismo grupo, mientras que la ACP les separa en un grupo de 8 que contenía los 5 individuos altamente agresivos y un grupo de 5 chicos no agresivos. La explicación más probable para las diferencias modestas en la similitud de los otros comportamientos es que PCA producida agrupaciones ligeramente más pequeñas, pero examinamos esta cuestión con más detalle en el contexto de las soluciones de redes de amistad, que diferían sustancialmente más en formas adicionales. En esta etapa, la característica más notable de datos multi-informante fue que tres procedimientos de identificación de grupo distintos producen soluciones que eran altamente comparables en términos de características estructurales, la colocación de los individuos en grupos, y estimaciones de la homogeneidad del comportamiento.

Estructuras de grupo de amistad auto-reportadas

Tamaño. Al igual que con los datos de la red de múltiples informantes, las soluciones RNM y Facción tendieron a producir grupos de amistad de más de la solución de PCA. FAC y PCA producen tamaños de los grupos que eran muy similares a los obtenidos cuando el método comparable se aplicó a los datos multi-informante (FAC: M = 7,3 para los datos de amistad, M = 7,4 para los datos multi-informante; PCA: M = 6,0 y M = 6.1, respectivamente). La solución amistad RNM genera un grupo masculino de 43 nodos. Este cluster grande domina la solución RNM, y parece conducir un número de las diferencias reportadas en la estructura del grupo a continuación. Cuando este grupo se excluye de la consideración, la solución para los datos de RNM amistad produce grupos solamente un poco más grande que los de datos de múltiples informantes (M = 8,5 vs. M = 6,95).

Densidad interna. La solución PCA produce grupos con la densidad más alta y transitividad interna, con los grupos FAC de ser bastante similar. Más específicamente, la densidad relativa de los lazos de la PCA, FAC y grupos RNM fue de 13,6, 11,4 y 9,8, respectivamente, y la relación de transitividad dentro del grupo para cada era 2.60, 2.56 y 1.58. Una vez más, gran parte de la diferencia en este "tight-knittedness" para la solución RNM es atribuible al gran grupo de 43 nodos. Cuando se excluye que grupo, los indicadores de densidad interna son más similares para los grupos RNM restantes.

Diferenciación. Los grupos RNM fueron más altamente diferenciados que los grupos de PCA o FAC. El sesenta por ciento de las tríadas cerrados caen dentro de los grupos RNM, mientras que la mayoría de las tríadas cerrados tanto en el PCA y rutinas FAC límites del grupo transversales, lo que sugiere que la solución RNM construye con eficacia grupos a fin de tener relativamente menos contactos con otros grupos. Esto es evidente en las otras estadísticas de agrupamiento grupo también. El índice de segregación para la solución RNM es de 0,56, frente a 0,32 y 0,33 para las soluciones del CAA y PCA, respectivamente y la puntuación de la modularidad de RNM es 0.456, frente a los 0,299 y 0,311 para la FAC y PCA, respectivamente. Del mismo modo, mientras que el 64% de los lazos quedan fuera de los grupos de las FAC y PCA, sólo el 35% de los lazos quedan fuera de los grupos de RNM.

Homogeneidad del comportamiento. Las tres soluciones producidas variando las estimaciones de la homogeneidad del comportamiento. El orden de estas diferencias fue el mismo que para los datos multi-informante: PCA produce las estimaciones más grandes de homogeneidad, FAC producido estimaciones intermedia, pero a menudo estadísticamente insignificante, y RNM produce generalmente estimaciones estadísticamente insignificantes y más débil, que aumentó sólo modestamente cuando el se excluyó gran grupo integrado por 43 personas. Dentro de los métodos, las estimaciones basadas en la PCA de homogeneidad fueron comparables para la amistad y de datos de múltiples informantes, pero para ambos FAC y (especialmente) RNM, las estimaciones de la homogeneidad eran claramente más alta para los datos de múltiples informantes.

Resumen. Los datos amistad auto-reporte de menos agrupados produjeron resultados que variaron más en todo método analítico que lo hicieron los datos de múltiples informantes. En estas circunstancias, el procedimiento RNM logra su ventaja relativa en la diferenciación a costa de los grupos menos muy unidas. Es decir, parece que el procedimiento de RNM tiende a favorecer a grupos distintos, incluso si son menos densos internamente, mientras que las soluciones de PCA y FAC vuelven grupos que son internamente muy densa y transitiva, pero que también tienen muchos lazos y tríadas cerrados que quedan fuera de los grupos respectivos. Estas diferencias se correlacionaron con las estimaciones de la homogeneidad de comportamiento.

Una mirada más cercana

¿Qué explica las diferencias en los resultados de partición para los datos de la amistad de auto-reporte? Figura 4 a continuación ofrece una comparación intuitiva de la RNM y soluciones de PCA. [12] El panel A presenta las parcelas de sombra para la superposición de tareas (primera matriz) y los datos en bruto utilizados para generar las soluciones de clúster (segunda matriz). El alto nivel de acuerdo a los datos de varios informante es evidente por el hecho de que la mayoría de las celdas en la primera columna son negro - lo que indica que la pareja fue clasificado en el mismo grupo de ambas soluciones. La matriz se ha permutado para tirar racimos a lo largo de la diagonal. Los lugares donde los algoritmos se pierda uno al otro son de color gris (el par se agrupan por un algoritmo, pero no a la inversa). Se puede ver que cuando los algoritmos "perdidas" tendían a ser en regiones muy similares de la gráfica. Por ejemplo, la mayor cantidad de desajuste entre las dos soluciones se produjo en la celda diagonal por bloques en la parte inferior derecha de esta imagen, donde ambos coincidieron en la colocación de pares de dos secciones más pequeñas, pero no están de acuerdo sobre el resto de los pares. Si nos fijamos en la región correspondiente de los datos en bruto, vemos que esta sección tenía niveles muy altos de candidaturas conjuntas. La tendencia de PCA para recoger grupos densos en lugar de distintas explica la diferencia en las dos soluciones.

Consideremos ahora el caso de auto-nominación en el panel B. El acuerdo global inferior es evidente en el mayor número de células grises, pero nota también la mayor diversidad de distribución empate en los datos en bruto en la segunda matriz. La región de mayor desacuerdo es en la parte inferior derecha de la matriz de adyacencia. Aquí vemos que la ACP y RNM de acuerdo en la asignación de pares de esos nodos con los lazos más fuertes, pero PCA dividir el conjunto en muchos grupos pequeños y RNM los mantuvo juntos. Este es exactamente el equilibrio entre la distinción y la densidad aludido anteriormente.

Este equilibrio se hace más evidente si nos acercamos en la región de la red de amistad auto-reporte en donde la mayoría de los tres enfoques no están de acuerdo: la gran 'maraña' de las relaciones recíprocos en el lado masculino de la figura 1. Figura 5 parcelas de los 60 nodos implicados en este conjunto, la identificación de los grupos con cuatro métodos diferentes. Para facilitar la comparación, las cifras utilizan el mismo diseño para cada solución, pero los colores y regiones sombreadas encapsulan nodos de acuerdo a cómo cada algoritmo agrupan el conjunto de datos. [13] La figura incluye las tres rutinas de agrupamiento indirectos en comparación aquí, así como un cohesiva bloqueando rutina descrita por Moody & White (2003), que ayuda a informar por qué los otros tres soluciones difieren. Para ayudar a visualizar los resultados de clúster, los nodos del mismo color están envueltos en una región semi-transparente con sombra del mismo color que los nodos.

Los tres métodos de agrupación están de acuerdo exactamente en agrupar a los siete nodos en la parte superior de la figura y tener asignaciones relativamente similares de los nodos alrededor de la estrella de nueve personas en el extremo derecho de la figura. Estos centro de nueve nodos alrededor de un actor central, y cada solución encuentra un grupo en torno a este actor, aunque difieren ligeramente en su composición exacta. La sección amarilla en la solución de RNM, sin embargo, domina la mayor parte de este subgrafo. Si se fijan bien en las tres soluciones, se ve poco acuerdo sobre la ubicación de los nodos dentro de este conjunto. [14] La solución FAC cruza la sección lazo más fuerte de múltiples maneras (otros diseños, que no peso lazos por ejemplo correspondido, hacer no ayuda aquí). La solución ACC, divisiones más compactos, pero una serie de puntos reparten el grueso de este enredo. El enfoque RNM simplemente lo llamó un solo grupo.

¿Por qué es tan difícil para dividir sistemáticamente esta sección? La respuesta está en el bloqueo directo dado en el panel inferior derecha de la figura 5. En lugar de identificar los grupos primarios, aquí contamos con un bloqueo de cohesión de la gráfica. Un bloque cohesionado contiene nodos que se encuentran de manera similar en la estructura de ruta de nodo independiente (en este caso basado únicamente en la red de gala correspondido). Si un componente es k-conectado, entonces la gráfica no puede ser dividido en piezas separadas a menos que al menos nodos k se eliminan (Moody & White 2003). Todos los nodos son parte de la 1-componente, pero anidado dentro de este conjunto es un bicomponente de 47 personas, dos de 3 componentes (tamaño 4 - el corazón de la sección de todos los métodos están de acuerdo en, y tamaño 35 - la región de naranja grande), y el núcleo de esta red es un 22-persona 4-componente (sección verde oliva) que admite que no hay k-componentes ligados más fuertemente. [15]

Conectividad Node proporciona un límite natural para los grupos primarios, como los puntos de corte en el gráfico proporcionan una partición clara de bordes en conjuntos distintos. Puesto que no hay división natural en la estructura de cohesión a explotar, las divisiones resultantes se basan en otras características del gráfico. [16] FAC parece incorporar débiles lazos, mientras que la solución de PCA parece utilizar tanto la información lazo débil y sacar provecho de la aumento de la correlación que viene de dos actores no ser conectados a terceros similares. Este elemento de la equivalencia estructural es evidente en el trío rosa claro compuesto por actores todos conectados a una estrella central (es decir, en otro grupo), y tal vez sugiere un mecanismo para explicar la mayor homogeneidad dentro del grupo. RNM, en cambio, se centra en gran medida de carácter distintivo del grupo, a partir de estos cutponts, y por lo tanto no intenta dividir este grupo.

IV. Conclusión y Discusión

¿Son los investigadores que utilizan diferentes métodos de recopilación de datos y diferentes técnicas de análisis para encontrar adolescentes "grupos de pares" el estudio de la misma cosa? Nuestros resultados sugieren que (estos datos) todos los métodos a encontrar grupos más o menos similares, pero que: (a) las diferencias que aparecen son sistemática y fuertemente afectado por el método de recogida de datos, dependiendo más en el algoritmo de detección de grupo para amistad autoinformada datos; (B) cuando los algoritmos de detección diferentes, que el comercio de la medida en que detectan grupos son distintos del resto de la red en lugar de internamente denso y (c) los algoritmos favoreciendo lazos internamente densos identifican grupos con mayor similitud de comportamiento.

Con respecto a los datos, los datos de varios informante produce blancos más fáciles para cualquier algoritmo de clúster. Tenemos la sospecha de que la diferencia sustancial en el "clusteredness" de la amistad de auto-reporte y datos multi-grupo informante sigue en gran parte de las diferencias en el nivel en que las afiliaciones son reportados (diadas vs. grupos). Las listas de amistades diádicas no implican vínculos directos entre los amigos de la lista. Por el contrario, registró las respuestas a nivel de grupos están completamente conectados (y distinta) camarillas, por lo que las redes resultantes tienen que parecerse a los solapamientos de camarillas. Las diferencias en la clusteredness de los dos tipos de datos se magnifican aún más por el hecho de que los adolescentes enumeran casi el doble de los pares en respuesta a los grupos cuestionan (M = 17,3) como lo hicieron cuando se enumeran sólo a sus propios amigos (M = 9.72) . Por último, es posible que existan diferencias en la transitividad de los patrones de interacción (peer-percibida) y (auto-reporte) lazos afectivos: en otras palabras, los sentimientos de amistad pueden ser organizados más difusa que los patrones de interacción percibidos por sus compañeros. Dentro de estos datos, no podemos desentrañar cómo cada uno de estos factores (grupo-vs-diada; multi-vs-auto-informantes; interacción vs-cercanía) contribuyeron a la mayor clusteredness de los datos de varios informantes, pero juntos claramente dado lugar a diferencias sustanciales en las estructuras de datos de los que proceden los grupos.

En la comparación de los algoritmos de detección, el procedimiento de RNM está sesgado hacia la identificación de los grupos que son distintos el uno del otro, mientras que FAC y PCA encontrar grupos que son más internamente denso, incluso si no son fuertemente distinto de otros grupos en la red. La tensión entre el carácter distintivo de grupo (RNM) y la densidad interna (FAC, PCA) es más evidente cuando la estructura de la red no se presta a un conjunto de grupos claramente diferenciados, como con los datos de la amistad (Figura 5). El hecho de que los grupos más pequeños, más densas identificados por FAC y PCA son más comportamiento homogéneo de las agrupaciones más grandes identificados por RNM sugiere que están haciendo diferenciaciones no aleatorias dentro de la gran "maraña" de las relaciones. La tensión entre los algoritmos de agrupación que hacen hincapié en el carácter distintivo sobre la densidad interna puede reducirse permitiendo que los grupos se superponen. En el procedimiento de PCA, por ejemplo, cargas importantes sobre dos factores pueden interpretarse como ejemplos de la pertenencia a dos grupos superpuestos: permite explícitamente como "doble pertenencia" probablemente disminuir el número de tríadas cerrados que se dividen cuando estas personas se ven obligadas a ser miembros de un solo grupo.

Es de destacar que el comportamiento fue mayor similitud dentro de los grupos identificados por PCA que dentro de los grupos identificados por los otros dos algoritmos. ¿Por qué esto es cierto, sobre todo teniendo fundamento teórico de RNM en los modelos de influencia de los compañeros? Dos explicaciones merecen un examen más detenido. En primer lugar, PCA utiliza un perfil puntuación de similitud (la correlación de los lazos a través de todos los actores), que es una medida clásica de la equivalencia estructural. Encontrar un efecto conductual más fuerte de grupos de PCA en los otros dos algoritmos sugiere el trabajo futuro podría centrarse en los mecanismos basados en roles que se relacionan con la posición de un grupo en la estructura general de la red (Burt, 1978, 1987; Friedkin, 1984; Mizruchi, 1993) . En segundo lugar, podría ser que las díadas, en lugar de grupos, son la unidad relevante por la influencia en la adolescencia temprana. Investigadores del Desarrollo han sugerido que la dinámica a nivel de grupo y la influencia comienzan durante la adolescencia (Rubin et al., 1998), pero la investigación sistemática aclarar exactamente cuando estos procesos surgen que falta. Si influencias a nivel díada prevalecen en la adolescencia temprana, entonces la ligera ventaja en fuerza diádica identificado dentro de los grupos de PCA hace que sea una mejor representación de esos procesos.

La rutina RNM implementa un modelo de comportamiento que asume la misma influencia de los lazos ponderados de manera similar, pero trabajos recientes sociológico sobre la influencia social (Friedkin, 1998; Friedkin y Johnsen, 1997; Haynie, 2001) sugiere que los compañeros se cuentan diferencialmente en función de su posición. Una manera de probar esta hipótesis sería generar similitud resultados RNM que interactúan con la posición de los compañeros, dando mayor peso a los actores centrales o el número de terceros comúnmente unir cada par. Investigadores del desarrollo se están moviendo en una dirección similar al considerar estrategias que diferencialmente peso pares en la red social basada en la información sobre los dos lazos de amistad y la frecuencia de interacción (Kindermann, 1996). Por ejemplo, el peso extra podría ser asignado a amigos dentro de los grupos de interacción basados, o amigos recíprocos podría ser ponderado de acuerdo con el número de compañeros que informan que "cuelgan alrededor juntos mucho."

¿Qué recomendaciones generales sobre la recopilación de datos y el método de detección de grupo se pueden hacer de esta comparación? En primer lugar, está claro que los resultados de pertenencia a grupo dependen en gran medida el método de recogida de datos y parece que la característica más relevante del método depende del nivel de densidad y transitividad / agrupación que genera. En segundo lugar, mientras que nos encontramos con un amplio consenso general entre los métodos y los datos, cuando estos métodos de agrupación no están de acuerdo, que tiende a ser a lo largo de una dimensión de distinción frente a la densidad. Con los datos de amistad auto-reporte normalmente dispersas y menos en clúster, los investigadores deben reconocer este desacuerdo probable a través de métodos y proporcionar una justificación teórica clara de por qué la densidad sería preferible a la distinción (o viceversa). Los investigadores podrían buscar idealmente evidencia de la generalización de las conclusiones sustantivas mediante la comparación de las conclusiones sustantivas en varios algoritmos de agrupación aplicado a la misma red o el mismo algoritmo de agrupación aplicado a través de múltiples redes. Cuando no son convincentes razones conceptuales o logísticos para medir grupos de pares en términos de amistades de auto-reporte, a continuación, la recogida de datos en forma de grupos de múltiples informantes probablemente proporcionar una base más sólida para la identificación de grupo.

Las investigaciones futuras deberían explorar más a fondo varias cuestiones que estaban más allá del alcance de estos análisis. Fundamentalmente, si la similitud entre pares y la influencia operan principalmente a nivel diádico en la adolescencia temprana, podría ser más eficiente para centrarse en estos lazos directos y renunciar a la identificación de las estructuras de los grupos en total? ¿En qué etapa en el desarrollo de estructuras de grupo no agregan poder explicativo más allá de los lazos directos? ¿Cómo podrían permitir la superposición entre los grupos afectan las diferencias entre las soluciones de grupo y estimaciones de similitud de comportamiento? ¿Cómo podría la información sobre las amistades y las relaciones sociales de interacción basado combinarse para ponderar compañeros diferencialmente en función de su probable influencia? Teniendo en cuenta que tanto los investigadores de la red de desarrollo y sociológicos han articulado preguntas similares y las posibles soluciones a estas preguntas, continuó la fertilización cruzada de métodos conceptuales, metodológicos y analíticos debe producir beneficios para ambos campos.

martes, 5 de mayo de 2015

Centralidades por paseo aleatorio

Centralidad de cercanía de paseo aleatorio
Wikipedia

La centralidad de cercanía por camino aleatorio [random walk] es una medida de centralidad en una red, que describe la velocidad media con la que los procesos caminando al azar llegan a un nodo desde otros nodos de la red. El concepto fue propuesto por primera vez por Noh y Rieger (2004). [1]

Intuición

Considere una red con un número finito de nodos y un proceso de paseo aleatorio que se inicia en un determinado nodo y procede de un nodo a otro a lo largo de los enlaces. Desde cada nodo, se elige aleatoriamente el enlace a seguir. En una red no ponderada, la probabilidad de elegir un determinado enlace es igual en todos los enlaces disponibles, mientras que en una red ponderada es proporcional a la ponderación de los enlaces. Un nodo se considera para estar cerca de otros nodos, si el proceso de paseo aleatorio iniciado desde cualquier nodo de la red llega a este nodo particular en relativamente pocos pasos en promedio.

Definición

Considere una red ponderado - ya sea dirigido o no dirigido - con n nodos notados por j = 1, ..., n; y un proceso de paseo aleatorio en esta red con una matriz de transición M. El

elemento de M describe la probabilidad de que el caminante aleatorio que ha alcanzado el nodo i, procede directamente al nodo j. Estas probabilidades se definen de la siguiente manera.

donde

es el (i, j) -ésimo elemento de la matriz de ponderación A de la red. Cuando no hay ningún borde entre dos nodos, el elemento correspondiente de la matriz A es cero.
La proximidad central paseo aleatorio de un nodo i es la inversa del tiempo medio primer pasaje media a ese nodo:

Primero tiempo de paso media

La media primera tiempo de paso del nodo i al nodo j es el número esperado de pasos que tarda el proceso para alcanzar el nodo j desde el nodo i por primera vez:

donde P (i, j, r) denota la probabilidad de que se necesita exactamente pasos r para alcanzar j de i por primera vez. Para calcular estas probabilidades de llegar a un nodo por primera vez en los pasos r, es útil considerar el nodo de destino como una absorción, e introducir una transformación de M mediante la supresión de su fila y la columna j-ésima y denotando por M_ { -j}. Como la probabilidad de un proceso a partir de i y estar en k después de r-1 pasos es simplemente dadas por el (i, k) th elemento de

, P (i, j, r ) se puede expresar como

Sustituyendo esto en la expresión para medias rendimientos tiempo primero paso

Usando la fórmula para la suma de la serie geométrica para matrices nos da

donde I es la matriz identidad dimensional n-1.
Por conveniencia computacional, esta expresión puede ser vectorizada como

donde

es el vector para la primera tiempos de paso para un paseo termina en el nodo j, y e es un vector n-1dimensional de 1.
El tiempo medio primer pasaje no es simétrico, incluso para grafos no dirigidos.

Centralidad de cercanía por paseo aleatorio en modelos de redes

Según las simulaciones realizadas por Noh y Rieger (2004), la distribución de paseo aleatorio cercanía centralidad en un modelo Barabási-Albert está determinada principalmente por el grado de distribución. En una red de este tipo, la proximidad central paseo aleatorio de un nodo es aproximadamente proporcional a, pero no aumenta monotónicamente con su grado.

Aplicaciones para redes reales

La centralidad de cercanía por paseo aleatorio es medida más relevante que la proximidad central sencilla en el caso de aplicaciones en las que el concepto de caminos más cortos no es significativo o es muy restrictivo para una evaluación razonable de la naturaleza del sistema. Este es el caso por ejemplo cuando el proceso analizado evoluciona en la red sin ninguna intención específica para llegar a un cierto punto, o sin la capacidad de encontrar el camino más corto para alcanzar su objetivo. Un ejemplo de un paseo aleatorio en una red es la forma en que una cierta moneda circula en una economía: se pasa de una persona a otra a través de transacciones, sin ninguna intención de llegar a un individuo específico. Otro ejemplo donde el concepto de rutas más cortas no es muy útil es una red conectada densamente. Además, como los caminos más cortos no son influenciados por la libre bucles, proximidad central paseo aleatorio es más una medida más adecuada que proximidad central en el análisis de redes en la libre bucles son importantes.
Una aplicación importante en el campo de la economía es el análisis del modelo de insumo-producto de una economía, que está representado por una red ponderada densamente conectada con importantes libre bucles. [2]
El concepto es ampliamente utilizado en las ciencias naturales. Una aplicación biológica es el análisis de las interacciones proteína-proteína. [3]

Centralidad de intermediación por paseo aleatorio

Un concepto relacionado, propuesto por Newman, [4] es la centralidad de intermediación por paseo aleatorio. Así como la centralidad cercanía por paseo aleatorio es una contraparte de la centralidad de cercanía, la centralidad de intermediación por paseo aleatorio es, del mismo modo, la contraparte de centralidad de intermediación tradicional. A diferencia de la medida habitual centralidad de intermediación, no sólo cuentan los caminos más cortos que pasan por el nodo dado, sino todos los caminos posibles que cruzan ella.
Formalmente, la centralidad de intermediación paseo aleatorio de un nodo es

donde el elemento

de la matriz R contiene la probabilidad de un paseo aleatorio a partir de nodo j con absorción del nodo k, que pasa a través del nodo i.
El cálculo de intermediación por paseo aleatorio en grandes redes es computacionalmente muy intensivo. [5]

Referencias

J.-D. Noh and H. Rieger. Random walks on complex networks. Phys. Rev. Lett. 92, 118701 [1]
Blöchl F, Theis FJ, Vega-Redondo F, and Fisher E: Vertex Centralities in Input-Output Networks Reveal the Structure of Modern Economies, Physical Review E, 83(4):046127, 2011. [2] (Reproducido al final de esta entrada)
Aidong, Zhang: Protein Interaction Networks: Computational Analysis (Cambridge University Press) 2007 [3]
Newman, M.E. J.: A measure of betweenness centrality based on random walks. Social Networks, Volume 27, Issue 1, January 2005, Pages 39–54
Kang, U., Papadimitriou, S., Sun, J., and Tong, H.: Centralities in Large Networks: Algorithms and Observations. SIAM International Conference on Data Mining 2011, Mesa, Arizona, USA. [4]

Vertex Centrality

Leer más publicaciones en Calaméo

viernes, 1 de mayo de 2015

Redes de visualización de consumo pornográfico

Los datos de la pornografía: visualizando el espacio fetiche
¿Cuáles son las torceduras más caras? Está porno hacer el seguimiento de la inflación, y es posible mapear 'fetiche-espacio'? Los metadatos porno podría ayudar a encontrar las respuestas a estas y muchas otras preguntas acerca de la sexualidad humana.

Martin Robbins - The Guardian

Un intento de visualizar el "espacio fetiche". Las categorías están vinculados por el número de veces que aparecen juntos en los estudios de Clips4Sale, y los círculos más grandes representan categorías con más clips. Fotografía: Martin Robbins

La pornografía es uno de los mayores temas si bien todavía peor cubiertos en el discurso popular. Es una industria de miles de millones de dólares que se encuentra en el corazón de la sexualidad humana en el siglo 21. Muchas personas ven que, aunque pocos hablan de ello, y para mejor o peor ejerce una gran influencia sobre nuestra cultura; pero sabemos relativamente poco acerca de ella.

¿Y si pudiéramos encontrar algún gran fuente de datos? La página web Clips4Sale.com es uno de los principales sitios de porno comerciales en la web. Es el hogar de miles de estudio vendiendo millones de clips. Todos los clips se indexan con metadatos sobre su precio, tamaño del archivo, la categoría de fetiche, longitud, título, descripción y así sucesivamente, y la política robots permisivas del sitio permite a los rastreadores web que arrastre el contenido. ¿Cuánta información útil podría cavar hacia fuera de él? ¿Qué cosas interesantes pudiste encontrar?

El otro fin de semana me escribió un guión para averiguarlo. Se arrastró los datos de recolección de sitio en 4.814.732 clips, que es más bien un montón de porno y probablemente significa que estoy en alguna lista negra BT ahora. Los primeros clips se remontan a finales de 2003, lo que hace el corpus Clips4Sale un 12 años de historia del porno pagado en Internet. Los datos de cada mes es como un anillo en un tronco de árbol, que nos dice lo que el mercado era como en ese momento. No es perfecto - clips de más edad pueden haber desaparecido o han eliminado - pero es suficiente para darnos una imagen aproximada.

Los primeros clips se agrupan en un puñado de categorías con nombres asiáticos, Fetiche de pie, Cosquillas y amateur, pero el número de fetiches cubiertos crecieron rápidamente. Para 2005, había más de 100 categorías de activos en un mes determinado. Para el año 2010 ese número había llegado a 500. En marzo 2015 el contenido fue publicado en casi 900 categorías, y el sitio continúa ganando amplitud. En total, más de 946 fetiches existían en el sitio en el momento de mi análisis, a partir de 1920 de la pornografía a Zit Estrujar, y el número sigue creciendo.

El crecimiento en las categorías a través del tiempo. Facebook Twitter Pinterest

El recuento de clips está creciendo demasiado, con el sitio ganando cerca de 80.000 clips por mes este año. Estoy escépticos del clima seguro querrán centrarse en la lectura inusual de octubre de 2014 y sostengo que la pornografía está ahora en declive, pero la verdad incómoda es que parece estar creciendo más rápido que nunca. Para entonces se habrán subido el próximo año otro millón de clips.

El crecimiento en los clips por mes durante la última década. Facebook Twitter Pinterest

(¿Qué es un poco extraño en esa carta es el período plana entre 2009 y 2011. Si no lo sabía mejor que empezaría a mano que agita de la recesión mundial que golpea a la misma hora, pero yo sí, así que no lo hará. Se podría ser sólo una coincidencia, o un artefacto de algún tipo en los datos.)

Las cosas se ponen un poco más interesante cuando se trata de la fijación de precios. El siguiente gráfico muestra el precio medio por clip. En los primeros días que va por todo el lugar (y recuerde que hay muy pocos clips en ese entonces), pero como el sitio madure el mercado se estabiliza y ves una muy clara tendencia a largo plazo. En 2005 el precio promedio es de un poco más de $ 8 por clip, y en marzo de 2015 en algún lugar alrededor de $ 9,70.

Precio clip de media, 2003-2015. Facebook Twitter Pinterest

Hay un sitio llamado la calculadora de inflación de Estados Unidos que le permite introducir dos fechas, y ajustar los precios para la cantidad de la inflación que se produjo entre ellos. Entrando en las cifras, resulta que un artículo que cuesta 8,10 dólares en Estados Unidos en 2005 costaría $ 9,79 en la actualidad. En otras palabras, los precios del porno han rastreado casi exactamente la inflación.

O ¿verdad? ¡Un ahoy muy pervertido!

Resulta que el precio no es la única cosa cada vez más grande en el porno ... las longitud también los son, y no estoy hablando de los artistas (que los datos no estaba disponible, por desgracia). El clip de media se ha hinchado de un respetable ocho minutos en una nueve-y-uno-mitad ojo-riego durante la última década, mientras que el precio por minuto ha pasado de $ 1.15 a $ 1.25. Si ajustamos la cifra de 2015 para la inflación, precios realmente han caído en 2.005 dólares de $ 1.15 a $ 1.03.

Duración media en minutos, 2003-2015. Facebook Twitter Pinterest

El precio promedio por minuto, 2003-2015 Facebook Twitter Pinterest

Así, mientras que el costo total por clip ha seguido el ritmo de la inflación, los productores han tenido que empacar más contenido en cada clip - que, literalmente, conseguir más porno por su dinero ahora. Por supuesto eso va para megapíxeles también. El tamaño promedio de los archivos ha aumentado de unos 60 megabytes de hace una década a más de 250 hoy en día, en la era HD.

Tamaño de archivo promedio (MB), 2003-2015 Facebook Twitter Pinterest

Incluso cuando nos fijamos en los fetiches de especialidades con las demandas de producción inusuales, el precio todavía se mantiene en alrededor de un dólar por minuto. Giantess clips de efectos especiales, que hacen un uso intensivo de los efectos de pantalla azul, animación y post-producción, en realidad cuestan alrededor de diez centavos menos por minuto que los clips Giantess convencionales, por ejemplo. La categoría de animación es un poco más caro que la media, pero sólo por unos pocos centavos.

La imagen esta pinta para la industria del porno no es exactamente uno sano. Aficionados que inundan el mercado han mantenido los precios bajos. Es cierto que los productores se han beneficiado de los sistemas de facturación, equipo más barato, más grandes audiencias potenciales y así sucesivamente, pero, al mismo tiempo que estás atrapado en un apretón implacable.

Hasta ahora hemos visto todos los clips juntos, pero resulta que no todos los fetiches son iguales. Una de las diferencias más crudos es entre las categorías BDSM y Fetiche de pie. Clips de BDSM en los últimos meses han tenido un promedio de alrededor de $ 1.10 por minuto, mientras que los vídeos Fetiche de pie han sido más de $ 1.20 por un tiempo ahora, pero que palidece en comparación con la diferencia de longitud - clips BDSM promedio de alrededor de 11 a 12 minutos, pero fetichistas de los pies tienen que conformarse con clips promedio apenas 7 u 8 minutos.

Entonces ¿por qué es eso? ¿Es que ver con la naturaleza de la fantasía y los escenarios involucrados? Haz guiones BDSM con un elemento psicológico más profundo requieren más tiempo, exposición o la configuración de lograr? ¿Se necesita menos tiempo para fetichistas de los pies para alcanzar el orgasmo, lo que lleva a una preferencia por los clips más cortos? Quién sabe, pero sería interesante investigar más a fondo, y si alguien tiene alguna ideas do ponerse en contacto.

Vamos a explorar fetiche espacio un poco más, a partir de la 40 lista más leído Más:

BONDAGE
FEMALE DOMINATION
FOOT FETISH
TICKLING
FACE SITTING
SMOKING
HANDJOBS
FOOT WORSHIP
BLOW JOBS
TRAMPLING
MASTURBATION INSTRUCTION
FOOTJOBS
BALLBUSTING
PANTYHOSE/STOCKINGS
FARTING
FOOT DOMINATION
AMATEUR
18 & 19 YRS OLD
BALLOONS
MILF
HUMILIATION
MIXED WRESTLING
LESBIAN
INTERRACIAL
MASTURBATION
CBT
HIGH HEELS
SUPERHEROINES
CAT FIGHTING
BIG TITS
BDSM
SPANKING
PANTY FETISH
GIANTESS
PEDAL PUMPING
ASS WORSHIP
ANAL
FEMALE WRESTLING
STRAP-ON
FEMALE TRAINING

Esta lista no es una brillante porque las categorías han cambiado y evolucionado con el tiempo y están muy vagamente forzada. Categorías más grandes son propensos a ser dividido, para hacerlos más fáciles de buscar. Esto lleva a algunos resultados bastante confusas y engañosas: Bondage y BDSM están en categorías separadas, por ejemplo, mientras que el Rope Play sería fácilmente en el Top 10 si se incluye todos los clips que mencionan la frase, pero que son en realidad bajo la esclavitud. Sin embargo, hay algunas cosas interesantes aquí. Resulta que un montón de problemas aparentemente oscuros son mucho más populares que se podría esperar. Ok quizás no Big Tits, pero la popularidad de los fetiches Pedal-Pumping, Giantess, Balloons y Smoking fue una sorpresa para mí.

Es difícil hacer el mismo tipo de lista de precios porque resulta que ese gasto es en sí mismo un fetiche. Los tres principales categorías más caras son, por tanto, timo, dinero Fetiche y dominación financiera. Otra tendencia es clara, aunque - clips dirigidos a hombres gay son un largo camino hacia abajo en la clasificación. Ninguna de la docena de categorías porno tan gay clasificados en la mitad superior, con Gay sí languideciendo en lugar 730a, con un precio promedio de sólo $ 1.05 por minuto.

¿Podemos vincular estos fetiches juntos de alguna manera, para crear una especie de mapa de la sexualidad humana? Para averiguarlo, busqué fetiches que frecuentemente aparecían juntos en los mismos estudios. Después de haber construido una tabla de enlaces que filtran los candidatos más débiles, cargado todo en JUNG (una biblioteca de Java para la visualización gráfica), y se aplica un sencillo algoritmo de agrupamiento por que agrupa fetiches de acuerdo con el número de conexiones dentro del grupo.

Es la parte menos científica de un artículo ya muy poco científica, y las representaciones 2D de espacios complejos no son particularmente precisa, pero yo quería tener una imagen suck-él-y-ver mostrando más o menos lo fetiche-espacio se parece. El resultado es lo más parecido que he visto a un mapa real, basado en datos de la sexualidad humana, y aunque es muy deficiente todavía es bastante fascinante.

Un intento de visualizar el "espacio fetiche ', generado a partir de conexiones entre los fetiches que comúnmente aparecen en los mismos estudios Clips4Sale. Enlaces conectan fetiches que con frecuencia aparecen juntos en los mismos estudios, y los círculos más grandes representan categorías con más clips (de un puñado de más de 100.000). Facebook Twitter Pinterest

Puede explorar la imagen en su tiempo libre, pero mientras tanto aquí están unos pocos grupos destacables:

Un conjunto de categorías con el objetivo de promover una mayor diversidad de edades entre las mujeres artistas. Puede Ser.

Tamaño de clúster fetiche Facebook Twitter Pinterest
El cluster tamaño fetiche (derecha) es uno de los pocos que cuentan con categorías tanto de 'recta' (giganta) y (Gigante) porno 'gay'.

No fetiche es demasiado oscuro para tener una categoría, o de hecho una subcategoría.

Un grupo de categorías inspirada en la industria de grabaciones estadounidense.

Entonces, ¿qué podemos sacar de este? Así potencialmente un montón de cosas, pero esto no pretende realmente ser un análisis en profundidad, me acaba de entretenerse para tener un poco de diversión. Hay realmente sólo una conclusión concreta que quiero hacer, y es esto: hay un vasto océano de datos en la web acerca de la sexualidad humana, mucho más de lo que yo creo que la gente se da cuenta, y podría ser una herramienta de enorme valor en el desarrollo de nuestra comprensión de un tema muy importante.

En el espacio de un par de fines de semana tuve la oportunidad de improvisar algo de código y llegar a algunas conclusiones interesantes. Un buen investigador en el campo puede hacer mucho mejor, y espero que lo hacen. Mire este espacio ...

mjrobbins

Nota 1: Traté de contactar Clips4Sale antes de este artículo, pero no estaban disponibles para hacer comentarios.

Nota 2: Si usted es un académico o usted trabaja en la industria del porno y tienes alguna idea interesante o desea saber más, puedes enviarme un e-mail a layscience@googlemail.com.

miércoles, 29 de abril de 2015

Las redes de hormigas son más complejas que Google

Las hormigas tienen una red más compleja que la de Google
Por Alexander Saltarin - Tech Times

Una nueva investigación muestra que las colonias de hormigas tienen una red de información que puede rivalizar con Google en términos de complejidad. Las redes de comunicación utilizadas por muchas especies de hormigas son a la vez eficiente y eficaz.

Un nuevo estudio arroja luz sobre la extraordinaria complejidad de las redes de comunicación utilizadas por las hormigas. Los nuevos hallazgos muestran que estas redes pueden rivalizar con las redes masivas utilizados por las empresas de tecnología como Google en gran complejidad.

A primera vista, las hormigas obreras parecen exhibir movimientos aleatorios sin ningún patrón absoluto. Tras una inspección más cercana, sin embargo, las hormigas forrajeras muestran notable organización. Este nivel de organización es sólo es posible con una red de comunicación complejo e intrincado que puede ayudar a las hormigas cubren sistemáticamente áreas relativamente grandes al tiempo que garantiza un suministro de alimentos estable para toda la colonia.

"Las hormigas tienen un nido por lo que necesitan algo así como una estrategia para traer a casa la comida que encuentran", dijo Lixiang Li, investigador de postdoctoral en Comunicaciones de la Universidad de Beijing. "Nosotros sostenemos que este es un factor, en gran parte subestimado hasta ahora, que realmente determina su comportamiento." Li también es el autor principal de un estudio sobre el tema publicado en la revista en línea las Proceedings of the National Academy of Sciences of the United States of America (PNAS)..

En términos de tamaño del cerebro, las hormigas se sabe que tienen los mayores cerebros entre los insectos. Individualmente, sin embargo, las hormigas son criaturas relativamente poco impresionantes. Cuando toda la colonia reúne sin embargo, las hormigas pueden lograr hazañas que podrían poner incluso los seres humanos a la vergüenza. La red de comunicación utilizado por las colonias de hormigas se puede ver cuando las hormigas obreras salen en busca de alimento.

"Mientras que la sola hormiga luego, no es inteligente, los actos colectivos de una manera que me siento tentado a llamar inteligente", dijo el Instituto de Potsdam para la Investigación del Impacto Climático (PIK) científico Jürgen Kurths. "El principio de la auto-organización es conocida a partir de enjambres instancia de pescado, pero es la mensajera que hace que las hormigas tan interesante." Kurths es también co-autor del estudio, así como el jefe de los conceptos transdisciplinarios y métodos de dominio del PIK.

Para comunicarse entre sí, las hormigas utilizan una red de feromonas para transferir y difundir información. Cada hormiga deja un rastro de feromonas que pueden ser detectados por otras hormigas. Una vez que una hormiga pasa sobre una fuente de alimento, otras hormigas pueden seguir el rastro dejado por la hormiga originales. Mientras que la feromona puede disipar con relativa rapidez, las hormigas son rápidos para el seguimiento y el número de hormigas que van hacia y desde una fuente de alimento crecer en número; el rastro de feromona se refuerza y otra vez. Como las hormigas proceden con forrajeo, se imaginan gradualmente el camino más corto posible entre su nido y una fuente viable de alimentos.

Los investigadores responsables del estudio han comparado la complejidad de la red utilizada por forrajeo hormigas a la de la tecnología utilizada por Google en su motor de búsqueda líder en la industria.

"Las hormigas colectivamente forman una compleja red altamente eficiente", agregó Kurths. "Y esto es algo que encontramos en muchos sistemas naturales y sociales."

Pnas 2014 Li 8392 7