Mostrando entradas con la etiqueta grafo ponderado. Mostrar todas las entradas
Mostrando entradas con la etiqueta grafo ponderado. Mostrar todas las entradas

sábado, 17 de noviembre de 2018

Redes de obesidad en niños

Un enfoque de red para entender los ambientes obesogénicos para niños en Pennsylvania


Emily A. Knapp * / Usama Bilal / Bridget T. Burke / Geoff B. Dougherty / Thomas A. Glass


Información de la cita: Connections. VOLUME 38 , ISSUE 1 , ISSN (Online) , DOI: 10.21307/connections-2018-001, July 2018 © 2018.© 2018 Authors

Las redes están en todas partes (Barabasi, 2007, 2012, 2009, 2013). Sin embargo, en materia de salud pública, la ciencia de la red solo ha comenzado a tener importantes avances en las carreteras. Hasta la fecha, la ciencia de la red ha hecho contribuciones en diversas áreas de la investigación biomédica, incluida la comunicación celular en el cáncer (Stites et al., 2007; Berger et al., 2012; Gill et al., 2014; Grupo de trabajo de Mutation Consequences and Pathway Analysis of the International Cancer Genome Consortium, 2015), interacciones proteína-proteína (Jeong et al., 2001) e interacciones complejas de la enfermedad (Barabasi, 2007; Goh et al., 2007; Hidalgo et al., 2009; Zhou et al., 2014). Las características comunes vinculan estas diversas aplicaciones, incluidos datos de alta dimensión y patrones emergentes que no son fácilmente visibles en el espacio bivariado. Las redes representan relaciones entre objetos en un sistema, y ​​los métodos de red ayudan a identificar estructuras que influyen en el comportamiento del sistema.

La obesidad es un desafío para la investigación de salud pública tradicional porque actualmente no tenemos una explicación sólida para los patrones temporales y espaciales de la epidemia de obesidad (Galea et al., 2010). Esto ha llevado a los investigadores de la obesidad a buscar métodos y enfoques alternativos orientados a la ciencia de sistemas (Burke y Heiland, 2007; Huang et al., 2009; Finegood, 2011). La ciencia de redes ha hecho importantes contribuciones en la investigación de la obesidad en varias dimensiones. Primero, los métodos de red se han utilizado para identificar vínculos complejos entre genes relacionados con la obesidad en modelos animales (Chen y Zhang, 2013). En segundo lugar, los investigadores han conceptualizado la "red de respuesta al estrés" para comprender cómo la retroalimentación dentro de los sistemas biológicos conduce a la exacerbación y la habituación que resulta en un crecimiento obesogénico (Dallman et al., 2003, 2006). Los enfoques de red se han utilizado para estudiar las interacciones entre las organizaciones y los componentes de las intervenciones de obesidad (Leroux et al., 2013; Marks et al., 2013), y se han aplicado a diagramas de bucle causal para identificar los puntos de influencia para la intervención (McGlashan et al., 2016 ). Varios estudios se han centrado en cómo la obesidad y la actividad física se propagan a través de poblaciones como la infección (Crandall, 1988; Christakis y Fowler, 2007; Blanchflower et al., 2009; Hammond, 2010; Hill et al., 2010; Ali et al., 2012 ; El-Sayed et al., 2012; Gesell et al., 2012; Simpkins et al., 2013; Hammond and Ornstein, 2014). Otros han examinado cómo la obesidad afecta las relaciones sociales (Brewis et al., 2011; de la Haye et al., 2011; Ali et al., 2012). A pesar de estos avances, la mayoría de los estudios de redes sobre la obesidad se han centrado en la estructura de los vínculos entre individuos conectados a través de vínculos sociales. No tenemos conocimiento de ningún estudio hasta la fecha que se centre en la estructura de los vínculos entre las características del entorno, que se cree que son los principales impulsores de la epidemia de obesidad.

El concepto de "entorno obesogénico" se propuso por primera vez en la década de 1990 como un modelo para evaluar la contribución de los factores ambientales a la obesidad (Hill y Peters, 1998; Swinburn et al., 1999). El entorno obesogénico asume un patrón de características coexistentes espacialmente que influyen conjuntamente en el riesgo de obesidad. Hay pocas dudas de que los aspectos del entorno de los alimentos y la actividad física son importantes, pero la pregunta sobre cómo identificar los patrones de características dentro del entorno de la obesidad sigue sin respuesta. Se necesitan herramientas para examinar las conexiones entre las características del entorno obesogénico. El análisis de red se puede usar para describir las relaciones (enlaces) entre objetos (nodos), lo que permite la caracterización de las características de nivel de red que de otra manera están ocultas. Los métodos de red también nos permiten visualizar estas conexiones, facilitando la comprensión de una epidemia muy compleja y potencialmente priorizando áreas de intervención. En este estudio, caracterizamos el entorno obesogénico con características de la comunidad como nodos y correlaciones entre esas características como enlaces. Una versión de esta metodología se ha utilizado en la investigación neurológica y genética y se conoce comúnmente como "Análisis de red de correlación ponderada" (Fox et al., 2005; Zhang y Horvath, 2005). Nuestro enfoque examina la estructura de las relaciones entre múltiples características de la comunidad, en lugar de examinar cada característica de la comunidad como una causa independiente de obesidad.

La literatura demuestra una fuerte relación entre las características ambientales que afectan la dieta y la actividad física. Sin embargo, los estudios existentes se han centrado en las características individuales relacionadas con la obesidad de forma aislada, la mayoría de las veces se evalúa por sus asociaciones lineales con la obesidad. Ha habido poca atención a la interdependencia de estas características ambientales y cómo se estructuran las relaciones entre las características obesógenas del entorno y pueden crear entornos de riesgo cualitativamente diferentes para la obesidad. Tomamos herramientas de análisis de red para estudiar estas interrelaciones entre las características del entorno y explorar cómo se relacionan con los patrones espaciales de prevalencia de obesidad. Nos guiamos por la visión de que los sistemas de transporte, la variación cultural, los mercados y otras dinámicas del sistema crean grupos de características relacionadas con la obesidad que pueden tener efectos sinérgicos y agregativos en el comportamiento de la población. Las fuerzas del mercado conducen a grupos de restaurantes, tiendas y espacios de actividad en el entorno construido (Hidalgo y Castañer, 2015). Este agrupamiento puede potenciar el efecto de cualquier instalación al aumentar el efecto conjunto de un entorno construido y social diseñado para entregar el exceso de calorías con la máxima eficiencia. Por lo tanto, la agrupación de características y la existencia de nodos de enlace centrales que unen grupos dispares pueden apuntar hacia nuevos objetivos para la investigación y la intervención.

Nuestro objetivo principal es explorar la utilidad de los métodos de análisis de redes para caracterizar los vínculos entre un conjunto de 32 características espacialmente estructuradas del entorno obesogénico. Creamos una red ponderada de características comunitarias de 1,288 comunidades en Pennsylvania, y examinamos la relación entre las medidas de centralidad y agrupamiento y una métrica comúnmente usada de sobrepeso y obesidad infantil (porcentaje de niños con índice de masa corporal (IMC) percentil ≥ 85).

Métodos

Nuestro objetivo fue modelar la red de características hipotéticas relacionadas con la obesidad de los entornos locales para comprender mejor cómo la centralidad de la red y los nodos y la agrupación proporcionan información sobre el papel de los entornos en la obesidad infantil y adolescente.
Datos

Nuestro estudio se basó en datos de un estudio de niños de 1,288 comunidades en el centro y noreste de Pennsylvania atendidos por Geisinger Health System. Desde el sistema de registros médicos electrónicos (EMR) del sistema, recibimos datos de todos los pacientes entre 3 y 18 años que visitaron a un médico de atención primaria de Geisinger entre 2001 y 2012. La muestra incluyó 163,473 niños y 523,674 visitas. La muestra es representativa de la población juvenil en la región (Schwartz et al., 2011). Este estudio fue aprobado por las juntas de revisión institucional de Geisinger Health System y la Escuela de Salud Pública Johns Hopkins.

Los niños fueron asignados previamente a una de las 1.288 comunidades según su domicilio geocodificado. Las comunidades consistían en secciones censales dentro de las ciudades y divisiones civiles menores (municipios y barrios) fuera de las ciudades (Schwartz et al., 2011). De Geisinger EMR obtuvimos medidas longitudinales de altura y peso para niños. Se asumió que los valores de IMC no plausibles, definidos como cinco desviaciones estándar por encima y por debajo de la mediana, eran errores de medición o de entrada de datos y se eliminaron utilizando el programa estándar CDC SAS (Schwartz et al., 2011). Calculamos las puntuaciones z para el IMC individual, la puntuación z estimada media de la comunidad estimada y el porcentaje de niños con sobrepeso u obesos (IMC mayor o igual al percentil 85 por edad y sexo). Luego clasificamos las comunidades según los cuartiles del porcentaje de niños con IMC en o por encima del percentil 85.

Para caracterizar las características del entorno relacionadas con la obesidad, reunimos un corpus de 32 variables con la hipótesis de estar relacionadas con la obesidad según la investigación existente. Estas variables incluyen información demográfica, económica y geográfica de conjuntos de datos disponibles públicamente, incluidos los publicados por el Censo de los EE. UU., La Oficina Federal de Investigaciones, y dos proveedores de datos comerciales, Info USA y Dun & Bradstreet, que proporcionaron registros de alimentos comerciales y físicos. Establecimientos de actividades categorizados utilizando códigos estándares de la industria. La tabla 1 describe las características de la comunidad que estudiamos. Esta lista se seleccionó en función de los atributos que están bien aceptados en la literatura, tienen propiedades de medición aceptables y abarcan una amplia gama de dominios de contenido y relaciones, algunos de ellos relacionados con la actividad física y otros relacionados con la dieta. Este conjunto de variables se ha utilizado en nuestra investigación anterior para caracterizar diversos aspectos del entorno relacionado con la obesidad en las comunidades (Nau et al., 2015). Clasificamos todas las variables en puntajes de quintil o cuartil para preservar la posición de rango de las variables que a menudo están mal distribuidas. Después de revisar las distribuciones de variables y las matrices de correlación de Spearman, Pearson y Phi, elegimos las correlaciones de Spearman como la mejor representación de las distribuciones de variables y la fuerza de las conexiones.


Tabla 1. Características de la comunidad relacionadas con la obesidad incluidas en el análisis de redes.



Métodos de red

Dada la naturaleza compleja de los ambientes obesogénicos, buscamos la manera de caracterizar mejor las relaciones entre las 32 características de la comunidad. Necesitamos respetar tanto las correlaciones por pares (bivariadas) entre las variables como las estructuras que emergen de estas correlaciones por pares. Utilizamos un método análogo al análisis de red de correlación ponderada (Zhang y Horvath, 2005). Generamos una matriz de datos de covariables (32 características de la comunidad relacionadas con la obesidad) que tratamos como nodos en una red de atributos ambientales interconectados. Los enlaces se operacionalizaron como la fuerza de la correlación bivariada entre cada par de atributos. Las correlaciones bivariadas se estimaron utilizando los coeficientes de correlación de Spearman por pares entre las variables de la comunidad. Debido a que estábamos interesados ​​principalmente en la fuerza de los vínculos entre los nodos y existe controversia sobre la dirección de las relaciones entre algunas de estas variables y la obesidad, optamos por utilizar el valor absoluto de la correlación entre las variables.

Todas las 992 correlaciones de pares se convirtieron luego en una matriz de adyacencia no dirigida ponderada donde cada celda era la correlación entre dos variables. Creamos un grafo ponderado a partir de esta matriz de adyacencia utilizando el paquete R iGraph (versión 1.0.1) (Csardi y Nepusz, 2006), especificando las correlaciones de pares como los ponderadores de enlaces. De esta gráfica, obtuvimos cinco conjuntos de resultados.

Primero, trazamos un grafo de red general usando las 1,288 comunidades. Las coordenadas de cada nodo se calcularon utilizando un algoritmo basado en la fuerza, el algoritmo de Fruchterman-Reingold (Fruchterman y Reingold, 1991), donde la atracción entre nodos es proporcional a la fuerza de la correlación entre las características ambientales (nodos). Implementamos la versión del algoritmo en el paquete R qgraph (versión 1.3.2) (Epskamp et al., 2012). El segundo conjunto de resultados representa el mismo grafo estratificado por la carga de obesidad de la comunidad (cuartiles). Para facilitar la interpretación, mostramos grafos correspondientes a los cuartiles 1 y 4 (las comunidades más delgadas y más pesadas, respectivamente (ver Fig. 1 (red general) y Fig. 2 (red estratificada)).

En tercer lugar, con el fin de comprender mejor las relaciones entre los componentes del entorno obesogénico, se buscó obtener una medida de agrupación y estructura de la comunidad que nos permitiera evaluar si la estructura de la red era diferente en las comunidades clasificadas según la prevalencia de la obesidad infantil. Llevamos a cabo un análisis de detección de módulos utilizando el método walktrap (Pons y Latapy, 2005) que realiza una serie de "caminatas aleatorias" entre los nodos. La probabilidad de "caminar" de un nodo a otro es proporcional al peso del enlace entre los nodos, lo que significa que es más probable que ocurra una caminata entre dos nodos altamente correlacionados. Cada nodo está restringido a la membresía en un módulo. Esto crea módulos de variables que están altamente conectados entre sí. Luego calculamos la puntuación de modularidad de red normalizada (Newman, 2006), que cuantifica la fuerza de las conexiones dentro y entre los módulos. Una mayor puntuación de modularidad indica una red con alta conectividad dentro del módulo y baja conectividad entre módulos. Calculamos la puntuación de modularidad para el grafo de red general y cada uno de los cuatro grafos en función de los estratos comunitarios de carga de la obesidad infantil (consulte la Tabla 2). Utilizamos la correlación de pares entre variables (nodos) como un peso en el cálculo de la modularidad. Cuarto, calculamos una medida general de la centralidad de la red al calcular el grado promedio de la red (Barrat et al., 2004). En una red no dirigida ponderada como la nuestra, el grado promedio de red es la media de todas las correlaciones por pares (Barrat et al., 2004). Un grado de red promedio alto representa una red que tiene una correlación general más estrecha entre todos los nodos. Calculamos el grado de red promedio para el grafo de red general y cada uno de los cuatro grafos de red según la prevalencia de obesidad (consulte la Tabla 2).

Tabla 2. Modularidad de la red y grado de red promedio en la red general y por cuartil de prevalencia de obesidad infantil.



En quinto lugar, examinamos la asociación entre la centralidad de un nodo y su correlación con la prevalencia de la obesidad infantil. Para esto, trazamos el grado de centralidad de cada nodo en relación con la correlación de ese nodo con la prevalencia de obesidad infantil (Fig. 3).

Figura 1. Grafo de red para 1,288 comunidades en Pennsylvania. Esto muestra un grafo de la red de conexiones entre atributos de comunidades en 1,288 comunidades en Pennsylvania. Cada nodo en la red representa una característica de las comunidades, y los enlaces en la red son valores absolutos de los coeficientes de correlación de Spearman. La correlación bivariada entre cada variable y la puntuación z promedio del índice de masa corporal (IMC) se muestra mediante el sombreado de cada nodo, con colores más oscuros que representan una correlación absoluta más fuerte con la puntuación z media del IMC de la comunidad. La fuerza de la correlación absoluta entre dos nodos se representa por la oscuridad y el grosor de las líneas que conectan las variables. Una línea gruesa y oscura puede representar una fuerte correlación positiva o negativa. Los módulos de variables altamente conectadas se crearon usando el método walktrap.


Figura 2. Grafos de red para 1288 comunidades en Pennsylvania, por cuartil de porcentaje de niños en o por encima del percentil 85 de BMIz. En las comunidades en el cuartil más bajo del porcentaje de niños con sobrepeso u obesidad (A: izquierda), las características de la comunidad parecen estar menos agrupadas, es decir, ocurren con más frecuencia que en las comunidades en el cuartil más alto de la comunidad BMIz (B : derecho).

 

Figura 3. Asociación de grados de centralidad de cada característica de la comunidad con la prevalencia de sobrepeso y obesidad entre los niños. La correlación entre las características de la comunidad y el índice de masa corporal es más fuerte para las variables más centrales de las características de la red relacionadas con la obesidad (R = 0.51).



Resultados

El propósito de este análisis fue aplicar la metodología de red para caracterizar los patrones de vínculos e interacciones entre las características ambientales relacionadas con la obesidad entre las comunidades en Pennsylvania. La Figura 1 es un grafo de la red de conexiones (correlaciones por pares) entre nodos (características relacionadas con la obesidad) en 1,288 comunidades de Pennsylvania.

El grafo ilustra tres características importantes de la red. Primero, se identificaron tres grupos de variables estrechamente conectadas utilizando el método de la trampa. Se puede ver un conjunto de las tres variables relacionadas con el delito (tasas por 100,000 personas de delitos contra la propiedad, delitos contra personas y todos los delitos de la Parte I) (sombreado verde), y está débilmente vinculado a la red principal. Esto sugiere que las comunidades con altos índices de delitos violentos (es decir, asalto) también tienen altos índices de delitos contra la propiedad (es decir, incendio premeditado). Las tasas de delincuencia parecen estar moderadamente correlacionadas con las tasas de obesidad, como lo indica el color oscuro de los nodos relacionados con la delincuencia. Se identifica un segundo grupo que consta de características que representan patrones de uso de la tierra, transporte y densidad de establecimiento de alimentos (sombreado amarillo). Creemos que esto representa el agrupamiento espacial que se produce en el contexto de la expansión suburbana con la ubicación conjunta de establecimientos en corredores de transporte de gran volumen. Los nodos en el corazón de este grupo incluyen la densidad de hogares (por milla cuadrada) y todos los establecimientos de alimentos por milla cuadrada. Este segundo grupo parece ser el más ajustado. Once de los 14 nodos tienen una correlación absoluta superior a la media con la obesidad. El modelo identificó un tercer grupo (sombreado azul claro) que consiste principalmente en características que describen el entorno de actividad física. Estos incluyen diversidad de establecimientos de actividad física, instalaciones recreativas al aire libre por milla cuadrada, tiendas de bocadillos (p. Ej., Donas, pretzels, helados) por milla cuadrada, centros de recreación interiores por milla cuadrada, todos los establecimientos de actividad física por milla cuadrada, gimnasio interior y recreacional instalaciones por milla de la calle, y clubes recreativos interiores e instalaciones por milla cuadrada.

Tanto en el segundo como en el tercer clúster, los nodos que están más altamente correlacionados con la obesidad (indicado por el color del nudo más oscuro), son más centrales en la red en general, así como dentro de cada clúster. No todos los nodos de alimentos o actividad física están agrupados. En el enlace del grafo vemos varios nodos de actividad física o de alimentos que no están tan estrechamente acoplados (incluidos parques y grandes almacenes). Finalmente, la estructura general de la red sugiere que los elementos de estas comunidades están agrupados geográficamente y no están dispersos aleatoriamente entre las comunidades, especialmente las características de los entornos físicos, de alimentos y de uso de la tierra.

A continuación, nos interesaba saber si la estructura de esta red de características variaba en los estratos de la carga de obesidad de la comunidad. La Figura 2 muestra el resultado de ejecutar un modelo de red similar por separado por cuartil de porcentaje de niños en o por encima del percentil 85 en BMI-z, un umbral ampliamente considerado como indicativo de sobrepeso y carga de obesidad. Entre las comunidades en el cuartil más bajo de prevalencia de obesidad (Fig. 2A), las características de la comunidad parecen estar menos conectadas que en las comunidades en el cuartil más alto de prevalencia de obesidad (Fig. 2B). Esto también se describe por la mayor modularidad en la Tabla 2. Por ejemplo, entre las comunidades con menor prevalencia de obesidad, el crimen está débilmente vinculado al conjunto de uso de la tierra, alimentos y actividad física; pero en las comunidades con mayor prevalencia de obesidad, el crimen está más estrechamente vinculado a este grupo. No solo las cantidades de estas características son mayores en las comunidades más pesadas, sino que las conexiones entre las características también se modifican: las comunidades que dan lugar a tasas más altas de obesidad infantil están estructuradas de manera diferente a aquellas con menos obesidad infantil.
La Tabla 2 muestra los resultados del análisis de la estructura de la red, global y estratificado por cuartil de obesidad. La red general tiene una modularidad positiva de 0,15, lo que indica que los nodos (características ambientales) muestran un grado de agrupamiento (en comparación con una distribución aleatoria de nodos sin agrupamiento). En el análisis estratificado por la prevalencia de obesidad infantil, las comunidades en el primer y segundo cuartil (comunidades más delgadas) muestran una mayor modularidad en comparación con las comunidades en el tercer y cuarto cuartil (comunidades más pesadas) (modularidad de 0,19 y 0,27 frente a 0,12 y 0,09, respectivamente). Esto significa que los módulos de variables en comunidades más delgadas están más agrupados dentro de cada módulo o tienen conexiones más débiles a las variables en otros módulos, y que en las comunidades más pesadas las variables (nodos) exhiben un menor grado de agrupamiento en módulos (como se puede ver en la figura 2). Por ejemplo, una comparación de los dos paneles en la Figura 2 demuestra que el grupo relacionado con el crimen que se muestra en verde tiene menos vínculos fuertes (mostrados por líneas más oscuras) con el centro de la red en las comunidades más delgadas en el panel izquierdo en comparación con las más pesadas Comunidades en el panel derecho. De manera similar, el grado promedio de la red es mayor en las comunidades más pesadas (grado = 0.362) en comparación con las comunidades más delgadas (grado = 0.332), lo que representa una correlación promedio más alta (es decir, conexiones más fuertes), entre las variables en comunidades con mayor prevalencia de obesidad infantil.

La Figura 3 muestra la relación entre el grado de centralidad de cada característica de la comunidad (nodo) con la correlación bivariada de esa característica con el sobrepeso infantil y la prevalencia de obesidad (porcentaje de niños por encima del percentil 85 del IMC). Cada punto representa una de las 32 características de la comunidad. La correlación entre el grado de cada característica y su correlación con la prevalencia de la obesidad infantil es positiva (r = 0.51), lo que indica que las variables más "centrales" tienen una asociación más fuerte con el resultado. Por ejemplo, los puestos de frutas y hortalizas frescas por milla cuadrada tienen una baja correlación con la obesidad de la comunidad, y pueden verse en la Figura 1 como una variable lejos del centro de la red y con solo unos pocos vínculos débiles con el resto de la red.

Discusión

Aplicamos la metodología de red para describir los vínculos entre las características de la comunidad asociadas con la obesidad. Utilizamos el análisis de redes para caracterizar el entorno obesogénico: en lugar de tratar las características individuales de las comunidades de forma aislada, este método respeta las interacciones y la coexistencia espacial que conforman este panorama de riesgo de obesidad.

Este trabajo sugiere que (i) existen grupos identificables de características ambientales; (ii) que el nivel de conectividad y la estructura de las características en la red pueden ser informativos; y (iii) es más probable que las características más asociadas con la obesidad sean centrales en la red de características comunitarias. Se identificaron tres grupos en la red general: un grupo de variables relacionadas con la delincuencia que estaba débilmente vinculada a la red principal, y grupos de actividad física y de uso de la tierra y los alimentos, respectivamente. En las comunidades estratificadas por la prevalencia de la obesidad infantil, la estructura y la conectividad general de la red parecían diferir según el nivel de obesidad. No solo los valores de estos atributos son diferentes en las comunidades más pesadas y más delgadas, sino que también los patrones de conexiones son diferentes. También encontramos que la centralidad sola, medida en grado, está correlacionada con la obesidad. Por lo tanto, las características relacionadas con la obesidad están agrupadas geográficamente de manera más estrecha. Esto puede ser evidencia de la sinergia entre las características del entorno obesogénico, las características no independientes de las comunidades que unen sus fuerzas para determinar el riesgo de obesidad.

Comprender e intervenir sobre los impulsores de la epidemia de obesidad es un desafío para los investigadores y responsables políticos de la obesidad. La obesidad es compleja y tiene múltiples impulsores a nivel individual, comunitario, estatal y nacional (Huang et al., 2009). Los métodos tradicionales, como los modelos de regresión, no tienen en cuenta la interacción entre múltiples factores en múltiples escalas, la complejidad e importancia de los factores contextuales y los ciclos de retroalimentación y otros procesos dinámicos (Hammond, 2009). Aunque nuestro trabajo es preliminar, sugiere que los enfoques de sistemas para la obesidad pueden ser útiles para caracterizar los vínculos entre las características del entorno. A pesar del reconocimiento de que las características ambientales de las comunidades desempeñan un papel importante en la epidemia de obesidad, los métodos de red para caracterizar los vínculos entre los atributos de las comunidades se han subutilizado. La estructura y la fortaleza de estos vínculos pueden proporcionar evidencia de áreas geográficas o tipos de grupos de características que serían más eficientes para la intervención.
Los métodos de red, especialmente los métodos gráficos, podrían usarse para ayudar a establecer prioridades para las intervenciones relacionadas con la obesidad en las comunidades. Por ejemplo, los establecimientos de alimentos mostraron una alta centralidad (medida por grado) en nuestra red y una alta correlación con la obesidad infantil (Fig. 3). Usando estos grafos de red (por ejemplo, Fig. 2), podemos limitarnos a características como estas que pueden tener efectos de gran alcance, si se interviene. Esto es consistente con la literatura sobre "pantanos de alimentos" y "desiertos de alimentos", pero ayuda a priorizar las intervenciones en esta área porque estas características son más centrales. Esto podría apuntar a la efectividad de intervenir en tales variables que son altamente centrales en la red y, por lo tanto, pueden tener efectos de mayor alcance que la intervención en variables menos centrales. Los métodos de red pueden ayudar a identificar a los actores sinérgicos que podrían tener grandes efectos sobre la obesidad debido a sus conexiones con otras variables.

En particular, nuestro trabajo apunta hacia posibles intervenciones con respecto a las políticas de zonificación de la comunidad. Los grafos de nuestra red muestran grupos estrechos de características relacionadas con los alimentos (por ejemplo, tiendas de comestibles y de conveniencia, restaurantes de comida rápida y de servicio completo) y uso del suelo (por ejemplo, longitud de bloque de carreteras, densidad del hogar) que están fuertemente correlacionadas con la obesidad. La reestructuración del entorno comunitario puede ser una vía prometedora para la prevención de la obesidad. Al considerar que las comunidades son sistemas complejos donde múltiples fenómenos interrelacionados actúan juntos para crear un entorno obesogénico, estos métodos también nos empujan a considerar la intervención no solo en las características ambientales en sí mismas, sino también en los vínculos entre las características. Esta es una nueva forma de abordar la epidemia de obesidad: buscando factores que puedan estar relacionados con las características o que puedan manipularse para interrumpir conexiones dañinas. Por ejemplo, el grupo relacionado con la delincuencia está más estrechamente vinculado a la red entre las comunidades con más obesidad infantil. Investigaciones adicionales sobre las causas subyacentes de este vínculo (y por qué difiere en las comunidades estratificadas por la prevalencia de obesidad infantil) pueden iluminar importantes impulsores de la epidemia de obesidad.

Este trabajo también tiene implicaciones metodológicas para la investigación de la obesidad. El trabajo futuro debería explorar los mecanismos de cómo estos grupos se asocian con una mayor prevalencia de obesidad y si las intervenciones en las características de esta red cambian la estructura de la red en sí. Esta investigación futura debe considerar las relaciones, o agrupación, de estas características. La evaluación de asociaciones independientes entre cualquier característica única y las tasas de obesidad ignoraría las complejas interrelaciones que este trabajo ha destacado. Otros métodos que reconocen estos grupos de características, como los métodos de variables latentes (Nau et al., 2015), pueden ser más apropiados para respetar la forma en que se agrupan las características ambientales y descubrir fuentes no observadas de la correlación observada en esta red.

Tenemos datos de un área geográfica grande y diversa que incluye comunidades urbanas, rurales y suburbanas. Sin embargo, este análisis es exploratorio. No podemos descartar la posibilidad de que la densidad de la población y el desarrollo puedan ser una causa común de muchas de las variables que seleccionamos. Esto es potencialmente una fuente de sesgo o una posible explicación para el agrupamiento de características del entorno en el que se basa nuestro estudio. Se reconoce ampliamente que las características de las comunidades relacionadas con la obesidad están geográficamente correlacionadas. Las razones de esas correlaciones no se entienden bien. Creemos que nuestros resultados respaldan la utilidad de los métodos de red para el estudio de entornos que no se forman de forma aleatoria, pero que están moldeados por diversas fuerzas demográficas y de mercado que pueden ser importantes para impulsar la variación espacial en las tasas de obesidad.

Conclusión

El análisis de redes puede ser una herramienta útil para evaluar entornos obesogénicos y otras cuestiones de interés en epidemiología. Este análisis preliminar sugiere que los patrones de agrupamiento y las conexiones entre las características del entorno son importantes. El uso de la tierra y las características de los alimentos están fuertemente vinculados (especialmente en las comunidades más "pesadas"), y las características están más agrupadas en comunidades con un IMC promedio más alto. Los métodos de red pueden iluminar patrones de vínculos y factores clave en entornos obesogénicos. La posición de la red (centralidad) se correlaciona con el IMC promedio. En última instancia, el objetivo de este tipo de análisis sería identificar características de la comunidad altamente conectadas que se pueden usar como palancas de intervención para reducir las tasas de obesidad en la población.


Referencias

  1. Ali, M.M., Amialchuk, A. and Rizzo, J.A. 2012. The influence of body weight on social network ties among adolescents. Economics and Human Biology 10 1: 20-34.
  2. Ali, M.M., Amialchuk, A., Gao, S. and Heiland, F. 2012. Adolescent weight gain and social networks: Is there a contagion effect?. Applied Economics 44 23: 2969-83.
    [CROSSREF]
  3. Barabasi, A.L. 2007. Network medicine – from obesity to the ‘diseasome’. The New England Journal of Medicine 357 4: 404-7, doi: 10.1056/NEJMe078114.
    [CROSSREF] [URL]
  4. Barabasi, A.L. 2009. Scale-free networks: A decade and beyond. Science 325 5939: 412-3.
    [CROSSREF]
  5. Barabasi, A.L. 2012. Network science: Luck or reason. Nature 489 7417: 507-8.
    [CROSSREF]
  6. Barabasi, A.L. 2013. Network science. Philosophical Transactions of the Royal Society A Mathematical Physicla and Engineering Science 371 1987: 20120375.
    [CROSSREF]
  7. Barrat, A., Barthélemy, M., Pastor-Satorras, R. and Vespignani, A. 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences of the United States of America 101 11: 3747-52, doi: 10.1073/pnas.0400087101.
    [CROSSREF] [URL]
  8. Berger, E., Vega, N., Vidal, H. and Geloen, A. 2012. Gene network analysis leads to functional validation of pathways linked to cancer cell growth and survival. Biotechnology Journal 7 11: 1395-404.
    [CROSSREF]
  9. Blanchflower, D.G., Landeghem, B. and Oswald, A.J. 2009. Imitative obesity and relative utility. Journal of the European Economic Association 7 2–3: 528-38.
    [CROSSREF]
  10. Brewis, A.A., Hruschka, D.J. and Wutich, A. 2011. Vulnerability to fat-stigma in women’s everyday relationships. Social Science and Medicine 73 4: 491-7.
    [CROSSREF]
  11. Burke, M.A. and Heiland, F. 2007. Social dynamics of obesity. Economic Inquiry 45 3: 571-91.
    [CROSSREF]
  12. Chen, Z. and Zhang, W. 2013. Integrative analysis using module-guided random forests reveals correlated genetic factors related to mouse weight. PLOS Computational Biology 9 3: e1002956.
    [CROSSREF]
  13. Christakis, N.A. and Fowler, J.H. 2007. The spread of obesity in a large social network over 32 years. The New England Journal of Medicine 357 4: 370-9.
    [CROSSREF]
  14. Crandall, C.S. 1988. Social contagion of binge eating. Journal of Personality and Social Psychology 55 4: 588-98.
    [CROSSREF]
  15. Csardi, G. and Nepusz, T. 2006. The igraph software package for complex network research. InterJournal Complex Systems 1695: 1-9.
  16. Dallman, M.F., Pecoraro, N., Akana, S.F., La Fleur, S.E., Gomez, F., Houshyar, H., Bell, M.E., Bhatnagar, S., Laugero, K.D. and Manalo, S. 2003. Chronic stress and obesity: A new view of ‘comfort food’. Proceedings of Natlional Academy of Science of the United States of America 100 20: 11696-701.
    [CROSSREF]
  17. Dallman, M.F., Pecoraro, N.C., La Fleur, S.E., Warne, J.P., Ginsberg, A.B., Akana, S.F., Laugero, K.C., Houshyar, H., Strack, A.M., Bhatnagar, S. and Bell, M.E. 2006. Glucocorticoids, chronic stress, and obesity. Progress in Brain Research 153: 75-105.
    [CROSSREF]
  18. de la Haye, K., Robins, G., Mohr, P. and Wilson, C. 2011. Homophily and contagion as explanations for weight similarities among adolescent friends. Journal of Adolescent Health 49 4: 421-7.
    [CROSSREF]
  19. El-Sayed, A.M., Scarborough, P., Seemann, L. and Galea, S. 2012. Social network analysis and agent-based modeling in social epidemiology. Epidemiologic Perspectives and Innovations 9 1: 1.
    [CROSSREF]
  20. Epskamp, S., Cramer, A.O.J., Waldorp, L.J., Schmittmann, V.D. and Borsboom, D. 2012. qgraph: Network visualizations of relationships in psychometric data. Journal of Statistical Software 48 4: 1-8.
    [CROSSREF]
  21. Finegood, D.T. 2011. The complex systems science of obesity. in Cawley, J. (Ed.), The Oxford Handbook of Social Science of Obesity, Oxford University Press, New York: 208-36.
  22. Fox, M.D., Snyder, A.Z., Vincent, J.L., Corbetta, M., Van Essen, D.C. and Raichle, M.E. 2005. The human brain is intrinsically organized into dynamic, anticorrelated functional networks. Proceedings of the National Academy of Sciences of the United States of America 102 27: 9673-78, doi: 10.1073/pnas.0504136102.
    [CROSSREF] [URL]
  23. Fruchterman, T.M.J. and Reingold, E.M. 1991. Graph drawing by force-directed placement. Software: Practice and Experience 21 11: 1129-64, doi: 10.1002/spe.4380211102.
    [CROSSREF] [URL]
  24. Galea, S., Riddle, M. and Kaplan, G.A. 2010. Causal thinking and complex system approaches in epidemiology. International Journal of Epidemiology 39 1: 97-106.
    [CROSSREF]
  25. Gesell, S.B., Tesdahl, E. and Ruchman, E. 2012. The distribution of physical activity in an after-school friendship network. Pediatrics 129 6: 1064-71, doi: 10.1542/peds.2011-2567.
    [CROSSREF] [URL]
  26. Gill, R., Datta, S. and Datta, S. 2014. Differential network analysis in human cancer research. Current Pharmaceutical Design 20 1: 4-10.
    [CROSSREF]
  27. Goh, K.I., Cusick, M.E., Valle, D., Childs, B., Vidal, M. and Barabasi, A.L. 2007. The human disease network. Proceedings of Natlional Academy of Science of the United States of America 104 21: 8685-90, doi: 10.1073/pnas.0701361104.
    [CROSSREF] [URL]
  28. Hammond, R. 2009. Complex systems modeling for obesity research. Preventing Chronic Disease 6 3: 1-10.
  29. Hammond, R.A. 2010. Social influence and obesity. Current Opinion in Endocrinology, Diabetes and Obesity 17 5: 467-71.
    [CROSSREF]
  30. Hammond, R.A. and Ornstein, J.T. 2014. A model of social influence on body mass index. Annals of the New York Academy of Science 1331: 34-42.
    [CROSSREF]
  31. Hidalgo, C.A. and Castañer, E.E. 2015. The amenity space and the evolution of neighborhoods. arXiv:1509.02868 [physics.soc-ph].
  32. Hidalgo, C.A., Blumm, N., Barabasi, A.L. and Christakis, N.A. 2009. A dynamic network approach for the study of human phenotypes. PLOS Computational Biology 5 4: e1000353, doi: 10.1371/journal.pcbi.1000353.
    [CROSSREF] [URL]
  33. Hill, A.L., Rand, D.G., Nowak, M.A. and Christakis, N.A. 2010. Infectious disease modeling of social contagion in networks. PLOS Computational Biology 6 11: e1000968.
    [CROSSREF]
  34. Hill, J.O. and Peters, J.C. 1998. Environmental contributions to the obesity epidemic. Science 280 5368: 1371-4.
    [CROSSREF]
  35. Huang, T.T., Drewnosksi, A., Kumanyika, S. and Glass, T.A. 2009. A systems-oriented multilevel framework for addressing obesity in the 21st century. Preventing Chronic Disease 6 3: A82.
  36. Jeong, H., Mason, S.P., Barabasi, A.L. and Oltvai, Z.N. 2001. Lethality and centrality in protein networks. Nature 411 6833: 41-2, doi: 10.1038/35075138.
    [CROSSREF] [URL]
  37. Leroux, J.S., Moore, S. and Dubé, L. 2013. Beyond the ‘I’ in the obesity epidemic: A review of social relational and network interventions on obesity. Journal of Obesity 2013: 348249.
    [CROSSREF]
  38. McGlashan, J., Johnstone, M., Creighton, D., de la Haye, K. and Allender, S. 2016. Quantifying a systems map: Network analysis of a childhood obesity causal loop diagram. PLOS ONE 11 10: e0165459, doi: 10.1371/journal.pone.0165459.
    [CROSSREF] [URL]
  39. Marks, J., Barnett, L.M., Foulkes, C., Hawe, P. and Allender, S. 2013. Using social network analysis to identify key child care center staff for obesity prevention interventions: A pilot study. J Obes 2013: 919287.
    [CROSSREF]
  40. Mutation Consequences and Pathway Analysis working group of the International Cancer Genome Consortium 2015. Pathway and network analysis of cancer genomes. Nature Methods 12 7: 615-21.
    [CROSSREF]
  41. Nau, C., Ellis, H., Huang, H., Schwartz, B.S., Hirsch, A., Bailey-Davis, L., Kress, A.M., Pollak, J. and Glass, T.A. 2015. Exploring the forest instead of the trees: An innovative method for defining obesogenic and obesoprotective environments. Health Place 35: 136-46, doi: 10.1016/j.healthplace.2015.08.002.
    [CROSSREF] [URL]
  42. Newman, M.E.J. 2006. Modularity and community structure in networks. Proceedings of the National Academy of Sciences of the United States of America 103 23: 8577-82, doi: 10.1073/pnas.0601602103.
    [CROSSREF] [URL]
  43. Pons, P. and Latapy, M. 2005. Computing communities in large networks using random walks. in Yolum, P., Güngör, T., Gürgen, F. and Özturan, C. (Eds), Computer and Information Sciences – ISCIS 2005: Proceedings of the 20th International Symposium, Istanbul, Turkey, October 26–28, 2005, Springer, Berlin, Heidelberg: 284-93.
  44. Schwartz, B.S., Stewart, W.F., Godby, S., Pollak, J., Dewalle, J., Larson, S., Mercer, D.G. and Glass, T.A. 2011. Body mass index and the built and social environments in children and adolescents using electronic health records. American Journal of Preventive Medicine 41 4: e17-e28, doi: 10.1016/j.amepre.2011.06.038.
    [CROSSREF] [URL]
  45. Simpkins, S.D., Schaefer, D.R., Price, C.D. and Vest, A.E. 2013. Adolescent friendships, BMI, and physical activity: Untangling selection and influence through longitudinal social network analysis. Journal of Research Adolescence 23 3, doi: 10.1111/j.1532-7795.2012.00836.x.
    [CROSSREF] [URL]
  46. Stites, E.C., Trampont, P.C., Ma, Z. and Ravichandran, K.S. 2007. Network analysis of oncogenic Ras activation in cancer. Science 318 5849: 463-7.
    [CROSSREF]
  47. Swinburn, B., Egger, G. and Raza, F. 1999. Dissecting obesogenic environments: The development and application of a framework for identifying and prioritizing environmental interventions for obesity. Preventive Medicine 29 6 Pt 1: 563-70, doi: 10.1006/pmed.1999.0585.
    [CROSSREF] [URL]
  48. Zhang, B. and Horvath, S. 2005. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology, Epub 2005.
  49. Zhou, X., Menche, J., Barabasi, A.L. and Sharma, A. 2014. Human symptoms-disease network. Nature Communication 5: 4212, doi: 10.1038/ncomms5212.
    [CROSSREF] [URL]

domingo, 5 de agosto de 2018

Tríadas prohibidas y creatividad en el jazz

Tríadas prohibidas y éxito creativo en el jazz: el factor de Miles Davis

Balazs Vedres - Applied Network Science
Resumen
Este artículo defiende la importancia de las tríadas prohibidas, tríadas abiertas con enlaces de gran peso, para predecir el éxito en los campos creativos. Las tríadas prohibidas se han tratado como una categoría residual más allá de las tríadas cerradas y abiertas, sin embargo, sostengo que estas estructuras brindan oportunidades para combinar estilos socialmente evolucionados de formas nuevas. Usando datos de toda la historia del jazz grabado de 1896 a 2010, muestro que las colaboraciones observadas han tolerado la apertura de las tríadas de alto peso más de lo esperado, las sesiones observadas de jazz tuvieron tríadas más prohibidas de lo esperado, y la densidad de tríadas prohibidas contribuyó a Éxito de las sesiones de grabación, medido por el número de grabaciones del material de la sesión. El artículo también muestra que las sesiones de Miles Davis recibieron un impulso especialmente elevado de las tríadas prohibidas.

Palabras clave: Jazz, Redes sociales, Creatividad, Éxito, Redes ponderadas


Introducción

Si bien la difusión y adopción de innovaciones ha sido una preocupación central de la investigación de redes sociales (Centola 2015), sabemos mucho menos sobre las estructuras de red que contribuyen a la generación de innovación. En los esfuerzos por comprender cómo se incorporan las ideas nuevas en las prácticas existentes, se dedicó mucha atención a la dualidad del cierre de la red y los lazos débiles abiertos. Se considera que el cierre proporciona un entorno colaborativo de confianza para realizar ideas capturadas por lazos débiles externos al núcleo cohesivo (Burt 2005). Este artículo trata sobre el potencial creativo de un tercer tipo de tríada: tríadas prohibidas: trillizos conectados con dos fuertes lazos y una díada abierta. Tales triadas brindan oportunidades para reconocer combinaciones únicas de habilidades: combinaciones generativas de conocimiento tácito que evolucionaron en las dos díadas de empate fuerte que se cruzan.

Si bien los lazos débiles y el cierre son los bloques de construcción de las pequeñas estructuras mundiales, las tríadas prohibidas son bloques de redes de doblez. Las redes de dobleces han sido identificadas como predictores de la generación de novedad, donde las comunidades cohesivas superpuestas contribuyen tanto al reconocimiento de una posibilidad novedosa como a la realización de la idea novedosa como producto (de Vaan et al., 2015). También se demostró que no es la agencia en la superposición de comunidades lo que importa, sino que la movilización exitosa de la parte única no interseccionada de las comunidades superpuestas y las comunidades superpuestas también se ha mostrado más inestable que las comunidades no superpuestas ( Vedres y Stark 2010). Las redes de dobleces operan por una tensión generativa: provocan la generación de novedades, pero también contribuyen a conflictos de coordinación y lealtad.

Mientras que la superposición de las comunidades proporciona un mecanismo claro para la novedad realizable, la operacionalización empírica de las redes plegables ha sido hasta ahora engorrosa. Primero se necesita identificar las comunidades, y especialmente las comunidades que se superponen para medir el plegamiento de la red. Estudios previos han utilizado el número de membresías de la comunidad de un nodo dado (Vedres y Stark 2010), o el número de superposiciones de subgrupos dentro de un colectivo más grande (De Vaan et al., 2015). Pero la detección comunitaria está lejos de ser un proceso universal y simple: la gran cantidad de algoritmos de detección comunitaria es un síntoma de la naturaleza compleja de mapear el concepto de comunidad (especialmente con superposiciones permitidas) en conjuntos de nodos en una red (Granell et al. 2015; Xie et al., 2013).

Este artículo usa la densidad de las tríadas prohibidas como una medida directa de plegamiento. Las tríadas prohibidas son tríadas abiertas con piernas de alto peso. El concepto fue presentado por Mark Granovetter en su artículo seminal sobre la importancia de los vínculos débiles en la predicción del éxito en el mercado laboral (Granovetter 1973). Granovetter argumentó que es muy probable que los lazos fuertes estén cerrados, y los lazos débiles son los que pueden unir a las comunidades y, por lo tanto, proporcionar acceso a información diversa. Granovetter también argumentó que los lazos fuertes y abiertos son raros y fugaces, por lo que la etiqueta es "prohibida".

Hasta este momento, nadie ha analizado la importancia de las tríadas prohibidas para el éxito, ya que la tradición de cuatro décadas de analizar las tríadas en un pequeño espacio abierto, cerrado y débil y abierto para ver cualquier significado para las tríadas prohibidas. Investigaciones previas han discutido las consecuencias negativas de la superposición de tríadas cerradas, bajo la etiqueta de corretaje Simmelian, o corretaje reforzado (Burt 2015; Krackhardt y Kilduff 2002) en el contexto de los vínculos comerciales y las redes de gestión.

Sin embargo, sostengo que las tríadas prohibidas son los componentes clave de las redes creativas, ya que estas tríadas son ocasiones en las que dos enlaces de alto peso se cruzan en un nodo central. Esto crea una oportunidad para hibridar prácticas anteriores (como estilos musicales), para generar un nuevo tipo de práctica. Las tríadas prohibidas van de la mano con la cohesión superpuesta: hay muchas tríadas prohibidas alrededor de los nodos que se cruzan de dos comunidades, si uno acepta la suposición de que el cierre triádico está relacionado con el alto peso del enlace. En una red con pliegues (comunidades superpuestas) uno espera ver una alta densidad de triadas prohibidas. Defino la densidad de tríada como la proporción de un tipo de tríada para todas las tríadas conectadas.

La única decisión que se debe tomar al definir una tríada prohibida es el umbral para que un peso de enlace califique como un empate fuerte. En este artículo utilizo un umbral mínimo de interacción repetida (en lugar de una interacción), pero también analizo varios umbrales para estimar la sensibilidad de los modelos estadísticos para clasificar los vínculos fuertes.

Usando datos de toda la historia del jazz grabado de 1896 a 2010 (175,000 sesiones de jazz), el artículo presenta evidencia de la contribución de las tríadas prohibidas en la colaboración musical al éxito medido en el número de lanzamientos de álbumes. Las tríadas prohibidas se conceptualizan como la proporción de tríadas conectadas en una sesión, donde ambas patas conectadas de la tríada son fuertes y una díada no está conectada. El umbral para la fuerza del vínculo se estableció en dos jugadas de sesión compartidas en el pasado. También analizo las sesiones de Miles Davis por separado, para mostrar cómo las tríadas prohibidas se sumaron al éxito de sus sesiones.

Pruebo varias hipótesis derivadas del argumento de que el éxito creativo es una función de la densidad de las tríadas prohibidas. Primero, pruebo la hipótesis de que la fuerza del enlace se relaciona positivamente con la probabilidad de cierre. Más precisamente, pruebo la hipótesis de que el peso mínimo de las patas triples se relaciona positivamente con la probabilidad de cierre. En segundo lugar, probé la hipótesis de que en el mundo del jazz observado, los pesos de los enlaces contribuyen menos al aumento de la probabilidad de cierre, en comparación con un mundo de jazz reconectado aleatoriamente. En otras palabras, los músicos de jazz toleran la apertura de las tríadas de mayor peso más de lo esperado. Construí mundos de jazz configurados aleatoriamente que siguen el principio de contrafactuales objetivamente posibles. Genere mundos aleatorios de jazz que podrían haber sucedido dentro de las limitaciones difíciles que uno puede leer de los datos, y de las prácticas de los músicos de jazz. En tercer lugar, pruebo la hipótesis de que las tríadas prohibidas están sobrerrepresentadas en las sesiones de jazz observadas, en comparación con las sesiones de jazz en los mundos de jazz reconectados. Finalmente, pruebo la hipótesis de que las tríadas prohibidas contribuyen al éxito en el nivel de la sesión, incluso si tomamos en cuenta todas las explicaciones alternativas concebidas, incluida la heterogeneidad no observada relacionada con la identidad del líder de la banda.

Medición de la colaboración y las densidades de la tríada en el jazz

Para cubrir las colaboraciones en el jazz grabado, utilicé la Discografía de Tom Lord (Lord 2010), la que se considera la fuente más completa (Charry 2005). Esta discografía recoge la participación del músico en sesiones de grabación desde los comienzos del jazz hasta el presente. Recopilé datos hasta 2010 sobre el conjunto completo de sesiones de grabación disponibles en esta discografía. Los datos básicos son un gráfico tripartito de instancias con sello de tiempo (con una resolución de tiempo anual) de sesiones, músicos e instrumentos.1 El conjunto de datos resultante contiene información sobre 175,064 sesiones de grabación, que tuvieron lugar entre 1896 y 2010. Hubo un total de 42.929 líderes de bandas (o nombres de bandas) y 187.784 músicos que tocan en estas sesiones, tocando 11.940 instrumentos diferentes2. La red colaborativa ponderada entre los músicos para una sesión dada se generó sumando las co-jugadas anteriores para cada díada músico. Para garantizar un orden temporal estricto, solo se incluyeron las sesiones del año t-1 al revés, si la sesión focal tuvo lugar en el año t.

La Figura 1 muestra un registro de sesión de muestra de la Discografía de Tom Lord. La parte superior de la entrada de datos muestra la identificación de la sesión y el líder de la banda (Charlie Parker en este caso). Luego se muestra el conjunto de músicos con sus instrumentos. (En el caso de Miles Davis, la abreviatura "tp-1" significa que tocó la trompeta en la primera pista). Después de los músicos, se muestra el lugar y la fecha de grabación, y se enumeran las pistas. Las versiones se codificaron a partir de la aparición de números de catálogo únicos en pistas específicas, o para toda la sesión.


Figura 1
Muestra del registro de una sesión en la Discografía de Tom Lord Jazz. Reproducido de www.lordisco.com con permiso

Estoy interesado en relacionar la presencia de tres tipos de tríadas con niveles de éxito. El primer tipo de tríada es un bloque de construcción de redes plegables, la tríada prohibida: una tríada con dos fuertes vínculos, y una ausencia. El segundo tipo de tríada es una tríada abierta: dos vínculos débiles y un vínculo ausente. El tercer tipo de tríada es el cierre: las tres ataduras están presentes (de cualquier fuerza). Para medir la presencia de estos tipos de tríada delimito categóricamente las tríadas prohibidas de las tríadas abiertas por un valor de resistencia de empate de umbral, y luego cuento el número de tres tipos de tríadas mutuamente excluyentes (tríadas prohibidas, triadas abiertas y tríadas cerradas). Luego normalizo el número de tríadas por el número de tríadas conectadas (con al menos dos vínculos presentes).

Como ejemplo, considere la Fig. 2, que presenta datos de colaboración de la sesión "Kind of Blue" con Miles Davis como líder de la banda. El álbum resultante, "Kind of Blue" es el pináculo indiscutible del jazz: el álbum de jazz más influyente, más mencionado y más reeditado en la historia del género. Este ejemplo muestra la primera de dos sesiones, desde el 2 de marzo de 1959. Utilicé listas de personal de sesiones anteriores para registrar la cantidad de veces que los pares de músicos habían jugado entre sí. Por ejemplo, considerando el panel a. de la Fig. 2, el conjunto de datos contiene un total de 58 sesiones de juego para Paul Chambers antes de esta sesión, 22 con Miles Davis (hasta el final de 1958).



Figura 2
Grafo de colaboración en la sesión de ejemplo de "Kind of Blue", 2 de marzo de 1959. un co-juego de músicos (diagonales son jugadas totales), b gráfico de co-jugadas, triadas abiertas, d tríadas prohibidas

El gráfico de colaboraciones en el panel b. de la Fig. 2 muestra tríadas abiertas y prohibidas, y se puede ver que estas fueron el resultado del eslabón perdido entre Miles Davis y Wynton Kelly. Paneles c. y d. mostrar solo las tríadas abiertas y las prohibidas por separado.

Tipos de tríada y peso mínimo de las patas triples

Para registrar el espacio de los tipos de tríada conectados, utilizo dos dimensiones: el peso mínimo de las patas triples y la probabilidad de cierre. Las patas de triplete son los dos enlaces más fuertes en la tríada conectada, w (3) yw (2), los pesos de enlace tercero y segundo en orden ascendente de los pesos de enlace de la tríada. (Los números entre paréntesis subindicados indican la estadística de orden ascendente.) En una tríada abierta, el enlace más débil w (1) = 0. El peso mínimo de las patas triples es w (2), el segundo peso en orden ascendente, que captura la fuerza del enlaces de la tríada, independientemente del cierre. Esta medida sigue las mismas consideraciones que subyacen al desarrollo de los coeficientes de agrupación ponderados, donde se usa la media geométrica de los pesos de los enlaces, ya que es más robusta a los valores de peso periféricos (Onnela et al., 2005; Opsahl y Panzarasa 2009; Saramäki et al. 2007). Utilizo el peso mínimo en lugar de la media geométrica, porque el objetivo es distinguir las tríadas donde los pesos de las piernas son más altos que un valor umbral. Los pesos aquí son crudos, midiendo la cantidad de veces que dos músicos grabaron juntos en el estudio.

El uso de la combinación del peso mínimo de las patas triples y la presencia de cierre nos permite distinguir tres tipos de tríadas: Las tríadas abiertas son aquellas en las que el peso mínimo de la pierna del triplete es igual a uno, y no hay cierre. Esta tríada es la piedra angular de los vínculos débiles que conectan a las comunidades (Granovetter 1973), o que contribuye a reducir la longitud del camino en las pequeñas redes mundiales (Watts 1999) y las actuales oportunidades de intermediación (Burt 1992). Las tríadas cerradas son aquellas con los tres enlaces presentes, independientemente de la fuerza de la corbata. Estas son las tríadas con las que se construyen las comunidades donde dominan la confianza y los valores compartidos (Burt 2005). Las tríadas prohibidas son aquellas en las que los pesos de los enlaces son más altos que en el caso de las tríadas abiertas, pero la tríada está abierta. Estas tríadas son bloques de construcción de redes plegables, que se considera que promueven la creatividad y el éxito creativo (Vedres y Stark 2010). La Tabla 1 resume el esquema de clasificación.

Tabla 1

Definición de tipos tríadas
Peso de patas mìnimasClausura
Tríadas abiertas
w(2) = 1
w(1) = 0
Tríadas cerradas
w(2) > 0
w(1) > 0
Tríadas prohibidas
w(2) > 1
w(1) = 0


Volviendo al ejemplo de la sesión "Tipo de azul", vemos que contiene dos tríadas prohibidas (10% de tríadas), dos tríadas débiles (10%) y 16 tríadas cerradas (80%). La Tabla 2 enumera las tríadas en estas tres categorías, clasificadas por el peso mínimo de las piernas. El aspecto interesante del ejemplo "Kind of Blue" es que Wynton Kelly fue invitado a tocar el piano, a pesar de que no hubo sesiones previas en las que Miles Davis y Kelly jugaran juntos. Sin embargo, Kelly no era ajeno a la mayoría de los músicos en la sesión: había jugado 12 sesiones con Chambers y 11 con Cobb; ambos pueden considerarse vínculos bastante fuertes. Davis conoció a Kelly poco antes de las sesiones de "Kind of Blue", y lo trajo a bordo junto al pianista de confianza de la banda, Bill Evans. Aunque Kelly tocó solo en una canción del álbum, "Freddy Freeloader", Miles elogió el valor de Kelly como energizante en la banda: "Wynton es la luz para un cigarrillo". Él enciende el fuego y lo mantiene en marcha ". 3


Tabla 2
Tipos de tríadas en el ejemplo de sesión de “Kind of Blue”, Marzo 2, 1959

ij
wij
ik
wik
jk
wjk
w(3)
w(2)
min legs weight
Forbidden triads34113504561166
13121522350221212
Open triads350361568811
23125163501611
Closed triads23126536
1
515
24726546101077
...
12351613265351313
123515222516352222



Las tablas de datos adicionales en el nivel de la sesión registran la identidad del líder de la banda y el número de versiones en las que apareció el material grabado en la sesión. El número de lanzamientos se codificó como la cantidad de números de catálogo únicos que aparecen en la entrada de la sesión en la Discografía de Tom Lord.


Mundos de jazz re-enlazados

Para probar hipótesis nulas que relacionan solo las frecuencias marginales con los resultados, generé mundos aleatorios de jazz volviendo a cablear el conjunto de datos tripartitos observado (de sesiones, músicos e instrumentos). El nuevo cableado se realizó siguiendo el principio de la posibilidad objetiva: reasigné músicos a las sesiones de una manera que podría haber sucedido en la vida real (con, aunque pequeña probabilidad), y evité componer sesiones que no eran posibles de acuerdo con la disponibilidad evidencia. En otras palabras, estaba generando mundos de jazz con sesiones que las compañías discográficas podrían haber grabado.

El primer principio para volver a cablear fue que se debía preservar el número de músicos en la sesión. Grabar en el estudio, especialmente en la primera mitad del siglo XX, fue un asunto costoso, y un esfuerzo por grabar un trío no se podría haber expandido fácilmente en un sexteto o big band. Entonces, los grados de sesión fueron preservados.

Segundo, estaba preservando el número de sesiones que un músico tocaba, con una ventana de 1 año. Si un trompetista grabó cinco veces durante el año en que ocurrió la sesión, asigné a ese jugador a cinco sesiones en el mundo del jazz recableado durante ese período de un año.4

Tercero, estaba preservando las combinaciones de instrumentos de las sesiones, ya que el material grabado habría sido diferente sin los mismos instrumentos.

Finalmente, solo estaba asignando músicos a una sesión para llenar un espacio de instrumento si tocaban el instrumento sobre el año actual y el año anterior. Los músicos a menudo tocan múltiples instrumentos, y hace una diferencia considerable si un músico ha tocado el instrumento en cuestión hace solo una década.

En resumen, estaba generando mundos de jazz donde la compañía de grabación pudo llenar los espacios de instrumentos en la sesión con músicos disponibles y capaces. Estos músicos, por supuesto, podrían haber sido muy diferentes de los observados. Imagine, por ejemplo, que Miles Davis, a la trompeta, fuera cambiado por un joven trompetista activo en Londres en ese momento. La diferencia más importante para nosotros, por supuesto, es que los músicos seleccionados por nuestro cableado no fueron seleccionados de acuerdo con sus redes. Es probable que no hayan jugado entre ellos en el pasado, y tampoco es probable que hayan sido "amigos de amigos". Genere 100 mundos de jazz: historias completas de jazz simuladas en las que una sesión de jazz observada tenía una correspondiente versión recableada.

Prevalencia de tipos de tríada en mundos de jazz observados y recableados

La Figura 3 muestra la relación entre los pesos de los enlaces y el cierre triádico, con áreas que corresponden a tres tipos de tríadas, al mostrar la probabilidad de cierre de tresillos por cuantiles mínimos de peso de las patas triples. 5,338,093 Las trillizas se cortaron en 10.000 cuantiles de peso de patas triples. (Hubo más de 5 millones de trillizos en los datos observados, y más de 89 millones de trillizos en los 100 mundos aleatorios de jazz reconectados combinados). El suavizado promedio móvil se aplicó a la curva de probabilidad de cierre. Los cuantiles varían linealmente en el eje x, desde el primero hasta el 10000o. Con los cuantiles graficados en el eje horizontal y las probabilidades en el eje vertical, el área en este gráfico es proporcional al número de tríadas.


Fig. 3
Diagramas de área de la probabilidad de cierre de triplete por cuantiles mínimos de peso de patas triples. a Observado, b recableado

La característica más aparente de la figura 3 es que la probabilidad de cierre aumenta con un peso mínimo de tres patas: si el músico tocaba con frecuencia en el pasado con el músico j, y j se jugaba a menudo con k, hay una mayor probabilidad de que j y k también han jugado juntas al menos una vez (en comparación con las co-jugadas menos frecuentes para las díadas ij y jk). También es evidente que el peso de las piernas y la probabilidad de cierre en general es mucho menor en los mundos de jazz reconectados.

En los datos observados (panel a de la Fig. 3), los trillizos mínimos con el peso de las patas igual a uno se cierran con una probabilidad de .513. El aumento de la probabilidad de cierre es monotónico; el percentil superior del peso mínimo de las patas triples (entre 19 y 26) se cierra con P = .994. En los datos recableados, los trillizos con un peso mínimo de las piernas tienen una probabilidad de cierre de .120, que aumenta repentinamente alrededor del umbral de las tríadas prohibidas de piernas, el peso es igual a dos (P = .418). El percentil superior (peso mínimo de las piernas entre 4 y 5) se cierra con P = .778.

Tanto en los datos observados como simulados, alrededor del 9% de las tríadas están prohibidas: tríadas con altos pesos de enlace sin clausura. En los datos observados, parece que el número de tríadas prohibidas está limitado por el hecho de que los pesos de los enlaces son relativamente altos, y el alto peso de los enlaces también se correlaciona con el cierre. En los datos recableados, el número de tríadas prohibidas parece estar limitado por el hecho de que, si bien la mayoría de las tríadas están abiertas, el peso marginal promedio es pequeño.

Para estimar la significación estadística de estas diferencias, calculé un modelo de regresión logística, donde la variable dependiente es la presencia de cierre (y = 1), en oposición a una tríada abierta (y = 0), y las variables independientes son: primero , la tríada pertenece a las tríadas observadas (xo = 1), a diferencia de las tríadas recableadas (mundo de jazz aleatorio) (xo = 0), en segundo lugar, el peso mínimo de las patas triples (xw), y tercero, la interacción entre las indicador de triada y peso mínimo de las patas triples (xoxw). Estimé la siguiente ecuación de regresión logística:

lnP(y=1|X)1P(y=1|X)=α+βoxo+βwxw+βow(xoxw)


Estimé este modelo logit en una muestra combinada, donde se incluyen todas las tríadas observadas (5,338,093 tríadas), y se incluye una muestra del mismo tamaño a partir de las tríadas recableadas. Hubo 89,327,277 tríadas conectadas en los 100 mundos aleatorios de jazz, incluí una muestra aleatoria de probabilidad uniforme de 5,338,093 tríadas, para tener 10,676,186 observaciones para la estimación de regresión logística. Las estimaciones de los coeficientes se muestran en la Tabla 3. Dado que las unidades de observaciones no son independientes (las tríadas pueden compartir en dos enlaces), se utilizó una prueba de permutación para estimar valores de p para coeficientes.5


Tabla 3. Estimación de regresión logística de clausura triádica

BetaOdds ratioSEp
Observado2.71215.054.003.000
Min legs weight1.1003.005.002.000
Observed * Min legs weight−.639.528.002.000
Constante−2.981.051.003.000
N de observaciones10,676,186
Pseudo R-square.302
Log likelihood−5,122,486
Los resultados muestran que las probabilidades de cierre en general son mucho más altas (15.054 veces más) con las tríadas observadas que con las recableadas. En el mundo real del jazz, los músicos tocan entre sí en repetidas ocasiones, mientras que en el mundo conectado no hay nada que garantice la coherencia: no hay identidades de grupo y los líderes de la banda tocan varias veces con los mismos músicos. La probabilidad estimada de cierre para la tríada conectada más débil (con dos aristas de fuerza uno, es el peso mínimo de una pierna) es igual a .549, mientras que la misma probabilidad estimada para las tríadas recableadas es .133 (en línea con los valores iniciales de Fig. 3). Las probabilidades de cierre se triplican (se multiplican por 3.005) con cada incremento adicional en el peso mínimo de la pierna para triadas retrabajadas, pero para las tríadas observadas, un aumento en el peso mínimo de la pierna solo multiplica las probabilidades de cierre en 1.587 (3.005 * .528). Las tríadas observadas tienen una gran tendencia inicial a ser cerradas, pero también tienden a "permanecer abiertas por más tiempo" al aumentar el peso de los enlaces.

Lo que esto se traduce como un proceso real en el jazz, es que los jugadores en el mundo real del jazz pueden reunirse en una sesión en la que un músico había tocado mucho con uno y otro músico, pero estos dos alternos nunca se habían visto en el estudio. Las tríadas prohibidas parecen ser una característica distintiva significativa del mundo del jazz, que no aparece en la versión de este mundo reencadenada aleatoriamente. Si bien el mayor cierre del mundo del jazz observado puede explicarse fácilmente por factores eliminados por la reconfiguración, como la agrupación basada en la proximidad geográfica, el estilo y la lealtad al líder de la banda, el cierre más bajo en tríadas de alto peso no es trivial aspecto del mundo del jazz observado.

Las tríadas que consideramos hasta ahora fueron recortadas de su contexto de sesión: el número y la composición de los músicos por sus instrumentos, y el tiempo específico de grabación. La pregunta que respondo posteriormente es si la proporción de tríadas prohibidas en el nivel de sesiones es diferente en los datos observados y recableados. Hasta ahora hemos revisado la probabilidad de cierre por el peso de los enlaces en las patas de tresillo, sin considerar el contexto de la sesión. Nuestra unidad de análisis relevante para el éxito es la sesión, y la pregunta que me dirijo es si la prevalencia de las tríadas prohibidas en las sesiones observadas es diferente de las sesiones reconectadas. Para responder a esta pregunta, comparé la distribución de la densidad de triadas prohibidas en las sesiones observadas con la densidad promedio que vemos en 100 mundos de jazz configurados aleatoriamente.

La Figura 4 muestra la distribución de la simulación de la proporción menos observada de tríadas prohibidas, para las sesiones con al menos una tríada prohibida observada, y los diagramas de densidad superpuesta de las densidades recableadas y observadas de las tríadas prohibidas. Utilizando la estimación de la densidad del núcleo, 6 vemos que la mayoría de las sesiones simuladas tienen una proporción menor de tríadas prohibidas que la proporción observada. Solo en el 9.9% de las sesiones hemos visto una proporción de tríadas prohibidas que es más alta que la observada. Para probar la hipótesis nula de que los dos conjuntos de proporciones de tríadas prohibidas (simulados y observados) provienen de la misma distribución, utilicé una prueba de rango con signo de Wilcoxon y una prueba de Kolmogorov-Smirnov para la igualdad de distribuciones de probabilidad. Ambas pruebas no proporcionan soporte para la hipótesis nula de distribuciones iguales. El puntaje Z de la prueba de rango con signo de Wilcoxon es igual a 124.7, con un valor p correspondiente de 0.000. La estadística de Kolmogorov-Smirnov equivale a 0.665, con un correspondiente valor de p corregido de 0.000. Esto respalda la hipótesis de que la proporción de tríadas prohibidas en las sesiones de jazz observadas es más alta de lo que esperaríamos solo en función del tamaño de las sesiones y la distribución de la participación de la sesión de músico.

Fig. 4
Estimación de la densidad del núcleo de: una proporción menos observada de tríadas prohibidas observadas, yb la proporción readaptada media y la proporción observada de tríadas prohibidas




Modelos de regresión del éxito

Usé modelos de regresión para relacionar los tipos de tríada con el éxito. La variable dependiente, la medida del éxito, en los modelos de regresión es el número de lanzamientos, que van de uno a 176. (La variable dependiente en los modelos OLS es el logaritmo de diez bases del número de lanzamientos que van desde .301 a 2.478 .) Nuestras variables independientes clave representan la densidad de tres tipos de tríadas: tríadas prohibidas, tríadas cerradas y tríadas abiertas. Las pruebas de multicolinealidad se muestran en el Apéndice A. Las tríadas prohibidas se definen como tríadas con un peso mínimo de tres patas (w (2) ≥ 2), pero los resultados presentados son sólidos para variar este umbral. (Consulte el Apéndice B para obtener detalles sobre la solidez del modelo para variar w (2)). Estoy usando la categoría de tríadas abiertas como referencia en los modelos multivariados e ingreso los términos al cuadrado para densidades de tríadas cerradas y prohibidas para capturar no lineal (cuadrático ) relaciones.
Para mitigar las cotizaciones estimadas sesgadas a la censura de derechos en los datos, excluí todas las sesiones después del año 2000, dejando al menos un período de 10 años para que cada sesión acumule registros. Lamentablemente, las fechas de publicación de los lanzamientos no están disponibles en el conjunto de datos Tom Lord, por lo que no pude estimar la disminución en la frecuencia de las versiones por tiempo. Sin embargo, estimé modelos con ventanas de tiempo variable omitidas del lado derecho (15 y 20 años), que no afectaron los hallazgos principales. (Consulte el Apéndice C para obtener detalles sobre la solidez de los límites de tiempo del lado derecho).
Antes de especificar modelos multivariantes, me dirijo a las relaciones bivariadas entre las densidades y el éxito de la tríada. La Figura 5 muestra la relación cuadrática bivariada entre tres variables de densidad de tríada y el número de liberaciones. Los tres tipos de tríadas muestran una relación inversa en forma de U con el número de lanzamientos: la densidad óptima para cada tipo de tríada es alrededor del medio del rango. Para probar la naturaleza cuadrática de estas relaciones, incluí también estimadores categóricos y de bajo rendimiento del número esperado de liberaciones. Para el estimador categórico, convertí las variables de densidad de tríada de escala de intervalo a cuatro categorías (de 0,00 a menos de 0,25, de 0,25 a menos de 0,50, de 0,50 a menos de 0,75 y de 0,75 a 1,00). El primer recuadro de cada panel muestra el número de lanzamientos previstos para las cuatro categorías, con intervalos de confianza del 95%. El segundo recuadro muestra una estimación de suavizado del gráfico de dispersión ponderado localmente del número previsto de liberaciones, con un ancho de banda f = .5 y con ponderación tricube (Cleveland 1979). Las escalas de ejes verticales no son uniformes en todas las inserciones para permitir que las figuras pequeñas sean más visibles.



Fig. 5
Modelos cuadráticos bivariados de tipos de tríada y éxito, con intervalos de confianza del 95%. Los conjuntos muestran estimadores categóricos y de baja cuantía para: una densidad de tríadas prohibidas; b densidad de tríadas cerradas; c densidad de tríadas abiertas

Todas las densidades de la tríada tienen una relación invertida en forma de U con el éxito, lo que sugiere que una tríada demasiado pequeña o demasiado grande es una estructura social patológica.

Para probar la conveniencia de la operacionalización cuadrática, calculé el cambio en R-cuadrado para los modelos para cada una de las tres formas de tríada. Para una determinada forma de tríada, por ejemplo, la densidad de las tríadas prohibidas, primero calculé un modelo con una constante y la variable de densidad de tríada prohibida. Luego, se estimó un segundo modelo con el cuadrado de las variables de densidad de tríadas prohibidas añadidas, y registré la mejora del ajuste. Repetí este proceso hasta la octava potencia y tracé la secuencia resultante de mejoras de cuadrados R. Dibujé una línea para cada una de las tres formas de tríada. Los resultados se muestran en la Fig. 6. Para cada tríada, el modelo óptimo es el que tiene el término cuadrático. Los modelos de tríada abierta tienen un ajuste óptimo con un término cúbico, pero la mejora con respecto al término cuadrático es pequeña, y en aras de la parsimonia del modelo, la primera y la segunda potencia se incluyeron para las tres variables de forma de la tríada.


Fig. 6
Cambio R-cuadrado en predicciones OLS del número log de liberaciones por el número de términos modelo (potencias) de variables de densidad tríada

En el siguiente análisis estoy probando si la ventaja de las tríadas prohibidas sobre otras formas de tríada es estadísticamente significativa, y si esta relación permanece después de controlar otras hipótesis alternativas clave. Se ingresan otras variables independientes, que representan explicaciones alternativas clave para mantenerse constante. Una posible explicación alternativa a las tríadas prohibidas puede ser la fuerza de los vínculos en general. Es posible que las tríadas prohibidas sean solo predictores significativos de éxito porque contienen bordes de mayor peso, y de hecho es la intensidad de los vínculos en la sesión lo que está relacionado con el éxito. Por lo tanto, ingresé la fuerza de la mediana de la atadura en la sesión, y también el cuadrado de la fuerza de la atadura media para probar una relación no lineal. Es razonable esperar que a niveles muy altos de fuerza de los lazos los músicos no tengan tanto éxito (los rendimientos de la fuerza de empate disminuyan), ya que un alto valor de fuerza de empate puede indicar que se traba en colaboración repetida y exclusiva con el mismo grupo de músicos .

La innovación instrumental es otra posible explicación alternativa: la sesión no es exitosa debido a una dinámica de redes, sino porque las tríadas prohibidas son un sustituto para experimentar con una nueva combinación de instrumentos: traer un nuevo músico es realmente acerca de traer un nuevo instrumento. Por lo tanto, ingresé la distinción: la distancia media del coseno del vector de combinación de instrumentos de la sesión (en el espacio de los 200 instrumentos más frecuentes) a todas las demás sesiones durante los 5 años anteriores (t-1 a t-5).

Las siguientes cuatro variables se ingresaron para capturar los atributos clave de los músicos en la sesión. El número total de músicos podría estar relacionado tanto con el éxito (una sesión que emplea más músicos puede ser más exitosa) como con la densidad de los tipos de tríada (una sesión grande puede tener una mayor diversidad de tipos de tríada). Proporción de principiantes es la proporción de músicos para quienes la sesión actual es la primera. El empleo de músicos principiantes podría correlacionarse con un cierre más bajo (tríadas más abiertas y prohibidas), y también podría correlacionarse con un menor éxito, ocultando así la relación entre los tipos de tríada y el éxito. El éxito pasado de los músicos podría ser un factor de éxito actual y una razón para tenerlos en cuenta a pesar de la falta de vínculos previos con otros músicos. Y finalmente, la cantidad total de experiencia de los músicos (medida en el número total de sesiones pasadas de los músicos) puede contribuir tanto al éxito como a las tríadas prohibidas.7 La Tabla 4 muestra los coeficientes de correlación de Pearson para todos los pares de variables.


Table 4
Pearson correlation coefficients
1.2.3.4.5.6.7.8.9.10.11.
1. Releases1.000
2. log(Releases).8221.000
3. Forbidden triads.026.0461.000
4. Closed triads−.018−.036−.5101.000
5. Open triads.003.011−.066−.8251.000
6. Median tie strength.026.043−.036.165−.1681.000
7. Distinctiveness−.159−.235−.070.106−.077−.0171.000
8. Musicians (n).061.065.000−.072.084−.087−.0971.000
9. Newbies proportion−.053−.086−.181.266−.189−.216.081.0611.000
10. Median past releases.683.663.024−.015.001.026−.187.082−.0351.000
11. Past sessions (n).025.065.252−.256.131.120−.160.224−.309.0381.000
12. Year−.360−.551−.005−.017.022−.026.306−.035−.037−.430.032


Calculé tanto los modelos OLS de variables dependientes registradas como los modelos binomiales negativos apropiados para las variables dependientes del recuento. Es más apropiado si la modelización estadística del número de liberaciones tiene en cuenta la naturaleza de recuento de esta variable dependiente. Las versiones se acumulan con el tiempo y adquieren valores discretos positivos. Los modelos ordinarios de mínimos cuadrados que utilizan las variables de publicación originales no son del todo apropiados, ya que la distribución de las variables de recuento es más sesgada que una distribución normal supuesta. Los modelos binomiales negativos son especialmente apropiados para las variables de conteo excesivamente dispersas, que se ajusta al número de liberaciones que se acumulan en el tiempo (Cameron y Trivedi 1998; Greene 2003). Otro enfoque posible es usar la regresión OLS en una variable dependiente registrada, que es menos sesgada que la original. Para probar la robustez del modelo, también utilicé modelos OLS con una variable dependiente registrada. El uso de un modelo binomial negativo tiene la ventaja de tener en cuenta el exceso de dispersión y de estimar explícitamente un parámetro de sobredispersión, que no está disponible en los modelos OLS del número de publicaciones registradas.

Estimé estos modelos con toda la sesión agrupada, y con efectos fijos incluidos para los líderes de la banda, para dar cuenta de la heterogeneidad no observada específica del líder en el éxito. Más allá de las variables independientes presentadas anteriormente, tanto el éxito como la estructura de la red en la sesión pueden ser altamente dependientes de las características no observadas del líder de la banda (o identidad de la banda en décadas posteriores). Una sesión grabada por un líder de banda de gran reputación puede atraer a músicos de alto perfil con un historial probado y posiblemente una falta de cierre (alta densidad de triadas prohibidas), y la misma sesión podría ver más lanzamientos posteriores. Estimar los modelos que mantienen constante la identidad del líder (estimar los efectos dentro del líder) nos puede acercar al objetivo de capturar el impacto de la estructura de la red en el éxito. Seguí la derivación del modelo binomial negativo de efectos fijos propuesto por Hausman y los coautores (Hausman et al., 1984), y también incluí los modelos OLS de efectos fijos para el número de publicaciones registradas. Esto es especialmente útil a la luz de las dudas más recientes sobre el modelo Hausman, a saber, que la derivación construye los efectos fijos en la distribución de la heterogeneidad gamma, α, no la media (Allison y Waterman 2002).


Comenzando con el más simple de los estimadores, un modelo OLS con una variable dependiente registrada estima la siguiente ecuación:

 logys=βXs+εs

para s = 1,2,…Nsessions, donde y s es el número de lanzamientos que resultaron de la sesión, β son parámetros del modelo, X s son el conjunto de variables independientes, y ε s es el término de error, y la estimación es mínimos cuadrados ordinarios . El mismo modelo con efectos fijos de líder de banda se escribiría como:

ln μs=βXs+εs

para l = 1,2,…Nleaders, y s = 1,2,…Nsessions, donde un término adicional, γ l estima el efecto fijo específico del líder de banda (un nivel de referencia de éxito específico de líder de banda).

El modelo binomial negativo estima la frecuencia de aparición de las liberaciones y tiene en cuenta la naturaleza de los datos de recuento como enteros no negativos. El modelo binomial negativo sin efectos fijos se estima mediante la siguiente ecuación:

logys=γl+βXls+εls

para  l = 1,2,…Nleaders, donde μ s  = E(y s | x s )es la tasa de aparición de lanzamientos, β son parámetros del modelo, X s son el conjunto de variables independientes, ε s es el término de error, y el modelo se basa en un estimador de máxima verosimilitud. El modelo binomial negativo es una extensión, o más bien una versión generalizada de los modelos de regresión de Poisson, ya que estima el parámetro de sobredispersión α, que es igual a cero para el caso especial que es un modelo de Poisson (sin sobredispersión, una media que iguala diferencia). La hipótesis nula de que α es igual a cero es comprobable.8

La ecuación para un modelo binomial negativo con efectos fijos es entonces:

logys=γl+βXls+εls

para l = 1,2,…Nleaders, y s = 1,2,…Nsessions, donde  μ ls  = E(y ls | x ls ) es la tasa de ocurrencia, γ l es el efecto fijo específico del líder de la banda, β son parámetros del modelo , X ls son el conjunto de variables independientes, y ε ls es el término de error.

Predictores del éxito

La Tabla 5 resume los resultados de estos modelos estadísticos. Los primeros dos modelos se estiman sin efectos fijos para los líderes de la banda, mientras que los modelos tercero y cuarto incluyen efectos fijos para los líderes de la banda. El primer y el tercer modelo son modelos OLS del número de registro de las versiones, el segundo y el cuarto son modelos binomiales negativos (NB) del número de versiones. La prueba de sobredispersión en los modelos binomiales negativos indica que la tasa de ocurrencia de las liberaciones es significativamente más dispersa que una distribución de Poisson (α = .257, con p <.000), lo que garantiza la especificación binomial negativa.

Tabla 5
Modelos estadísticos de éxito
1. OLS model of log(Releases)
2. NB model of Releases
3. OLS model of log(Releases) with fixed effects
4. NB model of Releases with fixed effects
Forbidden triads
.0445*** (.0100)
.2648*** (.0511)
.0316*** (.0112)
.2253*** (.0528)
Forbidden triads (squared)
−.0383*** (.0114)
−.2282*** (.0585)
−.0291** (.0127)
−.2672*** (.0606)
Closed triads
−.0052 (.0086)
−.0252 (.0449)
.0147 (.0099)
.0730 (.0471)
Closed triads (squared)
.0044 (.0078)
.0114 (.0409)
−.0173 (.0090)
−.0843* (.0429)
Median tie strength
−.0007*** (.0002)
.0071*** (.0012)
−.0006* (.0003)
−.0071*** (.0013)
Median tie strength (squared)
.0000* (.0000)
−.0001*** (.0000)
−.0000 (.0000)
−.0000 (.0000)
Distinctiveness
−.0723*** (.0067)
−.5120*** (.0354)
−.0425*** (.0094)
.1248*** (.0428)
Musicians (n)
.0002*** (.0001)
−.0024*** (.0005)
.0011*** (.0001)
.0078*** (.0006)
Newbies proportion
−.0779*** (.0033)
−.5364*** (.0185)
−.0783*** (.0047)
−.2066*** (.0224)
Median past releases
.0358*** (.0002)
.1162*** (.0010)
.0261*** (.0002)
.0239*** (.0003)
Past sessions (n)
−.0000*** (.0000)
.0001*** (.0000)
−.0000*** (.0000)
−.0005*** (.0000)
Year
−.0040*** (.0000)
−.0200*** (.0001)
−.0055*** (.0001)
−.0027*** (.0004)
Constant
.7215*** (.0049)
2.3051*** (.0261)
−.8403*** (.0088)
1.5289*** (.0392)
Fixed effects for band leader
No
No
Yes
Yes
N of observations
81,527
81,527
72,042
72,042
F
7866.36***
1886.44***
Chi-square
65,153.39***
8088.77***
R-square (adjusted)
.536
.189a
.514
.339a
Log likelihood
−139,558.13
−104,666.63
Notes: aMcFadden’s adjusted pseudo R-squared is used. Standard errors are in parentheses. *: P < .05; **: p < .01; ***: p < .001




El coeficiente del primer poder de la densidad de triadas prohibidas es positivo y significativo, mientras que el segundo poder es negativo y significativo. Esto sugiere que, en comparación con las tríadas abiertas, un aumento en las tríadas prohibidas inicialmente puede ser más beneficioso para la cantidad de lanzamientos. La densidad de las tríadas cerradas no es diferente de las tríadas abiertas con respecto a las liberaciones. Estos hallazgos son consistentes en los cuatro modelos, con o sin efectos fijos de líder de banda y con especificaciones OLS y NB.

Esto sugiere que al comparar dos sesiones del mismo tamaño (la misma cantidad de tríadas), la que presenta más tríadas prohibidas (al menos hasta un límite de proporción de tríadas prohibidas) puede tener más éxito que la sesión que solo tiene tríos cerrados y abiertos. . La triada paradójica de lazos fuertes y ausentes parece ser el mejor predictor de éxito, incluso si comparamos sesiones del mismo líder de la banda.

De las variables de control, solo tres son consistentes en los cuatro modelos: Tener una mayor proporción de novatos significa un menor número de lanzamientos. Una mejor trayectoria pasada (una mediana de lanzamientos más alta para las grabaciones pasadas de los músicos en la sesión) significa una mayor cantidad de lanzamientos a la sesión objetivo. El número total de lanzamientos disminuye con los años, lo que indica una censura de largo alcance o una disminución general del nivel de éxito de la sesión de jazz promedio a lo largo del tiempo.
Para comprender mejor la relación cuadrática entre los tipos de tríada y el éxito, tracé los efectos marginales de la densidad de tríada prohibida y la densidad de tríada cerrada en el número de lanzamientos para los cuatro modelos. Los gráficos de efectos marginales muestran los niveles predichos de la variable dependiente a medida que variamos una variable independiente dada -una densidad de tríada- y mantenemos todas las demás variables fijadas en sus valores medios. Estas tablas nos permiten manipular una sesión imaginaria donde cada aspecto, incluida la identidad del líder de la banda para especificaciones de efectos fijos, es el mismo, pero la densidad de la tríada en cuestión está cambiando. La Figura 7 muestra dos gráficos de efectos marginales para cada uno de los cuatro modelos.



Fig. 7. Predicción marginal del número de liberaciones para las formas de la tríada, con intervalos de confianza del 95%. un modelo OLS de log (Releases), un modelo de versiones de NB, un modelo de registro de OLS (lanzamiento) con efectos fijos, un modelo de lanzamientos de d NB con efectos fijos


Los cuatro modelos muestran el mismo patrón tanto para la densidad de las tríadas prohibidas como para la densidad de triadas cerradas. El aumento de la densidad de triadas prohibidas también aumenta el número previsto de lanzamientos, con un pico de alrededor de .50 densidad de tríada prohibida (la mitad de las tríadas conectadas son tríadas prohibidas). El número inicial y el máximo de lanzamientos previstos varían de un modelo a otro, y el impulso previsto para el número de lanzamientos desde pasar de triadas no prohibidas al rango óptimo es de entre 1 y 8%. Sin embargo, no hay evidencia de ningún beneficio del cierre. Los cuatro modelos muestran básicamente una línea plana para la densidad triada cerrada (o una línea dentro de los intervalos de confianza iniciales). La categoría de referencia es la densidad de las tríadas abiertas (las tres densidades suman una); estos hallazgos muestran que las tríadas prohibidas superan a las tríadas abiertas y cerradas en su región central.
La Figura 8 muestra gráficas similares de márgenes para la variable de la fuerza de la Mediana. A diferencia de los resultados sobre las tríadas prohibidas, no hay una relación consistente entre la fuerza de la Mediana y el número de lanzamientos.



Fig. 8. Predicción marginal del número de liberaciones para la resistencia media del lazo, con intervalos de confianza del 95%. un modelo OLS de log (Releases), un modelo de versiones de NB, un modelo de registro de OLS (lanzamiento) con efectos fijos, un modelo de lanzamientos de d NB con efectos fijos

Volviendo al ejemplo de Miles Davis, ejecuté la versión binomial negativa de nuestro modelo de regresión con interacciones constantes, lineales y cuadráticas incluidas para sus sesiones. Esto nos permite trazar la forma en que las tríadas prohibidas predijeron el éxito para el líder más emblemático de la banda de jazz. La Figura 9 muestra la diferencia entre las sesiones de Miles y todas las demás. Las tríadas prohibidas parecen haber contribuido más al éxito de las sesiones de Miles Davis que a todas las demás sesiones, en promedio. Si bien el mayor éxito de línea de base podría no ser sorprendente (esta fue la motivación para nuestras operacionalizaciones de efectos fijos), la curva de aceleración más rápida para Miles es claramente diferente del resto. No es solo que una sesión de Davis sea más exitosa en promedio, pero sus sesiones obtuvieron más éxito de las tríadas prohibidas que otras. (Tenga en cuenta que la figura solo muestra tríadas prohibidas hasta .50, ya que los errores estándar aumentan drásticamente para las sesiones de Miles Davis después de ese punto: simplemente hubo muy pocas sesiones para hacer predicciones significativas sobre el rango superior).

Fig. 9. La trama de efectos marginales para la densidad de triadas prohibidas en las sesiones de Miles Davis utilizando el modelo NB 



El ejemplo de Miles Davis indica que los líderes de banda de alto perfil podrían aprovechar las estructuras de red, como las tríadas prohibidas. Esto plantea la pregunta de si los resultados de nuestro modelado estadístico son robustos a la omisión de los líderes de banda de alto perfil. Para probar esto, omití 131 artistas de jazz más destacados, aquellos que recibieron la nominación de National Masters of the Arts Jazz Masters.9 Los resultados sin las sesiones de los destacados líderes de la banda son prácticamente idénticos a los resultados en el conjunto de datos completo. (Ver el Apéndice D para más detalles).

En resumen, las sesiones de jazz son más exitosas si los músicos han prohibido las tríadas en su red de colaboración: si hay una diversidad de estilos socialmente evolucionados, logrando un equilibrio productivo entre la familiaridad y la frescura. Es importante contrastar el hallazgo consistente sobre la importancia de las tríadas prohibidas con la evidencia ambigua de la importancia de las combinaciones de instrumentos. La distinción en la combinación del instrumento es un predictor negativo de éxito en tres de los cuatro modelos, contrariamente a la imagen percibida del jazz como un dominio de constante experimentación. Parece que una mezcla inesperada de instrumentos no es suficiente para generar un nuevo sonido. Las tríadas prohibidas son sobre un tipo de experimentación más sutil y social que puede aprovechar una nueva combinación de estilos socialmente evolucionados en lugar de simplemente una combinación de instrumentos.

Conclusiones

La historia del campo del jazz es una constante experimentación: una búsqueda de nuevos sonidos. Este documento trata sobre la fuente de nuevos sonidos que hacen que una grabación sea exitosa. Probé hipótesis sobre la estructura de la red de colaboración, y las hipótesis sobre los atributos de los músicos, y la sesión. La explicación alternativa más prometedora sobre la importancia de las combinaciones de instrumentos no fue respaldada por nuestros modelos de regresión. Una instrumentación distintiva es una responsabilidad, en todo caso: la mayoría de los modelos muestran un coeficiente negativo significativo. Nuestro análisis sugiere una fuente diferente para nuevos sonidos, basada en la combinación de estilos desarrollados conjuntamente, en lugar de simples instrumentos.

Representé una red de colaboración de sesiones por la densidad de tipos de tríada. La imaginería general de las redes sociales analiza las tríadas de dos tipos: tríadas cerradas que conforman clusters cohesivos y triadas abiertas que forman un puente entre estos clústeres. Se considera que los lazos fuertes están relacionados con el cierre, y los lazos débiles se consideran los componentes básicos de las tríadas abiertas. La tercera posibilidad: la apertura de los lazos fuertes se considera anómala, una categoría rara y residual, una tríada que está prohibida (Granovetter 1973). Hasta ahora nadie cuestionó la intuición de Granovetter desde hace más de cuatro décadas: las tríadas prohibidas no han sido investigadas como estructuras de red de interés.

Yo sostengo que las tríadas prohibidas son de crucial importancia para entender la innovación. La novedad se trata de una interacción entre lo familiar y lo novedoso, sobre la interacción de lazos de confianza y un rostro desconocido. Una tríada prohibida es una molécula de una red innovadora. En esa tríada, dos díadas familiares se encuentran en uno de sus nodos. Un músico invita a dos compañeros a jugar juntos por primera vez. Los extraños también se reúnen por primera vez, pero no tienen ninguna familiaridad para comenzar. El nodo central en una tríada prohibida puede movilizar la confianza que él o ella tiene con los dos alternos, y él o ella puede comenzar el trabajo de traducción entre los dos estilos evolucionados conjuntamente que pueden conducir a un nuevo sonido.