domingo, 12 de agosto de 2018

Algoritmo para la detección de fake news

La gente es mala al detectar noticias falsas. ¿Pueden los programas de computadora funcionar mejor?

Hay demasiada desinformación en línea para que los verificadores de datos humanos la atrapen
Por
Maria Temming


MONITORES DE DECEPCIÓN Los investigadores están creando algoritmos en línea para verificar la veracidad de las noticias en línea.

Alex Nabaum
Número de la revista: Science Magazine Vol. 194, No. 3, 4 de agosto de 2018, p. 22



Desplazarse a través de una fuente de noticias a menudo se siente como jugar Dos verdades y una mentira.

Algunas falsedades son fáciles de detectar. Como informes de que la Primera Dama Melania Trump quería un exorcista para limpiar los demonios de la Casa Blanca de la era Obama, o que un director de una escuela de Ohio fue arrestado por defecar frente a una asamblea estudiantil. En otros casos, la ficción se combina demasiado bien con los hechos. CNN fue realmente allanado por la Comisión Federal de Comunicaciones? ¿La policía descubrió realmente un laboratorio de metanfetamina dentro de un Walmart de Alabama? No y no. Pero cualquiera que se mueva por una serie de historias fácilmente podría ser engañado.

Vivimos en una era dorada de desinformación. En Twitter, las falsedades se extienden más y más rápido que la verdad (SN: 31/3/18, p.14). En el período previo a las elecciones presidenciales estadounidenses de 2016, los artículos falsos más populares obtuvieron más acciones, reacciones y comentarios de Facebook que las principales noticias reales, según un análisis de BuzzFeed News.

Antes de Internet, "no se podía tener a una persona sentada en un ático y generando teorías de conspiración a gran escala", dice Luca de Alfaro, científico informático de la Universidad de California en Santa Cruz. Pero con las redes sociales de hoy en día, vender mentiras es demasiado fácil: si esas mentiras provienen de disfraces como Disinfomedia, una compañía que ha sido propietaria de varios sitios web de noticias falsas o un grupo de adolescentes en Macedonia que recaudaron el dinero escribiendo noticias falsas populares durante las elecciones de 2016

La mayoría de los usuarios de internet probablemente no estén transmitiendo literas intencionalmente. La sobrecarga de información y la capacidad limitada de atención de la persona que practica surf de la web promedio no son exactamente propicias para la vigilancia de la verificación de los hechos. El sesgo de confirmación se alimenta también. "Cuando se trata de información no filtrada, es probable que las personas elijan algo que se ajuste a su propio pensamiento, incluso si esa información es falsa", dice Fabiana Zollo, científica informática de la Universidad de Venecia Ca 'Foscari, que estudia cómo circula la información en las redes sociales.

Intencional o no, compartir información errónea puede tener graves consecuencias. Las noticias falsas no solo amenazan la integridad de las elecciones y erosionan la confianza pública en las noticias reales. Amenaza vidas. Los falsos rumores que se propagan en WhatsApp, un sistema de mensajería de teléfono inteligente, por ejemplo, provocaron linchamientos en India este año que dejaron más de una docena de personas muertas.

Para ayudar a clasificar las noticias falsas de la verdad, los programadores están construyendo sistemas automatizados que juzgan la veracidad de las historias en línea. Un programa de computadora podría considerar ciertas características de un artículo o la recepción de un artículo en las redes sociales. Las computadoras que reconocen ciertas señales de advertencia podrían alertar a los verificadores de datos humanos, que harían la verificación final.

Las herramientas automáticas de búsqueda de mentiras "todavía están en su infancia", dice el científico informático Giovanni Luca Ciampaglia de la Universidad de Indiana en Bloomington. Los investigadores están explorando qué factores marcan de manera más confiable las noticias falsas. Desafortunadamente, no tienen un conjunto acordado de historias verdaderas y falsas para usar para probar sus tácticas. Algunos programadores confían en medios de comunicación establecidos o agencias de prensa estatales para determinar qué historias son ciertas o no, mientras que otros recurren a listas de noticias falsas informadas en las redes sociales. Por lo tanto, la investigación en esta área es algo así como una lucha libre.

Pero los equipos de todo el mundo están avanzando porque internet es una manguera de información, y pedirle a los inspectores de datos humanos que se mantengan al día es como apuntar esa manguera a un filtro Brita. "Es una especie de entumecimiento de la mente", dice Alex Kasprak, un escritor de ciencia en Snopes, el sitio de verificación de datos en línea más antiguo y más grande, "solo el volumen de cosas realmente de mala calidad que hay por ahí".




Sustancia y estilo

Cuando se trata de inspeccionar el contenido de las noticias directamente, hay dos formas principales de saber si una historia encaja en la factura de la fraudulencia: qué dice el autor y cómo lo dice el autor.

Ciampaglia y sus colegas automatizaron esta tediosa tarea con un programa que verifica cuán estrechamente relacionados están el sujeto y el objeto de una declaración. Para hacer esto, el programa usa una vasta red de nombres construidos a partir de hechos encontrados en el cuadro de información en el lado derecho de cada página de Wikipedia, aunque redes similares han sido construidas a partir de otros depósitos de conocimiento, como bases de datos de investigación.

En la red de nombres del grupo Ciampaglia, dos sustantivos están conectados si un sustantivo apareció en la caja de información de otro. Cuantos menos grados de separación entre el sujeto y el objeto de una declaración en esta red, y cuanto más específicas sean las palabras intermedias que conectan el sujeto y el objeto, más probable es que el programa de computadora etiquete una afirmación como verdadera.

Tomemos la falsa afirmación de que "Barack Obama es musulmán". Hay siete grados de separación entre "Obama" e "Islam" en la red de sustantivos, incluidos los sustantivos muy generales, como "Canadá", que se conectan con muchas otras palabras. Dada esta larga y serpenteante ruta, el verificador automatizado de datos, descrito en 2015 en PLoS ONE, consideró que Obama probablemente no sea musulmán.

Ruta de la rotonda

Un verificador automático de hechos juzga la afirmación "Barack Obama es musulmán" al estudiar los grados de separación entre las palabras "Obama" e "Islam" en una red de sustantivos construida a partir de la información de Wikipedia. La conexión muy suelta entre estos dos sustantivos sugiere que el enunciado es falso.


Fuente: G.L. Ciampaglia et al / PLOS One 2015

Pero estimar la veracidad de las declaraciones basadas en este tipo de separación sujeto-objeto tiene límites. Por ejemplo, el sistema consideró probable que el ex presidente George W. Bush esté casado con Laura Bush. Estupendo. También decidió que George W. Bush probablemente esté casado con Barbara Bush, su madre. Menos genial. Ciampaglia y sus colegas han estado trabajando para dar a su programa una visión más matizada de las relaciones entre los nombres en la red.

Verificar cada declaración en un artículo no es la única manera de ver si una historia pasa la prueba del olfato. El estilo de escritura puede ser otro regalo. Benjamin Horne y Sibel Adali, informáticos del Rensselaer Polytechnic Institute en Troy, N.Y., analizaron 75 artículos verdaderos de los medios de comunicación considerados más confiables por Business Insider, así como 75 historias falsas de sitios en una lista negra de sitios web engañosos. En comparación con las noticias reales, los artículos falsos tienden a ser más cortos y repetitivos con más adverbios. Las historias falsas también tienen menos citas, palabras técnicas y sustantivos.

Sobre la base de estos resultados, los investigadores crearon un programa informático que utilizaba los cuatro factores distintivos más fuertes de las noticias falsas: número de sustantivos y número de citas, redundancia y recuentos de palabras, para juzgar la veracidad del artículo. El programa, presentado en la Conferencia Internacional sobre Web y Redes Sociales en Montreal, clasificó correctamente las noticias falsas del verdadero 71 por ciento del tiempo (un programa que clasifica las noticias falsas de las verdaderas al azar mostraría una precisión del 50 por ciento). Horne y Adali están buscando características adicionales para aumentar la precisión.

Verónica Pérez-Rosas, una científica informática de la Universidad de Michigan en Ann Arbor, y sus colegas compararon 240 artículos originales y 240 inventados. Al igual que Horne y Adali, el equipo de Pérez-Rosas encontró más adverbios en los artículos de noticias falsos que en los reales. Las noticias falsas en este análisis, informadas en arXiv.org el 23 de agosto de 2017, también tienden a utilizar un lenguaje más positivo y a expresar más certeza.

Verdad y mentiras

Un estudio de cientos de artículos reveló diferencias estilísticas entre las noticias originales y las inventadas. Las historias reales contenían más lenguaje que transmitía diferenciación, mientras que las historias falsas expresaban más certeza.


Fuente: V. Pérez-Rosas et al / arxiv.org 2017

Las computadoras no necesitan necesariamente que los humanos les digan qué aspectos de los artículos falsos dan estas historias. El ingeniero informático e ingeniero Vagelis Papalexakis de la Universidad de California en Riverside y sus colegas construyeron un detector de noticias falso que comenzó clasificando un caché de artículos en grupos según lo similares que eran las historias. Los investigadores no proporcionaron instrucciones explícitas sobre cómo evaluar la similitud. Una vez que el programa agrupaba los artículos de acuerdo con la semejanza, los investigadores etiquetaron el 5 por ciento de todos los artículos como fácticos o falsos. A partir de esta información, el algoritmo, descrito el 24 de abril en arXiv.org, predijo etiquetas para el resto de los artículos sin marcar. El equipo de Papalexakis probó este sistema en casi 32,000 artículos reales y 32,000 falsos compartidos en Twitter. Alimentado con ese pequeño núcleo de verdad, el programa predijo correctamente las etiquetas de alrededor del 69 por ciento de las otras historias.

Supervisión de adultos

Hacer las cosas bien el 70 por ciento de las veces no es lo suficientemente preciso como para confiar en los programas de investigación de noticias por sí mismos. Pero los detectores de noticias falsos podrían ofrecer una alerta de proceder con precaución cuando un usuario abre una historia sospechosa en un navegador web, similar a la alerta que aparece cuando está a punto de visitar un sitio sin certificado de seguridad.

En un tipo similar de primer paso, las plataformas de medios sociales podrían usar perros guardianes de la información errónea para buscar fuentes de noticias cuestionables y luego enviarlas a verificadores de datos humanos. Hoy, Facebook considera los comentarios de los usuarios, como aquellos que publican comentarios incrédulos o informan que un artículo es falso, al elegir qué historias verificar. La compañía luego envía estas historias a los escépticos profesionales en FactCheck.org, PolitiFact o Snopes para su verificación. Pero Facebook está abierto a usar otras señales para encontrar fraudes de manera más eficiente, dice la portavoz de Facebook, Lauren Svensson.

No importa qué tan buenas sean las computadoras para encontrar noticias falsas, estos sistemas no deberían reemplazar totalmente a los verificadores de datos humanos, dice Horne. La decisión final sobre si una historia es falsa puede requerir una comprensión más matizada de la que puede proporcionar una computadora.

"Hay una gran escala de grises" de desinformación, dice Julio Amador Díaz López, un científico informático y economista del Imperial College de Londres. Ese espectro, que incluye la verdad tomada fuera de contexto, la propaganda y las declaraciones que son prácticamente imposibles de verificar, como las convicciones religiosas, puede ser difícil para las computadoras para navegar.

El escritor de ciencia de Snopes, Kasprak, imagina que el futuro de la verificación de los hechos será como la transcripción de audio asistida por computadora. Primero, el sistema automatizado elabora un borrador de la transcripción. Pero un humano todavía tiene que revisar ese texto para detalles que se pasan por alto, como errores de ortografía y puntuación, o palabras que el programa acaba de equivocarse. De manera similar, las computadoras podrían compilar listas de artículos sospechosos para que las personas revisen, dice Kasprak, enfatizando que los humanos aún deben tener la última palabra sobre lo que se etiqueta como verdadero.

Ojos en la audiencia

A pesar de que los algoritmos se vuelven más astutos al marcar artículos falsos, no hay garantía de que los creadores de noticias falsas no intensifiquen su juego para eludir la detección. Si los programas de computadora están diseñados para ser escépticos de las historias que son demasiado positivas o expresan mucha certeza, entonces los autores engañosos podrían refinar sus estilos de escritura en consecuencia.

"Las noticias falsas, como un virus, pueden evolucionar y actualizarse a sí mismas", dice Daqing Li, un científico de redes de la Universidad de Beihang en Beijing que ha estudiado noticias falsas en Twitter. Afortunadamente, las noticias en línea se pueden juzgar en más que el contenido de sus narraciones. Y otros signos reveladores de noticias falsas podrían ser mucho más difíciles de manipular, a saber, los tipos de participación del público que estas historias atraen en las redes sociales.

Sin ovejas

La mayoría de los usuarios de Twitter que discutieron rumores falsos sobre dos desastres publicaron tweets que simplemente difundieron estos rumores. Solo se publicó una pequeña fracción buscando verificación o expresando dudas sobre las historias.


H. Thompson

Juan Cao, científico informático del Instituto de Tecnología Informática de la Academia de Ciencias de China en Beijing, descubrió que en la versión china de Twitter, Sina Weibo, los tweets específicos sobre una determinada noticia son buenos indicadores de si una historia en particular es cierto. El equipo de Cao creó un sistema que podría resumir los tweets sobre un evento noticioso en particular, y luego ordenarlos en dos grupos: los que expresaron su apoyo a la historia y los que se opusieron. El sistema consideró varios factores para medir la credibilidad de esos puestos. Si, por ejemplo, la historia se centra en un evento local que un usuario estaba geográficamente cerca, la entrada del usuario se vio como más creíble que la entrada de un usuario más lejano. Si un usuario estuvo inactivo por un tiempo prolongado y comenzó a publicar una sola historia, ese comportamiento anormal contó con la credibilidad del usuario. Al sopesar el carácter distintivo de los tweets de apoyo y escépticos, el programa decidió si una historia en particular podría ser falsa.

El grupo de Cao probó esta técnica en 73 historias reales y 73 falsas, etiquetadas como tales por organizaciones como la Agencia de Noticias Xinhua dirigida por el gobierno de China. El algoritmo examinó alrededor de 50,000 tweets sobre estas historias en Sina Weibo, y reconoció noticias falsas correctamente alrededor del 84 por ciento del tiempo. El equipo de Cao describió los hallazgos en 2016 en Phoenix en una conferencia de la Asociación para el Avance de la Inteligencia Artificial. De Alfaro y sus colegas de UC Santa Cruz informaron similarmente en Macedonia en la Conferencia Europea sobre Aprendizaje Automático y Principios y Prácticas de Descubrimiento de Conocimiento en Bases de Datos del año pasado, que los engaños se pueden distinguir de las noticias reales que circulan en Facebook en base a qué usuarios les gustan estas historias.

En lugar de ver quién está reaccionando a un artículo, una computadora puede ver cómo se transmite la historia en las redes sociales. Li y sus colegas estudiaron las formas de las redes de repost que se ramificaron de las noticias en las redes sociales. Los investigadores analizaron las redes de publicación de aproximadamente 1,700 historias falsas y 500 noticias verdaderas en Weibo, así como alrededor de 30 redes de noticias falsas y 30 redes de noticias reales en Twitter. En ambos sitios de redes sociales, el equipo de Li descubrió que la mayoría de la gente tendía a publicar noticias reales directamente de una sola fuente, mientras que las noticias falsas tendían a extenderse más a través de la gente que publicaba datos de otros remitentes.

Una red típica de repositorios de noticias reales "se parece mucho más a una estrella, pero las noticias falsas se extienden más como un árbol", dice Li. Esto se mantuvo incluso cuando el equipo de Li ignoró las noticias publicadas originalmente por fuentes oficiales conocidas, como los propios medios de noticias. Informado el 9 de marzo en arXiv.org, estos hallazgos sugieren que las computadoras podrían usar el compromiso con las redes sociales como una prueba de fuego para la veracidad, incluso sin poner las publicaciones individuales bajo el microscopio.

Ramificando

En Twitter, la mayoría de las personas que publican (puntos rojos) noticias reales lo obtienen de una única fuente central (punto verde). Las noticias falsas se propagan más a través de las personas que reposten de otros remitentes.


Z. Zhao et al / arxiv.org 2018

Verdad a la gente


Cuando se capta la desinformación circulando en las redes sociales, la mejor forma de lidiar con ella sigue siendo una pregunta abierta. Simplemente fregar artículos falsos de los feeds de noticias probablemente no sea el camino a seguir. Las plataformas de medios sociales que ejercen ese nivel de control sobre lo que los visitantes pueden ver "serían como un estado totalitario", dice Murphy Choy, analista de datos de SSON Analytics en Singapur. "Va a ser muy incómodo para todas las partes involucradas".

Las plataformas podrían poner señales de advertencia sobre la desinformación. Pero etiquetar las historias que han sido verificadas como falsas puede tener un desafortunado "efecto de verdad implícita". Las personas pueden confiar más en las historias que no están señaladas explícitamente como falsas, ya sea que hayan sido verificadas o no, de acuerdo con una investigación publicada el pasado Septiembre en la Red de Investigación de Ciencias Sociales por los investigadores del comportamiento humano Gordon Pennycook, de la Universidad de Regina en Canadá, y David Rand en la Universidad de Yale.

En lugar de eliminar las historias, Facebook muestra menos historias desacreditadas en las noticias de los usuarios, lo que puede reducir las opiniones futuras de un artículo falso en un 80 por ciento, dice el portavoz de la compañía, Svensson. Facebook también muestra artículos que desacreditan historias falsas cada vez que los usuarios encuentran las historias relacionadas, aunque esa técnica puede ser contraproducente. En un estudio de usuarios de Facebook a los que les gusta y comparten noticias de conspiración, Zollo y su colega Walter Quattrociocchi descubrieron que, después de que los conspiradores interactuaran con artículos desacreditados, estos usuarios realmente aumentaron su actividad en las páginas de conspiración de Facebook. Los investigadores informaron este hallazgo en junio en Complex Spreading Phenomena in Social Systems.

Todavía hay mucho trabajo por hacer en la enseñanza de computadoras, y personas, para reconocer noticias falsas. Como dice el viejo refrán: una mentira puede llegar a la mitad del mundo antes de que la verdad se ponga en sus zapatos. Pero los algoritmos informáticos de ojos penetrantes pueden al menos frenar las historias falsas con algunos nuevos pesos de tobillo.

Este artículo aparece en la edición del 4 de agosto de 2018 de Science News con el titular "Detectando noticias falsas: los programas informáticos invocan mentiras en Internet".

domingo, 5 de agosto de 2018

Tríadas prohibidas y creatividad en el jazz

Tríadas prohibidas y éxito creativo en el jazz: el factor de Miles Davis

Balazs Vedres - Applied Network Science
Resumen
Este artículo defiende la importancia de las tríadas prohibidas, tríadas abiertas con enlaces de gran peso, para predecir el éxito en los campos creativos. Las tríadas prohibidas se han tratado como una categoría residual más allá de las tríadas cerradas y abiertas, sin embargo, sostengo que estas estructuras brindan oportunidades para combinar estilos socialmente evolucionados de formas nuevas. Usando datos de toda la historia del jazz grabado de 1896 a 2010, muestro que las colaboraciones observadas han tolerado la apertura de las tríadas de alto peso más de lo esperado, las sesiones observadas de jazz tuvieron tríadas más prohibidas de lo esperado, y la densidad de tríadas prohibidas contribuyó a Éxito de las sesiones de grabación, medido por el número de grabaciones del material de la sesión. El artículo también muestra que las sesiones de Miles Davis recibieron un impulso especialmente elevado de las tríadas prohibidas.

Palabras clave: Jazz, Redes sociales, Creatividad, Éxito, Redes ponderadas


Introducción

Si bien la difusión y adopción de innovaciones ha sido una preocupación central de la investigación de redes sociales (Centola 2015), sabemos mucho menos sobre las estructuras de red que contribuyen a la generación de innovación. En los esfuerzos por comprender cómo se incorporan las ideas nuevas en las prácticas existentes, se dedicó mucha atención a la dualidad del cierre de la red y los lazos débiles abiertos. Se considera que el cierre proporciona un entorno colaborativo de confianza para realizar ideas capturadas por lazos débiles externos al núcleo cohesivo (Burt 2005). Este artículo trata sobre el potencial creativo de un tercer tipo de tríada: tríadas prohibidas: trillizos conectados con dos fuertes lazos y una díada abierta. Tales triadas brindan oportunidades para reconocer combinaciones únicas de habilidades: combinaciones generativas de conocimiento tácito que evolucionaron en las dos díadas de empate fuerte que se cruzan.

Si bien los lazos débiles y el cierre son los bloques de construcción de las pequeñas estructuras mundiales, las tríadas prohibidas son bloques de redes de doblez. Las redes de dobleces han sido identificadas como predictores de la generación de novedad, donde las comunidades cohesivas superpuestas contribuyen tanto al reconocimiento de una posibilidad novedosa como a la realización de la idea novedosa como producto (de Vaan et al., 2015). También se demostró que no es la agencia en la superposición de comunidades lo que importa, sino que la movilización exitosa de la parte única no interseccionada de las comunidades superpuestas y las comunidades superpuestas también se ha mostrado más inestable que las comunidades no superpuestas ( Vedres y Stark 2010). Las redes de dobleces operan por una tensión generativa: provocan la generación de novedades, pero también contribuyen a conflictos de coordinación y lealtad.

Mientras que la superposición de las comunidades proporciona un mecanismo claro para la novedad realizable, la operacionalización empírica de las redes plegables ha sido hasta ahora engorrosa. Primero se necesita identificar las comunidades, y especialmente las comunidades que se superponen para medir el plegamiento de la red. Estudios previos han utilizado el número de membresías de la comunidad de un nodo dado (Vedres y Stark 2010), o el número de superposiciones de subgrupos dentro de un colectivo más grande (De Vaan et al., 2015). Pero la detección comunitaria está lejos de ser un proceso universal y simple: la gran cantidad de algoritmos de detección comunitaria es un síntoma de la naturaleza compleja de mapear el concepto de comunidad (especialmente con superposiciones permitidas) en conjuntos de nodos en una red (Granell et al. 2015; Xie et al., 2013).

Este artículo usa la densidad de las tríadas prohibidas como una medida directa de plegamiento. Las tríadas prohibidas son tríadas abiertas con piernas de alto peso. El concepto fue presentado por Mark Granovetter en su artículo seminal sobre la importancia de los vínculos débiles en la predicción del éxito en el mercado laboral (Granovetter 1973). Granovetter argumentó que es muy probable que los lazos fuertes estén cerrados, y los lazos débiles son los que pueden unir a las comunidades y, por lo tanto, proporcionar acceso a información diversa. Granovetter también argumentó que los lazos fuertes y abiertos son raros y fugaces, por lo que la etiqueta es "prohibida".

Hasta este momento, nadie ha analizado la importancia de las tríadas prohibidas para el éxito, ya que la tradición de cuatro décadas de analizar las tríadas en un pequeño espacio abierto, cerrado y débil y abierto para ver cualquier significado para las tríadas prohibidas. Investigaciones previas han discutido las consecuencias negativas de la superposición de tríadas cerradas, bajo la etiqueta de corretaje Simmelian, o corretaje reforzado (Burt 2015; Krackhardt y Kilduff 2002) en el contexto de los vínculos comerciales y las redes de gestión.

Sin embargo, sostengo que las tríadas prohibidas son los componentes clave de las redes creativas, ya que estas tríadas son ocasiones en las que dos enlaces de alto peso se cruzan en un nodo central. Esto crea una oportunidad para hibridar prácticas anteriores (como estilos musicales), para generar un nuevo tipo de práctica. Las tríadas prohibidas van de la mano con la cohesión superpuesta: hay muchas tríadas prohibidas alrededor de los nodos que se cruzan de dos comunidades, si uno acepta la suposición de que el cierre triádico está relacionado con el alto peso del enlace. En una red con pliegues (comunidades superpuestas) uno espera ver una alta densidad de triadas prohibidas. Defino la densidad de tríada como la proporción de un tipo de tríada para todas las tríadas conectadas.

La única decisión que se debe tomar al definir una tríada prohibida es el umbral para que un peso de enlace califique como un empate fuerte. En este artículo utilizo un umbral mínimo de interacción repetida (en lugar de una interacción), pero también analizo varios umbrales para estimar la sensibilidad de los modelos estadísticos para clasificar los vínculos fuertes.

Usando datos de toda la historia del jazz grabado de 1896 a 2010 (175,000 sesiones de jazz), el artículo presenta evidencia de la contribución de las tríadas prohibidas en la colaboración musical al éxito medido en el número de lanzamientos de álbumes. Las tríadas prohibidas se conceptualizan como la proporción de tríadas conectadas en una sesión, donde ambas patas conectadas de la tríada son fuertes y una díada no está conectada. El umbral para la fuerza del vínculo se estableció en dos jugadas de sesión compartidas en el pasado. También analizo las sesiones de Miles Davis por separado, para mostrar cómo las tríadas prohibidas se sumaron al éxito de sus sesiones.

Pruebo varias hipótesis derivadas del argumento de que el éxito creativo es una función de la densidad de las tríadas prohibidas. Primero, pruebo la hipótesis de que la fuerza del enlace se relaciona positivamente con la probabilidad de cierre. Más precisamente, pruebo la hipótesis de que el peso mínimo de las patas triples se relaciona positivamente con la probabilidad de cierre. En segundo lugar, probé la hipótesis de que en el mundo del jazz observado, los pesos de los enlaces contribuyen menos al aumento de la probabilidad de cierre, en comparación con un mundo de jazz reconectado aleatoriamente. En otras palabras, los músicos de jazz toleran la apertura de las tríadas de mayor peso más de lo esperado. Construí mundos de jazz configurados aleatoriamente que siguen el principio de contrafactuales objetivamente posibles. Genere mundos aleatorios de jazz que podrían haber sucedido dentro de las limitaciones difíciles que uno puede leer de los datos, y de las prácticas de los músicos de jazz. En tercer lugar, pruebo la hipótesis de que las tríadas prohibidas están sobrerrepresentadas en las sesiones de jazz observadas, en comparación con las sesiones de jazz en los mundos de jazz reconectados. Finalmente, pruebo la hipótesis de que las tríadas prohibidas contribuyen al éxito en el nivel de la sesión, incluso si tomamos en cuenta todas las explicaciones alternativas concebidas, incluida la heterogeneidad no observada relacionada con la identidad del líder de la banda.

Medición de la colaboración y las densidades de la tríada en el jazz

Para cubrir las colaboraciones en el jazz grabado, utilicé la Discografía de Tom Lord (Lord 2010), la que se considera la fuente más completa (Charry 2005). Esta discografía recoge la participación del músico en sesiones de grabación desde los comienzos del jazz hasta el presente. Recopilé datos hasta 2010 sobre el conjunto completo de sesiones de grabación disponibles en esta discografía. Los datos básicos son un gráfico tripartito de instancias con sello de tiempo (con una resolución de tiempo anual) de sesiones, músicos e instrumentos.1 El conjunto de datos resultante contiene información sobre 175,064 sesiones de grabación, que tuvieron lugar entre 1896 y 2010. Hubo un total de 42.929 líderes de bandas (o nombres de bandas) y 187.784 músicos que tocan en estas sesiones, tocando 11.940 instrumentos diferentes2. La red colaborativa ponderada entre los músicos para una sesión dada se generó sumando las co-jugadas anteriores para cada díada músico. Para garantizar un orden temporal estricto, solo se incluyeron las sesiones del año t-1 al revés, si la sesión focal tuvo lugar en el año t.

La Figura 1 muestra un registro de sesión de muestra de la Discografía de Tom Lord. La parte superior de la entrada de datos muestra la identificación de la sesión y el líder de la banda (Charlie Parker en este caso). Luego se muestra el conjunto de músicos con sus instrumentos. (En el caso de Miles Davis, la abreviatura "tp-1" significa que tocó la trompeta en la primera pista). Después de los músicos, se muestra el lugar y la fecha de grabación, y se enumeran las pistas. Las versiones se codificaron a partir de la aparición de números de catálogo únicos en pistas específicas, o para toda la sesión.


Figura 1
Muestra del registro de una sesión en la Discografía de Tom Lord Jazz. Reproducido de www.lordisco.com con permiso

Estoy interesado en relacionar la presencia de tres tipos de tríadas con niveles de éxito. El primer tipo de tríada es un bloque de construcción de redes plegables, la tríada prohibida: una tríada con dos fuertes vínculos, y una ausencia. El segundo tipo de tríada es una tríada abierta: dos vínculos débiles y un vínculo ausente. El tercer tipo de tríada es el cierre: las tres ataduras están presentes (de cualquier fuerza). Para medir la presencia de estos tipos de tríada delimito categóricamente las tríadas prohibidas de las tríadas abiertas por un valor de resistencia de empate de umbral, y luego cuento el número de tres tipos de tríadas mutuamente excluyentes (tríadas prohibidas, triadas abiertas y tríadas cerradas). Luego normalizo el número de tríadas por el número de tríadas conectadas (con al menos dos vínculos presentes).

Como ejemplo, considere la Fig. 2, que presenta datos de colaboración de la sesión "Kind of Blue" con Miles Davis como líder de la banda. El álbum resultante, "Kind of Blue" es el pináculo indiscutible del jazz: el álbum de jazz más influyente, más mencionado y más reeditado en la historia del género. Este ejemplo muestra la primera de dos sesiones, desde el 2 de marzo de 1959. Utilicé listas de personal de sesiones anteriores para registrar la cantidad de veces que los pares de músicos habían jugado entre sí. Por ejemplo, considerando el panel a. de la Fig. 2, el conjunto de datos contiene un total de 58 sesiones de juego para Paul Chambers antes de esta sesión, 22 con Miles Davis (hasta el final de 1958).



Figura 2
Grafo de colaboración en la sesión de ejemplo de "Kind of Blue", 2 de marzo de 1959. un co-juego de músicos (diagonales son jugadas totales), b gráfico de co-jugadas, triadas abiertas, d tríadas prohibidas

El gráfico de colaboraciones en el panel b. de la Fig. 2 muestra tríadas abiertas y prohibidas, y se puede ver que estas fueron el resultado del eslabón perdido entre Miles Davis y Wynton Kelly. Paneles c. y d. mostrar solo las tríadas abiertas y las prohibidas por separado.

Tipos de tríada y peso mínimo de las patas triples

Para registrar el espacio de los tipos de tríada conectados, utilizo dos dimensiones: el peso mínimo de las patas triples y la probabilidad de cierre. Las patas de triplete son los dos enlaces más fuertes en la tríada conectada, w (3) yw (2), los pesos de enlace tercero y segundo en orden ascendente de los pesos de enlace de la tríada. (Los números entre paréntesis subindicados indican la estadística de orden ascendente.) En una tríada abierta, el enlace más débil w (1) = 0. El peso mínimo de las patas triples es w (2), el segundo peso en orden ascendente, que captura la fuerza del enlaces de la tríada, independientemente del cierre. Esta medida sigue las mismas consideraciones que subyacen al desarrollo de los coeficientes de agrupación ponderados, donde se usa la media geométrica de los pesos de los enlaces, ya que es más robusta a los valores de peso periféricos (Onnela et al., 2005; Opsahl y Panzarasa 2009; Saramäki et al. 2007). Utilizo el peso mínimo en lugar de la media geométrica, porque el objetivo es distinguir las tríadas donde los pesos de las piernas son más altos que un valor umbral. Los pesos aquí son crudos, midiendo la cantidad de veces que dos músicos grabaron juntos en el estudio.

El uso de la combinación del peso mínimo de las patas triples y la presencia de cierre nos permite distinguir tres tipos de tríadas: Las tríadas abiertas son aquellas en las que el peso mínimo de la pierna del triplete es igual a uno, y no hay cierre. Esta tríada es la piedra angular de los vínculos débiles que conectan a las comunidades (Granovetter 1973), o que contribuye a reducir la longitud del camino en las pequeñas redes mundiales (Watts 1999) y las actuales oportunidades de intermediación (Burt 1992). Las tríadas cerradas son aquellas con los tres enlaces presentes, independientemente de la fuerza de la corbata. Estas son las tríadas con las que se construyen las comunidades donde dominan la confianza y los valores compartidos (Burt 2005). Las tríadas prohibidas son aquellas en las que los pesos de los enlaces son más altos que en el caso de las tríadas abiertas, pero la tríada está abierta. Estas tríadas son bloques de construcción de redes plegables, que se considera que promueven la creatividad y el éxito creativo (Vedres y Stark 2010). La Tabla 1 resume el esquema de clasificación.

Tabla 1

Definición de tipos tríadas
Peso de patas mìnimasClausura
Tríadas abiertas
w(2) = 1
w(1) = 0
Tríadas cerradas
w(2) > 0
w(1) > 0
Tríadas prohibidas
w(2) > 1
w(1) = 0


Volviendo al ejemplo de la sesión "Tipo de azul", vemos que contiene dos tríadas prohibidas (10% de tríadas), dos tríadas débiles (10%) y 16 tríadas cerradas (80%). La Tabla 2 enumera las tríadas en estas tres categorías, clasificadas por el peso mínimo de las piernas. El aspecto interesante del ejemplo "Kind of Blue" es que Wynton Kelly fue invitado a tocar el piano, a pesar de que no hubo sesiones previas en las que Miles Davis y Kelly jugaran juntos. Sin embargo, Kelly no era ajeno a la mayoría de los músicos en la sesión: había jugado 12 sesiones con Chambers y 11 con Cobb; ambos pueden considerarse vínculos bastante fuertes. Davis conoció a Kelly poco antes de las sesiones de "Kind of Blue", y lo trajo a bordo junto al pianista de confianza de la banda, Bill Evans. Aunque Kelly tocó solo en una canción del álbum, "Freddy Freeloader", Miles elogió el valor de Kelly como energizante en la banda: "Wynton es la luz para un cigarrillo". Él enciende el fuego y lo mantiene en marcha ". 3


Tabla 2
Tipos de tríadas en el ejemplo de sesión de “Kind of Blue”, Marzo 2, 1959

ij
wij
ik
wik
jk
wjk
w(3)
w(2)
min legs weight
Forbidden triads34113504561166
13121522350221212
Open triads350361568811
23125163501611
Closed triads23126536
1
515
24726546101077
...
12351613265351313
123515222516352222



Las tablas de datos adicionales en el nivel de la sesión registran la identidad del líder de la banda y el número de versiones en las que apareció el material grabado en la sesión. El número de lanzamientos se codificó como la cantidad de números de catálogo únicos que aparecen en la entrada de la sesión en la Discografía de Tom Lord.


Mundos de jazz re-enlazados

Para probar hipótesis nulas que relacionan solo las frecuencias marginales con los resultados, generé mundos aleatorios de jazz volviendo a cablear el conjunto de datos tripartitos observado (de sesiones, músicos e instrumentos). El nuevo cableado se realizó siguiendo el principio de la posibilidad objetiva: reasigné músicos a las sesiones de una manera que podría haber sucedido en la vida real (con, aunque pequeña probabilidad), y evité componer sesiones que no eran posibles de acuerdo con la disponibilidad evidencia. En otras palabras, estaba generando mundos de jazz con sesiones que las compañías discográficas podrían haber grabado.

El primer principio para volver a cablear fue que se debía preservar el número de músicos en la sesión. Grabar en el estudio, especialmente en la primera mitad del siglo XX, fue un asunto costoso, y un esfuerzo por grabar un trío no se podría haber expandido fácilmente en un sexteto o big band. Entonces, los grados de sesión fueron preservados.

Segundo, estaba preservando el número de sesiones que un músico tocaba, con una ventana de 1 año. Si un trompetista grabó cinco veces durante el año en que ocurrió la sesión, asigné a ese jugador a cinco sesiones en el mundo del jazz recableado durante ese período de un año.4

Tercero, estaba preservando las combinaciones de instrumentos de las sesiones, ya que el material grabado habría sido diferente sin los mismos instrumentos.

Finalmente, solo estaba asignando músicos a una sesión para llenar un espacio de instrumento si tocaban el instrumento sobre el año actual y el año anterior. Los músicos a menudo tocan múltiples instrumentos, y hace una diferencia considerable si un músico ha tocado el instrumento en cuestión hace solo una década.

En resumen, estaba generando mundos de jazz donde la compañía de grabación pudo llenar los espacios de instrumentos en la sesión con músicos disponibles y capaces. Estos músicos, por supuesto, podrían haber sido muy diferentes de los observados. Imagine, por ejemplo, que Miles Davis, a la trompeta, fuera cambiado por un joven trompetista activo en Londres en ese momento. La diferencia más importante para nosotros, por supuesto, es que los músicos seleccionados por nuestro cableado no fueron seleccionados de acuerdo con sus redes. Es probable que no hayan jugado entre ellos en el pasado, y tampoco es probable que hayan sido "amigos de amigos". Genere 100 mundos de jazz: historias completas de jazz simuladas en las que una sesión de jazz observada tenía una correspondiente versión recableada.

Prevalencia de tipos de tríada en mundos de jazz observados y recableados

La Figura 3 muestra la relación entre los pesos de los enlaces y el cierre triádico, con áreas que corresponden a tres tipos de tríadas, al mostrar la probabilidad de cierre de tresillos por cuantiles mínimos de peso de las patas triples. 5,338,093 Las trillizas se cortaron en 10.000 cuantiles de peso de patas triples. (Hubo más de 5 millones de trillizos en los datos observados, y más de 89 millones de trillizos en los 100 mundos aleatorios de jazz reconectados combinados). El suavizado promedio móvil se aplicó a la curva de probabilidad de cierre. Los cuantiles varían linealmente en el eje x, desde el primero hasta el 10000o. Con los cuantiles graficados en el eje horizontal y las probabilidades en el eje vertical, el área en este gráfico es proporcional al número de tríadas.


Fig. 3
Diagramas de área de la probabilidad de cierre de triplete por cuantiles mínimos de peso de patas triples. a Observado, b recableado

La característica más aparente de la figura 3 es que la probabilidad de cierre aumenta con un peso mínimo de tres patas: si el músico tocaba con frecuencia en el pasado con el músico j, y j se jugaba a menudo con k, hay una mayor probabilidad de que j y k también han jugado juntas al menos una vez (en comparación con las co-jugadas menos frecuentes para las díadas ij y jk). También es evidente que el peso de las piernas y la probabilidad de cierre en general es mucho menor en los mundos de jazz reconectados.

En los datos observados (panel a de la Fig. 3), los trillizos mínimos con el peso de las patas igual a uno se cierran con una probabilidad de .513. El aumento de la probabilidad de cierre es monotónico; el percentil superior del peso mínimo de las patas triples (entre 19 y 26) se cierra con P = .994. En los datos recableados, los trillizos con un peso mínimo de las piernas tienen una probabilidad de cierre de .120, que aumenta repentinamente alrededor del umbral de las tríadas prohibidas de piernas, el peso es igual a dos (P = .418). El percentil superior (peso mínimo de las piernas entre 4 y 5) se cierra con P = .778.

Tanto en los datos observados como simulados, alrededor del 9% de las tríadas están prohibidas: tríadas con altos pesos de enlace sin clausura. En los datos observados, parece que el número de tríadas prohibidas está limitado por el hecho de que los pesos de los enlaces son relativamente altos, y el alto peso de los enlaces también se correlaciona con el cierre. En los datos recableados, el número de tríadas prohibidas parece estar limitado por el hecho de que, si bien la mayoría de las tríadas están abiertas, el peso marginal promedio es pequeño.

Para estimar la significación estadística de estas diferencias, calculé un modelo de regresión logística, donde la variable dependiente es la presencia de cierre (y = 1), en oposición a una tríada abierta (y = 0), y las variables independientes son: primero , la tríada pertenece a las tríadas observadas (xo = 1), a diferencia de las tríadas recableadas (mundo de jazz aleatorio) (xo = 0), en segundo lugar, el peso mínimo de las patas triples (xw), y tercero, la interacción entre las indicador de triada y peso mínimo de las patas triples (xoxw). Estimé la siguiente ecuación de regresión logística:

lnP(y=1|X)1P(y=1|X)=α+βoxo+βwxw+βow(xoxw)


Estimé este modelo logit en una muestra combinada, donde se incluyen todas las tríadas observadas (5,338,093 tríadas), y se incluye una muestra del mismo tamaño a partir de las tríadas recableadas. Hubo 89,327,277 tríadas conectadas en los 100 mundos aleatorios de jazz, incluí una muestra aleatoria de probabilidad uniforme de 5,338,093 tríadas, para tener 10,676,186 observaciones para la estimación de regresión logística. Las estimaciones de los coeficientes se muestran en la Tabla 3. Dado que las unidades de observaciones no son independientes (las tríadas pueden compartir en dos enlaces), se utilizó una prueba de permutación para estimar valores de p para coeficientes.5


Tabla 3. Estimación de regresión logística de clausura triádica

BetaOdds ratioSEp
Observado2.71215.054.003.000
Min legs weight1.1003.005.002.000
Observed * Min legs weight−.639.528.002.000
Constante−2.981.051.003.000
N de observaciones10,676,186
Pseudo R-square.302
Log likelihood−5,122,486
Los resultados muestran que las probabilidades de cierre en general son mucho más altas (15.054 veces más) con las tríadas observadas que con las recableadas. En el mundo real del jazz, los músicos tocan entre sí en repetidas ocasiones, mientras que en el mundo conectado no hay nada que garantice la coherencia: no hay identidades de grupo y los líderes de la banda tocan varias veces con los mismos músicos. La probabilidad estimada de cierre para la tríada conectada más débil (con dos aristas de fuerza uno, es el peso mínimo de una pierna) es igual a .549, mientras que la misma probabilidad estimada para las tríadas recableadas es .133 (en línea con los valores iniciales de Fig. 3). Las probabilidades de cierre se triplican (se multiplican por 3.005) con cada incremento adicional en el peso mínimo de la pierna para triadas retrabajadas, pero para las tríadas observadas, un aumento en el peso mínimo de la pierna solo multiplica las probabilidades de cierre en 1.587 (3.005 * .528). Las tríadas observadas tienen una gran tendencia inicial a ser cerradas, pero también tienden a "permanecer abiertas por más tiempo" al aumentar el peso de los enlaces.

Lo que esto se traduce como un proceso real en el jazz, es que los jugadores en el mundo real del jazz pueden reunirse en una sesión en la que un músico había tocado mucho con uno y otro músico, pero estos dos alternos nunca se habían visto en el estudio. Las tríadas prohibidas parecen ser una característica distintiva significativa del mundo del jazz, que no aparece en la versión de este mundo reencadenada aleatoriamente. Si bien el mayor cierre del mundo del jazz observado puede explicarse fácilmente por factores eliminados por la reconfiguración, como la agrupación basada en la proximidad geográfica, el estilo y la lealtad al líder de la banda, el cierre más bajo en tríadas de alto peso no es trivial aspecto del mundo del jazz observado.

Las tríadas que consideramos hasta ahora fueron recortadas de su contexto de sesión: el número y la composición de los músicos por sus instrumentos, y el tiempo específico de grabación. La pregunta que respondo posteriormente es si la proporción de tríadas prohibidas en el nivel de sesiones es diferente en los datos observados y recableados. Hasta ahora hemos revisado la probabilidad de cierre por el peso de los enlaces en las patas de tresillo, sin considerar el contexto de la sesión. Nuestra unidad de análisis relevante para el éxito es la sesión, y la pregunta que me dirijo es si la prevalencia de las tríadas prohibidas en las sesiones observadas es diferente de las sesiones reconectadas. Para responder a esta pregunta, comparé la distribución de la densidad de triadas prohibidas en las sesiones observadas con la densidad promedio que vemos en 100 mundos de jazz configurados aleatoriamente.

La Figura 4 muestra la distribución de la simulación de la proporción menos observada de tríadas prohibidas, para las sesiones con al menos una tríada prohibida observada, y los diagramas de densidad superpuesta de las densidades recableadas y observadas de las tríadas prohibidas. Utilizando la estimación de la densidad del núcleo, 6 vemos que la mayoría de las sesiones simuladas tienen una proporción menor de tríadas prohibidas que la proporción observada. Solo en el 9.9% de las sesiones hemos visto una proporción de tríadas prohibidas que es más alta que la observada. Para probar la hipótesis nula de que los dos conjuntos de proporciones de tríadas prohibidas (simulados y observados) provienen de la misma distribución, utilicé una prueba de rango con signo de Wilcoxon y una prueba de Kolmogorov-Smirnov para la igualdad de distribuciones de probabilidad. Ambas pruebas no proporcionan soporte para la hipótesis nula de distribuciones iguales. El puntaje Z de la prueba de rango con signo de Wilcoxon es igual a 124.7, con un valor p correspondiente de 0.000. La estadística de Kolmogorov-Smirnov equivale a 0.665, con un correspondiente valor de p corregido de 0.000. Esto respalda la hipótesis de que la proporción de tríadas prohibidas en las sesiones de jazz observadas es más alta de lo que esperaríamos solo en función del tamaño de las sesiones y la distribución de la participación de la sesión de músico.

Fig. 4
Estimación de la densidad del núcleo de: una proporción menos observada de tríadas prohibidas observadas, yb la proporción readaptada media y la proporción observada de tríadas prohibidas




Modelos de regresión del éxito

Usé modelos de regresión para relacionar los tipos de tríada con el éxito. La variable dependiente, la medida del éxito, en los modelos de regresión es el número de lanzamientos, que van de uno a 176. (La variable dependiente en los modelos OLS es el logaritmo de diez bases del número de lanzamientos que van desde .301 a 2.478 .) Nuestras variables independientes clave representan la densidad de tres tipos de tríadas: tríadas prohibidas, tríadas cerradas y tríadas abiertas. Las pruebas de multicolinealidad se muestran en el Apéndice A. Las tríadas prohibidas se definen como tríadas con un peso mínimo de tres patas (w (2) ≥ 2), pero los resultados presentados son sólidos para variar este umbral. (Consulte el Apéndice B para obtener detalles sobre la solidez del modelo para variar w (2)). Estoy usando la categoría de tríadas abiertas como referencia en los modelos multivariados e ingreso los términos al cuadrado para densidades de tríadas cerradas y prohibidas para capturar no lineal (cuadrático ) relaciones.
Para mitigar las cotizaciones estimadas sesgadas a la censura de derechos en los datos, excluí todas las sesiones después del año 2000, dejando al menos un período de 10 años para que cada sesión acumule registros. Lamentablemente, las fechas de publicación de los lanzamientos no están disponibles en el conjunto de datos Tom Lord, por lo que no pude estimar la disminución en la frecuencia de las versiones por tiempo. Sin embargo, estimé modelos con ventanas de tiempo variable omitidas del lado derecho (15 y 20 años), que no afectaron los hallazgos principales. (Consulte el Apéndice C para obtener detalles sobre la solidez de los límites de tiempo del lado derecho).
Antes de especificar modelos multivariantes, me dirijo a las relaciones bivariadas entre las densidades y el éxito de la tríada. La Figura 5 muestra la relación cuadrática bivariada entre tres variables de densidad de tríada y el número de liberaciones. Los tres tipos de tríadas muestran una relación inversa en forma de U con el número de lanzamientos: la densidad óptima para cada tipo de tríada es alrededor del medio del rango. Para probar la naturaleza cuadrática de estas relaciones, incluí también estimadores categóricos y de bajo rendimiento del número esperado de liberaciones. Para el estimador categórico, convertí las variables de densidad de tríada de escala de intervalo a cuatro categorías (de 0,00 a menos de 0,25, de 0,25 a menos de 0,50, de 0,50 a menos de 0,75 y de 0,75 a 1,00). El primer recuadro de cada panel muestra el número de lanzamientos previstos para las cuatro categorías, con intervalos de confianza del 95%. El segundo recuadro muestra una estimación de suavizado del gráfico de dispersión ponderado localmente del número previsto de liberaciones, con un ancho de banda f = .5 y con ponderación tricube (Cleveland 1979). Las escalas de ejes verticales no son uniformes en todas las inserciones para permitir que las figuras pequeñas sean más visibles.



Fig. 5
Modelos cuadráticos bivariados de tipos de tríada y éxito, con intervalos de confianza del 95%. Los conjuntos muestran estimadores categóricos y de baja cuantía para: una densidad de tríadas prohibidas; b densidad de tríadas cerradas; c densidad de tríadas abiertas

Todas las densidades de la tríada tienen una relación invertida en forma de U con el éxito, lo que sugiere que una tríada demasiado pequeña o demasiado grande es una estructura social patológica.

Para probar la conveniencia de la operacionalización cuadrática, calculé el cambio en R-cuadrado para los modelos para cada una de las tres formas de tríada. Para una determinada forma de tríada, por ejemplo, la densidad de las tríadas prohibidas, primero calculé un modelo con una constante y la variable de densidad de tríada prohibida. Luego, se estimó un segundo modelo con el cuadrado de las variables de densidad de tríadas prohibidas añadidas, y registré la mejora del ajuste. Repetí este proceso hasta la octava potencia y tracé la secuencia resultante de mejoras de cuadrados R. Dibujé una línea para cada una de las tres formas de tríada. Los resultados se muestran en la Fig. 6. Para cada tríada, el modelo óptimo es el que tiene el término cuadrático. Los modelos de tríada abierta tienen un ajuste óptimo con un término cúbico, pero la mejora con respecto al término cuadrático es pequeña, y en aras de la parsimonia del modelo, la primera y la segunda potencia se incluyeron para las tres variables de forma de la tríada.


Fig. 6
Cambio R-cuadrado en predicciones OLS del número log de liberaciones por el número de términos modelo (potencias) de variables de densidad tríada

En el siguiente análisis estoy probando si la ventaja de las tríadas prohibidas sobre otras formas de tríada es estadísticamente significativa, y si esta relación permanece después de controlar otras hipótesis alternativas clave. Se ingresan otras variables independientes, que representan explicaciones alternativas clave para mantenerse constante. Una posible explicación alternativa a las tríadas prohibidas puede ser la fuerza de los vínculos en general. Es posible que las tríadas prohibidas sean solo predictores significativos de éxito porque contienen bordes de mayor peso, y de hecho es la intensidad de los vínculos en la sesión lo que está relacionado con el éxito. Por lo tanto, ingresé la fuerza de la mediana de la atadura en la sesión, y también el cuadrado de la fuerza de la atadura media para probar una relación no lineal. Es razonable esperar que a niveles muy altos de fuerza de los lazos los músicos no tengan tanto éxito (los rendimientos de la fuerza de empate disminuyan), ya que un alto valor de fuerza de empate puede indicar que se traba en colaboración repetida y exclusiva con el mismo grupo de músicos .

La innovación instrumental es otra posible explicación alternativa: la sesión no es exitosa debido a una dinámica de redes, sino porque las tríadas prohibidas son un sustituto para experimentar con una nueva combinación de instrumentos: traer un nuevo músico es realmente acerca de traer un nuevo instrumento. Por lo tanto, ingresé la distinción: la distancia media del coseno del vector de combinación de instrumentos de la sesión (en el espacio de los 200 instrumentos más frecuentes) a todas las demás sesiones durante los 5 años anteriores (t-1 a t-5).

Las siguientes cuatro variables se ingresaron para capturar los atributos clave de los músicos en la sesión. El número total de músicos podría estar relacionado tanto con el éxito (una sesión que emplea más músicos puede ser más exitosa) como con la densidad de los tipos de tríada (una sesión grande puede tener una mayor diversidad de tipos de tríada). Proporción de principiantes es la proporción de músicos para quienes la sesión actual es la primera. El empleo de músicos principiantes podría correlacionarse con un cierre más bajo (tríadas más abiertas y prohibidas), y también podría correlacionarse con un menor éxito, ocultando así la relación entre los tipos de tríada y el éxito. El éxito pasado de los músicos podría ser un factor de éxito actual y una razón para tenerlos en cuenta a pesar de la falta de vínculos previos con otros músicos. Y finalmente, la cantidad total de experiencia de los músicos (medida en el número total de sesiones pasadas de los músicos) puede contribuir tanto al éxito como a las tríadas prohibidas.7 La Tabla 4 muestra los coeficientes de correlación de Pearson para todos los pares de variables.


Table 4
Pearson correlation coefficients
1.2.3.4.5.6.7.8.9.10.11.
1. Releases1.000
2. log(Releases).8221.000
3. Forbidden triads.026.0461.000
4. Closed triads−.018−.036−.5101.000
5. Open triads.003.011−.066−.8251.000
6. Median tie strength.026.043−.036.165−.1681.000
7. Distinctiveness−.159−.235−.070.106−.077−.0171.000
8. Musicians (n).061.065.000−.072.084−.087−.0971.000
9. Newbies proportion−.053−.086−.181.266−.189−.216.081.0611.000
10. Median past releases.683.663.024−.015.001.026−.187.082−.0351.000
11. Past sessions (n).025.065.252−.256.131.120−.160.224−.309.0381.000
12. Year−.360−.551−.005−.017.022−.026.306−.035−.037−.430.032


Calculé tanto los modelos OLS de variables dependientes registradas como los modelos binomiales negativos apropiados para las variables dependientes del recuento. Es más apropiado si la modelización estadística del número de liberaciones tiene en cuenta la naturaleza de recuento de esta variable dependiente. Las versiones se acumulan con el tiempo y adquieren valores discretos positivos. Los modelos ordinarios de mínimos cuadrados que utilizan las variables de publicación originales no son del todo apropiados, ya que la distribución de las variables de recuento es más sesgada que una distribución normal supuesta. Los modelos binomiales negativos son especialmente apropiados para las variables de conteo excesivamente dispersas, que se ajusta al número de liberaciones que se acumulan en el tiempo (Cameron y Trivedi 1998; Greene 2003). Otro enfoque posible es usar la regresión OLS en una variable dependiente registrada, que es menos sesgada que la original. Para probar la robustez del modelo, también utilicé modelos OLS con una variable dependiente registrada. El uso de un modelo binomial negativo tiene la ventaja de tener en cuenta el exceso de dispersión y de estimar explícitamente un parámetro de sobredispersión, que no está disponible en los modelos OLS del número de publicaciones registradas.

Estimé estos modelos con toda la sesión agrupada, y con efectos fijos incluidos para los líderes de la banda, para dar cuenta de la heterogeneidad no observada específica del líder en el éxito. Más allá de las variables independientes presentadas anteriormente, tanto el éxito como la estructura de la red en la sesión pueden ser altamente dependientes de las características no observadas del líder de la banda (o identidad de la banda en décadas posteriores). Una sesión grabada por un líder de banda de gran reputación puede atraer a músicos de alto perfil con un historial probado y posiblemente una falta de cierre (alta densidad de triadas prohibidas), y la misma sesión podría ver más lanzamientos posteriores. Estimar los modelos que mantienen constante la identidad del líder (estimar los efectos dentro del líder) nos puede acercar al objetivo de capturar el impacto de la estructura de la red en el éxito. Seguí la derivación del modelo binomial negativo de efectos fijos propuesto por Hausman y los coautores (Hausman et al., 1984), y también incluí los modelos OLS de efectos fijos para el número de publicaciones registradas. Esto es especialmente útil a la luz de las dudas más recientes sobre el modelo Hausman, a saber, que la derivación construye los efectos fijos en la distribución de la heterogeneidad gamma, α, no la media (Allison y Waterman 2002).


Comenzando con el más simple de los estimadores, un modelo OLS con una variable dependiente registrada estima la siguiente ecuación:

 logys=βXs+εs

para s = 1,2,…Nsessions, donde y s es el número de lanzamientos que resultaron de la sesión, β son parámetros del modelo, X s son el conjunto de variables independientes, y ε s es el término de error, y la estimación es mínimos cuadrados ordinarios . El mismo modelo con efectos fijos de líder de banda se escribiría como:

ln μs=βXs+εs

para l = 1,2,…Nleaders, y s = 1,2,…Nsessions, donde un término adicional, γ l estima el efecto fijo específico del líder de banda (un nivel de referencia de éxito específico de líder de banda).

El modelo binomial negativo estima la frecuencia de aparición de las liberaciones y tiene en cuenta la naturaleza de los datos de recuento como enteros no negativos. El modelo binomial negativo sin efectos fijos se estima mediante la siguiente ecuación:

logys=γl+βXls+εls

para  l = 1,2,…Nleaders, donde μ s  = E(y s | x s )es la tasa de aparición de lanzamientos, β son parámetros del modelo, X s son el conjunto de variables independientes, ε s es el término de error, y el modelo se basa en un estimador de máxima verosimilitud. El modelo binomial negativo es una extensión, o más bien una versión generalizada de los modelos de regresión de Poisson, ya que estima el parámetro de sobredispersión α, que es igual a cero para el caso especial que es un modelo de Poisson (sin sobredispersión, una media que iguala diferencia). La hipótesis nula de que α es igual a cero es comprobable.8

La ecuación para un modelo binomial negativo con efectos fijos es entonces:

logys=γl+βXls+εls

para l = 1,2,…Nleaders, y s = 1,2,…Nsessions, donde  μ ls  = E(y ls | x ls ) es la tasa de ocurrencia, γ l es el efecto fijo específico del líder de la banda, β son parámetros del modelo , X ls son el conjunto de variables independientes, y ε ls es el término de error.

Predictores del éxito

La Tabla 5 resume los resultados de estos modelos estadísticos. Los primeros dos modelos se estiman sin efectos fijos para los líderes de la banda, mientras que los modelos tercero y cuarto incluyen efectos fijos para los líderes de la banda. El primer y el tercer modelo son modelos OLS del número de registro de las versiones, el segundo y el cuarto son modelos binomiales negativos (NB) del número de versiones. La prueba de sobredispersión en los modelos binomiales negativos indica que la tasa de ocurrencia de las liberaciones es significativamente más dispersa que una distribución de Poisson (α = .257, con p <.000), lo que garantiza la especificación binomial negativa.

Tabla 5
Modelos estadísticos de éxito
1. OLS model of log(Releases)
2. NB model of Releases
3. OLS model of log(Releases) with fixed effects
4. NB model of Releases with fixed effects
Forbidden triads
.0445*** (.0100)
.2648*** (.0511)
.0316*** (.0112)
.2253*** (.0528)
Forbidden triads (squared)
−.0383*** (.0114)
−.2282*** (.0585)
−.0291** (.0127)
−.2672*** (.0606)
Closed triads
−.0052 (.0086)
−.0252 (.0449)
.0147 (.0099)
.0730 (.0471)
Closed triads (squared)
.0044 (.0078)
.0114 (.0409)
−.0173 (.0090)
−.0843* (.0429)
Median tie strength
−.0007*** (.0002)
.0071*** (.0012)
−.0006* (.0003)
−.0071*** (.0013)
Median tie strength (squared)
.0000* (.0000)
−.0001*** (.0000)
−.0000 (.0000)
−.0000 (.0000)
Distinctiveness
−.0723*** (.0067)
−.5120*** (.0354)
−.0425*** (.0094)
.1248*** (.0428)
Musicians (n)
.0002*** (.0001)
−.0024*** (.0005)
.0011*** (.0001)
.0078*** (.0006)
Newbies proportion
−.0779*** (.0033)
−.5364*** (.0185)
−.0783*** (.0047)
−.2066*** (.0224)
Median past releases
.0358*** (.0002)
.1162*** (.0010)
.0261*** (.0002)
.0239*** (.0003)
Past sessions (n)
−.0000*** (.0000)
.0001*** (.0000)
−.0000*** (.0000)
−.0005*** (.0000)
Year
−.0040*** (.0000)
−.0200*** (.0001)
−.0055*** (.0001)
−.0027*** (.0004)
Constant
.7215*** (.0049)
2.3051*** (.0261)
−.8403*** (.0088)
1.5289*** (.0392)
Fixed effects for band leader
No
No
Yes
Yes
N of observations
81,527
81,527
72,042
72,042
F
7866.36***
1886.44***
Chi-square
65,153.39***
8088.77***
R-square (adjusted)
.536
.189a
.514
.339a
Log likelihood
−139,558.13
−104,666.63
Notes: aMcFadden’s adjusted pseudo R-squared is used. Standard errors are in parentheses. *: P < .05; **: p < .01; ***: p < .001




El coeficiente del primer poder de la densidad de triadas prohibidas es positivo y significativo, mientras que el segundo poder es negativo y significativo. Esto sugiere que, en comparación con las tríadas abiertas, un aumento en las tríadas prohibidas inicialmente puede ser más beneficioso para la cantidad de lanzamientos. La densidad de las tríadas cerradas no es diferente de las tríadas abiertas con respecto a las liberaciones. Estos hallazgos son consistentes en los cuatro modelos, con o sin efectos fijos de líder de banda y con especificaciones OLS y NB.

Esto sugiere que al comparar dos sesiones del mismo tamaño (la misma cantidad de tríadas), la que presenta más tríadas prohibidas (al menos hasta un límite de proporción de tríadas prohibidas) puede tener más éxito que la sesión que solo tiene tríos cerrados y abiertos. . La triada paradójica de lazos fuertes y ausentes parece ser el mejor predictor de éxito, incluso si comparamos sesiones del mismo líder de la banda.

De las variables de control, solo tres son consistentes en los cuatro modelos: Tener una mayor proporción de novatos significa un menor número de lanzamientos. Una mejor trayectoria pasada (una mediana de lanzamientos más alta para las grabaciones pasadas de los músicos en la sesión) significa una mayor cantidad de lanzamientos a la sesión objetivo. El número total de lanzamientos disminuye con los años, lo que indica una censura de largo alcance o una disminución general del nivel de éxito de la sesión de jazz promedio a lo largo del tiempo.
Para comprender mejor la relación cuadrática entre los tipos de tríada y el éxito, tracé los efectos marginales de la densidad de tríada prohibida y la densidad de tríada cerrada en el número de lanzamientos para los cuatro modelos. Los gráficos de efectos marginales muestran los niveles predichos de la variable dependiente a medida que variamos una variable independiente dada -una densidad de tríada- y mantenemos todas las demás variables fijadas en sus valores medios. Estas tablas nos permiten manipular una sesión imaginaria donde cada aspecto, incluida la identidad del líder de la banda para especificaciones de efectos fijos, es el mismo, pero la densidad de la tríada en cuestión está cambiando. La Figura 7 muestra dos gráficos de efectos marginales para cada uno de los cuatro modelos.



Fig. 7. Predicción marginal del número de liberaciones para las formas de la tríada, con intervalos de confianza del 95%. un modelo OLS de log (Releases), un modelo de versiones de NB, un modelo de registro de OLS (lanzamiento) con efectos fijos, un modelo de lanzamientos de d NB con efectos fijos


Los cuatro modelos muestran el mismo patrón tanto para la densidad de las tríadas prohibidas como para la densidad de triadas cerradas. El aumento de la densidad de triadas prohibidas también aumenta el número previsto de lanzamientos, con un pico de alrededor de .50 densidad de tríada prohibida (la mitad de las tríadas conectadas son tríadas prohibidas). El número inicial y el máximo de lanzamientos previstos varían de un modelo a otro, y el impulso previsto para el número de lanzamientos desde pasar de triadas no prohibidas al rango óptimo es de entre 1 y 8%. Sin embargo, no hay evidencia de ningún beneficio del cierre. Los cuatro modelos muestran básicamente una línea plana para la densidad triada cerrada (o una línea dentro de los intervalos de confianza iniciales). La categoría de referencia es la densidad de las tríadas abiertas (las tres densidades suman una); estos hallazgos muestran que las tríadas prohibidas superan a las tríadas abiertas y cerradas en su región central.
La Figura 8 muestra gráficas similares de márgenes para la variable de la fuerza de la Mediana. A diferencia de los resultados sobre las tríadas prohibidas, no hay una relación consistente entre la fuerza de la Mediana y el número de lanzamientos.



Fig. 8. Predicción marginal del número de liberaciones para la resistencia media del lazo, con intervalos de confianza del 95%. un modelo OLS de log (Releases), un modelo de versiones de NB, un modelo de registro de OLS (lanzamiento) con efectos fijos, un modelo de lanzamientos de d NB con efectos fijos

Volviendo al ejemplo de Miles Davis, ejecuté la versión binomial negativa de nuestro modelo de regresión con interacciones constantes, lineales y cuadráticas incluidas para sus sesiones. Esto nos permite trazar la forma en que las tríadas prohibidas predijeron el éxito para el líder más emblemático de la banda de jazz. La Figura 9 muestra la diferencia entre las sesiones de Miles y todas las demás. Las tríadas prohibidas parecen haber contribuido más al éxito de las sesiones de Miles Davis que a todas las demás sesiones, en promedio. Si bien el mayor éxito de línea de base podría no ser sorprendente (esta fue la motivación para nuestras operacionalizaciones de efectos fijos), la curva de aceleración más rápida para Miles es claramente diferente del resto. No es solo que una sesión de Davis sea más exitosa en promedio, pero sus sesiones obtuvieron más éxito de las tríadas prohibidas que otras. (Tenga en cuenta que la figura solo muestra tríadas prohibidas hasta .50, ya que los errores estándar aumentan drásticamente para las sesiones de Miles Davis después de ese punto: simplemente hubo muy pocas sesiones para hacer predicciones significativas sobre el rango superior).

Fig. 9. La trama de efectos marginales para la densidad de triadas prohibidas en las sesiones de Miles Davis utilizando el modelo NB 



El ejemplo de Miles Davis indica que los líderes de banda de alto perfil podrían aprovechar las estructuras de red, como las tríadas prohibidas. Esto plantea la pregunta de si los resultados de nuestro modelado estadístico son robustos a la omisión de los líderes de banda de alto perfil. Para probar esto, omití 131 artistas de jazz más destacados, aquellos que recibieron la nominación de National Masters of the Arts Jazz Masters.9 Los resultados sin las sesiones de los destacados líderes de la banda son prácticamente idénticos a los resultados en el conjunto de datos completo. (Ver el Apéndice D para más detalles).

En resumen, las sesiones de jazz son más exitosas si los músicos han prohibido las tríadas en su red de colaboración: si hay una diversidad de estilos socialmente evolucionados, logrando un equilibrio productivo entre la familiaridad y la frescura. Es importante contrastar el hallazgo consistente sobre la importancia de las tríadas prohibidas con la evidencia ambigua de la importancia de las combinaciones de instrumentos. La distinción en la combinación del instrumento es un predictor negativo de éxito en tres de los cuatro modelos, contrariamente a la imagen percibida del jazz como un dominio de constante experimentación. Parece que una mezcla inesperada de instrumentos no es suficiente para generar un nuevo sonido. Las tríadas prohibidas son sobre un tipo de experimentación más sutil y social que puede aprovechar una nueva combinación de estilos socialmente evolucionados en lugar de simplemente una combinación de instrumentos.

Conclusiones

La historia del campo del jazz es una constante experimentación: una búsqueda de nuevos sonidos. Este documento trata sobre la fuente de nuevos sonidos que hacen que una grabación sea exitosa. Probé hipótesis sobre la estructura de la red de colaboración, y las hipótesis sobre los atributos de los músicos, y la sesión. La explicación alternativa más prometedora sobre la importancia de las combinaciones de instrumentos no fue respaldada por nuestros modelos de regresión. Una instrumentación distintiva es una responsabilidad, en todo caso: la mayoría de los modelos muestran un coeficiente negativo significativo. Nuestro análisis sugiere una fuente diferente para nuevos sonidos, basada en la combinación de estilos desarrollados conjuntamente, en lugar de simples instrumentos.

Representé una red de colaboración de sesiones por la densidad de tipos de tríada. La imaginería general de las redes sociales analiza las tríadas de dos tipos: tríadas cerradas que conforman clusters cohesivos y triadas abiertas que forman un puente entre estos clústeres. Se considera que los lazos fuertes están relacionados con el cierre, y los lazos débiles se consideran los componentes básicos de las tríadas abiertas. La tercera posibilidad: la apertura de los lazos fuertes se considera anómala, una categoría rara y residual, una tríada que está prohibida (Granovetter 1973). Hasta ahora nadie cuestionó la intuición de Granovetter desde hace más de cuatro décadas: las tríadas prohibidas no han sido investigadas como estructuras de red de interés.

Yo sostengo que las tríadas prohibidas son de crucial importancia para entender la innovación. La novedad se trata de una interacción entre lo familiar y lo novedoso, sobre la interacción de lazos de confianza y un rostro desconocido. Una tríada prohibida es una molécula de una red innovadora. En esa tríada, dos díadas familiares se encuentran en uno de sus nodos. Un músico invita a dos compañeros a jugar juntos por primera vez. Los extraños también se reúnen por primera vez, pero no tienen ninguna familiaridad para comenzar. El nodo central en una tríada prohibida puede movilizar la confianza que él o ella tiene con los dos alternos, y él o ella puede comenzar el trabajo de traducción entre los dos estilos evolucionados conjuntamente que pueden conducir a un nuevo sonido.