viernes, 23 de febrero de 2018

Usando métricas para detectar fraudes

Detección de fraude utilizando aprendizaje profundo (deep learning) en incrustaciones de grafos y métricas de topología

Graham Ganssle, Ph.D., P.G. || Expero

¿No estás usando grafos todavía? Si no, obviamente no has leído mis otras publicaciones en el blog. Ve a hacer eso, luego instala algo de bondad gráfica, luego regresa aquí. Te veo pronto.



De acuerdo, ahora que eres un experto en grafos, podemos continuar hablando sobre el título de este artículo. Como Andrew Ng señala en su conferencia sobre la aplicación de una función de pérdida de triplete, es común en la literatura de aprendizaje profundo que los títulos sean <dominio de interés> insertados en cualquiera de las secuencias "______ Net" o "Deep ______". En ese espíritu, iba a nombrar este papel Fraude neto o Fraude profundo, pero luego me di cuenta de que la publicación de una publicación de blog de la compañía sobre Fraude profundo probablemente no es la mejor comunicación.

Estoy divagando. Hablemos de detección de fraude.


Figura 1: Un grafo que incluye transacciones financieras corporativas regulares y transacciones financieras fraudulentas.

Lo que realmente queremos es predicción de fraude (y desde allí prevención de fraude), ¿verdad? Sí, pero eso está en una próxima publicación de blog. Hoy hablaremos de atribuir cierto comportamiento a priori a un objetivo de clase binaria, a saber, un objetivo de fraude / notfraud. Veremos dos formas de determinar si una determinada entidad ha realizado o no una actividad fraudulenta, primero utilizando incrustaciones de un grafo y, en segundo lugar, usando varias métricas de topología de un grafo.

Sé lo que estás pensando: si el fraude ya ha sido cometido, ¿a quién le importa? Según este artículo, a todos debería importarles. En 2015, afirma el autor, el costo del etiquetado de fraude falso positivo fue de 118 mil millones de dólares. Eso es mil millones. Con una "b". El costo de los casos reales de fraude fue de solo $ 9 mil millones. No me malinterpreten, nueve mil millones de smackeroos son bastantes, pero es solo el siete por ciento del total de dinero perdido. Etiquetar incorrectamente las transacciones como fraudulento vale tanto como construir una nueva estación espacial internacional. Todos los años. Entonces, sin más digresiones, permítanme mostrarles cómo ahorrar $ 118,000,000,000. (De nada)

Uso de incrustaciones de grafos: Fraude individual

Escenario número uno: desea aumentar la precisión de su herramienta de análisis de fraude de tarjetas de crédito. Primero organizaría sus datos en un grafo, creando instancias de nodos como clientes individuales y comerciantes con propiedades de nodo sobre sus historiales financieros. Construiría enlaces que representen transacciones financieras entre estas entidades con propiedades de nodo, como la marca de tiempo de la transacción y el importe pagado.

Ahora debe incrustar el grafo en un espacio dimensional inferior para que pueda usar un modelo simple para analizarlo. ¿Por qué no insertas directamente tu grafo en tu modelo? Porque las geometrías no son compatibles. Si te interesa la teoría de grafos o la geometría diferencial, léelo para comprender la última oración sobre geometrías. Para aquellos de nosotros que no están dentro de las teorías de graph thingys o different whosits, consideremos como un axioma que tenemos que insertar nuestro grafo.

Aquí hay un grafo con una seria necesidad de incrustación. Como se describió anteriormente, los nodos representan a las personas con tarjetas de crédito y a los comerciantes a quienes les cuelgan el plástico. Tenga en cuenta la compleja estructura tridimensional y la gran cantidad de enlaces, que representan las transacciones financieras.


Figura 2: un grafo antes de la incrustación. Los nodos son titulares de tarjetas de crédito y comerciantes. Los enlaces son transacciones financieras.

Las estrategias de inclusión abundan; algunos son más populares que otros por razones fuera del alcance de este artículo. Mostraré dos más comunes en la imagen siguiente, reducción de dimensionalidad por análisis de componente principal e incrustación espectral por descomposición de valores propios.


Figura 3: la incrustación bidimensional del grafo en la Figura 2. El algoritmo naranja fue PCA, el azul fue incrustación espectral.

Finalmente, estamos listos para construir un modelo. La codificación del grafo incrustado para modelar es tan simple como crear vectores de características a partir de los nodos ahora aplanados. Incluimos las propiedades de nodo (entidad) y enlace (transacción), pero también concatenamos la información de coordenadas incorporada de la imagen anterior. Luego construimos un vector objetivo (o matriz para un régimen objetivo de clase múltiple) de nuestras etiquetas conocidas, activamos nuestra GPU y lo vemos comer.


Uso de métricas de topología: fraude organizacional

Escenario número dos: desea descubrir las organizaciones de lavado de dinero de su base de datos de registros transaccionales. Este problema es un orden de magnitud más interesante que analizar registros transaccionales individuales; en lugar de buscar muestras discretas, estamos interesados ​​en analizar los anillos de interacción financiera. Este es el paradigma en el cual el grafo realmente brilla.

Echa un vistazo a la imagen a continuación. Es un conjunto de empresas que interactúan financieramente. Los colores son representativos de su "comunidad", determinada por un algoritmo de aprendizaje no supervisado. Esta discusión se está acercando peligrosamente al territorio de salsa secreta, así que lo dejo así. La pregunta es, ¿las empresas amarillas están haciendo negocios como de costumbre, o es esta comunidad amarilla realmente un anillo de lavado de dinero?


Figura 4: un grafo de empresas coloreadas por comunidad. ¿Las empresas amarillas en la parte inferior derecha son realmente frentes para un anillo de lavado de dinero?

Paso uno: Combine sus datos en la misma estructura de grafos definida en la sección anterior.

Paso dos: cree un algoritmo inteligente que extraiga subgrafos de interés (las comunidades de color en la imagen anterior) y calcule las métricas de topología para cada comunidad. "Métrica de topología" es un nombre elegante para las descripciones de la geometría del subgrafo en cuestión. Por ejemplo, una métrica de topología popular es number-of-edges; en el subgrafo amarillo tenemos 23 bordes. Existen muchas de estas métricas de topología, y calculamos varias docenas para cada subgrafo.

Paso tres: cree un vector de características de estas métricas de topología para cada subgrafo. Concatenar las propiedades del nodo en otro tipo de forma secreta. Una implementación de ejemplo de esto sería calcular las propiedades de nodo promedio de todos los nodos en el subgrafo.

Paso cuatro: construya un vector objetivo (o matriz para un régimen objetivo de clase múltiple) de nuestras etiquetas conocidas, active nuestra GPU y deje que se horneen.

Envuélvelo ya

Estas técnicas dependen en gran medida de qué tipos de datos están disponibles y la estructura de las entidades que describen estos datos. La implementación debe ser personalizada (o al menos apropiada para el pedido) para cada banco / agencia / investigador interesado en realizar este trabajo. Es probable que el uso de una solución estándar empeore el problema, pero cuando se diseñan e implementan correctamente, estas técnicas pueden ahorrar miles de millones de dólares por año.

PD Sintonícese la próxima semana para obtener una versión más sofisticada de este análisis utilizando una metodología kernelizado llamada Graph graph convolutional network.

P.P.S. La detección de fraude es un problema manejable sin grafo. ¿Desea encontrar estafadores sin volver a manipular su base de datos 100 PB en otro formato? No hay problema. Nosotros hacemos eso, también.

miércoles, 21 de febrero de 2018

Optimización de motores de búsquedas a través de redes de texto

Tutorial de SEO: visualización de palabras clave para la optimización del motor de búsqueda

Nodus Lab


La visualización de redes de texto de los resultados de búsqueda de Google puede ser muy útil para las comprobaciones de optimización de motores de búsqueda (SEO). Los fragmentos de texto que los motores de búsqueda muestran en sus resultados de búsqueda se consideran los más relevantes para la consulta de búsqueda. Por lo tanto, sería muy útil saber qué otras palabras contienen esos fragmentos, de modo que podamos crear contenido que sea más relevante tanto para Google como para la audiencia.

Demostraremos nuestro enfoque utilizando el ejemplo de este artículo sobre análisis de redes de texto y visualización de datos para la optimización de motores de búsqueda.

Paso 1: identificar las consultas de búsqueda relevantes: contexto de SEO

Queremos que este artículo sea leído por aquellos interesados ​​en SEO, análisis de redes de texto y visualización de datos. Entonces, el primer paso es comprender mejor lo que las personas realmente están buscando cuando buscan esos términos: el contexto. Una búsqueda rápida en la Herramienta de palabras clave de Google y la función de autosugestión de Google revela que las siguientes frases de búsqueda más destacadas se utilizan en este contexto:



en todos los casos, los usuarios están buscando
"Herramientas", "técnicas", "software" y "tutorial"

Por lo tanto, vemos que hay un gran interés para el software y los tutoriales relacionados con la optimización del motor de búsqueda, así como la visualización de datos.

Lo que significa que este artículo se escribirá específicamente para incluir esas palabras clave tanto en su título principal (etiquetas) como en todo el texto.


Paso 2: Análisis de red de texto de resultados de búsqueda de Google: visualización de datos de SEO

Ahora que sabemos lo que los usuarios realmente están buscando, necesitamos ver qué resultados de búsqueda ven realmente. Esto es importante por dos razones diferentes:

  1. Los fragmentos de resultados de búsqueda contienen el texto que los motores de búsqueda consideran relevante para la consulta de búsqueda. Por lo tanto, sabremos qué otras palabras clave debe incluir nuestro texto para aparecer en los resultados de búsqueda.
  2. Al utilizar la visualización de la red de texto, identificaremos las lagunas, o las áreas vacías entre los grupos de palabras clave que tienden a coincidir en los fragmentos de texto. Estas lagunas nos mostrarán lo que falta en los resultados de búsqueda, de modo que podamos incluir esas partes faltantes en nuestro texto y asegurarnos de que aparezca en la parte superior de los resultados de búsqueda de Google.

Usaremos la herramienta de visualización de red de texto InfraNodus para visualizar fragmentos de texto de diferentes resultados de búsqueda. Este instrumento nos mostrará un gráfico de las palabras que tienden a coincidir una al lado de la otra en los mismos fragmentos (de las primeras 5 páginas de resultados). También nos mostrará las palabras clave más relevantes que se utilizan con la consulta de búsqueda que estamos estudiando.

Usando la función "Importar" de InfraNodus creamos una visualización de red de texto de los siguientes términos de búsqueda:

"SEO de optimización de motores de búsqueda"



Los propios términos de búsqueda se excluyen del gráfico, por lo que podemos ver el contexto real en el que aparecen en los resultados de búsqueda.

Hay tres clústeres prominentes en este gráfico, lo que significa que esas palabras tienden a coincidir más a menudo juntas:

1. "mejorar", "visibilidad", "sitio web", "ranking"



2. "optimizar", "google", "rango"



3. "servicio", "marketing", "agencia"



Esto demuestra que los resultados de búsqueda de Google básicamente tienen 3 temas principales: mejorar la visibilidad de un sitio web, optimizar el rango del sitio web de Google y también propuestas de / para agencias de marketing.

Lo que significa que si queremos encajar bien en esa constelación con nuestro artículo, tenemos que hacer dos cosas.

Primero, debemos incluir todos esos términos en este artículo (especialmente en,, y otras etiquetas). Hicimos eso de manera automática porque hemos estado escribiendo sobre las palabras anteriores.

En segundo lugar, el gráfico muestra lo que los usuarios realmente encuentran. Necesitamos proponerles algo original, algo que aún no encuentran. Esto se puede hacer cerrando las brechas en el gráfico entre los clústeres de términos de búsqueda que identificamos.

Puede jugar con el gráfico usando la interfaz a continuación. Haga clic en el icono del gráfico de la esquina superior derecha para eliminar los fragmentos de texto, haga clic en los nodos del gráfico para ver en qué resultados de búsqueda aparecen y cómo se relacionan entre sí.

Paso 3: mejore la visibilidad y el ranking de Google de la página de su sitio web - escriba algo original

Es importante notar aquí que Google todavía tiene en cuenta cuántas páginas externas se vinculan a su página y esto afectará la clasificación. Sin embargo, las palabras clave, especialmente para los sitios web que ya tienen un alto rango, son muy importantes.

Ahora demostraremos cómo puede mejorar la visibilidad y clasificación de esta página

  1. cerrar las brechas entre los diferentes clústeres de palabras clave que aparecen en el grafo y también
  2. proponer algo nuevo (que nuestros competidores en los resultados de búsqueda no escriben).

El primer punto ya está algo completo porque este artículo contiene todos los posibles conglomerados de palabras (contextos) que ya aparecen en los resultados de búsqueda. No nos arriesgaremos a repetirlos una vez más para evitar penalizaciones por spam de Google.

En cambio, puede ser interesante mencionar algunas veces más algunos términos que los usuarios están buscando junto con "seo" y "optimización de motores de búsqueda", pero que realmente no aparecen en los resultados de búsqueda. Estos serán mencionados más adelante.

El segundo punto también se cumple por el hecho de que estamos escribiendo sobre un nuevo tema: la visualización de la red de texto de los resultados de búsqueda de Google, que no encontrará en ningún otro lado.

Es importante tener esto en cuenta cuando se crean textos optimizados para SEO: cerrar las brechas entre diferentes temas y agregar nuevos aumentará su clasificación en los motores de búsqueda.

Paso 4: InfraNodus como herramienta SEO - Software para visualización de red de texto

Hemos mostrado más arriba cómo la herramienta de visualización de red de texto InfraNodus se puede utilizar para los resultados de búsqueda de Google.

Cree una cuenta (obtenga un código de invitación de nosotros), haga clic en "Importar", elija "Búsqueda de Google", escriba su consulta de búsqueda, elija el nombre para el Contexto (la categoría / lista donde se guardan los resultados), elija el número de los fragmentos de resultados de búsqueda que desea ver en el gráfico (preferimos 50), haga clic en "Guardar" y visualice el gráfico.



También puede usar el análisis de red de texto para sus textos, para que pueda ver qué tan relevantes son para las consultas de búsqueda y los resultados de búsqueda en su tema. Para hacer eso, simplemente copie y pegue el texto en InfraNodus (o use la función de importación) y se visualizará como una red:



Si excluimos los términos como "búsqueda", "seo", "optimización" que deben figurar en este texto, vemos que las palabras clave como "resultado", "google" y "palabra clave" son las más destacadas. Tal vez los dos últimos están bien, pero el primero, "resultado", no fue prominente en las consultas de búsqueda y en la búsqueda ... err ... respuestas. Por lo tanto, tendría sentido revisar este artículo y eliminar esa palabra clave, por lo que no es tan prominente.

Paso 5: Salga de la burbuja del filtro: mejore el discurso en línea

Demostramos más arriba cómo se puede usar el análisis de red de texto para optimizar las páginas de sitios web para la búsqueda. El enfoque no es nuevo, sin embargo, esperamos que las herramientas y técnicas que proponemos sean útiles para cualquier persona interesada en SEO y visualización de datos.

Una cosa interesante de agregar es que la mayoría de las páginas en la web en realidad se crean con motores de búsqueda en mente, lo que significa que la mayoría de las veces vemos lo que esperamos encontrar. Por lo tanto, si le interesa darles a sus usuarios un poco de valor agregado y ayudarlos a salir de la burbuja de filtro de los motores de búsqueda, intente identificar los temas que serían novedosos para el discurso ya existente disponible en línea. Los gráficos de red de texto pueden ser muy útiles para eso y ofrecen una clara metáfora visual para la interacción digital.





PD
Después de dos días, este artículo ha estado en línea:

lunes, 19 de febrero de 2018

Homofilia explicada por similares respuestas neuronales

Respuestas neuronales similares predicen amistad

Carolyn Parkinson, Adam M. Kleinbaum y Thalia Wheatley
Nature Communications volume 9, Número de artículo: 332 (2018)
doi: 10.1038 / s41467-017-02722-7



Resumen

Las redes sociales humanas son abrumadoramente homófilas: los individuos tienden a hacerse amigos de otros que son similares a ellos en términos de una gama de atributos físicos (por ejemplo, edad, sexo). ¿Las similitudes entre amigos reflejan similitudes más profundas en la forma en que percibimos, interpretamos y respondemos al mundo? Para probar si la amistad, y más generalmente, la proximidad de las redes sociales, se asocia con una mayor similitud de respuesta mental en tiempo real, utilizamos imágenes de resonancia magnética funcional para escanear los cerebros de los sujetos durante la visualización gratuita de películas naturalistas. Aquí mostramos evidencia de homofilia neuronal: las respuestas neuronales cuando se ven películas audiovisuales son excepcionalmente similares entre amigos, y esa similitud disminuye al aumentar la distancia en una red social del mundo real. Estos resultados sugieren que somos excepcionalmente similares a nuestros amigos en la forma en que percibimos y respondemos al mundo que nos rodea, lo que tiene implicaciones para la influencia y la atracción interpersonal.

Introducción

La noción de que las personas tienden a parecerse a sus amigos es una intuición duradera, como lo demuestra el adagio de siglos de antigüedad: "las aves de un plumaje se juntan" 1. La investigación ha confirmado esta intuición: los vínculos sociales se forjan a una tasa superior a la esperada entre individuos de la misma edad, sexo, etnia y otras categorías demográficas2. Esta semejanza en las redes de amistad se conoce como homofilia y se ha demostrado en diversos contextos y ubicaciones geográficas, incluidas las redes sociales en línea2,3,4,5. De hecho, la evidencia consistente sugiere que la homofilia es un antiguo principio de organización y tal vez la regularidad empírica más sólida de la socialidad humana. A pesar de las presiones para dividir el trabajo y organizar las necesidades complementarias y los roles en los tipos de grupos sociales en los que evolucionaron los humanos, los lazos sociales en las pequeñas bandas de cazadores recolectores reflejan similitudes en lugar de diferencias en una variedad de atributos, incluyendo edad, peso, cuerpo grasa, fuerza de agarre y tendencias de comportamiento cooperativo4. Ejemplos significativos de heterofilia, que se refiere a la tendencia a asociarse con otros que son diferentes de uno mismo, son notablemente más raros en tales grupos. En consonancia con su historia antigua, la homofilia también caracteriza las redes sociales de nuestros parientes primarios cercanos6 y se ha sugerido que confiere ventajas para la cohesión, la acción colectiva y la empatía4,6. Cuando los humanos forjan vínculos con individuos que son diferentes a ellos, estas relaciones tienden a ser instrumentales, orientadas a tareas (por ejemplo, colaboraciones profesionales que involucran personas con habilidades complementarias7), y de corta duración, a menudo disolviéndose después de que las personas involucradas hayan logrado su objetivo compartido8. Por lo tanto, las redes sociales humanas tienden a ser abrumadoramente homófilas8.

A pesar de la sólida evidencia de que la homofilia organiza las redes sociales humanas, aún existen lagunas significativas en nuestra comprensión de cómo surge y funciona la homofilia en estas redes3,6. Los estudios previos de homofilia se han ocupado principalmente de los rasgos físicos y las variables demográficas, como la edad, el sexo y la clase. Es importante destacar que la investigación adicional ha demostrado que la homofilia se extiende más allá de las señales demográficas abiertas, al menos a algunos aspectos del comportamiento y la personalidad. Por ejemplo, las tendencias conductuales (por ejemplo, donaciones en juegos de bienes públicos) asociadas con el comportamiento altruista son más similares entre individuos que son amigos en comparación con aquellos que no4, de acuerdo con las sugerencias de la teoría evolutiva del juego de que el comportamiento altruista solo beneficia a las personas también se comportan de forma altruista9,10. Sorprendentemente, la proximidad de las redes sociales es tan importante como la relación genética y más importante que la proximidad geográfica para predecir la similitud de las tendencias de comportamiento cooperativo de dos individuos4. Por lo tanto, aunque la investigación previa sobre homofilia se centró principalmente en variables relativamente burdas, como las categorías demográficas, un creciente cuerpo de evidencia ha comenzado a ir más allá de los atributos demográficos externos evidentes, y sugiere que la proximidad de las redes sociales puede ser un poderoso predictor de similitud conductual.

Además de las tendencias cooperativas de comportamiento descritas anteriormente, algunos rasgos de personalidad también pueden exhibir una sutileza social. Dos de los "Cinco Grandes" rasgos de personalidad -extraversión11,12 y apertura a la experiencia12- parecen ser más similares entre amigos que entre individuos que no son amigos entre sí. Sin embargo, los rasgos restantes de los Cinco Grandes no predicen bien la formación de la amistad13. Las similitudes en la conciencia y el neuroticismo no se asocian con la formación de amistades12, y en algunos estudios se ha encontrado evidencia de niveles más agradables de rasgos entre los amigos12, pero no en otros11.

Por lo tanto, la investigación existente sobre la homofilia ha comenzado recientemente a examinar la personalidad, pero se ha centrado principalmente en las variables demográficas. Es posible que las personas se agrupen a lo largo de estas dimensiones porque reflejan elementos comunes para percibir, pensar y reaccionar ante el mundo. La similitud en la forma en que los individuos interpretan y responden a su entorno aumenta la previsibilidad de los pensamientos y acciones de los demás durante las interacciones sociales14, ya que el conocimiento de uno mismo es una fuente de información más válida sobre otros similares que sobre otros diferentes. Esta mayor previsibilidad durante las interacciones sociales, a su vez, permite una comunicación menos esforzada y más segura, lo que fomenta las interacciones sociales más agradables y aumenta la probabilidad de desarrollar amistades14. En la misma línea, interactuar con individuos que comparten valores, opiniones e intereses similares puede ser gratificante porque refuerza los propios valores, opiniones e intereses, produciendo así una respuesta afectiva positiva implícita, promoviendo la atracción por otros similares y aumentando la probabilidad de desarrollar amistades con personas que ven el mundo de manera similar a nosotros mismos15. Si los amigos son excepcionalmente similares entre sí en términos de cómo perciben, interpretan y reaccionan a su entorno, entonces la proximidad de las redes sociales debe asociarse con la similitud de los procesos cognitivos a medida que se desarrollan en tiempo real. Aún no se ha probado directamente si los humanos tienden a asociarse con otros que ven el mundo de manera similar.

Aquí probamos la proposición de que las respuestas neuronales a estímulos audiovisuales naturalistas son más similares entre amigos que entre individuos que están más alejados unos de otros en una red social del mundo real. La medición de la actividad neuronal mientras la gente ve estímulos naturalistas, como los clips de películas, ofrece una ventana discreta en los procesos de pensamiento sin restricciones a medida que se desarrollan16. Las correlaciones entre sujetos de las series de tiempo de respuesta neural durante la visualización natural de estímulos dinámicos complejos se asocian con similitudes en la interpretación de los sujetos y la comprensión de esos estímulos16,17,18,19. Por lo tanto, las similitudes entre sujetos de los datos de las series de tiempo de respuesta neural dan una idea de la similitud de los procesos de pensamiento de los individuos a medida que experimentan el mundo que les rodea. Los resultados actuales sugieren que la similitud de la respuesta neuronal disminuye con el aumento de la distancia entre los individuos en su red social compartida, de modo que los amigos tienen respuestas neuronales excepcionalmente similares. La proximidad de las redes sociales parece estar significativamente asociada con la similitud de la respuesta neuronal en las regiones cerebrales involucradas en la asignación atencional, la interpretación narrativa y la respuesta afectiva, sugiriendo que los amigos pueden ser excepcionalmente similares en la forma en que atienden, interpretan y reaccionan emocionalmente a su entorno.

Resultados

Caracterización de redes sociales

Primero caracterizamos la red social de una cohorte completa de estudiantes en un programa de posgrado. Todos los estudiantes (N = 279) en el programa de posgrado completaron una encuesta en línea en la que indicaron las personas en el programa con el que eran amigos (ver Métodos para obtener más detalles). Dado que un empate informado mutuamente es un indicador más fuerte de la presencia de una amistad que un vínculo no recíproco, se usó un gráfico que consistía únicamente en vínculos sociales recíprocos (es decir, informados mutuamente) para estimar las distancias sociales entre individuos. Se observó el mismo patrón de resultados que el descrito en nuestros análisis principales cuando se calculó la distancia social en función de la presencia de cualquier vínculo social informado (es decir, cuando se incluyen vínculos sociales no documentados; Nota complementaria 1). La red social de la cohorte se representa en la Fig. 1. La Fig. 1 complementaria ilustra la distribución de las distancias sociales entre todas las díadas en la muestra de resonancia magnética funcional (fMRI), así como entre todas las díadas en toda la cohorte, y la distribuciones de grados que caracterizan la muestra del estudio de fMRI y toda la cohorte.

Fig. 1

Red social. La red social de una cohorte completa de estudiantes graduados de primer año se reconstruyó sobre la base de una encuesta completada por todos los estudiantes de la cohorte (N = 279, tasa de respuesta del 100%). Los nodos indican estudiantes; las líneas indican vínculos sociales mutuamente informados entre ellos. Un subconjunto de estudiantes (círculos de color naranja, N = 42) participó en el estudio fMRI

Usar solo las relaciones sociales comunicadas mutuamente arrojó un diámetro de red de 6 para toda la cohorte; utilizando la existencia de cualquier vínculo social, independientemente de si se informó mutuamente, se obtuvo un diámetro de red de 3. La densidad de la red, que se define como la relación entre el número de aristas y el número de aristas posibles, excluyendo el autodominio nominaciones, era 0.0451 cuando solo incluía bordes basados ​​en vínculos sociales recíprocos, y era 0.146 al establecer bordes basados ​​en cualquier vínculo social, incluyendo nominaciones no encontradas. La reciprocidad total de la gráfica, que se refiere a la probabilidad de que la persona designada como amigo, si una persona nominada como amigo, fue 0,472, y la tasa de reciprocidad a nivel de díadas, que se refiere a la probabilidad de un vínculo mutuamente reportado que conecta los miembros de una díada, dada la existencia de un lazo, posiblemente no mutuo, entre ellos, era 0.309. Fuera de grado varió de 2 a 146 (M = 26.59, SD = 23.33, mediana = 19), y en el rango varió de 4 a 72 (M = 26.59, SD = 12.73, mediana = 24).

Relacionar la proximidad de redes sociales a la similitud neuronal
Un subconjunto de estudiantes (N = 42) en la cohorte académica descrita anteriormente participó en un estudio fMRI. Durante el estudio fMRI, cada sujeto observó la misma colección de video clips. Los videos presentados en el estudio fMRI cubrieron una variedad de temas y géneros (por ejemplo, clips de comedias, documentales y debates) que fueron seleccionados de manera tal que probablemente no sean familiares para los sujetos, efectivamente restringen los pensamientos y la atención de los sujetos al experimento ( minimizar el vagar de la mente) y evocar variabilidad significativa en las respuestas a través de los sujetos (porque diferentes sujetos atienden diferentes aspectos de ellos, tienen diferentes reacciones emocionales hacia ellos o interpretan el contenido de manera diferente, por ejemplo). Antes de escanear, se les dijo a los sujetos que los videos variaban en contenido y que su experiencia en el estudio se asemejaría a mirar televisión mientras que otra persona "navegaba por el canal". Todos los sujetos experimentaron los mismos estímulos en el mismo orden y recibieron las mismas instrucciones. Por lo tanto, las diferencias en las similitudes de los cursos de tiempo de respuesta neuronal de los sujetos probablemente provienen de factores tales como diferencias en las disposiciones de los sujetos, estados de ánimo, estilos cognitivos, supuestos, expectativas, valores, puntos de vista e intereses preexistentes, así como diferencias en el estructuras de conocimiento preexistentes en las que se integran los estímulos entrantes. Predijimos que las similitudes intersubjetivas de las respuestas neuronales entre amigos serían más altas que entre las personas que estaban más alejadas entre sí en la red social. Además, probamos si las similitudes de las respuestas neuronales pueden usarse para predecir la distancia social entre los miembros de esta red social.

Las series medias de tiempo de respuesta que abarcan todo el experimento se extrajeron de 80 regiones anatómicas de interés (ROI) para cada uno de los 42 sujetos de estudio fMRI (Métodos, Fig. 2). Para cada una de las 861 díadas únicas en la muestra, se calculó la correlación de Pearson entre las series de tiempo de las respuestas de fMRI para cada ROI. Las correlaciones de Pearson se puntuaron en z a lo largo de las díadas para cada ROI antes del análisis y la visualización con el fin de caracterizar el grado relativo de sincronía en cada díada en relación con otras díadas para cada región del cerebro (figuras 3 y 4). Para probar una relación entre la similitud de respuesta de fMRI y la distancia social, se utilizó un modelo de regresión a nivel de díadas. Los modelos se especificaron como regresiones logísticas ordenadas con distancia social categórica como la variable dependiente o como regresión logística con un indicador binario de amistad recíproca como la variable dependiente. Contabilizamos la estructura de dependencia de los datos diádicos (es decir, el hecho de que cada sujeto de IRMf participa en múltiples díadas), lo que de otra manera subestimaría los errores estándar y aumentaría el riesgo de error tipo 120, al agrupar simultáneamente ambos miembros de cada día diada21,22. Los errores estándar robustos al clúster tienen en cuenta tanto la autocorrelación como la posible heterocedasticidad en los datos21; este método de contabilidad para la dependencia diádica es comparable con enfoques tales como el procedimiento de asignación cuadrática o la prueba de permutación11.

Fig. 2

Cálculo de correlaciones de series temporales entre sujetos. a Ochenta regiones anatómicas de interés (ROI) se derivaron para cada individuo utilizando el conjunto de análisis de imágenes FreeSurfer53. La segmentación de la corteza cerebral, la sustancia blanca subcortical y las estructuras volumétricas de la sustancia gris profunda (por ejemplo, hipocampo, amígdala y putamen) se realizó en la exploración de alta resolución del volumen cerebral de cada individuo. Estas estructuras están significadas por el color en la imagen que demuestra la segmentación volumétrica (por ejemplo, la corteza cerebral izquierda y derecha se muestran en magenta y púrpura, respectivamente). A continuación, se reconstruyó un modelo de superficie cortical y se parcelaron en unidades anatómicas, que están representadas por diferentes colores en el esquema de parcelación cortical ilustrado en el extremo derecho. b Para cada individuo, la serie de tiempo de respuesta promedio dentro de cada ROI se extrajo durante la visualización del video. A continuación, se calculó la correlación entre las series temporales extraídas de cada par de ROI correspondientes para cada par único de sujetos

Fig. 3

Similitudes entre sujetos para cada región del cerebro en cada nivel de distancia social. Se obtuvieron correlaciones entre sujetos de series de tiempo de respuesta neural para cada una de las 861 díadas para cada una de las 80 regiones anatómicas de interés (ROI). Para ilustrar cómo las similitudes relativas de las respuestas en cada región del cerebro variaban en función de la distancia social, se normalizaron las similitudes entre series de tiempo (es decir, los coeficientes de correlación de Pearson entre series de tiempo de respuesta a la IRMf preprocesadas) (es decir, z-score en díadas para cada región) antes de promediar a través de díadas para cada región del cerebro dentro de cada categoría de distancia social. Los colores más cálidos indican respuestas relativamente similares para una región cerebral dada; los colores más fríos indican respuestas relativamente diferentes para esa región del cerebro. Tenga en cuenta que debido a que las similitudes se han normalizado a lo largo de las díadas para cada región del cerebro, los valores representados en esta figura deben compararse a través de los niveles de distancia social para cada región del cerebro, en lugar de a través de regiones cerebrales dentro o a través de distancias sociales


Fig. 4

Similitudes entre sujetos por distancia social. a-c Similitudes promedio de series de tiempo de respuesta fMRI diádica superpuestas en un modelo de superficie cortical (una vista lateral, una vista medial, una vista ventral). Para ilustrar cómo las similitudes relativas de las respuestas en cada región del cerebro variaban en función de la distancia social, se normalizaron las similitudes entre series de tiempo (es decir, los coeficientes de correlación de Pearson entre series de tiempo de respuesta a la IRMf preprocesadas) (es decir, z-score en díadas para cada región) antes de promediar a través de díadas para cada región del cerebro y superponer los resultados en un modelo inflado de la superficie cortical para cada categoría de distancia social. Los colores más cálidos indican respuestas relativamente similares para una región cerebral dada; los colores más fríos indican respuestas relativamente diferentes para esa región del cerebro. Tenga en cuenta que debido a que las similitudes se han normalizado a lo largo de las díadas para cada región del cerebro, los valores representados en esta figura deben compararse a través de los niveles de distancia social para cada región del cerebro, en lugar de regiones del cerebro dentro o a través de las distancias sociales. Vea la Fig. 3 para la presentación de resultados que incluyen estructuras subcorticales de materia gris. Hormiga. = Anterior; Enviar. = Posterior; L = izquierda; R = derecha. d Las estimaciones puntuales codificadas por desviación y los IC 95% para las similitudes neuronales promedio ponderadas, después de tener en cuenta las similitudes entre sujetos en las variables de control (variables demográficas y lateralidad) se muestran para la distancia 1 (estimación del punto codificado por desviación = 0,23; IC del 95% [ 0,07, 0,41]), distancia 2 (estimación del punto codificado por desviación = 0,03, IC del 95% [-0,11, 0,17]), distancia 3 (estimación del punto codificado por desviación = -0,20, IC del 95% [-0,30, -0,09] ), y la distancia 4 (estimación del punto codificado por desviación = -0.07, 95% CI [-0.29, 0.14]) díadas. La codificación de desviación mide la diferencia en la similitud neural general entre las díadas dentro de cada categoría de distancia social y la similitud neural general media de las díadas en las otras categorías de distancia social, después de eliminar los efectos de las variables de control. Para obtener más detalles sobre la codificación de desviación, consulte los Métodos suplementarios. Las visualizaciones de superficie cortical se crearon usando PySurfer58


Con el fin de probar la hipótesis general de que la proximidad de las redes sociales está asociada a respuestas neurales más similares a los estímulos naturalistas, nuestra principal variable predictiva de interés, la similitud de la respuesta neural dentro de cada díada de estudiantes, se resumió como una variable única. Específicamente, para cada díada, se calculó un promedio ponderado de similitudes de respuesta neural normalizada, con la contribución de cada región del cerebro ponderada por su volumen promedio en nuestra muestra de sujetos con IRMf. (El mismo patrón de resultados se obtuvo al ponderar cada ROI por igual, en lugar de en proporción al volumen como se describe en la Nota complementaria 3, o cuando las similitudes de respuesta neural no se normalizaron entre sujetos para cada región cerebral antes del análisis, como se describe en la Nota complementaria 2.) Para dar cuenta de las diferencias demográficas que podrían afectar la estructura de las redes sociales, nuestro modelo también incluía variables predictoras binarias que indicaban si los sujetos en cada díada eran de las mismas o diferentes nacionalidades, etnias y géneros, así como una variable que indicaba la diferencia de edad. entre los miembros de cada diada. Además, se incluyó una variable binaria que indica si los sujetos eran iguales o diferentes en términos de destreza manual, dado que esto puede estar relacionado con diferencias en la organización funcional cerebral23. Todas las variables predictoras se estandarizaron para tener una media de 0 y una SD de 1 antes del análisis.

Este modelo reveló un efecto significativo de la similitud neuronal (regresión logística ordenada: ß = -0.224; SE = 0.105; p = 0.03; N = 861 díadas) en la distancia social que es sorprendente en magnitud: mantener constantes otras covariables, en comparación con una díada en el nivel medio de similitud neuronal y en cualquier nivel dado de distancia social, una díada SD más similar tiene un 20% más de probabilidades de tener una distancia social que es una unidad más corta. De las variables de control también incluidas en el modelo, diferencias entre los miembros de la pareja en términos de género (regresión logística ordenada: ß = 0,383, SE = 0,122, p = 0,002, N = 861 díadas) y nacionalidad (regresión logística ordenada: ß = 0,561 ; SE = 0.150; p = 0.0002; N = 861 díadas) se relacionaron significativamente con la distancia social, mientras que la edad (regresión logística ordenada: ß = 0.128; SE = 0.137; p = 0.35), etnia (regresión logística ordenada: ß = 0.094 ; SE = 0.095; p = 0.32; N = 861 díadas), y el uso de la destreza (regresión logística ordenada: ß = 0.086; SE = 0.060; p = 0.15; N = 861 díadas) no fueron (Fig. 5). Para determinar si la similitud neuronal proporcionaba poder predictivo adicional, más allá de la similitud en términos de las variables demográficas observadas, el modelo completo descrito anteriormente se comparó con un modelo que no incluía la similitud neural mediante una prueba de razón de verosimilitud. La similitud neuronal añadió un poder predictivo significativo, por encima y más allá de la similitud demográfica observable, χ2 (1) = 11.112, p = 0.0009. Se obtuvo un patrón similar de resultados cuando se definió la distancia social en función de los vínculos sociales recíprocos y no recíprocos (Nota complementaria 1).

Fig. 5



Coeficientes de regresión de modelos que predicen la distancia social y el estado de amistad. Los coeficientes de regresión corresponden a las similitudes y diferencias promedio de la respuesta neural ponderada en las variables de control. a Ilustración de los coeficientes de regresión de un modelo de regresión logística ordenado en el que se predijo la distancia social en función de la similitud de las series temporales de respuesta neuronal de los participantes, así como de las diferencias en las variables de control. b Ilustración de los coeficientes de regresión de un modelo de regresión logística en el que se predijo el estado de la amistad en función de la similitud de las series temporales de respuesta neuronal de los participantes, así como de las diferencias en las variables de control. Las barras de error indican los errores estándar de los coeficientes de regresión estimados mediante la agrupación en múltiples direcciones para tener en cuenta las dependencias diádicas en el conjunto de datos. *** p <0.001, ** p <0.01, * p <0.05

Las regresiones logísticas que combinaron a todos los no amigos en una sola categoría, independientemente de la distancia social, arrojaron resultados similares, tales que la similitud neural se asoció con una mayor probabilidad de amistad, incluso después de tener en cuenta las similitudes en las variables demográficas observadas. Más específicamente, un aumento de un SD en la similitud neural general se asoció con un aumento del 47% en la probabilidad de amistad (regresión logística: ß = 0,388, SE = 0,109, p = 0,0004, N = 861 díadas). De nuevo, la similitud neuronal mejoró el poder predictivo del modelo por encima y más allá de las similitudes demográficas observadas, χ2 (1) = 7.36, p = 0.006.

Los resultados de los análisis realizados por separado para cada video clip mostrado en el experimento se proporcionan en la Tabla complementaria 3. Observamos que los videos se presentaron en el mismo orden para todos los sujetos (para minimizar la variabilidad intersubjetiva derivada de la manera en que se presentaron los videos). en lugar de diferencias endógenas entre sujetos) y que los videos varían en duración (Tabla 1). Por lo tanto, la comparación de resultados entre video clips debe hacerse con precaución; estos resultados se proporcionan en caso de que sean informativos para futuras investigaciones.

Tabla 1: Resumen de videoclips que se muestran en el estudio fMRI

ClipDescripciónDuración (s)
1‘An Astronaut’s View of Earth’Un astronauta analiza la visión de la Tierra desde el espacio, y en particular, ser testigo de los efectos del cambio climático desde el espacio. Luego insta a los televidentes a movilizarse para abordar este problema223
2Google Glass reviewUn periodista usa un audífono Google Glass por un día y sopesa los pros y los contras de ser uno de los primeros en adoptar esta tecnología88
3‘Crossfire’Dos periodistas debaten sobre la conveniencia del uso del humor del presidente Obama en un discurso; extractos del discurso se muestran89
4‘All I Want’Un video musical sentimental que muestra a un paria social con una compañera de deformidad facial que busca compañerismo305
5Wedding filmUna película casera que representa escenas de la ceremonia de boda de dos hombres y posterior celebración con familiares y amigos120
6Scientific demonstrationUn astronauta en la Estación Espacial Internacional demuestra y explica lo que sucede cuando uno saca una toallita empapada de agua en el espacio118
7‘Food Inc.’Un extracto de un documental que analiza cómo la industria de comida rápida influye en la producción de alimentos y las prácticas agrícolas en los Estados Unidos178
8‘We Can Be Heroes’Un extracto de una serie de estilo falso documental en la que un hombre discute por qué se nominó a sí mismo para el título de australiano del año202
9‘Ban College Football’Periodistas y atletas debaten si el fútbol debería o no ser prohibido como deporte universitario195
10Soccer matchLo más destacado de un partido de fútbol91
11Baby sloth sanctuaryUn documental sobre el cuidado de bebés perezosos en un santuario en Costa Rica200
12‘Ew!’Una parodia de comedia en la que los hombres adultos juegan a las adolescentes disgustadas por las cosas que les rodean169
13‘Life’s Too Short’Un ejemplo de "comedia burlona" en la que se representa a un actor dramático sin éxito probando su mano en la comedia de improvisación106
14‘America’s Funniest Home Videos’Una serie de videos caseros que muestran ejemplos de comedias físicas involuntarias derivadas de accidentes101

Para obtener información sobre qué regiones cerebrales pueden estar impulsando la relación entre la distancia social y la similitud neuronal general, realizamos análisis de regresión logística análogos a los descritos anteriormente de forma independiente para cada uno de los 80 ROI, una vez más utilizando errores estándar robustos para dar cuenta de diádica dependencias en los datos. Este enfoque es análogo a los enfoques de análisis de fMRI comunes en los que las regresiones se llevan a cabo de forma independiente en cada vóxel en el cerebro, seguido de la corrección para comparaciones múltiples a través de los vóxeles. Empleamos la corrección de la tasa de descubrimiento falso (FDR) para corregir las comparaciones múltiples en las regiones cerebrales. Este análisis indicó que la similitud neural estaba asociada con la proximidad de redes sociales en regiones del estriado ventral y dorsal, incluido el núcleo derecho accumbens (regresión logística ordenada: ß = -0.231; SE = 0.058; p = 0.006, corregida por FDR; N = 861 díadas), núcleo caudado derecho (regresión logística ordenada: ß = -0.279; SE = 0.081; p = 0.01, corregido con FDR; N = 861 díadas), núcleo caudado izquierdo (regresión logística ordenada: ß = -0.231; SE = 0.071; p = 0.01, FDR-corregido; N = 861 díadas), y putamen izquierdo (regresión logística ordenada: ß = -0.244; SE = 0.071; p = 0.01, corregido FDR; N = 861 díadas), la amígdala derecha (regresión logística ordenada: ß = -0.209; SE = 0.064; p = 0.01, corrección FDR; N = 861 díadas), el lóbulo parietal superior derecho (regresión logística ordenada: ß = -0.418; SE = 0.121; p = 0.01 , FDR-corregido; N = 861 díadas), y corteza parietal inferior izquierda (regresión logística ordenada: ß = -0.385; SE = 0.100; p = 0.006, corregida por FDR; N = 861 díadas). Los coeficientes de regresión para cada ROI se muestran en la Fig. 6, y en la Tabla 2 se brindan más detalles sobre los ROI que alcanzaron el umbral de significación de p <0,05, corregido con FDR (dos colas).

Fig. 6

Prueba de asociaciones entre la similitud de la respuesta neuronal y la distancia social por región cerebral. Como se describe en el texto principal, se realizaron análisis de regresión logística ordenada para cada región cerebral en la que se modelaron las distancias de las redes sociales en función de las similitudes de la respuesta neural local y las diferencias diádicas en las variables de control (género, etnia, nacionalidad, edad y destreza) ) Los coeficientes de regresión negativa para la similitud de la respuesta neural indican que una mayor similitud de la respuesta neural se asoció con una disminución de la distancia social. Los coeficientes de regresión para los efectos de la similitud de la respuesta neural en la distancia social para cada retorno de la inversión cortical se muestran superpuestos en vistas laterales, b mediales y c ventrales de la superficie cortical. Hormiga. = Anterior; Enviar. = Posterior. En cada vista, el hemisferio izquierdo se muestra a la izquierda. Las visualizaciones de superficie cortical se crearon usando PySurfer58. Los colores más cálidos indican coeficientes de regresión negativos (es decir, donde mayor similitud de respuesta neuronal se asocia con proximidad de red social), mientras que los colores más fríos indican coeficientes de regresión positivos (es decir, donde mayor similitud de respuesta neural se asoció con mayor distancia social). d Las regiones donde la similitud neural fue significativamente predictiva de la distancia social, más allá de los efectos de las variables de control (p <0.05, FDR-corregido, dos colas) se muestran en amarillo, con regiones marginalmente significativas (p <0.08) en azul y todas las demás regiones se muestran en gris. Las barras de error indican errores estándar robustos de clúster de los coeficientes de regresión

Tabla 2: regiones cerebrales donde la similitud neural fue significativamente predictiva de la distancia social por encima y más allá de las similitudes en las variables de control









HemiRegiónßSEp-value (no corregida)p-value FDR-corregida
RNucleus accumbens−0.230.0580.0000770.0055
LInferior parietal cortex−0.380.100.000140.0055
RSuperior parietal cortex−0.420.120.000560.011
RCaudate nucleus−0.280.0810.000640.011
LPutamen−0.240.0710.000680.011
LCaudate nucleus−0.230.0710.00110.014
RAmygdala−0.210.0640.00120.014
LSupramarginal gyrus0.260.0980.00760.076
RSupramarginal gyrus0.270.100.00900.076

Para comparar similitudes neurales generales (es decir, promedio ponderado) a través de los niveles de distancia social, se usaron las pruebas de Kolmogorov-Smirnov. Los resultados indicaron que las similitudes neurales medias generales (promedio ponderado) fueron significativamente mayores entre las díadas de distancia 1 que las díadas pertenecientes a otras categorías de distancia social (D = 0,19, p = 0,02; N = 861 díadas). Las díadas de distancia 2 fueron marginalmente más similares entre sí que las díadas en las otras categorías de distancia social (D = 0.094, p = 0.06, N = 861 díadas). Las 3 díadas de distancia fueron significativamente menos similares que las díadas en las otras categorías de distancia social (D = 0,12, p = 0,004; N = 861 díadas) y las díadas de distancia 4 no fueron significativamente diferentes en la similitud de respuesta neural total de díadas en la otra distancia social categorías (D = 0.075, p = 0.67; N = 861 díadas). Todos los valores de p reportados son de dos colas.

Para garantizar que las diferencias documentadas con las pruebas de Kolmogorov-Smirnov se debieran a diferencias en la ubicación (en lugar de la forma) de las distribuciones, llevamos a cabo pruebas de suma de rangos de Wilcoxon, que son específicamente sensibles a la diferencia en ubicaciones de dos distribuciones y que proporcionaron convergencia resultados. Las similitudes neurales promedio ponderadas fueron significativamente más altas entre las díadas de distancia 1 que entre las díadas de las otras categorías de distancia social (W = 30 570, p = 0,004; N = 861 díadas). Lo mismo fue cierto para las díadas de distancia 2 (W = 91 356, p = 0,008, N = 861 díadas). Las 3 díadas de distancia fueron menos similares en general que las díadas pertenecientes a las otras categorías de distancia social (W = 79 062, p = 0,0002; N = 861 díadas). Las díadas de distancia 4 no difirieron significativamente de las díadas en las categorías de distancia social restantes (W = 36 918, p = 0,63, N = 861 díadas). Los análisis por pares sugirieron que las díadas de distancia 1 eran significativamente más similares entre sí que las díadas de distancia 3 (W = 16 598, p = 0,00036; N = 475 díadas) y distancia 4 (W = 3856, p = 0,016; N = 163 díadas) , pero no las díadas de distancia 2 (W = 10 116, p = 0,13; N = 349 díadas). Las díadas de distancia 2 fueron más similares que las díadas de distancia 3 (W = 67 759, p = 0,00074; N = 698 díadas). Quizás reflejando la gran variabilidad entre las díadas de distancia 4, las díadas de distancia 4 no difirieron significativamente de la distancia 2 (W = 15 695, p = 0.15; N = 386 díadas) o las díadas de distancia 3 (W = 19 631, p = 0.47; N = 512 díadas). Todos los valores de p reportados son de dos colas. Las pruebas de permutación que implicaban aleatoriamente mezclar datos de resonancia magnética ficticia entre sujetos mientras se mantenía constante la estructura topológica de la red que conecta a los sujetos proporcionó resultados convergentes constantes, como se describe en la Nota Suplementaria 5 y la Fig. 7.


Fig. 7

Resultados de las pruebas de permutación basadas en la aleatorización de la red. Los histogramas muestran la distribución de las similitudes neurales promedio para una distancia 1, b distancia 2, c distancia 3 yd distancia 4 díadas a través de 1000 permutaciones del conjunto de datos en el que las respuestas fMRI se mezclaron aleatoriamente entre los participantes mientras que la estructura topológica de la red de las conexiones sociales entre los participantes se mantuvo constante. Las líneas discontinuas rojas representan las similitudes reales de respuesta neuronal (es decir, basadas en los datos no permutados) para las díadas correspondientes a cada categoría de distancia social. Los resultados de estas pruebas de permutación indicaron que las díadas de distancia 1 (N = 63) fueron más similares de lo esperado según el azar (p = 0,03), las díadas de distancia 2 (N = 286) fueron marginalmente más similares de lo esperado según la probabilidad (p = 0.06), y las díadas de distancia 3 (N = 412) fueron menos similares entre sí de lo que se esperaría según el azar (p = 0.003). Las 4 díadas de distancia (N = 100) no fueron ni más ni menos similares entre sí de lo que se esperaría si no existiera una relación entre la similitud de la respuesta neural general y la proximidad en la red social (p = 0.5)

Imagen de tamaño completo
Las Figuras 3 y 4a-c ilustran el nivel relativo promedio de similitud neural entre díadas dentro de cada categoría de distancia social para cada región cerebral individual. Para ilustrar cómo la similitud neural global varía como función de la distancia social mientras se mantienen constantes todas las variables de control (es decir, predominio, edad, sexo, origen étnico y nacionalidad), se calcularon las estimaciones puntuales codificadas por desviación y se ilustran en la Fig. 4d . La codificación de desviación proporciona, para cada distancia social, una estimación puntual e intervalo de confianza de la diferencia en la similitud neuronal del promedio de las otras categorías de distancia social; los detalles completos aparecen en los Métodos Suplementarios.

Predicción fuera de muestra

También probamos si era posible predecir el estado de amistad en función de la similitud de series de tiempo de respuesta de fMRI a través de regiones cerebrales. Si es así, debería ser posible construir un modelo predictivo de distancia social entrenando un algoritmo para reconocer patrones de similitudes neuronales asociadas con varias categorías de distancia social de un subconjunto de datos de díadas. Este modelo debería generalizarse correctamente para predecir las distancias sociales que caracterizan a las nuevas díadas.

Se extrajeron vectores de 80 elementos de similitudes neurales para todas las 861 díadas de sujetos con IRMf. Dado que el conjunto de datos actual está desequilibrado en las categorías de distancia social (por ejemplo, hay muchas menos díadas de distancia 1 que las díadas de distancia 3), se usaron remuestreo de datos y procedimientos de doblado para crear una serie de conjuntos de datos equilibrados de entrenamiento y prueba se incluyeron en los análisis (ver Métodos para más detalles). Dentro del conjunto de datos de entrenamiento para cada doblez de datos, se utilizó un procedimiento de búsqueda de cuadrícula24 para seleccionar el parámetro C de un algoritmo de aprendizaje de máquina de vector de soporte lineal (SVM) que mejor separaría las díadas de acuerdo con la distancia social. Después del ajuste de hiperparámetros, el clasificador se entrenó en todo el conjunto de datos de entrenamiento dentro de un pliegue de datos dado para predecir las distancias sociales que caracterizan a las diadas en función de los patrones correspondientes de la similitud del curso temporal neuronal entre sujetos. Finalmente, el rendimiento predictivo de este clasificador se evaluó con los datos del conjunto de datos de prueba dentro del pliegue de datos, que estaba compuesto por datos de díadas a los que el modelo no había estado expuesto previamente. Este procedimiento se realizó para cada pliegue de datos, y luego se promedió el rendimiento predictivo cruzado cruzado a través de pliegues de datos (ver Métodos para obtener más detalles).

Como se muestra en la Fig. 8, el clasificador tendía a predecir las distancias sociales correctas para las díadas en todas las categorías de distancia a tasas superiores al nivel de precisión que se esperaría solo en función del azar (es decir, 25% correcto), con una precisión de clasificación global de 41.25%. Las precisiones de clasificación para las díadas de distancia 1, 2, 3 y 4 fueron 48%, 39%, 31% y 47% correctas, respectivamente. Como se ilustra en la matriz de confusión en la figura 8a, para todas las categorías de distancia social, la etiqueta de distancia correcta se predijo con mayor frecuencia, con confusiones (es decir, predicciones incorrectas) que ocurren con mayor frecuencia en columnas adyacentes a los elementos a lo largo de la diagonal. El último patrón de resultados refleja el hecho de que en los casos en que el clasificador asignó la etiqueta de distancia social incorrecta a una díada, tendía a ser solo un nivel de distancia social de la respuesta correcta: cuando los amigos se clasificaban erróneamente, se clasificaban erróneamente con mayor frecuencia como distancia 2 díadas; cuando las díadas de distancia 2 se clasificaron erróneamente, se clasificaron mal con mayor frecuencia como distancia de 1 o 3 díadas, y así sucesivamente. La prueba de permutación se realizó con el fin de evaluar si la precisión de la clasificación global validada cruzada excedía significativamente el azar. Específicamente, la distribución de las precisiones de clasificación que se conseguirían basadas únicamente en el azar se obtuvo repitiendo el análisis de clasificación después de haber barajado aleatoriamente las etiquetas de categoría de distancia en los datos de entrenamiento 1000 veces. Los resultados de este procedimiento de prueba de permutación se visualizan en la figura 8b, y sugieren que la precisión de clasificación global fue significativamente mayor de lo que se esperaría en función de la probabilidad, p = 0,004 (N = 861 díadas, ver Métodos para obtener más detalles).

Fig. 8

Predicción de distancia social basada en similitudes neuronales entre sujetos. una matriz de confusión que resume la precisión de predicción cruzada de los clasificadores de cuatro vías entrenados para predecir la distancia geodésica entre los miembros de las díadas en su red social en función de patrones de similitud neuronal promediados en los pliegues de datos (ver Métodos para obtener más detalles). Los números y los colores de las celdas indican con qué frecuencia el clasificador predijo que las díadas pertenecían a cada categoría de distancia social (probabilidad = 0,25). b Se usaron pruebas de permutación para comparar la precisión de predicción cruzada global con la probabilidad aleatoria. La distribución de las precisiones obtenidas al repetir los análisis de clasificación después de mezclar aleatoriamente las etiquetas de categoría de datos en los pliegues de entrenamiento 1000 veces se muestra en azul; la línea punteada negra representa el nivel promedio de precisión logrado en los datos permutados aleatoriamente. La línea punteada roja indica la precisión de la clasificación global validada cruzada, que excedió significativamente el azar (p = 0,004)


Discusión

Los resultados informados aquí son consistentes con la homofilia neuronal: las personas tienden a ser amigos con personas que ven el mundo de manera similar. Las respuestas neuronales durante la visualización no restringida de clips de película fueron significativamente más similares entre los amigos que entre las personas más alejadas entre sí en su red social del mundo real. De manera más general, las personas que respondieron más similarmente a los videos mostrados en el experimento tenían más probabilidades de estar más cerca unas de otras en su red social compartida, y estos efectos fueron significativos incluso cuando se controlaban las similitudes entre sujetos en variables demográficas, como la edad. , género, nacionalidad y etnia. Además, los modelos predictivos entrenados para discernir la distancia social basados ​​únicamente en patrones de similitud entre las respuestas neuronales interpersonales pudieron generalizar con precisión datos nuevos, prediciendo correctamente el estado de la amistad y la distancia social de nuevos pares de individuos basados ​​solo en los patrones de esas parejas de similitudes de respuesta neuronal.

Muchas investigaciones previas han demostrado que los humanos tienden a asociarse con otros que son similares a ellos en términos de una amplia gama de características, incluida información demográfica (por ejemplo, edad, sexo y etnia) 2, ciertos rasgos de personalidad y tendencias de comportamiento11,12, e incluso aspectos de nuestros genotipos25,26. Los hallazgos actuales amplían esta investigación al demostrar que las respuestas mentales encubiertas al entorno, según se indexan mediante procesos neurales evocados naturalísticamente durante la visualización no dirigida de videos, son excepcionalmente similares entre amigos.

Las áreas cerebrales donde la similitud de respuesta se asoció con la proximidad de redes sociales incluyeron áreas subcorticales implicadas en la motivación, el aprendizaje, el procesamiento afectivo y la integración de información en la memoria, como el núcleo accumbens, la amígdala, el putamen y el núcleo caudado27,28,29. La proximidad de la red social también se asoció con la similitud de la respuesta neuronal en áreas involucradas en la asignación atencional, como la corteza parietal superior derecha30,31 y las regiones en el lóbulo parietal inferior, como la circunvolución supramarginal bilateral y la corteza parietal inferior izquierda (que incluye gyrus angular en el esquema de parcelación utilizado32), que han sido implicados en el control atencional de abajo hacia arriba, discerniendo los estados mentales de los demás, procesando el lenguaje y el contenido narrativo de las historias, y haciendo sentido en general33,34,35. Se ha demostrado previamente que muchas de estas regiones se acoplan estrechamente cuando los sujetos están emocionalmente comprometidos de manera similar, como la amígdala, el cuerpo estriado ventral y la corteza parietal inferior36; cuando las personas cuentan con contextos compartidos para comprender una situación, como el lóbulo parietal inferior en las proximidades de la unión temporoparietal33; o cuando las personas adoptan perspectivas psicológicas similares, como la corteza parietal posterior superior e inferior37. Dudamos en hacer fuertes inferencias sobre los procesos mentales específicos que subyacen en los resultados que se observan aquí, dado que muchas de estas regiones son funcionalmente heterogéneas. Sin embargo, los resultados actuales sugieren que la proximidad de las redes sociales puede estar asociada con similitudes en cómo las personas atienden, interpretan y reaccionan emocionalmente al mundo que los rodea.

No comparamos directamente los resultados obtenidos en el presente estudio con los que se pueden obtener mediante el uso de medidas conductuales, como preguntas explícitas sobre las reacciones de los sujetos a los estímulos experimentales, o las medidas de autoinforme de las variables de diferencias individuales. Por lo tanto, no podemos determinar si se podrían haber logrado resultados comparables sin el uso de neuroimágenes. Dicho esto, sugerimos que el paradigma utilizado aquí ofrece varios beneficios en comparación con otros métodos para evaluar las similitudes en la forma en que los individuos responden a su entorno. En primer lugar, los estímulos ricos, atractivos y dinámicos utilizados probablemente reclutan una proporción relativamente grande de los procesos emocionales y cognitivos que caracterizan la vida mental cotidiana, y lo hacen de manera discreta y ecológicamente válida38. Esto es beneficioso no solo porque permite que los procesos mentales de los sujetos se desarrollen sin interrupción; también permite que los procesos neuronales que subyacen a dichos procesos se midan contemporáneamente, a medida que transcurren, en lugar de pedir a los sujetos que reflexionen sobre esos procesos después de que ocurran e informan sobre esas reflexiones a los experimentadores. Un gran cuerpo de literatura de psicología social ha demostrado que nuestra capacidad para introspectivamente con precisión acerca de nuestros propios procesos mentales a menudo es limitada39. Parece que no tenemos acceso consciente a muchos aspectos del procesamiento mental40, lo que limita la eficacia de las medidas de autoinforme para capturar muchos fenómenos psicológicos. En contraste, la neuroimagen facilita la medición de aspectos del procesamiento mental a los que no tenemos acceso consciente, pero que sin embargo impactan el comportamiento41. De manera similar, en comparación con el autoinforme, es menos probable que la validez de las respuestas obtenidas utilizando el paradigma actual se vea amenazada por los intentos de los sujetos de presentarse de una manera socialmente deseable, lo que puede distorsionar los resultados experimentales de diversas maneras42. Además, la medición de las respuestas de fMRI de todo el cerebro simultáneamente confiere el beneficio de medir al mismo tiempo la actividad cerebral asociada con diversos aspectos del procesamiento mental. En lugar de limitarse a unas pocas preguntas específicas, el uso de datos grabados de todo el cerebro durante la observación natural permite capturar el procesamiento neuronal asociado con cualquier emoción (por ejemplo, diversión, disgusto, tristeza, deseo y miedo) y cognitiva (por ejemplo, atención a los diferentes aspectos del estímulo, interpretaciones de un video según se basan en las suposiciones, conocimiento y valores preexistentes de los sujetos, y respuestas en aumento y disminución del compromiso global de atención) suceden en cualquier momento las respuestas son reclutadas. Incluso si fuera posible evaluar la misma información utilizando cuestionarios de autoinforme, sería presumiblemente necesario utilizar una batería extremadamente grande de preguntas para poder hacerlo.

Por otro lado, si bien el paradigma de neuroimagen naturalista utilizado aquí confiere muchas ventajas, una comprensión más específica de qué procesos cognitivos y emocionales subyacen a estos efectos probablemente requerirá estudios de seguimiento complementarios que incluyan medidas de comportamiento y paradigmas experimentales más restringidos. Además, se utilizó una única secuencia de estímulos para el presente estudio con el fin de proporcionar un contexto común a lo largo de todos los puntos del experimento para todos los sujetos. Los estudios futuros pueden desear adoptar diseños experimentales que permitan extraer inferencias sobre qué tipos de estímulos son particularmente importantes para predecir los patrones de los vínculos sociales del mundo real.

Curiosamente, aunque el aumento de la distancia entre individuos en la red social se asoció con una disminución de la similitud de la respuesta neural en general, el nivel de similitud de la respuesta neuronal entre las díadas de distancia fue muy variable y no difirió significativamente del de la distancia de 2 o 3 díadas. Hay al menos dos razones por las que el patrón de resultados observado hasta una distancia de tres puede haberse disipado a la distancia 4. En primer lugar, es posible que los individuos a distancias mayores de tres simplemente no se encuentren con la suficiente frecuencia como para tener la oportunidad de Volverse amigos. Por lo tanto, la colección de díadas caracterizadas por una distancia social de cuatro o más puede incluir algunas díadas que serían compatibles y otras que serían incompatibles como amigos. Una segunda posibilidad, no mutuamente excluyente, se refiere a la "regla de los tres grados de influencia" que rige la difusión de una amplia gama de fenómenos en las redes sociales humanas43. Los datos de estudios observacionales a gran escala y experimentos basados ​​en laboratorio sugieren que fenómenos de amplio alcance (p. Ej., Obesidad, cooperación, tabaquismo y depresión) se extienden solo hasta tres grados de distancia geodésica en las redes sociales, tal vez debido a la influencia social efectos que se deterioran con la distancia social en la medida en que son indetectables a distancias sociales superiores a tres, o a la relativa inestabilidad de largas cadenas de vínculos sociales43. Aunque no hacemos ningún reclamo con respecto a los mecanismos causales detrás de nuestros hallazgos, nuestros resultados muestran un patrón similar.

¿Nos hacemos amigos de personas que responden al medio ambiente de manera similar, o venimos a responder al mundo de manera similar a nuestros amigos? Aunque los resultados del estudio actual sugieren que los amigos tienen respuestas neuronales excepcionalmente similares a los estímulos naturalistas, debido a la naturaleza transversal de este estudio, no podemos determinar, basándose solo en estos resultados, si la similitud de respuesta neuronal es una causa o consecuencia de la amistad. Por lo tanto, los estudios longitudinales futuros deberían medir si las similitudes de la respuesta neuronal entre sujetos predicen la formación posterior de la amistad entre los miembros de las redes sociales en evolución. Anticipamos que tales estudios encontrarán que la similitud excepcional de las respuestas neuronales entre amigos refleja procesos de influencia tanto homófila como social. Una gran cantidad de investigaciones demuestran que las personas en nuestro entorno inmediato influyen en cómo pensamos, sentimos y comportamos44,45, y la integración de los seres humanos dentro de las redes sociales hace que estos efectos de influencia social repercutan en los vínculos sociales y, por lo tanto, se extiendan más allá de esos individuos con quienes interactuamos directamente46. Al mismo tiempo, personas similares pueden tender a conectarse a tasas más altas porque se encuentran en situaciones comunes47. De manera similar, las similitudes preexistentes en cómo los individuos tienden a percibir, interpretar y responder a su entorno pueden mejorar las interacciones sociales y aumentar la probabilidad de desarrollar una amistad mediante procesos afectivos positivos y al aumentar la facilidad y la claridad de la comunicación14,15. Las investigaciones futuras deberían ampliar los hallazgos actuales mediante la adopción de diseños experimentales longitudinales que permitan conocer hasta qué punto los resultados observados aquí reflejan homofilia, procesos de influencia social o una combinación de estos fenómenos.

En resumen, los resultados actuales sugieren que los amigos son excepcionalmente similares entre sí en términos de cómo perciben, interpretan y reaccionan al mundo que les rodea, como se refleja en las mediciones discretas de los procesos mentales a medida que se desarrollan con el tiempo. La proximidad en términos de vínculos sociales en una red social del mundo real se asoció con la similitud en las series de tiempo de respuesta a la resonancia magnética funcional en las regiones cerebrales implicadas en la atención e interpretación del entorno sensorial, así como en la respuesta emocional. Estos datos también demuestran que es posible predecir si dos personas son amigas o no, así como información de distancia social más matizada (es decir, distancia geodésica en una red social de la vida real) basada solo en la similitud de patrones temporales en sus neuronas. respuestas durante la visualización gratuita de escenas complejas del mundo real. Los cursos de tiempo de las respuestas neurales de los individuos a estímulos continuos y naturalistas proporcionan firmas ricas en información de las respuestas de esos individuos a los estímulos, que presumiblemente están formados por características de las disposiciones de esos individuos, conocimientos preexistentes, puntos de vista, opiniones, intereses y valores. Estas firmas se pueden utilizar para identificar a las personas que probablemente sean amigos, así como a las personas que puedan estar conectadas indirectamente a través de amigos comunes, en una red social del mundo real.

Métodos

Caracterización de redes sociales

Los sujetos en la parte 1 del estudio (caracterización de redes sociales) fueron 279 (89 mujeres) estudiantes de primer año en un programa de postgrado en una universidad privada en los Estados Unidos que participaron como parte de sus cursos sobre liderazgo. El tamaño total de la cohorte de posgrado fue de 279 estudiantes (es decir, todos los estudiantes de la cohorte participaron en el curso de liderazgo); se obtuvo una tasa de respuesta del 100% para la parte 1 del estudio, que se realizó de acuerdo con los estándares de la junta de revisión ética local. La encuesta de redes sociales se administró durante noviembre del primer año académico de los estudiantes en el programa de postgrado, que comenzó el pasado mes de agosto. Por lo tanto, las asignaturas habían estado juntas en el campus durante 3-4 meses antes de completar la encuesta de redes sociales, y las amistades informadas en la encuesta se habrían formado durante los primeros meses de las materias en el campus o antes de ingresar al programa de posgrado.

Para caracterizar la red social de todos los estudiantes de primer año, se administró una encuesta en línea de redes sociales. Los sujetos siguieron un enlace por correo electrónico al sitio web del estudio donde respondieron a una encuesta diseñada para evaluar su posición en la red social de estudiantes en su cohorte del programa académico. La pregunta de la encuesta fue adaptada de Burt48 y ha sido utilizada previamente en la forma modificada utilizada aquí11,49,50. Decía: "Considera a las personas con quienes te gusta pasar tu tiempo libre. Desde que llegaste a [nombre de la institución], ¿con quién has estado más a menudo para actividades sociales informales, como salir a almorzar, cenar, tomar algo, ver películas, visitar las casas de los demás, etc.? se usó un generador de nombre basado para evitar una recuperación inadecuada o sesgada. Los nombres de los compañeros se enumeraron en cuatro columnas, con una columna correspondiente a cada sección de estudiantes en el programa de postgrado. Los nombres de los estudiantes se enumeraron alfabéticamente dentro de la sección. Los sujetos indicaron la presencia de un vínculo social con un individuo al colocar una marca de verificación junto a su nombre. Los sujetos pueden indicar cualquier cantidad de vínculos sociales y no tienen límite de tiempo para responder a esta pregunta. La red social de la cohorte se ilustra en la figura 1. La encuesta de redes sociales utilizada aquí solo indaga sobre las interacciones de los estudiantes con otros miembros de su cohorte académica. Los sujetos indudablemente tienen interacciones con personas fuera de su cohorte de compañeros de clase que esta encuesta no midió (por ejemplo, con familiares, colegas anteriores, amigos de antes de ingresar al programa, etc.). Observamos que el estudio actual se realizó en una institución relativamente pequeña y remota donde los contactos de los sujetos fuera del campus probablemente desempeñan un papel menor en sus vidas diarias en comparación con sus interacciones cotidianas y personales con sus compañeros de clase. Dicho esto, las distancias sociales entre algunos sujetos que no informaron amistades entre sí pueden subestimarse debido a las conexiones indirectas a través de personas fuera de la cohorte de posgrado.

Además, los datos demográficos sobre el género, la identidad étnica y el país de ciudadanía de cada sujeto se obtuvieron del registrador de la escuela. La información de identificación personal se eliminó de estos datos; Los datos demográficos, de redes sociales y de neuroimágenes de los sujetos estaban vinculados solo por números de identificación anónimos.

El análisis de redes sociales se realizó utilizando el paquete R igraph51,52. Se usó un gráfico no ponderado, no dirigido que consistía únicamente en vínculos sociales recíprocos (es decir, informados mutuamente) para estimar las distancias sociales entre individuos. Por ejemplo, un borde no dirigido conectaría a dos actores, personi y personj, solo si personi y personj cada uno nominara al otro como amigo. Si una persona nominada persona, pero una persona no nomina persona, o viceversa, estos actores no fueron considerados amigos para los propósitos de este estudio. La distancia social se operacionalizó como el menor número de vínculos sociales intermedios y mutuales necesarios para conectar dos individuos en la red (es decir, distancia geodésica). Los pares de personas que se nombraron entre sí como amigos se les asignó una distancia social de uno. A un individuo se le asignaría una distancia de dos desde un tema determinado si él o ella tuvieron una amistad mutuamente reportada con el amigo de ese sujeto, pero no con el sujeto mismo, y así sucesivamente. La distribución de las distancias sociales para todos los pares de sujetos de estudio fMRI se proporciona en la Fig. 1 complementaria.

Sujetos de estudio fMRI

Cuarenta y dos sujetos (12 mujeres, 3 zurdos) de entre 25 y 32 (M = 27.98; DE = 1.72) que habían completado la parte 1 del estudio completaron un estudio posterior de neuroimagen (parte 2). Los estudiantes fueron informados durante la clase sobre la oportunidad de participar en un estudio de fMRI que involucra la visualización de estímulos visuales. Se les informó que recibirían $ 20 por hora como compensación por su tiempo, así como imágenes anatómicas de sus cerebros. Todos los estudiantes que estaban interesados ​​en participar y no se vieron afectados por las contraindicaciones estándar de seguridad para MRI (por ejemplo, la presencia de implantes metálicos) participaron en el estudio de neuroimagen. Todas las materias hablaban inglés con fluidez y tenían una visión normal o corregida a la normalidad. Debido a que los sujetos no fueron asignados a grupos definidos experimentalmente en el estudio actual, los investigadores que cegaron a las condiciones entre sujetos y la asignación aleatoria de los sujetos a las condiciones no fueron aplicables. Los sujetos dieron su consentimiento informado de acuerdo con las políticas de la junta de revisión ética local. La recopilación de datos para el estudio de neuroimágenes comenzó a mediados de febrero durante el primer año académico de los sujetos en el programa de postgrado, y todos los escaneos se completaron en 2 semanas. Por lo tanto, todos los datos de neuroimagen se recogieron ~ 3 meses después de la recopilación de los datos de la red social.

Adquisición de datos fMRI

Los sujetos fueron escaneados usando un escáner Philips Achieva Intera de 3 T con una bobina de cabeza de 32 canales. Una secuencia ecoplana (tiempo de eco de 35 ms (TE), tiempo de repetición de 2000 ms (TR), resolución de 3.0 mm × 3.0 mm × 3.0 mm, tamaño de matriz de 80 × 80, campo de visión de 240 × 240 mm (FOV); cortes transversales intercalados sin espacio, espesor de corte de 3,0 mm) para obtener imágenes funcionales. Los estímulos se presentaron en el transcurso de seis carreras funcionales. Las ejecuciones funcionales consistieron en 204, 276, 194, 147, 189 y 108 escaneos dinámicos, para un tiempo total de adquisición de datos funcionales de aproximadamente 33.7 min, excluyendo el tiempo entre ejecuciones funcionales. También se obtuvo una exploración anatómica ponderada en T1 de alta resolución para cada sujeto (8,2 s TR, 3,7 ms TE, 240 × 187 FOV, 0,938 mm × 0,938 mm × 1,0 mm de resolución) al final de la sesión de exploración. El relleno de espuma se colocó alrededor de las cabezas de los sujetos para minimizar el movimiento de la cabeza.

Paradigma de estudio fMRI

Antes de escanear, se les informó a los sujetos que mirarían una serie de videos mientras se encontraban en el escáner. Se informó a los sujetos que estos videos serían breves y variarían en contenido, y que la experiencia de participar en el estudio sería análoga a la televisión pasivamente mientras que otra persona "navegaba por el canal". Los videos se presentaron en el mismo orden para todos los sujetos para evitar inducir la variabilidad de la respuesta entre sujetos que sería atribuible simplemente a las diferencias en la manera en que se presentaron los fragmentos en el experimento (por ejemplo, si un video serio fue precedido por un clip cómico para algunos sujetos y no otros). Dado que el estudio actual pretendía evaluar si las posiciones de los sujetos relativas en sus redes sociales están asociadas con la similitud de la respuesta neural, en lugar de respuestas de contraste a estímulos particulares, se juzgó que los beneficios de usar una orden de ensayo única para todos los sujetos superan los costos potenciales. Una vez concluida la sesión de escaneo, el experimentador entrevistó a cada sujeto para determinar si había visto previamente alguno de los videoclips utilizados en el experimento.

Estímulos de estudio fMRI

Los estímulos consistieron en 14 videos presentados con sonido en el transcurso de seis sesiones de fMRI. Los videos tienen una duración de 88 a 305 s (Tabla 1). Se usaron tres criterios principales para seleccionar videoclips como estímulos. Primero, buscamos seleccionar estímulos que los sujetos en nuestra muestra serían relativamente poco probables de haber visto antes. Esto se hizo para evitar inducir diferencias en las correlaciones entre sujetos debido a la simple familiaridad con los estímulos, dado que es más probable que los amigos hayan visto los mismos videos antes del experimento en comparación con los pares de individuos que no son amigos de uno otro.

En segundo lugar, buscamos seleccionar estímulos atractivos. Razonamos que estímulos insuficientemente atractivos probablemente evocarían distracciones mentales, lo que probablemente implicaría pensamientos idiosincrásicos no relacionados con el experimento, y por lo tanto introducirían ruido no deseado en estimaciones de correlaciones entre sujetos y sus relaciones con la distancia social. En contraste, los estímulos que atraen efectivamente a la audiencia lo hacen al dirigir y restringir los pensamientos de los espectadores y la actividad neuronal asociada. Como tal, las películas y los programas de televisión dirigidos por profesionales provocan respuestas más confiables dentro de los sujetos y más allá de los videos sin editar o series de fotografías estáticas38. Dichos videos están diseñados para captar la atención de los televidentes e impulsar sus inferencias al inducir reacciones e interpretaciones particulares en momentos específicos, y por lo tanto, son adecuados para experimentos que buscan inducir una serie compartida de estados cognitivos a través de los sujetos18.

En tercer lugar, buscamos seleccionar estímulos que, aunque interesantes, también introduzcan una variabilidad significativa en las correlaciones entre sujetos. Razonamos que para los propósitos del presente estudio, la variabilidad no informativa entre sujetos en los datos de series de tiempo de respuesta neural surgiría en gran medida del uso de estímulos que no lograron involucrar efectivamente a los sujetos, y por lo tanto, no lograron restringir sus pensamientos y atención. Por el contrario, la variabilidad significativa entre sujetos en los datos de series de tiempo de respuesta neural surgiría del uso de estímulos que produjeron inferencias divergentes y patrones de asignación atencional en diferentes grupos de televidentes. Intentamos seleccionar estímulos que minimizaran la variabilidad no informativa entre los sujetos mediante la captación de la atención de los sujetos, pero al mismo tiempo, promovieron la variabilidad significativa entre los sujetos al evocar reacciones divergentes entre los sujetos. Por ejemplo, se eligieron videos que podrían ser interpretados como dulces por algunos sujetos, pero empalagosos o "cursi" por otros (por ejemplo, un video musical sentimental), que apelarían a diferentes estilos de humor (por ejemplo, comedia física, humor irónico, Comedia "cringe", y humor sophomoric o "lowbrow"), y que presentó uno o ambos lados de un argumento que los sujetos pueden resonar o responder con críticas (por ejemplo, un debate sobre si el fútbol americano universitario debería ser prohibido). Breves descripciones de los 14 videos se presentan en la Tabla 1.

La mayoría de los sujetos (29 de 42) no habían visto ninguno de los videoclips utilizados en el estudio fMRI antes de participar, y el número promedio de clips que los sujetos habían visto anteriormente era bajo (M = 0,41 clips de 14; SD = 0,70 ) Para la mayoría de los videos utilizados como estímulos experimentales (es decir, 9 de 14), no había díadas cuyos miembros habían visto el clip antes del escaneo. De los videoclips restantes, dos habían sido vistos previamente por dos sujetos (es decir, por ambos miembros de una díada individual, o 0.12% de todas las díadas), dos habían sido vistos previamente por tres sujetos (es decir, por ambos miembros de tres díadas , o 0,35% de díadas), y un clip había sido visto previamente por cuatro sujetos (es decir, por ambos miembros de seis díadas, o 0,70% de las 861 díadas totales). Consulte la Tabla Suplementaria 1 para obtener un resumen completo de la familiaridad informada de los sujetos con los 14 videoclips utilizados como estímulos experimentales, y la Nota Suplementaria 4 para una reproducción de nuestros principales análisis excluyendo a las díadas cuyos miembros habían visto cualquiera de los mismos estímulos antes de participando en el estudio fMRI.

Definición de ROI anatómicos

Las regiones anatómicas se delinearon aplicando el algoritmo de parcelación anatómica FreeSurfer53 al escaneo anatómico de alta resolución de cada sujeto (figura 2a). Brevemente, este proceso incluye la eliminación digital de tejido no cerebral, segmentación automatizada de la corteza cerebral, materia blanca subcortical, tronco encefálico, cerebelo y estructuras volumétricas de materia gris profunda (por ejemplo, amígdala, hipocampo y putamen), generación de un modelo de la superficie cortical cerebral de cada sujeto, y la parcelación automatizada del modelo de superficie cortical de cada sujeto en unidades anatómicas basadas en sus patrones de plegamiento cortical. El atlas32 cortical Desikan-Killiany implementado en FreeSurfer 5.353 se utilizó para asignar etiquetas anatómicas al modelo de superficie cortical de cada sujeto. Este atlas basado en giro define una circunvolución como tejido entre dos surcos adyacentes. Como tal, una etiqueta de giro específica en este atlas (por ejemplo, circunvolución temporal inferior izquierda) corresponde tanto a la circunvolución asociada como a los bancos adyacentes de sus surcos limitantes. Este procedimiento produjo 34 etiquetas de atlas para cada hemisferio, así como 6 etiquetas correspondientes a estructuras subcorticales dentro de cada hemisferio. Por lo tanto, en total, se definieron 80 ROI anatómicos para cada sujeto (Tabla Suplementaria 2 y Figura 3 para una lista completa de los ROI).

Preprocesamiento de datos de fMRI

El preprocesamiento de los datos de la serie temporal de fMRI se realizó utilizando AFNI54. Para cada ejecución, los datos funcionales fueron desviados utilizando el programa 3DDespike de AFNI para eliminar las fluctuaciones transitorias de señales extremas no atribuibles a fenómenos biológicos. A continuación, los escaneos funcionales de cada sujeto se alinearon con su escaneo anatómico utilizando una transformación de mínimos cuadrados de seis parámetros del cuerpo. Los parámetros de movimiento de este paso de registro de volumen se guardaron para su posterior eliminación de la serie temporal de la señal como regresores sin interés. Los primeros dos volúmenes de cada ejecución se descartaron para evitar incluir datos potencialmente caracterizados por grandes cambios de señal antes de que el tejido alcance un estado estable de excitación por radiofrecuencia. La serie temporal de cada voxel se amplió a su media dentro de cada ejecución.

Además de los parámetros de movimiento extraídos durante el registro volumétrico, se extrajeron series temporales de voxels correspondientes a materia blanca y ventrículos para su inclusión posterior como regresores sin interés, ya que las fluctuaciones de señal en la sustancia blanca y el líquido cefalorraquídeo reflejan en gran medida el ruido debido al movimiento del sujeto. y artefactos fisiológicos, como los efectos cardíacos y respiratorios55,56. La materia blanca y las máscaras de ventrículo se extrajeron según el archivo de segmentación FreeSurfer de cada sujeto. Estas máscaras fueron erosionadas para evitar la inclusión de voxels de materia gris al excluir cualquier voxels con uno o más vecinos no blancos de la máscara de materia blanca, y cualquier voxels con dos o más vecinos de vóxeles no ventriculares de la máscara del ventrículo. Se aplicó un umbral de erosión relativamente menos conservador a las máscaras de ventrículo para asegurar que todas las máscaras de ventrículo de los sujetos contenían vóxeles; estos umbrales fueron elegidos en base a las recomendaciones provistas por afni_restproc.py. Los datos se alisaron espacialmente por separado dentro de la materia gris y las máscaras de materia no gris usando un ancho total de 4 mm a la mitad del grano suavizado gaussiano. La serie de tiempo promedio de cada ejecución se extrajo de la máscara de ventrículo para su uso como un regresor global sin interés. Además, se calculó un regresor local sin interés para cada vóxel tomando la serie de tiempo promedio de vóxeles de materia blanca dentro de un radio de 15 mm de ese vóxel. Las derivadas temporales de cada regresor sin interés (es decir, los parámetros de movimiento extraídos durante el registro del volumen, la señal del ventrículo promedio y la señal de la sustancia blanca local) se calcularon para su uso como regresores adicionales sin interés. A continuación, se eliminó un polinomio de tercer orden de todos los regresores sin interés para evitar la inclusión de términos polinómicos competitivos durante la regresión posterior.

Finalmente, las señales molestas (es decir, parámetros de movimiento, señal de ventrículo promedio, señal de materia blanca local y sus derivadas) y un polinomio de tercer orden se regresaron fuera de la serie temporal preprocesada de cada vóxel para cada ejecución para cada sujeto. El objetivo de este procedimiento era eliminar los cambios en la señal del movimiento del sujeto, los artefactos fisiológicos (por ejemplo, la respiración y los efectos cardíacos) y las inestabilidades del instrumento para proporcionar una mejor estimación de las fluctuaciones de señal debidas al procesamiento neuronal. La regresión variable molesta a menudo se emplea para atenuar la autocorrelación temporal que caracteriza las series de tiempo de respuesta fMRI, lo que puede sesgar las estimaciones de la varianza del error y, por lo tanto, la importancia de las estadísticas de prueba que describen esas series temporales, debido a una subestimación de los verdaderos grados de libertad. En el estudio actual, sin embargo, las magnitudes relativas de los coeficientes de correlación entre series de tiempo correspondientes (que, a diferencia de los valores p correspondientes no estarían sesgados por autocorrelación temporal dentro de series de tiempo individuales) se ingresaron en análisis estadísticos separados investigando cómo la similitud diádica varió como función de la distancia social. Por lo tanto, eliminar los efectos de las variables molestas como se describió anteriormente sirvió principalmente para disminuir el ruido en los datos no relacionados con el procesamiento cognitivo y afectivo de los estímulos. Para cada sujeto, estos datos de serie de tiempo preprocesados ​​se concatenaron en las seis ejecuciones experimentales. La serie de tiempo preprocesada promedio de cada uno de los 80 ROI anatómicos se extrajo para cada sujeto (es decir, los datos se promediaron en todos los vóxeles dentro de un ROI dado en cada punto de tiempo para cada sujeto).

Debido a problemas de cobertura, a cinco sujetos les faltaban datos para 1 o más ROI. Específicamente, a dos sujetos les faltaban datos para un ROI único, a un sujeto le faltaban datos para 2 ROI, a un tema le faltaban datos para 6 ROI y a un sujeto le faltaban datos para 21 ROI. Los datos faltantes se concentraron principalmente en los lóbulos temporales (cuadro complementario 2).

Extracción de similitudes diádicas de series de tiempo de respuesta de fMRI
Dado que había 42 sujetos en el componente de fMRI del estudio, había 861 díadas únicas (no dirigidas) de sujetos con IRMf. Para cada una de estas 861 díadas, se calculó la correlación de Pearson entre las series de tiempo de sus respuestas de fMRI para cada uno de los 80 ROI anatómicos (figura 2). Para 1259 de estos 68 880 puntos de datos totales (es decir, 861 pares de sujetos × 80 ROI anatómicos), al menos un sujeto en la díada carecía de datos para el ROI correspondiente (Tabla Suplementaria 2). En tales casos, el valor de correlación para esta díada se imputa como el valor de correlación promedio para ese ROI de todas las díadas restantes. Los vectores de similitud resultantes para cada uno de los 80 ROI anatómicos se normalizaron para tener una media de cero y una desviación estándar de 1 (figura 3).

Predicción de distancia social basada en similitudes neuronales

Como se describe en el texto principal, probamos si sería posible predecir si dos personas eran amigos, amigos de amigos o más alejados en la red social en función de las similitudes de sus series de tiempo de respuesta de fMRI. Si es así, debería ser posible construir un modelo predictivo de distancia social entrenando un algoritmo para reconocer patrones de similitudes neuronales asociadas con varias categorías de distancia social de un subconjunto de datos de díadas. Este modelo debería generalizarse correctamente para predecir las distancias sociales que caracterizan a las nuevas díadas, dado datos que resumen la similitud de las respuestas fMRI de esas parejas a estímulos naturalistas (es decir, a partir de los vectores de ochenta elementos que resumen las similitudes de respuestas neuronales para cada díada). Dado que los datos actuales estaban desequilibrados en las categorías de distancia social (es decir, n = 63 para las díadas de distancia 1, n = 286 para las díadas de distancia 2, n = 412 para las díadas de distancia 3 yn = 100 para las díadas de distancia + 4) Se usaron procedimientos de remuestreo y plegamiento para crear una serie de pliegues de datos equilibrados de manera que todas las díadas se incluyeron en los análisis, como se describe con más detalle a continuación.

En primer lugar, el conjunto de datos se dividió en ocho pliegues de entrenamiento y prueba utilizando la función StratifiedKFold en scikit-learn24, que garantiza porcentajes equivalentes de muestras de cada clase en los entrenamientos y pliegues de prueba. Para atenuar problemas de desequilibrio de clase, a menudo se usan técnicas de muestreo tales como submuestreo (es decir, omisión de ejemplos de clases sobrerrepresentadas del conjunto de datos) y sobremuestreo (es decir, adición de copias de ejemplos de clases subrepresentadas al conjunto de datos). El muestreo insuficiente puede implicar excluir una gran cantidad de datos de los análisis (por ejemplo, en el estudio actual, que incluye solo 63 ejemplos de cada categoría implicaría el uso de solo 252 díadas, excluyendo efectivamente 609 díadas, el 71% del conjunto total de datos). El sobremuestreo asegura que todos los ejemplos (aquí, todos los datos de las díadas) se incluyen en los análisis. Aquí se implementó el sobremuestreo dentro de cada pliegue de formación para generar el mismo número de díadas de cada categoría de distancia social dentro de cada pliegue de formación. Las categorías de distancia que contenían relativamente pocas díadas dentro de cada pliegue de formación fueron equivalentes a las categorías de distancia social más grande al muestrear iterativamente sin reemplazo de los ejemplos de la categoría de distancia correspondiente dentro de ese pliegue de entrenamiento hasta que hubo un número equivalente de puntos de datos de cada categoría dentro del pliegue de entrenamiento. Este enfoque garantiza que ningún punto de datos quede completamente excluido del análisis, al tiempo que asegura que cualquier sobreajuste resultante del sobremuestreo no infle artificialmente el rendimiento del modelo convalidado cruzado, ya que el sobremuestreo se realiza solo dentro de cada pliegue de formación y el rendimiento se evalúa en última instancia dentro del sacando datos de prueba de cada doblez.

Dentro de los datos de entrenamiento de cada doblez de datos, se implementó un procedimiento de búsqueda de grillas en scikit-learn24 para seleccionar el hiperparámetro (es decir, el valor del parámetro C de una grilla de valores espaciados logarítmicamente entre 0.001 y 1000) de una SVM lineal algoritmo de aprendizaje que mejor separaría los elementos en el conjunto de datos de entrenamiento según la distancia social. Más específicamente, los datos de entrenamiento dentro de cada pliegue de datos se subdividieron en ocho pliegues de datos adicionales que fueron divididos en conjuntos de datos de entrenamiento y validación, y el valor C que se realizó con mayor precisión en datos de validación entre los pliegues dentro de los datos de entrenamiento fue seleccionado como el mejor estimador para ese doblez de datos. El mejor estimador se reentrenó luego en todos los datos de entrenamiento a partir del pliegue de datos dado, y su rendimiento predictivo fuera de muestra se probó en los datos de prueba de la izquierda para ese pliegue de datos. Este proceso se repitió iterativamente para cada doblez de datos. Los resultados en el texto principal reflejan el rendimiento predictivo cruzado cruzado promedio entre los pliegues de datos.

Para comparar el rendimiento predictivo con validación cruzada real con lo que se esperaría según el azar solo, se usaron pruebas de permutación. El procedimiento descrito anteriormente se repitió 1000 veces mientras se mezcla aleatoriamente las etiquetas correspondientes a los datos en cada pliegue de entrenamiento para estimar una distribución nula de las exactitudes de predicción validadas cruzadas correspondientes a lo que se lograría mediante adivinación aleatoria. La distribución y la media de las exactitudes predictivas validadas cruzadas logradas en los datos permutados aleatoriamente se ilustran en la figura 8b.

La visualización de los datos se realizó utilizando los paquetes python PySurfer58, seaborn, 59 y Matplotlib60, así como los paquetes R igraph52 y ggplot261.


Referencias