Mostrando entradas con la etiqueta k-shell. Mostrar todas las entradas
Mostrando entradas con la etiqueta k-shell. Mostrar todas las entradas

martes, 2 de junio de 2020

CoVID-19: Superdifusores y el control de la epidemia

"Superspreaders" en realidad podrían hacer que Covid-19 sea más fácil de controlar


Las sorprendentes implicaciones de la tendencia de la enfermedad a extenderse en grandes racimos.
Por Justin Fox -  Bloomberg



Superhéroes No superespropagadores. Fotógrafo: Andrej Isakovic / AFP / Getty Images

En un taller del 15 de febrero para instructores de zumba en la ciudad surcoreana de Cheonan, una persona infectada con Covid-19 transmitió la enfermedad a otras siete personas, que luego la transmitieron en las clases que impartieron, con el brote resultante infectando a más de 100 A principios de marzo, un miembro de Skagit Valley Chorale en Mount Vernon, Washington, parece haber infectado a otros 52 en la práctica del coro. Luego está el tipo de la planta procesadora de mariscos cerca de Accra, Ghana, que este mes informó que había infectado a 533 compañeros de trabajo.

Estos eventos de "superpropagación" se han convertido en una marca registrada del nuevo coronavirus, a primera vista bastante aterrador. Pero la mayoría de las personas que contraen la enfermedad no la transmiten a docenas de personas, y muchas no se la transmiten a nadie. Un nuevo estudio global estima que aproximadamente el 10% de las personas infectadas con Covid-19 causan el 80% de las transmisiones secundarias; otro estudio centrado en Israel pone esa participación entre 1% y 10%. Este desequilibrio explica mucho por qué Covid-19 se ha extendido de manera tan desigual e impredecible en todo el mundo. También, tal vez en contra de la intuición, parece hacer que la enfermedad sea más fácil de controlar de lo que sería si los superpropagadores no fueran tan importantes.

La variable crucial en los modelos epidemiológicos estándar es el número básico de reproducción, o R0, que es el número promedio de personas que es probable que infecte a alguien con la enfermedad. Los modelos reales recuperados infectados susceptibles son un poco más complicados que esto, pero esto es lo que obtienes si comienzas con una persona infectada y lo multiplicas por 2.25 (la mayoría de las estimaciones de R0 de Covid-19 están entre dos y tres) durante los próximos 10 períodos - que arbitrariamente he considerado semanas, no muy lejos del período de tiempo durante el cual se desarrollan las nuevas infecciones por Covid-19, con resultados redondeados al número entero más cercano:

Cómo se propaga una epidemia


Número de infectados si cada uno infecta un promedio de 2.25 otros por semana



Fuente: cálculos del autor.

Para las enfermedades de transmisión sexual y las transmitidas por el suministro de agua o por "vectores" como los mosquitos, se ha entendido durante mucho tiempo que tales modelos no son la representación más útil de cómo se propagan o pueden controlarse las infecciones. Haga que esa persona realmente promiscua deje de ser tan promiscua, o apague la bomba de ese pozo contaminado, y puede tener un gran impacto en la propagación del SIDA o del cólera. Sin embargo, para las enfermedades respiratorias transmitidas directamente, como la influenza, esto se consideró como un problema o una opción menos.

En un artículo de 2005 en la revista Nature que últimamente ha recibido mucha atención merecida, dos epidemiólogos y dos matemáticos señalaron que, si bien tal vez no fue un problema para la gripe, hay otras enfermedades que se propagan a través del contacto personal casual donde La transmisión parece estar dominada por una minoría de grandes eventos. "Utilizando datos de rastreo de contactos de ocho enfermedades transmitidas directamente, mostramos que la distribución de la infecciosidad individual alrededor de R0 a menudo es muy sesgada", escribieron. "Las predicciones del modelo que explican esta variación difieren considerablemente de los enfoques basados ​​en el promedio, con la posibilidad de extinción de enfermedades y brotes más raros pero más explosivos".

La enfermedad que fue el foco principal del documento fue el Síndrome Respiratorio Agudo Severo causado por coronavirus que había surgido en China dos años antes y se extendió rápidamente a varios otros países asiáticos y Canadá antes de ser contenido. Los autores idearon una nueva variable, "k", para reflejar la distribución de la infecciosidad individual, con una k baja que significa una propagación más sesgada. Asignaron al SARS una k de 0.16. Las estimaciones de la k de la gripe pandémica de 1918 rondan alrededor de 1, informó la semana pasada el periodista y biólogo molecular Kai Kupferschmidt en una excelente revista de la revista Science, sobre el fenómeno superdifusión. En respuesta al artículo, el autor principal del estudio Nature de 2005, Jamie Lloyd-Smith, de la Universidad de California en Los Ángeles, tuiteó que su estimación provisional de la k de Covid-19 es 0.17. (Epidemiología Twitter es donde está, gente).

¿Qué podemos hacer con estas estimaciones de k? En 2005, Lloyd-Smith y sus coautores realizaron simulaciones por computadora de miles de hipotéticas epidemias y descubrieron que las enfermedades con un valor cercano a 0.1 tenían muchas más probabilidades de desaparecer por sí solas o ser detenidas por modestas medidas de control que aquellas con un riesgo de 0.5 o más alto.

Para comprender mejor por qué es así, y con la esperanza de impartir algo de esa comprensión a los lectores, armé un modelo mucho más simple de una enfermedad con una dispersión de infecciosidad en la que 9 de cada 10 personas tienen un número de reproducción de 0.5 y 1 de 10 un número de reproducción de 18. Esto equivale al 10% de los casos que causan el 80% de las infecciones secundarias, como se encontró en el estudio citado anteriormente, y un R0 promedio de 2.25, como en el cuadro anterior. Para facilitar el trabajo de esto en una hoja de cálculo, supuse que en el 10% de las semanas todas las personas con la enfermedad le dan otras 18, y en el otro 90% se lo dan a un promedio de 0.5 más, lo cual es un terrible modelo epidemiológico. pero creo que aún llega a la dinámica básica en el trabajo.

La clave de esta dinámica es que las semanas altamente infecciosas y las menos infecciosas se distribuyen al azar. Durante largos períodos de tiempo, el 10% de las semanas serán altamente infecciosas, pero al igual que, por ejemplo, apostando por un número en la ruleta, habrá largas sequías y grupos ocasionales. Generé un montón de series aleatorias de números del 1 al 10, asignando 18 infecciones por persona a las semanas que salieron como 10 y 0.5 al resto. Así es como funcionó mi primera serie, con los números redondeados al número entero más cercano.
Cómo se esfuma una epidemia

Número de infectados en simulación con alta variación en infecciosidad







Fuente: cálculos del autor.

Entonces, la epidemia comenzó con fuerza, con 18 nuevas infecciones en la primera semana, y luego desapareció a medida que las semanas siguientes seguían reduciendo los números a la mitad. El segundo tuvo un poco más de impulso.
Cómo avanza una epidemia

Número de infectados en simulación con alta variación en infecciosidad


Fuente: cálculos del autor.

Sin embargo, no fue hasta la undécima carrera que generé una epidemia que superó a la que tuve cuando supuse que cada persona infectaba a otras 2.25, e incluso se había retrasado en la semana 10.
Finalmente, despega una epidemia de superación

Número de infectados



Fuente: cálculos del autor.

Tenga en cuenta que aquí no he probado nada más que ahora sé cómo usar la función RANDBETWEEN en Excel, pero esto parece ser un claro ejemplo de cómo la posibilidad aleatoria junto con un sesgo significativo puede ofrecer una gran variabilidad en los resultados. Se han dedicado innumerables píxeles e incluso más poder de procesamiento informático a descubrir qué características y políticas han sido responsables de brotes mortales de Covid-19 en algunos lugares y leves en otros, y algunas de las conclusiones de estas investigaciones seguramente tienen mérito. Pero dada la aparente gran variabilidad de la infecciosidad, parece probable que haya grandes diferencias en la velocidad y gravedad de los brotes de Covid-19 en todo el mundo, incluso si todos vivieran en circunstancias similares y cada gobierno siguiera políticas idénticas.

Las lecciones más importantes que se pueden derivar aquí pueden surgir del hecho de que las variaciones en la infecciosidad no son completamente aleatorias. En el futuro, un equipo de ocho investigadores en su mayoría con sede en los EE. UU. especularon en otro documento nuevo sobre el fenómeno, es posible identificar a los que tienen más probabilidades de ser superpropagadores por la demografía, la carga viral u otras características físicas. En el presente, ya es bastante fácil identificar comportamientos específicos y ubicaciones que se prestan a la transmisión Covid-19 a gran escala, con cantos, gritos, hablar en voz alta o de otra manera participar en comportamientos que probablemente propaguen el virus en los espacios interiores abarrotados implicados en La mayoría de los principales eventos de superdifusión.

El papel clave de tales eventos puede ayudar a explicar por qué, como demostró mi colega de la Opinión de Bloomberg Elaine He con un notable conjunto de gráficos, la rigurosidad de los cierres gubernamentales en diferentes países europeos no parecía estar correlacionada con el éxito en frenar la propagación de la enfermedad. , aunque su sincronización lo hizo. Una vez que haya puesto fin a las grandes reuniones interiores con muchos gritos o cantos, puede haber rendimientos decrecientes a otras restricciones. Esto también puede ayudar a explicar por qué los modelos epidémicos que no suponían una gran variabilidad en la infecciosidad individual sobreestimaron tan salvajemente la rapidez con que la enfermedad se propagaría bajo restricciones relativamente relajadas en Suecia.

Otra implicación del sesgo del superdifusores de Covid-19, según varios artículos recientes, es que incluso en ausencia de pruebas generalizadas de la enfermedad, los esfuerzos de baja tecnología para aislar a aquellos con síntomas y rastrear sus contactos pueden ser bastante efectivos para frenar su propagación. . La prevención de un solo evento de superdifusión de esta manera puede tener un gran impacto, mientras que si la transmisión se distribuye de manera más uniforme, los esfuerzos de aislamiento tendrían que ser bastante exhaustivos para tener éxito. También sugeriría que el uso generalizado de máscaras de tela incluso no muy efectivas debería reducir la probabilidad de superdifusión, pero siempre estoy buscando justificar las inversiones que he hecho en la construcción de un alijo de máscaras familiar.

Finalmente, como Corea del Sur en particular ha experimentado una y otra vez en los últimos meses, los eventos de superdifusores pueden permitir que Covid-19 regrese rápidamente después de períodos de declive. Son una razón para permanecer extremadamente vigilantes sobre la enfermedad, incluso cuando crees que la tienes a la fuga. Pero también son una razón para esperar que se pueda contener de una manera que, digamos, la influenza probablemente no.

martes, 26 de noviembre de 2019

La estructura de k-núcleo de redes múltiples

La estructura k-core de redes múltiples reales

Saeed Osat, Filippo Radicchi, Fragkiskos Papadopoulos
https://arxiv.org/abs/1911.10743





Las redes multiplex son representaciones matemáticas convenientes para muchos sistemas del mundo real (biológicos, sociales y tecnológicos) de elementos que interactúan, donde las interacciones entre los elementos tienen diferentes sabores. Estudios anteriores señalaron que las redes multiplex del mundo real muestran correlaciones significativas entre capas (correlación de grado-grado, superposición de bordes, similitudes de nodos) capaces de hacerlas robustas frente a fallas aleatorias y específicas de sus componentes individuales. Aquí, mostramos que las correlaciones entre capas son importantes también en la caracterización de su estructura k-core, es decir, la organización en capas de nodos con un grado cada vez más alto. Comprender las estructuras k-core es importante en el estudio de los procesos de difusión que tienen lugar en las redes, como por ejemplo en la identificación de spreaders influyentes y la aparición de fenómenos de localización. Encontramos que, si la distribución de grados de la red es heterogénea, entonces una fuerte estructura de k-core está bien predicha por correlaciones de grado-grado significativamente positivas. Sin embargo, si la distribución de grados de la red es homogénea, entonces la estructura de núcleo k fuerte se debe a correlaciones positivas a nivel de similitudes de nodos. Llegamos a nuestras conclusiones analizando diferentes redes multiplex del mundo real, introduciendo técnicas novedosas para controlar las correlaciones entre capas de redes sin cambiar su estructura, y aprovechando los modelos de redes sintéticas con niveles ajustables de correlaciones entre capas.




miércoles, 28 de junio de 2017

Status económico y posición en la red

Infiriendo el estatus económico personal desde la ubicación de la red social

Shaojun Luo, Flaviano Morone, Carlos Sarraute, Matías Travizano y Hernán A. Makse
Nature Communications 8, Número del artículo: 15227 (2017)
Doi: 10.1038 / ncomms15227


Resumen -
Se cree comúnmente que los patrones de lazos sociales afectan la situación económica de los individuos. Aquí traducimos este concepto en una definición operativa a nivel de red, lo que nos permite inferir el bienestar económico de los individuos a través de una medida de su ubicación e influencia en la red social. Analizamos dos fuentes de gran escala: las telecomunicaciones y los datos financieros de la población de todo un país. Nuestros resultados muestran que la ubicación de un individuo, medida como la influencia colectiva óptima para la integridad estructural de la red social, está altamente correlacionada con la situación económica personal. Los patrones de influencia social observados imitan los patrones de desigualdad económica. Para el uso pragmático y la validación, llevamos a cabo una campaña de marketing que muestra un aumento de tres veces en la tasa de respuesta dirigida a los individuos identificados por nuestras métricas de red social en comparación con la orientación aleatoria. Nuestra estrategia también puede ser útil para maximizar los efectos de las políticas de estímulo económico a gran escala.


Introducción

El problema de larga data de cómo la red de contactos sociales1,2,3 influye en la situación económica de los individuos ha llamado la atención debido a su importancia en una diversidad de temas socioeconómicos que van desde la política al mercadeo4,5,6,7. Los análisis teóricos han señalado la importancia de la red social en la vida económica5 como medio para difundir las ideas8,9 a través de los efectos de los "agujeros estructurales" 10 y los "lazos débiles" en la red4. Del mismo modo, la investigación ha reconocido el efecto económico positivo de ampliar los contactos de un individuo fuera de su propio grupo social estrechamente conectado1,11,12,13. Mientras que el trabajo previo ha establecido la importancia de la influencia de la red social a la situación económica, el problema de cómo cuantificar dicha correspondencia a través de las redes sociales o métricas3,14 permanece abierto.

Los estudios que emplean datos de comunicación telefónica móvil y otros indicadores sociales han encontrado una variedad de efectos en la red sobre indicadores socioeconómicos como oportunidades de empleo15,16, movilidad social17,18,19, desarrollo económico6,20,21,22 y comportamiento del consumidor23,24. Un trabajo reciente también proporciona evidencia de tales efectos sobre la riqueza de un individuo y destaca la necesidad de mejores indicadores25. Recientemente, un estudio numérico ha probado el efecto de la diversidad de redes en el desarrollo económico6. Este estudio analizó el desarrollo económico definido a nivel comunitario. Sin embargo, la cuestión de cómo se pueden utilizar las métricas de redes sociales para inferir la situación financiera a nivel individual, necesaria, por ejemplo, para las campañas de mercadotecnia o de intervención social, sigue sin respuesta. La dificultad se debe, en parte, a la falta de datos empíricos que combinen la información financiera de un individuo con el patrón de sus lazos sociales a nivel de red en gran escala de toda la sociedad.

En este trabajo abordamos este problema directamente combinando dos grandes conjuntos de datos: una red social de toda la población de un país latinoamericano y datos bancarios financieros a nivel individual. Descubrimos que la optimalidad de la localización de un individuo en la red, medida por la influencia colectiva (CI) métrica26, está altamente correlacionada con la situación económica del individuo a nivel de población: cuanto mayor es el CI, mayor es el nivel socioeconómico. La bondad de ajuste de esta correlación puede ser tan alta como R2 = 0,99 cuando también se incluye la edad. Estos resultados indican que la optimización de la ubicación en la red social medida por la métrica CI puede predecir con precisión los indicadores socioeconómicos a nivel personal.

El 1% superior del estrato económico tiene patrones de red precisos de formación de enlaces que muestran relativamente baja conectividad local rodeada por una jerarquía de centros estratégicamente ubicados en esferas de influencia de creciente tamaño en la red. Este patrón no se observa en el resto de la población, en particular, en el 10% inferior caracterizado por bajos valores de CI. Así, la influencia medida a partir de patrones de redes sociales imita la desigualdad observada en el estado económico27.

También encontramos una alta correlación entre la diversidad de vínculos de los individuos y su situación financiera (R2 = 0,96), empleando el análisis basado en la ubicación de la red y la edad. El análisis de la covarianza sugiere que el efecto de la influencia de la red es significativo e independiente de otros factores. Validamos estos resultados llevando a cabo una campaña de marketing dirigida en la que comparamos la tasa de respuesta para diferentes grupos de personas con diferentes ubicaciones de red. Al dirigir el grupo con los valores CI superiores, la tasa de respuesta puede llegar hasta 1%; Aproximadamente tres veces la tasa de respuesta encontrada por orientación al azar y cinco veces la tasa de respuesta de las personas de CI baja.

Así, los individuos con alto nivel socioeconómico (1% superior) desarrollan un patrón muy característico de lazos sociales en comparación con el 10% inferior. Si bien este resultado se puede esperar, es notable que la diferencia en el patrón de las interacciones sociales entre los ricos y los pobres pueden ser capturados con precisión por una métrica de red midiendo su CI en la red social26. La capa socioeconómica superior de la sociedad también representa el conjunto mínimo de personas que proporciona integridad a toda la red social a través de su gran CI. El hecho de que los individuos de mayor estatus económico estén ubicados en regiones de gran CI en la red eleva la evidencia anecdótica anterior a un principio de organización de la red a través de la optimización de la influencia de las personas afluentes que afectan la integridad estructural de la red social. Al mismo tiempo, sugiere la aparición del fenómeno de CI en la sociedad como resultado de la optimización de las interacciones socioeconómicas.


Resultados

Construcción de redes

La red social se construye a partir de datos móviles (llamadas y metadatos SMS) y de comunicaciones residenciales recopilados por un período de 122 días (Nota complementaria 1, datos agregados en kcorelab.com). La base de datos contiene 1.10 × 108 usuarios de teléfono. Después de filtrar los nodos no humanos activos mediante un modelo aprendido por la máquina y entrenado en el comportamiento de la comunicación natural humana (Nota Complementaria 2, con Figuras 1-4 adicionales), construimos una red final de 1,07 × 108 nodos en un componente conectado gigante hecho de 2,46 × 108 enlaces. Los lazos, o enlaces, en la red corresponden a comunicaciones telefónicas, ya que esperamos que los patrones de comunicación sean indicativos de la ubicación de un individuo en la red social28,29,30. El costo financiero del uso de los servicios telefónicos hace posible que exista un sesgo sistemático en la cantidad de personas ricas que utilizan los servicios telefónicos en relación con las personas que tienen menos dinero para gastar en llamadas telefónicas. Aunque el efecto podría ser limitado (nota complementaria 1), no podemos descartar esta posibilidad con los datos actuales.

La situación financiera se obtiene del límite de crédito combinado de las tarjetas de crédito asignadas por las instituciones bancarias a cada cliente. El límite de crédito se basa en factores compuestos de ingresos e historial de crédito y, por lo tanto, refleja la situación financiera del individuo (ver discusión en la Nota Suplementaria 1). El límite de crédito se extrae de una base de datos de bancos cifrados e identificado por los números de teléfono de los clientes cifrados registrados en el banco. Por lo tanto, somos capaces de correlacionar precisamente la información financiera de un individuo con su ubicación social en la red de llamadas telefónicas a nivel de país. Hay 5.02 × 105 clientes bancarios que han sido identificados en la red móvil cuyo límite de crédito oscila entre USD $ 50 a $ 3.5 × 105 (convertido desde el país de estudio). Por lo tanto, los conjuntos de datos están conectados con precisión proporcionando una oportunidad sin precedentes para probar la correlación entre la ubicación de la red y el estado financiero.

A pesar de la gran escala de nuestra fuente de datos, observamos que trabajar en un solo país específico como en el presente estudio no es suficiente para otorgar generalidad a nuestros resultados. Para probar la validez general de los resultados actuales, se necesitaría el acceso a conjuntos de datos bancarios y de comunicaciones a nivel de toda la población de otros países. A medida que más conjuntos de datos estén disponibles, la generalidad de nuestros resultados puede ser probada a través de diferentes sistemas económicos y sociales.

La Figura 1a, b muestra los patrones de comunicación geolocalizados en todo el país de los individuos en el 1% superior y el 10% inferior de los límites de crédito, respectivamente. La desigualdad en los patrones de comunicación entre la clase económica superior y la más baja es sorprendente y imita la desigualdad económica a nivel de país27. Es visualmente evidente que el 1% superior (que representa el 45,2% del crédito total en el país) muestra un patrón de comunicación completamente diferente que el 10% inferior; El primero se caracteriza por vínculos más activos y diversos, especialmente conectando ubicaciones remotas y comunicándose con otras personas igualmente afluentes. Otros resultados utilizando el análisis de entropía también sugieren que la estructura de la red puede ser significativamente diferente entre las personas en el ranking de cuantil superior e inferior del límite de crédito (nota complementaria 3, cuadro complementario 1). Ejemplos particulares de las redes de ego ampliadas para dos individuos (con el mismo número de lazos) que ocupan el 1% superior y el 10% inferior proporcionan una imagen ampliada de tales diferencias (Fig. 1c, d, respectivamente). Los 1-por ciento más ricos tienen una mayor diversidad de contactos móviles y están ubicados centralmente, rodeados por otras personas altamente conectadas (hubs de red). Por otro lado, los individuos más pobres tienen una diversidad de contacto baja y están débilmente conectados a menos centros. El quid de la cuestión es encontrar una métrica de red social confiable para cuantificar esta diferencia visual en los patrones de estructura de red entre los ricos y los pobres, como se muestra a continuación.

Figura 1: Los patrones de influencia de la red imitan patrones de desigualdad de ingresos.

Visualización de la actividad de comunicación de la población en el primer 1% (con límite de crédito superior a USD $ 25.000, convertido, en el país de estudio) y (b) inferior 10% (con límite de crédito inferior a USD $ 600) del total Clases de límite de crédito. Los enlaces están entre los clientes del banco que han registrado su código postal. La resolución de ambas parcelas es de 1.700 × 1.000. El número de clientes bancarios dentro de cada comunidad se refleja en el tamaño del nodo. El límite de crédito promedio se indica mediante la escala de grises de un nodo. El color y grosor de los bordes refleja el número de eventos de comunicación entre diferentes comunidades. (C) Ejemplos de la red de ego (extendida a dos capas) para un individuo en la clase rica superior del 1% y (d) un individuo en la clase inferior del 10%. Las redes muestran dos patrones distintos de lazos sociales de acuerdo con la alta y baja situación económica: la primera se caracteriza por una IC grande, la segunda por CI baja. (E) Representación esquemática de una red bajo la descomposición de k-shell33. (F) Ejemplo de cálculo de CI. El CI Bola de radio alrededor del nodo i es el conjunto de nodos contenidos dentro de la esfera y ∂Ball es el conjunto de nodos en el límite (marrón). CI es el grado-menos-uno del nodo central veces la suma del grado-menos-uno de los nodos en el límite de la esfera de influencia.


Influencia de la red y situación financiera

Se han considerado muchas métricas o centralidades para caracterizar la influencia o importancia de los nodos en una red3,14,31. Aquí consideramos sólo aquellas centralidades que pueden ser escaladas hasta el tamaño de la red grande considerado aquí (figura 1e, nota adicional 4): (a) la centralidad del grado ki (número de lazos del individuo i) es una de las más simples3, (B) PageRank, de Google fame32, es una centralidad de vectores propios que incluye la importancia no sólo del grado, sino también de los vecinos más próximos, (c) el índice ks  del k-shell de un nodo (Figura 1e), es decir, La localización de la cáscara obtenida mediante la poda iterativa de todos los nodos con un grado k<ks (referencia 33), y (d) la CI de un nodo de grado ki  (figura 1f) en una esfera de influencia del tamaño  definido por la frontera de la bola de influencia , y se prevé que sea  por la teoría de percolación óptima26. A diferencia de las otras centralidades heurísticas, CI se deriva de la teoría de la maximización de la influencia en la red34. Por lo tanto, los nodos CI superiores se identifican como influenciadores o distribuidores superiores de información, y lo son colocándose en ubicaciones estratégicas en el centro de esferas rodeadas por cubos situados jerárquicamente a distancias (figura 1d). Estos influyentes colectivos constituyen también un conjunto óptimo que proporciona integridad al tejido social: son el número más pequeño de personas que, al salir de la red (proceso matemáticamente conocido como percolación óptima26), desintegraría la red en pequeñas piezas desconectadas.

Por definición, todas las métricas tienen similitudes (por ejemplo, son proporcionales a k, y PageRank y CI se basan en los autovalores más grandes de las matrices de adyacencia y no retroceso, respectivamente26), y de hecho, encontramos que sus valores en La red de comunicaciones telefónicas están correlacionadas (Tabla 2 suplementaria). Más interesante, la Fig. 2 proporciona evidencia de correlación de las cuatro métricas de la red con el estado financiero (límite de crédito clasificado) cuando controlamos por edad, lo que indica que la ubicación de la red se correlaciona con la situación financiera. En esta figura, se representa la fracción de individuos ricos (definida como el cuarto cuantil superior, equivalente a un límite de crédito superior a USD $ 4.000, véase la Nota Complementaria 5 para detalles sobre los métodos de validación y la referencia 30) en una cuadrícula de muestreo para un valor dado De edad y métrica social como se indica.


Figura 2: Fracción de individuos ricos versus edad y métricas de red.

Correlación entre la fracción de individuos ricos frente a la edad y (a) grado k  (R2=0.92), (b) k-shell (R2=0.96), (c) PageRank (R2=0.96) y (d) log10CI (R2=0.93). Sólo se muestran en la parcela los grupos con población> 20. Las cuatro métricas se correlacionan bien con la situación financiera cuando se consideran con la edad. Otras correlaciones se estudian en la Nota Suplementaria 6, indicando que CI podría ser considerada como la métrica más conveniente de los cuatro debido a su alta resolución.

Si bien todas las métricas sociales muestran correlaciones con el estado financiero cuando se consideran con la edad (figura 2), la pregunta sigue siendo cuál métrica es el predictor más eficiente. Se observan correlaciones fuertes con el bienestar económico para los pares de características (edad, k-shell, R2 = 0,96, Fig. 2b) y (edad, CI; R2 = 0,93, Fig. 2d). La Nota Suplementaria 6 (Figuras Adicionales 7-9) proporciona una comparación adicional cuando se consideran las métricas por sí solas, indicando que k-shell y CI mejor captan la correlación con el límite de crédito. Entre estas dos métricas, CI garantiza un requisito para una correlación fuerte y suficiente resolución. K-shell no puede capturar más detalles debido a su limitación de valores (k-shell varía de 1 a 23, dividiendo a toda la población en este pequeño número de conchas con una típica concha conteniendo decenas de millones de personas), mientras que CI abarca más de siete órdenes de magnitud; Véase la Fig. 5. Esta alta resolución implica que CI es una firma social más precisa para la situación financiera de los individuos. Según su definición (figura 1d), un nodo CI superior es un hub moderado a fuerte rodeado por otros centros jerárquicamente situados a distancia. Sin embargo, enfatizamos que CI es sólo una estrategia útil por las razones expuestas anteriormente, y de ninguna manera la única o mejor estrategia para correlacionar la riqueza de los individuos y su influencia en la red.

Si bien la teoría detrás de CI es una maximización global de la influencia, CI representa la aproximación local a esta optimización global. Así, CI representa un equilibrio entre una optimización global y su aproximación local, teniendo en cuenta las primeras 2 o 3 capas de vecinos a través del parámetro , que representa el tamaño de la esfera de influencia utilizada para definir la importancia de un nodo. 1d. Al cambiar , descubrimos que CI con es suficiente para capturar la correlación entre la influencia de la red y la riqueza (Figura 10).

Para realizar un seguimiento del efecto de la IC independientemente de la edad, se investigan los efectos de la CI dentro de dos grupos de edad específicos en la Fig. 3a, b. En ambos grupos de edad, la CI alta siempre está acompañada por una población más alta de personas ricas. Una pendiente relativamente menor en el grupo de edad <30 sugiere que el efecto de la red de CI es más sensible para las personas mayores con niveles económicos más maduros y estables que para los jóvenes (Figura 6). Cuando combinamos la edad y la clasificación de cuantil CI en un compuesto de edad-red: ANC=αAge+(1−α) CI, con α = 0,5, se logra una notable correlación (R2 = 0,99, Fig. 3c). Al combinar la información de la red con la edad, la probabilidad de identificar a las personas con un límite de crédito alto alcanza el ~ 70% al nivel más alto de ingresos. Este nivel de precisión hace que el modelo sea práctico para inferir la aptitud financiera de los individuos usando la CI de la red como se muestra a continuación.

Figura 3: Fracción de individuos ricos en diferentes edades y grupos de clasificación compuestos.

Correlación entre la fracción de individuos ricos dada por el límite máximo de crédito del 25% y CI en diferentes grupos de edad de (a) 18-30 y (b)> 45. Las correlaciones entre la situación económica superior y la IC grande determinada por los valores de CI en diferentes edades son significativas en todos los grupos de edad, mientras que la pendiente de la regresión lineal es mayor en el grupo de mayor edad (0,053 comparado con 0,037). (C) Clasificación compositiva edad-red ANC = 1/2 Edad + CI 1/2, y (d) clasificación mixta edad-diversidad ADC = 1/2 Edad + 1/2 DR. Mediante la combinación de las métricas de red con la edad en un índice compuesto, la posibilidad de identificar a las personas de alto nivel financiero alcanza ~ 70% para valores altos del compuesto. Ambos R2 muestran un alto nivel de correlación (R2 = 0,99 y 0,96 para ANC y ADC, respectivamente), haciendo ambos compuestos buenos predictores de la riqueza en aplicaciones prácticas.

Validación por campaña de marketing

Para validar nuestra estrategia, realizamos una campaña de marketing social cuyo objetivo es la adquisición de nuevos clientes de tarjetas de crédito, mediante el envío de mensajes a las personas afluentes (identificadas por sus valores de CI) e invitando a los destinatarios a iniciar una solicitud de producto (nota complementaria 8) . Observamos que en este experimento usamos un conjunto de datos independiente de un marco de tiempo diferente, y usamos solamente los valores de CI extraídos de la red para clasificar las personas objetivo. En concreto, utilizamos la red de comunicaciones resultante de la agregación de llamadas y SMS intercambiados entre usuarios durante un período de 91 días. La red social resultante contiene 7,19 × 107 personas y 3,51 × 108 enlaces. La campaña se llevó a cabo en un total de 656.944 personas que fueron objeto de un mensaje SMS ofreciendo el producto de acuerdo a sus valores de CI en la red social. También enviamos mensajes a un grupo de control de 48.000 personas, elegidas al azar. Para evaluar la campaña, se midió la tasa de respuesta, es decir, el número de receptores que solicitaron el producto dividido por el número de personas objetivo, en función de la CI. En el grupo de control, la tasa de respuesta a los mensajes fue 0,331%. Nuestros resultados muestran que los grupos de IC creciente muestran un aumento en su tasa de respuesta, con una triple ganancia sana en la tasa de respuesta de los principales influenciadores (identificados por los valores superiores de CI) en comparación con el caso aleatorio. Cuando comparamos la respuesta de la IC alta con la de CI más baja, la tasa de respuesta se quintuplica. Los resultados del experimento se resumen en la Tabla 1 y en la Fig. 4.


Tabla 1: Resultados de la campaña de marketing de la vida real.


Rango CI CuentaCuantilRespuestasTasa de respuesta
(0, 48)66,4950.11700.26%
(48, 246)65,1640.22180.33%
(246, 600)65,9610.33160.48%
(600, 1,144)65,3760.43320.51%
(1,144, 1,992)65,4770.53630.55%
(1,992, 3,408)65,4770.64580.70%
(3,408, 6,032)65,7360.74930.75%
(6,032, 11,772)65,6410.85550.8%
(11,772, 28,740)65,6830.96571.0%
(28,740, 2,719,354)65,6831.05730.87%
  1. Los individuos ('Cuenta') fueron apuntados según su ranking de cuantil CI en toda la red social obtenida de la actividad de comunicaciones telefónicas. Se calculó la respuesta a la campaña ("Sí contestó") para calcular la tasa de respuesta.

Figura 4: Tasa de respuesta versus cuantil de CI en la campaña de marketing de la vida real basada en CI.

La tasa de respuesta aumenta aproximadamente linealmente con la clasificación CI. La campaña de CI-targeting muestra una ganancia triple para los principales influyentes con CI alta, en comparación con una campaña dirigida a un grupo control aleatorizado.


Análisis de la covarianza

Observamos que nuestra validación es indirecta ya que no es una predicción directa de la situación financiera, sino una tasa de respuesta exitosa a una campaña de marketing. Esta tasa de éxito puede depender en realidad de una serie de otros factores que pueden correlacionarse con la centralidad de la red. Por lo tanto, la métrica de CI puede no ser necesariamente la única causa de la tasa de éxito de la campaña específica (por ejemplo, la ubicación geográfica puede ser también importante). Para abordar este punto, realizamos un análisis de la covarianza35 sobre todas las características a las que tenemos acceso (edad, sexo y código postal registrado) para probar la varianza causada por las métricas de la red y otros factores (detalles en la Nota Complementaria 5 y Tabla 3). El análisis de la covarianza muestra que los efectos de las métricas de la red son independientes de los de los otros factores. La correlación entre el CI y la fracción de personas adineradas es positiva y significativa (P <0,001) en todos los grupos de comunidades geográficas, entre géneros y entre todas las edades mayores de 24 años (Figura 6). Los mismos resultados significativos también se obtienen bajo diferentes umbrales de riqueza. Estos efectos de red significativos y sólidos implican que las métricas de red pueden ser un indicador potencial de la situación financiera.

Diversidad de la red y situación financiera

Nuestros conjuntos de datos combinados también ofrecen la posibilidad de probar la importancia de la diversidad de vínculos, medida por lazos con comunidades distantes de la red que no están directamente conectadas con la comunidad de un individuo, a nivel de individuos individuales4,5,6. Para ello, primero detectamos las comunidades en la red social mediante la aplicación de algoritmos rápidos de detección de la modularidad de los pliegues (Nota Suplementaria 7, Figura 11) 36,37. La diversidad de los vínculos de un individuo puede ser cuantificada a través de la relación de diversidad DR = Wout / Win, definida como la proporción de eventos de comunicación total con personas fuera de su propia comunidad, Wout, con aquellos dentro de su propia comunidad, Win. Esta relación está débilmente correlacionada con CI (R = 0,4), lo que sugiere que captura una característica diferente de la influencia de la red. Implementamos las mismas estadísticas de clasificación compuesta como antes, resultando en un compuesto de diversidad de edades ADC = αAge + (1-α) DR, con un peso α = 0.5. El resultado (Fig. 3d) muestra que ADC se correlaciona con el bienestar financiero individual, generalizando los resultados agregados en ref. 6 a nivel individual. Así, las métricas sociales consideradas, DR y CI, expresan el hecho de que los niveles económicos más altos se correlacionan con la capacidad de comunicarse con individuos fuera de la comunidad social local estrechamente unida, una medida del principio de fuerza de los lazos débiles de Granovetter En ubicaciones de red particulares de CI alto que son óptimas para la difusión de la información y la estabilidad estructural de la red social. Observamos que no se puede establecer una inferencia causal con los datos actuales.

Discusión

Este resultado destaca la posibilidad de predecir el estado financiero y los beneficios de las políticas socialmente orientadas basadas en métricas de red, lo que conduce a mejoras tangibles en las campañas de marketing social. El alto rendimiento de la CI entre las métricas de la red también sugiere el posible papel de acceder y mediar información en la oportunidad financiera y el bienestar5. Esto tiene un impacto inmediato en el diseño de campañas de marketing óptimas mediante la identificación de los objetivos ricos sobre la base de su posición influyente en una red social. Este hallazgo puede también elevarse al nivel de un principio, que explicaría la aparición del fenómeno de CI mismo como resultado de la optimización de las interacciones socioeconómicas.


Referencias

1. Newman, M. E. The structure and function of complex networks. SIAM Rev. 45, 167–256 (2003).
2. Vespignani, A. & Caldarelli, G. Large Scale Structure and Dynamics of Complex Networks: from Information Technology to Finance and Natural Science World Scientific (2007).
3. Wasserman, S. & Faust, K. Methods and Applications, Vol. 8 (Cambridge Univ. Press, 1994).
4. Granovetter, M. S. The strength of weak ties. Am. J. Sociol. 78, 1360–1380 (1973).
5. Granovetter, M. The impact of social structure on economic outcomes. J. Econ. Perspect. 19, 33–50 (2005).
6. Eagle, N., Macy, M. & Claxton, R. Network diversity and economic development. Science 328, 1029–1031 (2010).
7. Singh, V. K., Freeman, L., Lepri, B. & Pentland, A. S. in 2013 Internation Conference on Social Computing (SocialCom) 174–179 (Washington, DC, USA, 2013).
8. Powell, W. W. & Smith-Doerr, L. The Handbook of Economic Sociology, Vol. 368, 380 (eds Neil J. Smelser & Richard Swedberg) (Princeton University Press, Princeton, NJ, USA, 1994).
9. Strang, D. & Soule, S. A. Diffusion in organizations and social movements: from hybrid corn to poison pills. Annu. Rev. Sociol. 24, 265–290 (1998).
10. Burt, R. S. Structural Holes: the Social Structure of Competition Harvard Univ. Press (2009).
11. Page, S. E. The Difference: how the Power of Diversity Creates Better Groups, Firms, Schools, and Societies Princeton Univ. Press (2008).
12. Fernandez, R. M. & Weinberg, N. Getting a job: networks and hiring in a retail bank. Graduate Business School Research Paper No. 1382, 1 (University of Stanford, CA, USA, 1996).
13. Zimmer, C. The Art and Science of Entrepreneurship 3–23 (Ballinger, 1986).
14. Freeman, L. C. Centrality in social networks conceptual clarification. Soc. Networks 1, 215–239 (1978).
15. Toole, J. L. et al. Tracking employment shocks using mobile phone data. J. R. Soc. Interface 12, 2015.0185 (2015).
16. Seidel, M.-D. L., Polzer, J. T. & Stewart, K. J. Friends in high places: the effects of social networks on discrimination in salary negotiations. Admin. Sci. Q. 45, 1–24 (2000).
17. Cho, E., Myers, S. A. & Leskovec, J. in Proceedings of the 17th ACM (International Conference on Knowledge Discovery and Data Mining) 1082–1090 (San Diego, CA, USA, 2011).
18. Phithakkitnukoon, S., Smoreda, Z. & Olivier, P. Socio-geography of human mobility: a study using longitudinal mobile phone data. PLoS ONE 7, e39253 (2012).
19. Deville, P. et al. Scaling identity connects human mobility and social interactions. Proc. Natl Acad. Sci. USA 113, 7047–7052 (2016).
20. Pappalardo, L. et al. An analytical framework to nowcast well-being using mobile phone data. Int. J. Data Sci. Anal. 2, 75–92 (2016).
21. Pan, W., Ghoshal, G., Krumme, C., Cebrian, M. & Pentland, A. Urban characteristics attributable to density-driven tie formation. Nat. Commun. 4, 1961 (2013).
22. Gutierrez, T., Krings, G. & Blondel, V. D. Evaluating socio-economic state of a country analyzing airtime credit and mobile phone datasets. Preprint at https://arxiv.org/abs/1309.4496 (2013).
+ Show context
23. Salah, A. A., Lepri, B., Pianesi, F. & Pentland, A. S. in International Workshop on Human Behavior Understanding (eds Salah, A. & Lepri, B.) 1–15 (Springer, 2011).
24. Decuyper, A. et al. Estimating Food Consumption and Poverty Indices with Mobile Phone Data. Technical Report (United Nations Global Pulse, New York, USA, 2014). Preprint at https://arxiv.org/abs/1412.2595 (2014).
25. Blumenstock, J. in Proceedings of 20th ACM SIGKDD (International Conference on Knowledge Discovery and Data Mining) (New York, NY, USA, 2014).
26. Morone, F. & Makse, H. A. Influence maximization in complex networks through optimal percolation. Nature 524, 65–68 (2015).
27. Stiglitz, J. E. The Price of Inequality: how Today’s Divided Society Endangers our Future W. W. Norton & Company (2012).
28. Onnela, J.-P. et al. Structure and tie strengths in mobile communication networks. Proc. Natl Acad. Sci. USA 104, 7332–7336 (2007).
29. Gonzalez, M. C., Hidalgo, C. A. & Barabasi, A.-L. Understanding individual human mobility patterns. Nature 453, 779–782 (2008).
30. Eagle, N., Pentland, A. S. & Lazer, D. Inferring friendship network structure by using mobile phone data. Proc. Natl Acad. Sci. USA 106, 15274–15278 (2009).
31. Pei, S. & Makse, H. A. Spreading dynamics in complex networks. J. Stat. Mech. Theor. Exp. 2013, P12002 (2013).
32. Page, L., Brin, S., Motwani, R. & Winograd, T. The Pagerank Citation Ranking: bringing Order to the Web. Technical Report 422 (Stanford InfoLab, Palo Alto, CA, USA, 1998).
33. Kitsak, M. et al. Identification of inuential spreaders in complex networks. Nat. Phys. 6, 888–893 (2010).
34. Kempe, D., Kleinberg, J. & Tardos, É. in Proceedings of 9th ACM SIGKDD (International Conference on Knowledge Discovery and Data Mining) 137–146 (Seattle, WA, USA, 2003).
35. Wildt, A. R. & Ahtola, O. Analysis of Covariance, Vol. 12 (Sage Publications, 1978).
36. Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. Fast unfolding of communities in large networks. J. Stat. Mech. Theor. Exp. 2008, P10008 (2008).
37. Newman, M. E. Analysis of weighted networks. Phys. Rev. E 70, 056131 (2004).




sábado, 9 de julio de 2016

Identificación de difusores en redes complejas

Identificación de difusores influyentes en redes complejas



Nature Physics 6 
888–893 (2010) doi:10.1038/nphys1746


Redes retratan una multitud de interacciones a través del cual la gente se reúne, las ideas se propagan y las enfermedades infecciosas se propagan dentro de un sociedad 1, 2, 3, 4, 5. La identificación de los esparcidores '' más eficientes en una red es un paso importante para la optimización del uso de los disponibles recursos y garantizar la difusión más eficaz de información. Aquí nos muestran que, en contraste con la creencia común, hay circunstancias plausibles donde los mejores esparcidores no se corresponden con el personas 6 las más céntricas, 7, 8, 9, 10. En vez más altamente conectado o, nos encontramos con que los separadores más eficientes son los situados dentro del núcleo de la red tal como se identifica por el análisis 11 de descomposición de k-cáscara (k-shell), 12, 13, y que cuando múltiples difusores se consideran simultáneamente la distancia entre ellos se convierte en el parámetro crucial que determina la extensión de la difusión. Además, se muestra que las infecciones persisten en las cáscaras de alto-k de la red en el caso en el que recuperó las personas no desarrollan inmunidad. Nuestro análisis debe proporcionar una ruta para un diseño óptimo de las estrategias de difusión eficientes.


Figura 1: Cuando los cubos pueden no ser buenos difusores


Una representación esquemática de una red bajo la descomposición k-shell. Los dos nodos de grado k = 8 (azul y nodos amarillos) en esta red están en diferentes lugares: uno se encuentra en la periferia, (ks = 1), mientras que el otro concentrador está en el núcleo más íntimo de la red, es decir, que tiene la kS más grandes (ks = 3). b-d, la extensión de la eficiencia del proceso de propagación no puede predecirse con exactitud basa en una medida de la vecindad inmediata del nodo, tales como el grado k. Para la red de contactos de los pacientes hospitalizados (CNI), comparamos las infecciones procedentes de los nodos individuales que tienen el mismo grado k = 96 (los nodos A y B) o el mismo índice kS = 63 (los nodos A y C), con una probabilidad de infección β = 0,035 . En las parcelas correspondientes, los colores indican la probabilidad de que un nodo se infecta cuando la difusión se inicia en el origen correspondiente, siempre que esta probabilidad es mayor que 25%. Los resultados se basan en 10000 realizaciones diferentes para cada caso. En el primer caso, donde A tiene origen kS = 63, la difusión llega a un área mucho más amplia con más frecuencia, en contraste con origen B (kS = 26), donde la infección permanece en gran parte localizada en la vecindad inmediata de B. de dispersión es muy similar entre orígenes a y C, que tienen el mismo valor kS, aunque el grado de C es mucho menor que A. la importancia de la organización de la red también se pone de relieve cuando ReWire al azar la red (preservando el mismo grado para todos los nodos). En este caso, la imagen estándar se recupera: la extensión de la difusión y coincide ambos cubos contribuyen por igual en gran medida a la difusión (véase SI-Sección VI).



  1. Caldarelli, G. & Vespignani, A. (eds) Large Scale Structure and Dynamics of Complex Networks (World Scientific, 2007).
  2. Anderson, R. M.May, R. M. & Anderson, B. Infectious Diseases of Humans: Dynamics and Control (Oxford Science Publications, 1992).
  3. Diekmann, O. & Heesterbeek, J. A. P. Mathematical Epidemiology of Infectious Diseases: Model Building, Analysis and Interpretation (Wiley Series in Mathematical & Computational Biology, 2000).
  4. Keeling, M. J. & Rohani, P. Modeling Infectious Diseases in Humans and Animals (Princeton Univ. Press, 2008).
  5. Rogers, E. M. Diffusion of Innovation 4th edn (Free Press, 1995).
  6. Albert, R.Jeong, H. & Barabási, A-L. Error and attack tolerance of complex networks.Nature 406378482 (2000).
  7. Pastor-Satorras, R. & Vespignani, A. Epidemic spreading in scale-free networksPhys. Rev. Lett. 8632003203 (2001).
  8. Cohen, R.Erez, K.ben-Avraham, D. & Havlin, S. Breakdown of the Internet under intentional attackPhys. Rev. Lett. 8636823685 (2001).
  9. Freeman, L. C. Centrality in social networks: Conceptual clarificationSocial Networks 1,215239 (1979).
  10. Friedkin, N. E. Theoretical foundations for centrality measuresAm. J. Sociology 96,14781504 (1991).
  11. Bollobás, B. Graph Theory and Combinatorics: Proceedings of the Cambridge Combinatorial Conference in Honor of P. Erdös Vol. 35 (Academic, 1984).
  12. Seidman, S. B. Network structure and minimum degreeSocial Networks 5269287 (1983).
  13. Carmi, S.Havlin, SKirkpatrick, S.Shavitt, Y. & Shir, E. A model of Internet topology using k-shell decompositionProc. Natl Acad. Sci. USA 1041115011154 (2007).
  14. Ángeles-Serrano, M. & Boguñá, M. Clustering in complex networks. II. Percolation propertiesPhys. Rev. E 74056116 (2006).
  15. LiveJournal, http://www.livejournal.com.
  16. Liljeros, F.Giesecke, J. & Holme, P. The contact network of inpatients in a regional healthcare system. A longitudinal case studyMath. Population Studies 14269284 (2007).
  17. The Internet Movie Databasehttp://www.imdb.com.
  18. Hethcote, H. W. The mathematics of infectious diseasesSIAM Rev. 42599653 (2000).
  19. Castellano, C.Fortunato, S. & Loretto, V. Statistical Physics of Social DynamicsRev. Mod. Phys. 81591646 (2009).
  20. Shavitt, Y. & Shir, E. DIMES: Let the internet measure itselfACM SIGCOMM Comput. Commun. Rev. 357174 (2005).
  21. Molloy, M. & Reed, B. A critical point for random graphs with a given degree sequence.Random Struct. Algorithms 6161180 (1995).
  22. Hidalgo, C. A.Klinger, B.Barabasi, A-L. & Hausmann, R. The product space conditions the development of nationsScience 317482487 (2007).
  23. Hethcote, H. & Rogers, J. A. Gonorrhea Transmission Dynamics and Control (Springer-Verlag, 1984).
  24. Pastor-Satorras, R. & Vespignani, A. Immunization of complex networksPhys. Rev. E 65,036104 (2002).
  25. Dezsó, Z. & Barabási, A-L. Halting viruses in scale-free networksPhys. Rev. E 65055103(2002).
  26. Cohen, R.Erez, K.ben-Avraham, D. & Havlin, S. Resilience of the Internet to random breakdownsPhys. Rev. Lett. 8546264630 (2000).
  27. Newman, M. E. J. Assortative mixing in networksPhys. Rev. Lett. 89208701 (2002).
  28. Large Network visualization tool, http://xavier.informatics.indiana.edu/lanet-vi/.
  29. Alvarez-Hamelin, J. I.Dallásta, L.Barrat, A. & Vespignani, A. Large scale networks fingerprinting and visualization using the k-core decompositionAdv. Neural Inform. Process. Systems 184151 (2006).