Análisis de redes sociales

martes, 6 de diciembre de 2016

(Enormes) Redes de infraestructura en USA

Seis mapas que muestran la anatomía de la vasta infraestructura de Estados Unidos
Por Tim Meko - Washington Post

El plan del presidente electo Donald Trump de invertir $ 550,000 millones en nuevos proyectos de infraestructura en todo el país fue un tema central en su campaña. "Vamos a reconstruir nuestra infraestructura, que será, por cierto, insuperable. Y vamos a poner millones de nuestra gente a trabajar a medida que la reconstruimos ", dijo Trump. Los detalles todavía son turbios, pero parece que el plan dependerá de créditos fiscales para estimular la inversión privada.

Los mapas que está a punto de ver muestran el enorme alcance de la infraestructura de Estados Unidos usando datos de OpenStreetMap y varias fuentes gubernamentales. Proporcionan una idea de dónde pueden invertirse medio billón de dólares.

La red eléctrica

Líneas de transmisión eléctrica

Existen más de 3.300 centrales eléctricas y unas 7.700 centrales eléctricas que producen y distribuyen electricidad a hogares, empresas y otros consumidores. Esa electricidad viaja a través de más de 160,000 millas de líneas de transmisión eléctrica de alto voltaje que llegan a todos los rincones del país.

Los expertos describen la red eléctrica de la nación como un mosaico de servicios públicos, con instalaciones de transmisión y distribución -algunas que datan del siglo XIX- que finalmente se descompondrán a menos que se inviertan cientos de miles de millones de dólares.

Ubicación de las centrales eléctricas de combustible de carbón, gas, hidroeléctrica y eólica, respectivamente

"Cuando empezamos a construir lo que se conoce como la red eléctrica, Thomas Edison no se sentó y desarrolló un plan nacional - construimos la red a medida que avanzábamos", dijo Otto J. Lynch, del Comité de Infraestructura Estadounidense de la American Society of Ingenieros Civiles.

Pero las líneas de décadas de antigüedad están soportando una carga más pesada de lo que estaban diseñados para llevar. "Estamos poniendo más tensión en nuestra red eléctrica que cualquier otro país en el mundo, con mucho", dijo.

No todo el mundo piensa que esta es una forma inteligente de gastar miles de millones de dólares, sin embargo. Randal O'Toole, un investigador senior del Instituto Cato, escribió en un blog que la inversión gubernamental en nuestra infraestructura eléctrica podría no ser necesaria. "Las empresas privadas y las agencias públicas ya se ocupan de este tipo de infraestructura, por lo que si el plan de Trump se aplicara a ellos, obtendrían créditos fiscales por gastar el dinero que hubieran gastado de todos modos", escribió. "Eso no es neutral de ingresos."

Puentes

En gris, todos; en rojo, los que necesitan reparación

Un estudio de 2016 realizado por la American Road & Transportation Builders Association encontró que casi el 10 por ciento de los 600.000 puentes en Estados Unidos son estructuralmente deficientes. Cada estado realiza sus propias inspecciones para determinar si un puente - desde aquellos que abarcan ríos y arroyos hasta los que atraviesan autopistas - es deficiente. Esto presenta un problema único con la creación de un conjunto coherente de normas de un estado a otro.

Iowa tiene el mayor número de puentes estructuralmente deficientes, con cerca del 20 por ciento de sus puentes - más de 5.000 - clasificados como tales. Según la base de datos del National Bridge Inventory, esto significa que el puente "tiene uno o más defectos estructurales que requieren atención". En Nebraska, los tramos más antiguos representan el 60 por ciento de los puentes deficientes - 1 de cada 5 puentes fueron construidos a principios de 1930. Delaware, por otra parte, tiene una colección más moderna de puentes, sin embargo el 75 por ciento de los puentes estructuralmente deficientes del estado se construyeron en los últimos 50 años.

Ductos

Hay cerca de 150.000 millas de oleoductos y más de 1.5 millones de kilómetros de gasoductos en los Estados Unidos. Desde 2010, los auges de fracking en el oeste de Pennsylvania, Virginia Occidental, Oklahoma y el oeste de Texas han llevado a una mayor producción de gas natural, junto con la necesidad de ampliar la infraestructura de tuberías.

Gran parte de la producción nacional de petróleo y gas proviene del Golfo de México, y casi la mitad de la capacidad de refinación del país se encuentra a lo largo de la costa del Golfo.

Pero construir una infraestructura para transportar el producto de un lugar a otro no siempre es fácil o políticamente conveniente. La reciente controversia en torno a Dakota Access Pipeline ilustra las dificultades en el enhebrado de un oleoducto a través de cientos de millas.

Además, varios accidentes de oleoductos y gasoductos de alto perfil, como uno en San Bruno, California, que mató a ocho, han presentado la necesidad de una mejor administración de tuberías y un mejor mantenimiento.

Ferrocarriles

Más de 160.000 millas de vías, 76.000 puentes ferroviarios y 800 túneles en todo el país son compartidos por cientos de operadores que transportan carga y pasajeros. Decenas de millones de jinetes, la mayoría en el noreste, dependen de Amtrak y otros servicios ferroviarios de cercanías cada año.

Tonelaje de carga por ferrocarril
Millones de toneladas por año

El corredor más cargado del ferrocarril del cargo en el país origina en Wyoming donde el carbón se envía a las plantas de la energía en el Midwest.

Aeropuertos

Nuestras vías respiratorias son las más ocupadas del mundo. En un período de tres días a principios de noviembre, Flightradar24, que registra el tráfico aéreo en vivo, mostró más de 160.000 vuelos que llegan o salen de los aeropuertos estadounidenses. Las rutas más transitadas se encuentran entre Chicago y Nueva York, Los Ángeles y San Francisco, y Los Ángeles y Chicago.

Durante el primer debate presidencial, Trump elogió los aeropuertos de Dubai, Qatar y China, comparándolos con aeropuertos estadounidenses como LaGuardia, Kennedy, LAX y Newark. "Nuestros aeropuertos son como de un país del tercer mundo", dijo.

Y estaba, al menos un poco, en lo cierto. Según el Skytrax World Airport Awards de 2016, el aeropuerto más alto de Estados Unidos fue el Aeropuerto Internacional de Denver, que llegó en el puesto 28. El aeropuerto de Kennedy fue el 59, y LAX apenas alcanzó los 100 primeros, llegando en el puesto 91.

Mientras tanto, los aeropuertos de Asia y el Pacífico, Europa y Oriente Medio clasificaron constantemente más altos.

Puertos y vías navegables interiores

Tráfico marítimo
Los 150 principales puertos de Estados Unidos

Plataformas petroleras en el Golfo de México
El Cuerpo de Ingenieros de los Estados Unidos estima que más del 95 por ciento del comercio exterior producido o consumido por los Estados Unidos se mueve a través de nuestros puertos. Según el World Shipping Council, el Puerto de Los Ángeles y el Puerto de Long Beach ocupan los primeros 25 puertos con mayor tráfico en el mundo, y varios puertos de la costa este están entre los 50 primeros.

Tonelaje de carga por vía navegable interior
Millones de toneladas por año

Nuestras vías navegables interiores - especialmente el sistema del río Misisipi - permiten el transporte de mercancías entre puertos interiores como Pittsburgh y Cincinnati a los del océano. Esta infraestructura es fundamental para el transporte de carbón desde las colinas de Appalachia a las centrales eléctricas aguas arriba y aguas abajo.

Lo que esto significa para el plan de Trump

Brian Pallasch, director gerente de relaciones gubernamentales e iniciativas de infraestructura de la Sociedad Americana de Ingenieros Civiles, dice que la falta de especificidad de Trump sobre sus planes es algo bueno. "Permite a la comunidad de infraestructura tener más aportes mientras la administración desarrolla el plan, permitiéndonos tener una conversación más amplia", dijo.

O'Toole no está de acuerdo. "El problema con una solución de arriba hacia abajo como la propuesta de Trump es que un tamaño no encaja en todos. Diferentes tipos de infraestructura tienen diferentes tipos de necesidades, y la solución financiera será diferente para cada uno ", dijo.

En el Congreso, su plan puede encontrar más apoyo entre los demócratas que los republicanos. El presidente de la Cámara de Representantes, Paul D. Ryan (R-Wis.), Expresó su falta de apetito por un enorme aumento en el gasto en infraestructura. "Hemos aprobado la ley de autopistas más larga, la ley de carreteras a largo plazo, por primera vez desde la década de 1990 hace apenas unos meses", dijo. "Eso ya está en el lugar en un 10 por ciento por encima del gasto inicial en transporte público y carreteras".

domingo, 4 de diciembre de 2016

Redes de conmutación determinan nuevas megaregiones

Cuatro millones de conmutaciones revelan nuevas "Megaregiones"
A medida que los centros económicos crecen en tamaño e importancia, la determinación de sus límites se ha vuelto más crucial. ¿Dónde caes en el mapa?

Este mapa muestra las megaregiones de los Estados Unidos (representadas por colores) basadas en un análisis algorítmico de cuatro millones de conmutaciones (representadas como líneas).
ILUSTRACIÓN POR GARRETT DASH NELSON Y ALASDAIR RAE, PLOS UNO

By Betsy Mason - National Geographic

Una parte cada vez mayor de la población mundial está viviendo en lo que se conoce como megaregions -clústeres de ciudades interconectadas. El concepto de la megaregión tiene décadas de antigüedad y es bastante fácil de entender, pero su definición geográfica ha resultado ser bastante complicada.

Ahora, los investigadores han intentado mapear las megaregiones de los Estados Unidos contiguos estudiando los desplazamientos de los trabajadores estadounidenses.

A medida que las megaregiones crecen en tamaño e importancia, los economistas, los legisladores y los urbanistas necesitan trabajar en la coordinación de políticas a esta nueva escala. Pero cuando se trata de definir el alcance de una megaregión, se encuentran con los mismos problemas que los geógrafos y cartógrafos siempre han tenido al tratar de delinear áreas conceptuales. Debido a que las megaregiones se definen por conexiones-cosas como economías entrelazadas, enlaces de transporte, topografía compartida o una cultura común- es difícil saber dónde están sus límites.

Para tratar de resolver este problema geográfico, Garrett Nelson de Dartmouth College y Alasdair Rae, de la Universidad de Sheffield, utilizaron datos censales sobre más de cuatro millones de trayectos de cercanías y aplicaron dos análisis diferentes, uno basado en una interpretación visual y el otro enraizado en un algoritmo Desarrollado en MIT. Sus resultados y mapas aparecen hoy en la revista de acceso abierto PLOS ONE.

Un mapa muestra todos los trayectos de 50 millas o menos en la mayor área de la Bahía de San Francisco.

Una parte cada vez mayor de la población mundial está viviendo en lo que se conoce como megaregiones -clústeres de ciudades interconectadas. El concepto de la megaregión tiene décadas de antigüedad y es bastante fácil de entender, pero su definición geográfica ha resultado ser bastante complicada.

Ahora, los investigadores han intentado mapear las megaregiones de los Estados Unidos contiguos estudiando los desplazamientos de los trabajadores estadounidenses.

A medida que las megaregiones crecen en tamaño e importancia, los economistas, los legisladores y los urbanistas necesitan trabajar en la coordinación de políticas a esta nueva escala. Pero cuando se trata de definir el alcance de una megaregión, se encuentran con los mismos problemas que los geógrafos y cartógrafos siempre han tenido al tratar de delinear áreas conceptuales. Debido a que las megaregiones se definen por conexiones-cosas como economías entrelazadas, enlaces de transporte, topografía compartida o una cultura común- es difícil saber dónde están sus límites.

Para tratar de resolver este problema geográfico, Garrett Nelson de Dartmouth College y Alasdair Rae, de la Universidad de Sheffield, utilizaron datos censales sobre más de cuatro millones de trayectos de cercanías y aplicaron dos análisis diferentes, uno basado en una interpretación visual y el otro enraizado en un algoritmo Desarrollado en MIT. Sus resultados y mapas aparecen hoy en la revista de acceso abierto PLOS ONE.

El mapa anterior muestra todos los trayectos de 50 millas o menos (representados por líneas rectas entre los puntos de inicio y de fin) que rodean el área de la Bahía de San Francisco, una de las megaregiones más emblemáticas del país. Los viajes más cortos y de mayor volumen son de color amarillo, con rutas de volumen más largas y más bajas en rojo. En esta imagen es fácil ver que los principales centros de trabajo están en ciudades, incluyendo San Francisco, Oakland, San José y Sacramento, y que están muy conectados. (Véase "A Commuter Revolution: How Cities Are Collaborating to Solve the Challenges of Sustainable Urban Transport")

Pero ¿dónde deberían los planificadores dibujar los bordes de una megaregión que abarca esta actividad? ¿Qué conexiones son estadísticamente significativas? ¿Cuáles son importantes para la planificación del tránsito regional? ¿Deben centrarse en las ciudades que rodean la bahía, o es Sacramento tan importante para la economía del área de la bahía?
Para respuestas a estas preguntas, Nelson y Rae recurrieron a una herramienta basada en algoritmos diseñada por el Senseable City Lab del MIT para reconocer matemáticamente a las comunidades. El algoritmo sólo considera la fuerza de las conexiones entre los nodos (más de 70.000 sectores censales en este caso), ignorando las ubicaciones físicas. Esto hizo una buena prueba de la "primera ley de geografía" de Waldo Tobler: que las cosas que están cerca de cada una están más relacionadas que las que están más separadas.

La megaregión Minneapolis-St. Paul se ve diferente cuando se utiliza un enfoque visual (izquierda) o un enfoque algorítmico (derecha).

Los resultados del análisis algorítmico llevaron a cabo algunas limpiezas e iteraciones, como la eliminación de trayectos superlargos entre lugares como Nueva York y Los Ángeles, excluyendo nodos con conexiones muy débiles, para producir un mapa coherente de megaregiones plausibles. La diferencia entre los enfoques visuales y matemáticos se puede ver en el mapa arriba de la Minneapolis-St. Paul.

En el análisis visual a la izquierda, la actividad se centra claramente en las ciudades gemelas y se extiende hacia el exterior concéntricamente, con conexiones más débiles a las ciudades circundantes. Pero, ¿dónde termina la megaregión de ciudades gemelas? ¿Debería incluirse St. Cloud? ¿Qué pasa con Rochester? En el mapa a menor escala a la derecha, el algoritmo asignó una amplia franja de ciudades circundantes más pequeñas, incluyendo Fargo, Dakota del Norte, a la megaregión basada en trayectos de desplazamiento. Aquí, el área de ciudades gemelas se presenta como el más grande de los múltiples centros de actividad. (Vea "The City Solution: Why Cities Are the Best Cure for Our Planet’s Growing Pains")

Un algoritmo asignó las secciones de un censo (puntos) a 50 megaregions (colores).

Una de las decisiones que tomaron los investigadores fue limitar el algoritmo a 50 megaregiones, lo que se puede ver en el mapa anterior, donde cada nodo está coloreado según la región a la que pertenece. Esto hizo que el mapa fuera más plausible visualmente. Mientras que 50 puede sonar como un número arbitrario, tiene sentido matemáticamente porque un porcentaje muy alto de conmutaciones se encuentran totalmente dentro de una megaregion en relación con los caminos que cruzan los límites entre las regiones.

Estas megaregiones algorítmicas son más fáciles de interpretar en el mapa en la parte superior del post, que muestra las conexiones. Hay algunos resultados aparentemente extraños, tales como el límite agudo que sigue la línea del estado de Nueva York-Connecticut o la megaregion pequeña, manchada verde que flota entre Birmingham y Dallas. Claramente, al ignorar la información geográfica y al no haber entendido el carácter cultural del país, el método estadístico no consiguió todo correcto.

Así que Nelson y Rae combinaron los dos métodos para trazar límites finales alrededor de las megaregiones del país. Comenzaron dibujando líneas alrededor de los puntos en el mapa de arriba. Posteriormente, superpusieron esas formas en el mapa de flujo en la parte superior del puesto y reinterpretaron los límites para eliminar los valores atípicos y enfatizar la continuidad geográfica. El resultado es el mapa de abajo, que elimina algunas rarezas visuales. Por ejemplo, el área verde manchada ha sido absorbida por la megaregión de New Orleans-Delta, y una gran franja del oeste con una población relativamente baja no está incluida en ninguna megaregión.

Combinando enfoques visuales y matemáticos se obtuvo este mapa de megaregiones de los Estados Unidos.

Los investigadores esperan que su enfoque sea un primer paso para una mejor comprensión de la geografía económica del país. El mapa es claramente un trabajo en progreso, y algunas áreas todavía no parecen correctas: la división del área de tres estados de la ciudad de Nueva York en dos megaregiones, por ejemplo. Y no estoy convencido de la megaregion de Bay Area-Sacramento donde vivo debe extender todo el camino a Nevada. ¿El mapa asigna su hogar y lugar de trabajo a una megaregión que tiene sentido para usted?

viernes, 2 de diciembre de 2016

Detectando influyentes a nivel mesoescópico

Fragmentando redes apuntando a influyentes colectivos a un nivel mesoscópico

Teruyoshi Kobayashi & Naoki Masuda

Scientific Reports 6, Article number: 37778 (2016)
doi:10.1038/srep37778

Resumen
Un enfoque práctico para proteger las redes contra los procesos epidémicos, como la propagación de enfermedades infecciosas, malware e información viral nociva, es eliminar previamente algunos nodos influyentes para fragmentar la red en pequeños componentes. Debido a que determinar el orden óptimo para eliminar nodos es un problema computacionalmente difícil, se han propuesto varios algoritmos aproximados para fragmentar eficientemente las redes mediante eliminación secuencial de nodos. Morone y Makse propusieron un algoritmo que emplea la matriz de no retroceso de las redes dadas, que supera a varios algoritmos existentes. De hecho, muchas redes empíricas tienen la estructura de la comunidad, comprometiendo la asunción de la estructura similar al árbol local en la que se basa el algoritmo original. Desarrollamos un algoritmo de inmunización combinando sinérgicamente el algoritmo de Morone-Makse y el graining grueso de la red en el cual consideramos a una comunidad como un supernodo. De esta manera, buscamos identificar nodos que conecten comunidades diferentes a un costo computacional razonable. El algoritmo propuesto funciona más eficientemente que el Morone-Makse y otros algoritmos en redes con estructura comunitaria.

Introducción

La identificación de nodos influyentes en una red es un tema de interés en el análisis de redes, disfrutando de numerosas aplicaciones. Por ejemplo, una eliminación o inmunización de un nodo influyente puede suprimir la propagación de una enfermedad infecciosa que puede ocurrir más tarde. Una campaña de difusión de información viral a partir de un nodo influyente puede tener más éxito que una campaña que comienza desde otros nodos. Existen diversas nociones de nodos influyentes, como lo demuestra una multitud de definiciones de centralidad del nodo correspondientes a las aplicaciones mencionadas anteriormente y otras1. Entre ellos, un criterio principal del nodo influyente es que la eliminación de un nodo, o inmunización, fragmenta eficientemente la red en pequeños fragmentos. Debido a que el problema de encontrar el conjunto mínimo de nodos a inmunizar para fragmentar la red es NP-hard2, se han propuesto diversos algoritmos de inmunización para determinar el orden de los nodos que se van a retirar para realizar una fragmentación eficiente de la red2, 5,6,7,8,9,10,11,12, a veces con la limitación de que la información sobre la red está sólo parcialmente disponible6,13,14,15,16,17. En particular, aunque los centros de inmunización (es decir, los nodos con un gran grado) primero es intuitivo y mucho mejor que la selección aleatoria de los nodos a inmunizar18,19,20, muchos algoritmos de inmunización superan al algoritmo de inmunización del primer hub.

Morone y Makse propusieron un algoritmo escalable y potente para eliminar secuencialmente nodos y fragmentar la red en pequeños componentes tan pronto como sea posible9. Fundado en el enfoque de paso de mensajes y la teoría de matrices que no retroceden, el método calcula la llamada influencia colectiva (CI) para cada nodo para clasificar los nodos para priorización. Su método, que se conoce como el algoritmo CI, supera a varios otros métodos conocidos en el modelo y las redes empíricas. En el presente estudio, se propone un nuevo IC basado en la inmunización algoritmo que está diseñado para funcionar bien cuando la red tiene la estructura de la comunidad.

El algoritmo CI supone que la red dada es localmente similar a un árbol. De hecho, la mayoría de las redes empíricas no son localmente parecidas a las de un árbol. A nivel microscópico, las redes empíricas suelen estar agrupadas, es decir, llenas de triángulos1. A nivel mesoscópico, muchas redes están compuestas de comunidades, de tal manera que los vínculos son densos dentro de las comunidades y escasos entre diferentes comunidades21. Aunque el algoritmo CI también parece funcionar de manera eficiente en las redes loopy a menos que los bucles no son excesivos9, el rendimiento del algoritmo CI en las redes con estructura de la comunidad no está claro. Algunos algoritmos de inmunización existentes están explícita o implícitamente informados por la estructura de la comunidad4,5,6,10,15,16,22,23. Los algoritmos de inmunización que utilizan la centralidad de intermediación son eficaces en redes con estructura comunitaria6,7,16,22,23. Sin embargo, no son escalables debido a un alto coste computacional de cálculo de la centralidad de intermediación24. Para otros algoritmos de inmunización que explotan la estructura de la comunidad de redes, su desempeño relativo al algoritmo de CI es desconocido en general5,10 o al menos para redes con estructura de comunidad4,9. Sin embargo, otros algoritmos de inmunización basados en la comunidad imponen que sólo se dispone de información local sobre la red, imitando restricciones realistas6,15,16. Esta limitación limita naturalmente el rendimiento de un algoritmo de inmunización.

Desarrollamos un algoritmo de inmunización mediante la formulación de un algoritmo de CI para una red de grano grueso, en el que un nodo representa una comunidad, y un enlace ponderado representa el número de enlaces entre diferentes comunidades. Se compara el rendimiento del algoritmo propuesto con el del algoritmo CI[9] y el algoritmo convencional que apunta a los hubs18,19,20 y otros5,10 cuando las redes tienen estructura comunitaria.

Teoría

Considere una red no dirigida y no ponderada que tenga N nodos. El objetivo de un algoritmo de inmunización es eliminar secuencialmente los nodos para fragmentar la red tan pronto como sea posible, es decir, con un pequeño número de nodos eliminados.

Influencia colectiva

El algoritmo CI se basa en la puntuación de los nodos según el valor de CI[9]. El CI del nodo i se define como

donde

ki es el grado del nodo i, y es el conjunto de nodos a distancia del nodo i. Cuando, el IC es equivalente al grado, mientras que el orden de rango se refiere.

El algoritmo CI calcula el valor de todos los nodos y elimina el nodo con el mayor valor de CI en un solo paso. A continuación, los valores de CI de todos los nodos restantes se vuelven a calcular y se repite el mismo procedimiento.

De hecho, usamos el orden de los nodos que se eliminarán determinado anteriormente como una orden tentativa. Para mejorar el rendimiento general, reordenamos los nodos reinsertándolos de la siguiente manera. Partiendo de la situación en la que la fracción de nodos en el componente más grande conectado (LCC) es igual o menor que 0,01 por primera vez. A continuación, calculamos para cada nodo eliminado i el número de componentes que el nodo i conecta si se vuelve a insertar en la red actual. A continuación, agregamos el nodo que conecta el número más pequeño de componentes conectados. Repetimos este procedimiento hasta que todos los nodos eliminados se vuelvan a insertar de tal manera que se restaure la red inicial.

El tiempo de cálculo del algoritmo CI se evalúa como sigue9. El cálculo de requiere O (1) tiempo para un nodo, y por lo tanto O (N) tiempo para todos los nodos. Dado que la clasificación de los valores consume tiempo O (N logN), cada paso del algoritmo CI consume tiempo O (N logN). Por lo tanto, el tiempo de cálculo total hasta que se eliminan los nodos O (N) se evalúa como O(N2 logN). Sin embargo, explotando el hecho de que los valores de CI de sólo O (1) nodos se ven afectados por la eliminación de un solo nodo, se puede acelerar el mismo algoritmo con una estructura de datos de montón máximo, dando O (N logN) .

Influencia colectiva basada en la comunidad

La estructura de la comunidad puede hacer que una red no sea localmente similar a un árbol. Proponemos un algoritmo de inmunización mediante la ejecución de una variante de red ponderada del algoritmo CI en una red de grano grueso en el que una comunidad constituye un supernodo. Primero ejecutamos un algoritmo de detección de comunidad. Denotan por NC el número de comunidades y por

la matriz de adyacencia ponderada de grano grueso NC × NC cuyo elemento (I, J) es igual al número de enlaces que conectan las comunidades I y J (I ≠ J). Utilizamos minúsculas (por ejemplo, i, j) para indicar nodos individuales y mayúsculas (por ejemplo, I, J) para denotar supernodos, es decir, comunidades, a lo largo del texto. Los elementos diagonales de

se ponen a cero.

Supongamos que la red de grano grueso es localmente similar a un árbol. Teniendo en cuenta el hecho de que la red de grano grueso es generalmente una red ponderada, definimos el IC de la comunidad I en la red de grano grueso por

donde

Ball

denota el conjunto de las comunidades cuya distancia de la comunidad I es igual en la red de grano grueso.

Establecimos

Esta definición es análoga a zi ≡ ki - 1 en la Ec. (1). Con esta definición de, el IC de la comunidad I es igual a cero cuando sólo tengo un vecino, como en el CI original9,26.

Establecimos

Donde J es una comunidad que está a distancia de I y J- es la comunidad que está a distancia

de I y en el camino entre I y J (Fig. 1 (a)). Cabe señalar que

es igual a cero si J- es el único vecino de J. También debe observarse que cuando cada comunidad consta de un solo nodo en la red original,

para 1 ≤ i ≤ N. La ecuación (5) Está mal definido para

. Para ser coherente con la definición original de la IC, definimos

para

. Entonces,

es grande cuando el nodo I tiene un gran grado en la red de grano grueso.

Figura 1: Concepto de la influencia colectiva basada en la comunidad.

(a) Vista egocéntrica de la red de grano grueso. Cada círculo representa una comunidad. Dos comunidades están adyacentes por un enlace ponderado si un nodo en una comunidad está conectado a al menos un nodo en la otra comunidad. El peso del enlace en la red de grano grueso es igual al número de enlaces que conectan las dos comunidades en la red original. Se asume la estructura similar a un árbol local de la red de grano grueso. (b) Ilustración de

para

, en cuyo caso I + = J-. Una línea representa un vínculo en la red original. El círculo discontinuo representa la comunidad iésima. (c) Esquema de la reinserción comunitaria. Un círculo discontinuo representa una comunidad. Supongamos que vamos a reinsertar el nodo i o j. Si se reinsertaron, el nodo iy j tendrían un camino a dos y tres comunidades, respectivamente. Por lo tanto, reinsertamos el nodo i.

Sea A = (Aij) la matriz de adyacencia de la red original. La ecuación (3) se reescribe como

Donde I + es la comunidad adyacente a I (de ahí la distancia uno de I) a través de la cual se alcanza J desde I (figura 1 (b)). Sobre la base de la ecuación (6), definimos la influencia colectiva basada en la comunidad (CbCl) del nodo i, denotada por CbCI (i), como

Donde el nodo i pertenece a la comunidad I. En la ecuación (7), la importancia de un nodo se deriva de tres factores. En primer lugar, CbCI (i) es proporcional a, que es esencialmente el número de vínculos inter-comunitarios de la comunidad a la que pertenece. En segundo lugar, CbCl (i) es grande si I tiene muchos nodos de alto grado a distancia en la red de grano grueso (es decir, la suma de

). En tercer lugar, CbCI (i) es grande si el nodo i tiene muchos enlaces inter-comunitarios en relación con el número total de enlaces inter-comunitarios que la comunidad I tiene (es decir,

). Se establecen

las siguientes simulaciones numéricas. Cuando, I + en las ecuaciones (6) y (7) coinciden con J- en la Ec. (5) (figura 1 (b)).

Quitamos el nodo con el mayor valor CbCI. Si hay nodos múltiples con el mismo valor CbCI más grande, seleccionamos el nodo que tiene el grado más grande. Si hay múltiples nodos con el mismo CbCI y grado mayor, rompemos el empate al azar. A continuación, recalcular el CbCI para todos los nodos restantes, quitar el nodo con el mayor CbCI, y repetir el mismo procedimiento hasta que el tamaño de la LCC se convierte en igual o inferior a 0,01N. Optimizamos además el orden obtenido de eliminación de nodos por reinserción, como en el algoritmo CI. Utilizamos la red de grano grueso, no la red original, para informar al proceso de reinserción en el algoritmo CbCI. En otras palabras, el número de comunidades que pertenecen al mismo componente que el nodo reinsertado se mide para cada nodo tentativamente reinsertado. Decidimos reinsertar el nodo cuya presencia conecta el menor número de comunidades (Fig. 1 (c)).

Dada una partición de la red en comunidades, el cálculo de CbCI (i) para un nodo consume O (1) tiempo. Por lo tanto, si adaptamos la implementación original del algoritmo CI9 al caso del CbCI, la clasificación de CbCl (i) domina el tiempo de cálculo del algoritmo CbCI. La complejidad temporal del algoritmo CbCI es la misma que la del algoritmo CI en ref. 9, es decir, O (N2 logN), si la detección de la comunidad no es un cuello de botella. El uso de la estructura de datos de heap máximo hace que el algoritmo CbCI se ejecute en tiempo O (N logN) si NC = O(N) tal que los valores CbCI de los nudos O (1) se ven afectados por la eliminación de un solo nodo. En general, el algoritmo CbCI con la estructura de datos de heap máximo se ejecuta en tiempo O(N logN) × O(N/NC) = O((N2/NC)logN).

Utilizamos los siguientes seis algoritmos para la detección de la comunidad: (i) Infomap27,28, que requieren O (M) time21, donde M es el número de enlaces, y por tanto O (N) tiempo para las redes escasas; (Ii) Walktrap, que requiere O(N2logN) para la mayoría de las redes empíricas29; (Iii) el algoritmo de propagación de etiquetas, que requiere tiempo casi lineal en N ref. 30; (Iv) un algoritmo rápido codicioso para la maximización de la modularidad, que requiere O(N(logN)2) tiempo para las redes escasas31; (V) la maximización de la modularidad basada en el recocido simulado, que es práctico hasta ≈104 nodos en el documento original32 y que consume mucho tiempo porque la modularidad debe maximizarse dependiendo del parámetro33; (Vi) el algoritmo de Lovaina, que prácticamente se ejecuta en tiempo O (N )34. Los tres últimos algoritmos pretenden maximizar la modularidad, denotada por Q. Los tres primeros algoritmos detectan las comunidades de acuerdo con diferentes criterios.

Excepto para el algoritmo de recocido simulado, el coste computacional es como máximo para el algoritmo CbCI dada la partición de la red, es decir, O(N2 logN). Por lo tanto, si el algoritmo CbCI es ingenuamente implementado, la detección de la comunidad no es un cuello de botella en términos del tiempo de cálculo cuando se utiliza cualquiera de estos cinco algoritmos de detección de la comunidad. Si NC = O (N) e implementamos el algoritmo CbCI utilizando la estructura de datos de heap máximo, un algoritmo de detección de comunidad que requiere más tiempo que O (N logN) presenta un cuello de botella. En este caso, el Infomap cuando la red es escasa (es decir, M = O (N)), el algoritmo de propagación de la etiqueta y el algoritmo de Louvain conservan el tiempo de cálculo total de O (N logN) del algoritmo CbCI. El tiempo de cálculo total con cualquiera de los otros tres algoritmos de detección de comunidad se rige por el algoritmo de detección de la comunidad.

Resultados

En esta sección, comparamos el rendimiento del algoritmo CbCI con el IC y otros algoritmos de inmunización (ver Métodos) en dos redes modelo y 12 redes empíricas. Sea q la fracción de nodos eliminados. El tamaño de la LCC después de qN nodos se han eliminado, dividido por N, se denotan por G(q).

Modelos de red sin escala con y sin estructura comunitaria

Empezamos por probar diversos algoritmos de inmunización en un modelo de red sin escala con estructura de comunidad integrada (Métodos). Eliminamos secuencialmente nodos de esta red de acuerdo con cada algoritmo de inmunización y seguimos el tamaño de la LCC. Utilizamos la estructura de la comunidad impuesta por el modelo para informar a los algoritmos CbCI y CbDI. Los resultados para una gama de algoritmos de inmunización se muestran en la Fig. 2 (a). Los algoritmos CbCI y CbDI superan considerablemente el algoritmo CI. El algoritmo CbCI funciona mejor que el algoritmo CbDI. El rendimiento del algoritmo CbCI está cerca del algoritmo Betweenness. Cabe señalar que el algoritmo Betweenness, aunque eficiente, no es escalable a redes más grandes.

Figura 2: Tamaño normalizado de la LCC, G (q), trazado contra la fracción de nodos eliminados, q, en redes de modelos con N = 5000.

Una curva corresponde a un algoritmo de inmunización. Véase Métodos para las abreviaturas. (A) Red libre de escala con la estructura comunitaria predefinida. (B) Modelo BA.

A continuación, consideramos una red sin escala sin estructura comunitaria, que es generada por el modelo BA original con N = 5000 y <k> ≈ 12 (los parámetros del modelo son iguales a m0 = m = 6). Ejecutamos las estrategias CbCI y CbDI aplicando un algoritmo de detección de comunidades a la red generada, aunque el modelo de BA carece de estructura comunitaria. De hecho, todos menos el algoritmo de propagación de etiquetas devuelve un resultado de particionamiento. El rendimiento de los diferentes algoritmos de inmunización para esta red se compara en la Fig. 2 (b). El algoritmo CbCI combinado con Infomap o Walktrap supera los algoritmos de Grado y LSP. El rendimiento del algoritmo CbCI es cercano a la del algoritmo CI excepto en una etapa temprana de la eliminación del nodo. Un algoritmo de inmunización basado en la comunidad diferente, CbDI, carece de esta característica. Este resultado sugiere que el algoritmo CbCI combinado con Infomap o Walktrap puede funcionar eficientemente incluso cuando la red no tiene estructura comunitaria.

Los resultados de los algoritmos CbCI y CbDI combinados con los otros cuatro algoritmos de detección de la comunidad se muestran en la Fig. S2 (a). La cifra sugiere que el algoritmo CbCI combinado con Infomap o Walktrap funciona mejor que cuando se combina con un algoritmo de detección de comunidad diferente.

Redes empíricas

En esta sección, ejecutamos el CbCI y otros algoritmos en las siguientes 12 redes empíricas con la estructura de la comunidad. (I) Dos redes de Sistemas Autónomos de Internet construidas por el Proyecto de Vistas de Ruta de la Universidad de Oregón35,36,37: Un nodo es un Sistema Autónomo. La red recogida el 2 de enero de 2000 y la 31 de marzo de 2001 se denominan AS-1 y AS-2, respectivamente. (Ii) Red de privacidad bastante buena (PGP) 38: Dos personas están conectadas por un enlace si comparten información confidencial utilizando el algoritmo de cifrado PGP en Internet. (Iii) World Wide Web (WWW) 39: Una red de sitios web conectados por hipervínculos, que originalmente es una red dirigida. (Iv) Red de comunicación basada en el correo electrónico en la Universidad de Kiel (denominada e-mail-uni) 40: Actividad de envío de correo electrónico entre los estudiantes, que proporciona un enlace dirigido, registrado durante un período de 112 días. (V) Red de comunicación basada en correo electrónico en Enron Corporation (correo electrónico-Enron) 36,41,42: Dos usuarios de correo electrónico en el conjunto de datos están conectados por un enlace directo no ponderado si al menos un correo electrónico ha sido enviado desde un Usuario al otro usuario. Vi) Redes de colaboración en las categorías de Relatividad General y Cosmología Cuántica (CA-GrQc), Astro Física (CA-Astroph) y Condensed Matter (CA-Condmat )36,43 y Física de Energía Elevada - Fenomenología (CA-HepPh) y Física de alta energía - Teoría (CA-HepTh) categorías en arXiv35,36. Por definición, dos autores son adyacentes si coautorizan un trabajo. Vii) Red de citas de física de alta energía dentro de la categoría hep-th de arXiv (HEP) 44, que originalmente es una red dirigida. Para cada red, eliminamos el peso del enlace, los auto-bucles y la dirección del enlace, y sometimos el LCC al siguiente análisis. Las estadísticas resumidas de estas redes, incluyendo la modularidad, Q, se muestran en las Tablas S1 y S2.

No investigamos el algoritmo de inmunización de Betweenness debido a su alto costo computacional (es decir, el tiempo O (NM) para calcular la centralidad intermedia de todos los nodos24, por lo tanto el tiempo O (N2M) para eliminar los nódulos O (N)).

El rendimiento de los diferentes algoritmos de inmunización se compara en dos redes empíricas en la Fig. 3. Entre las 12 redes empíricas que probamos, estas dos redes produjeron los valores de modularidad más pequeños y más grandes maximizados por el algoritmo de Louvain. La figura indica que el algoritmo CbCI combinado con Infomap o Walktrap funciona mejor que los algoritmos propuestos anteriormente incluyendo el algoritmo CI en ambas redes. El algoritmo CbCI funciona mejor que el algoritmo CI en muchas otras redes empíricas también (Fig. S2 (b) - (m)). Además, el algoritmo CbCI combinado con un algoritmo de detección de comunidad diferente también supera el algoritmo CI en la mayoría de las redes (Fig. S2 (b) - (m)).

Figura 3: Tamaño normalizado del LCC, G (q), trazado contra la fracción de nodos eliminados, q, en dos redes empíricas.

(a) Red de comunicaciones por correo electrónico en Enron. (b) World Wide Web.

Para ser cuantitativos, se mide la fracción de nodos eliminados en la que la red fragmentos en suficientemente pequeños componentes conectados, es decir,

Donde recordamos que G(q) es el tamaño de la LCC normalizada por N. Se establece θ = 0.05. Calculamos qc para cada combinación de una red y un algoritmo de inmunización.

El valor de qc para cada algoritmo de inmunización normalizado por el valor qc para el algoritmo CI se representa en la Fig. 4. Un símbolo representa una red. Un pequeño valor normalizado de qc implica una alta eficiencia del algoritmo de inmunización. Como era de esperar, el algoritmo de inmunización de Grado funciona peor que el CI en todas las redes probadas (Fig. 4 (c)). Para el algoritmo CbCI combinado con Infomap, qc es menor en un 15,0% a 49,7% que en el algoritmo CI (Fig. 4 (a)). El algoritmo CbCI combinado con Walktrap muestra un rendimiento similar para todas las redes excepto una (Fig. 4 (b)). El algoritmo CbCI combinado con tres de los otros cuatro algoritmos de detección de la comunidad tiene mejores resultados que el algoritmo CI para redes con una estructura comunitaria relativamente fuerte (Figura S3). El algoritmo CbDI combinado con Infomap funciona mejor que el algoritmo CI para todas las redes, pero en menor medida que el algoritmo CbCI combinado con Infomap (Fig. 4 (d)). El algoritmo CbDI combinado con Walktrap (Fig. 4 (e)) y los otros cuatro algoritmos de detección de la comunidad (Fig. S3) es peor que el algoritmo CI. El algoritmo LSP es peor que el algoritmo CI en la mayoría de las redes (Fig. 4 (f)).

Figura 4: La fracción de nodos eliminados para fragmentar la red, qc, para un algoritmo de inmunización dividido por el valor para el algoritmo CI.

(a) CbCI combinado con Infomap. (b) CbCI combinado con Walktrap. (c) Alto grado de adaptación (Grado). (d) CbDI combinado con Infomap. (e) CbDI combinado con Walktrap. (f) Partición espectral laplaciana (LSP). Un símbolo representa una red. La cruz representa la red modelo usada en la Fig. 2 (a). El valor de modularidad, Q, viene determinado por el algoritmo de Louvain.

Incluso si dos algoritmos de inmunización producen el mismo valor qc en la misma red, G (q) puede caer considerablemente a un valor q más pequeño con un algoritmo de inmunización que el otro algoritmo. Para cuantificar el rendimiento de los algoritmos de inmunización en este sentido, se mide el tamaño de la LCC integrada a lo largo de valores q 7,45, es decir,

Debe tenerse en cuenta que es el área bajo la curva cuando G(q) se traza contra q y oscila entre 0 y 1/2. Un valor pequeño implica un buen desempeño de un algoritmo de inmunización.

El valor de

para cada algoritmo de inmunización normalizado por el del algoritmo de CI se representa en la Fig. 5. El algoritmo CbCI combinado con Infomap supera el algoritmo CI en 11 de las 12 redes en términos de

(Fig. 5 (a)). Del mismo modo, el algoritmo CbCI combinado con Walktrap supera el algoritmo CI en diez de las 12 redes (Fig. 5 (b)). El CbCI combinado con cualquiera de los otros cuatro algoritmos de detección de la comunidad supera el algoritmo CI en aproximadamente la mitad de las redes y tiende a ser eficiente para redes que tienen grandes valores de modularidad según lo determinado por el algoritmo de Louvain (Figura S4). En particular, para las tres redes con la mayor modularidad, el algoritmo CbCI combinado con cualquiera de los seis algoritmos de detección de la comunidad supera el algoritmo CI. Los algoritmos de Grado, CbDI y LSP son menos eficientes que el algoritmo de CI en términos de

(Fig. 5 (c) - (f) y S4).

Figura 5: El valor normalizado por el algoritmo CI.

(a) CbCI combinado con Infomap. (b) CbCI combinado con Walktrap. (c) Grado. (d) CbDI combinado con Infomap. (e) CbDI combinado con Walktrap. (f) LSP. El valor de Q es determinado por el algoritmo de Louvain.

¿Por qué Infomap y Walktrap se casan mejor con el algoritmo CbCI que con los otros algoritmos de detección de la comunidad?

Hemos demostrado que el algoritmo CbCI es más eficiente cuando se combina con Infomap o Walktrap, en particular Infomap, que con los otros cuatro algoritmos de detección de la comunidad. Para explorar por qué, empezamos por medir el coeficiente de agrupamiento46 de la versión no ponderada de las redes de grano grueso. Lo hacemos porque en teoría la IC asume redes locales parecidas a árboles9,47. Alto agrupamiento en la red de grano grueso puede desalentar el algoritmo CbCI. Para cada red empírica, se mide el coeficiente de correlación de Pearson entre el coeficiente de agrupamiento y qc normalizado por el valor para el algoritmo CI. Utilizamos el resultado para cada algoritmo de detección de la comunidad como un punto de datos tal que el coeficiente de correlación se calcula sobre la base de seis puntos de datos. Los resultados se muestran en la Tabla 1. Encontramos que el coeficiente de agrupamiento no está correlacionado consistentemente con el qc normalizado. Los resultados son cualitativamente iguales con un coeficiente de agrupamiento ponderado48,49 (Tabla 1). Obtenemos resultados similares si en lugar de qc se utiliza como medida de rendimiento (Tabla 2). Cabe señalar que diferentes algoritmos de detección de la comunidad producen valores de coeficientes de agrupamiento suficientemente diferentes, incluyendo valores grandes (Fig. S5 (a)). Llegamos a la conclusión de que la falta de locales árbol-como la estructura en las redes de grano grueso no es un fuerte determinante de la realización del algoritmo CbCI. Este resultado no contradice los del algoritmo CI original, que asume redes similares a las de un árbol, ya que el algoritmo CI es prácticamente eficiente en las redes con autoenlaces 9.

Hemos establecido

, ignorando así la contribución de los nodos en las redes de grano grueso tres o más saltos lejos de un nodo focal. De hecho, las grandes redes de grano grueso pueden tener una gran longitud de trayectoria media y deteriorar el rendimiento del algoritmo CbCI. Por lo tanto, calcular el coeficiente de correlación entre NC, es decir, el número de las comunidades detectadas, y qC, y entre la longitud de la ruta media en la red de grano grueso no ponderado y qC (Tabla 1]. La correlación eficiente entre

y NC o la longitud media de la trayectoria también se mide (Tabla 2]. Las tablas indican que el rendimiento de un algoritmo de detección de la comunidad no está correlacionada de forma consistente con la longitud del camino promedio. Se correlaciona con NC, pero de tal manera que el rendimiento del algoritmo CbCI mejora a medida que aumenta NC, contrariamente al mecanismo postulado anteriormente mencionado. Por lo tanto, el uso de

probablemente no explica la razón por la cual un algoritmo de detección de la comunidad se casa con el algoritmo CbCI mejor que otro.

De hecho, el algoritmo CbCI funciona bien cuando las comunidades detectadas tienen tamaños relativamente similares. Para demostrar esto, medimos la entropía en la partición, que se define por, donde está el número de nodos en la comunidad cth. La entropía oscila entre 0 y logNC. Un valor de entropía grande implica que la partición de la red es relativamente igualitaria. El coeficiente de correlación entre la entropía y el qc normalizado se muestra en la Tabla 1 para cada red. La entropía y qc están negativamente correlacionados entre sí para todas las redes y fuertemente para la mayoría de las redes. Este resultado es robusto cuando normalizamos la entropía por el mayor valor posible, es decir, logNC (Tabla 1), y cuando la medida de rendimiento se sustituye por (Tabla 2).

Para evaluar la robustez de este hallazgo, se calcula el mismo coeficiente de correlación entre la entropía no normalizada o normalizada y una de las dos medidas de rendimiento, pero para cada algoritmo de detección de la comunidad. Ahora cada red empírica constituye un punto de datos basado en el cual se calcula el coeficiente de correlación. Los valores de los coeficientes de correlación se muestran en la Tabla 3. Aunque la correlación es más débil que en el caso anterior, la correlación entre la entropía y el qC normalizado o es en gran medida negativa, lo cual es consistente con los resultados mostrados en las Tablas 1 y 2. Coeficiente de correlación entre Q y cada uno de la medida de rendimiento se muestra también en la Tabla 3. La entropía proporciona un factor más débil del rendimiento en comparación con Q, lo que se espera porque el algoritmo CbCI está diseñado para redes con estructura comunitaria. Sin embargo, la entropía proporciona un valor de correlación más grande (es decir, más negativo) que Q en algunos casos (Tabla 3).

Infomap tiende a detectar un gran número de comunidades (Tabla S2) cuyo tamaño es menos heterogéneamente distribuido que el caso de los otros algoritmos de detección de la comunidad (Fig. S5 (i) y (k)). Consideramos que esta es la razón principal por la que Infomap es eficaz cuando se combina con el algoritmo CbCI. A grandes rasgos, el algoritmo de propagación de etiquetas tiende a producir un número similar de comunidades, NC (Tabla S2). Sin embargo, el tamaño de la comunidad está más heterogéneamente distribuido con el algoritmo de propagación de etiquetas que con Infomap, cuantificado por las medidas de entropía (Fig. S5 (i) y (k)).

Discusión

Hemos demostrado que el algoritmo de inmunización CbCI supera a la CI y algunos otros algoritmos cuando una determinada red tiene la estructura de la comunidad. El algoritmo tiene como objetivo señalar los nodos que conectan a diferentes comunidades a un costo computacional razonable. El algoritmo CbCI es particularmente eficaz cuando Infomap27,28 se utiliza para detectar comunidades previamente. Infomap se ejecuta suficientemente rápido al menos para las redes escasas21 de tal manera que todo el algoritmo CbCI se ejecute tan rápido como el algoritmo CI al menos asintóticamente en términos del tamaño de la red. El algoritmo de detección de la comunidad de Walktrap29 es el segundo mejor entre los seis candidatos que se combinan con el algoritmo CbCI en términos de la calidad de la inmunización. Sin embargo, Walktrap es más lento que Infomap. Walktrap consume más tiempo que la parte principal del algoritmo CbCI, es decir, eliminación de nodos secuenciales, cuando se utiliza la estructura de datos de heap máximo para implementar el algoritmo CbCI. En este caso, la detección de la comunidad antes de iniciar la eliminación del nodo es el cuello de botella de todo el algoritmo CbCI, y el algoritmo CbCI es más lento que el algoritmo CI. Para nuestros esfuerzos numéricos, recomendamos que Infomap se combine con el algoritmo CbCI.

Argumentamos que Infomap funciona mejor en combinación con el algoritmo CbCI que los otros algoritmos de detección de la comunidad lo hacen principalmente porque Infomap produce una distribución relativamente igualitaria del tamaño de la comunidad. Sin embargo, la distribución del tamaño de la comunidad suele ser sesgada incluso con Infomap50. El algoritmo CbCI puede funcionar aún mejor si usamos un algoritmo de detección de comunidad que impone que las comunidades detectadas sean de igual o similar tamaño. Este problema se conoce como k-equilibrado de partición, donde k se refiere al número de comunidades. Aunque k-equilibrado partición de k general es notoriamente difícil de resolver, hay varios algoritmos aproximados para este problema51,52,53. La combinación de estos algoritmos con el algoritmo CbCI puede ser rentable.

Se particionó la red sólo una vez en el inicio del algoritmo CbCI y se utilizó la estructura de la comunidad obtenida a lo largo del procedimiento de eliminación de nodos. Esta propiedad es compartida por el algoritmo CbDI5 y otro algoritmo de inmunización11. Podemos ser capaces de mejorar el desempeño de la inmunización mediante la actualización de la estructura de la comunidad durante la eliminación del nodo. Nuestras simulaciones numéricas preliminares no produjeron una mejora del algoritmo CbCI con actualización en línea de la estructura de la comunidad (sección S1 en el SI). También debemos tener en cuenta el coste computacional de la detección de la comunidad, que se aplicaría repetidamente en el caso de la actualización en línea. Sin embargo, esta línea de mejora puede valer la pena investigar.

El CI supone localmente árbol-como redes9. Aunque el algoritmo CI es prácticamente eficiente en redes moderadamente loopy9, muchas redes empíricas son abundantes en triángulos y ciclos cortos de tal manera que son altamente loopy1. La conectividad densa dentro de una comunidad implica que tienden a haber muchos triángulos y ciclos cortos en una red con estructura comunitaria54,55. Entonces, grano grueso coalesce eficazmente muchos triángulos y ciclos cortos en un supernodo, posiblemente suprimiendo sus efectos perjudiciales. Al mismo tiempo, sin embargo, las redes de grano grueso tienden a tener un gran coeficiente de agrupamiento (Fig. S5 (a)). Podemos ser capaces de mejorar el rendimiento del algoritmo CbCI mediante la supresión del efecto de los ciclos cortos en las redes de grano grueso. Recientemente, se ha propuesto un método para mejorar la precisión de la estimación del umbral de percolación utilizando matrices sin retroceso, donde se suprimen los caminos redundantes en el recuento de las trayectorias47. Este método aplicado a los algoritmos CI y CbCI puede mejorar su rendimiento en el problema de la inmunización.

El algoritmo de propagación de influencia colectiva (CIp) propuesto recientemente, que puede interpretarse como el algoritmo CI en el límite de, generalmente produce mejores soluciones que el algoritmo de CI25. Dado que no hemos implementado el algoritmo CIp en el presente artículo, no estamos argumentando que el algoritmo CbCI es mejor que el algoritmo CIp. También debe señalarse que es posible que podamos combinar el algoritmo CbCI con la idea del algoritmo CIp (es decir, utilizando los principales vectores izquierdo y derecho de la matriz que no retrocede) para diseñar un nuevo algoritmo.

Referencias

1. Newman, M. E. J. Networks — An Introduction. Oxford University Press, Oxford (2010).
2. Altarelli, F., Braunstein, A., Dall’Asta, L., Wakeling, J. R. & Zecchina, R. Containing epidemic outbreaks by message-passing techniques. Phys. Rev. X 4, 021024 (2014).
3. Restrepo, J. G., Ott, E. & Hunt, B. R. Weighted percolation on directed networks. Phys. Rev. Lett. 100, 058701 (2008). CAS PubMed Article
4. Chen, Y., Paul, G., Havlin, S., Liljeros, F. & Stanley, H. E. Finding a better immunization strategy. Phys. Rev. Lett. 101, 058701 (2008). CAS PubMed Article
5. Masuda, N. Immunization of networks with community structure. New J. Phys. 11, 123018 (2009).
Article

6. Salathé, M. & Jones, J. H. Dynamics and control of diseases in networks with community structure. PLOS Comput. Biol. 6, e1000736 (2010). CAS PubMed Article
7. Schneider, C. M., Mihaljev, T., Havlin, S. & Herrmann, H. J.Suppressing epidemics with a limited amount of immunization units. Phys. Rev. E 84, 061911 (2011). CAS Article

8. Zhao, D. et al. Immunization of epidemics in multiplex networks. PLOS ONE 9, e112018 (2014).
PubMed Article
9. Morone, F. & Makse, H. A. Influence maximization in complex networks through optimal percolation. Nature 524, 65–68 (2015). CAS PubMed Article
10. Zahedi, R. & Khansari, M. A new immunization algorithm based on spectral properties for complex networks. In The 7th Conference on Information and Knowledge Technology (IKT), 1–5 (2015).
11. Requião da Cunha, B., González-Avella, J. C. & Gonçalves, S. Fast fragmentation of networks using module-based attacks. PLOS ONE 10, e0142824 (2015). Article

12. Mugisha, S. & Zhou, H.-J. Identifying optimal targets of network attack by belief propagation. Phys. Rev. E 94, 012305 (2016). CAS
Article
13. Cohen, R., Havlin, S. & ben-Avraham, D. Efficient immunization strategies for computer networks and populations. Phys. Rev. Lett.91, 247901 (2003). CAS PubMed Article
14. Gallos, L. K., Liljeros, F., Argyrakis, P., Bunde, A. & Havlin, S.Improving immunization strategies. Phys. Rev. E 75, 045104(R) (2007). CAS Article
15. Gong, K. et al. An efficient immunization strategy for community networks. PLOS ONE 8, e83489 (2013). Article
16. Hébert-Dufresne, L., Allard, A., Young, J.-G. & Dubé, L. J. Global efficiency of local immunization on complex networks. Sci. Rep. 3, 2171 (2013). PubMed Article
17. Liu, Y., Deng, Y. & Wei, B. Local immunization strategy based on the scores of nodes. Chaos 26, 013106 (2016). Article
18. Albert, R., Jeong, H. & Barabási, A.-L. Error and attack tolerance of complex networks. Nature 406, 378–382 (2000). ISI CAS PubMed Article
19. Callaway, D. S., Newman, M. E. J., Strogatz, S. H. & Watts, D. J.Network robustness and fragility: Percolation on random graphs. Phys. Rev. Lett. 85, 5468–5471 (2000). ISI CAS PubMed Article
20. Cohen, R., Erez, K., ben-Avraham, D. & Havlin, S. Breakdown of the internet under intentional attack. Phys. Rev. Lett. 86, 3682–3685 (2001). ISI CAS PubMed Article
21. Fortunato, S. Community detection in graphs. Phys. Rep. 486, 75–174 (2010). Article
22. Holme, P., Kim, B. J., Yoon, C. N. & Han, S. K. Attack vulnerability of complex networks. Phys Rev. E 65, 056109 (2002). CAS Article
23. Ueno, T. & Masuda, N. Controlling nosocomial infection based on structure of hospital social networks. J. Theor. Biol. 254, 655–666 (2008). Article
24. Brandes, U. A faster algorithm for betweenness centrality. J. Math. Sociol. 25, 163–177 (2001). ISI Article
25. Morone, F., Min, B., Bo, L., Mari, R. & Makse, H. A. Collective influence algorithm to find influencers via optimal percolation in massively large social media. Sci. Rep. 6, 30062 (2016). PubMed Article
26. Karrer, B., Newman, M. E. J. & Zdeborová, L. Percolation on sparse networks. Phys. Rev. Lett. 113, 208702 (2014). CAS PubMed Article
27. Rosvall, M. & Bergstrom, C. T. Maps of random walks on complex networks reveal community structure. Proc. Natl. Acad. Sci. USA105, 1118–1123 (2008). PubMed  Article
28. Rosvall, M., Axelsson, D. & Bergstrom, C. T. The map equation. Eur. Phys. J. Spec. Top. 178, 13–23 (2010). Article
29. Pons, P. & Latapy, M. Computing communities in large networks using random walks. In Computer and Information Sciences-ISCIS 2005, Yolum, P., Güngör, T., Gürgen, F. & Özturan, C. editors, volume 3733 of Lecture Notes in Computer Science, 284–293. Springer Berlin Heidelberg (2005).
30. Raghavan, U. N., Albert, R. & Kumara, S. Near linear time algorithm to detect community structures in large-scale networks. Phys. Rev. E 76, 036106 (2007). CAS  Article
31. Clauset, A., Newman, M. E. J. & Moore, C. Finding community structure in very large networks. Phys. Rev. E 70, 066111 (2004). CAS  Article
32. Sales-Pardo, M., Guimerá, R., Moreira, A. A. & Amaral, L. A. N.Extracting the hierarchical organization of complex systems. Proc. Natl. Acad. Sci. USA 104, 15224–15229 (2007). PubMed
Article
33. Lancichinetti, A. & Fortunato, S. Community detection algorithms: A comparative analysis. Phys. Rev. E 80, 056117 (2009). CAS Article
34. Blondel, V. D., Guillaume, J.-L., Lambiotte, R. & Lefebvre, E. Fast unfolding of communities in large networks. J. Stat. Mech. 2008, P10008 (2008). Article
35. Leskovec, J., Kleinberg, J. & Faloutsos, C. Graphs over time: densification laws, shrinking diameters and possible explanations. In Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining, 177–187. ACM (2005).
36. Jure, L. & Andrej, K. Stanford Network Analysis Project. http://snap.stanford.edu/. (Date of access: 19/01/2016).
37. University of Oregon Route Views Project. http://www.routeviews.org. (Date of access: 19/01/2016).
38. Boguñá, M., Pastor-Satorras, R., Díaz-Guilera, A. & Arenas, A.Models of social networks based on social distance attachment. Phys. Rev. E 70, 056122 (2004). CAS  Article
39. Albert, R., Jeong, H. & Barabási, A.-L. Internet: Diameter of the world-wide web. Nature 401, 130–131 (1999). ISI  CAS  Article
40. Ebel, H., Mielsch, L. I. & Bornholdt, S. Scale-free topology of e-mail networks. Phys. Rev. E 66, 035103(R) (2002). CAS Article
41. Klimt, B. & Yang, Y. The enron corpus: A new dataset for email classification research. In Machine Learning: ECML 2004, 217–226, Springer (2004).
42. Leskovec, J., Lang, K. J., Dasgupta, A. & Mahoney, M. W.Community structure in large networks: Natural cluster sizes and the absence of large well-defined clusters. Internet Math. 6, 29–123 (2009). Article
43. Leskovec, J., Kleinberg, J. & Faloutsos, C. Graph evolution: Densification and shrinking diameters. ACM Trans. Knowl. Discov. Data 1, 2 (2007). Article
44. Batagelj, V. & Mrvar, A. Pajeck datasets (2006), http://vlado.fmf.uni-lj.si/pub/networks/data/. (Data of access: 19/01/2016).
45. Schneider, C. M., Moreira, A. A., Andrade, J. S., Havlin, S. & Herrmann, H. J. Mitigation of malicious attacks on networks. Proc. Natl. Acad. Sci. USA 108, 3838–3841 (2011). PubMed Article
46. Watts, D. J. & Strogatz, S. H. Collective dynamics of ‘small-world’ networks. Nature 393, 440–442 (1998). ISI CAS PubMed Article
47. Radicchi, F. & Castellano, C. Beyond the locally treelike approximation for percolation on real networks. Phys. Rev. E 93, 030302(R) (2016). Article
48. Onnela, J.-P., Saramäki, J., Kertész, J. & Kaski, K. Intensity and coherence of motifs in weighted complex networks. Phys. Rev. E71, 065103 (2005). CAS Article
49. Saramäki, J., Kivelä, M., Onnela, J.-P., Kaski, K. & Kertész, J.Generalizations of the clustering coefficient to weighted complex networks. Phys. Rev. E 75, 027105 (2007). Article
50. Lancichinetti, A., Kivelä, M., Saramäki, J. & Fortunato, S.Characterizing the community structure of complex networks. PLOS ONE 5, e11976 (2010). CAS PubMed Article
51. Andreev, K. & Racke, H. Balanced graph partitioning. Theor. Comp. Sys. 39, 929–939 (2006).
Article
52. Krauthgamer, R., Naor, J. S. & Schwartz, R. Partitioning graphs into balanced components. In Proceedings of the Twentieth Annual ACM-SIAM Symposium on Discrete Algorithms, SODA ‘09, 942–949 (2009).
53. Feldmann, A. E. & Foschini, L. Balanced partitions of trees and applications. Algorithmica 71, 354–376 (2015). Article
54. Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. & Parisi, D.Defining and identifying communities in networks. Proc. Natl. Acad. Sci. USA 101, 2658–2663 (2004). CAS PubMed Article
55. Palla, G., Derényi, I., Farkas, I. & Vicsek, T. Uncovering the overlapping community structure of complex networks in nature and society. Nature 435, 814–818 (2005). ISI CAS PubMed  Article
56. Barabási, A.-L. & Albert, R. Emergence of scaling in random networks. Science 286, 509–512 (1999).

Páginas