Mostrando entradas con la etiqueta centralidad de autovector. Mostrar todas las entradas
Mostrando entradas con la etiqueta centralidad de autovector. Mostrar todas las entradas

viernes, 8 de febrero de 2019

Redes de coautorías de economistas argentinos en un congreso principal

Redes de coautorías de economistas argentinos

Author(s):
Juan M.C. Larrosa , (Universidad Nacional del Sur, Bahia Blanca, Argentina and Instituto de Investigaciones Económicas y Sociales del Sur (IIESS), Altos de Palihue Bahia Blanca, Argentina)


Propósito

Este documento tiene como objetivo proporcionar información sobre la estructura del trabajo colaborativo entre las economías argentinas. El estudio proporciona investigación aplicada específica de análisis de redes sociales centrada en esta profesión en este país específico.

Diseño / metodología / enfoque

La contribución optó por aplicar herramientas de análisis de redes sociales a los documentos presentados en un congreso y publicados en sus actas. Los autores se centran en la detección de actores principales, grupos de coautoría, profesionales que actúan como puentes entre grupos y diferencias entre los géneros.


Recomendaciones

El documento proporciona información empírica sobre cómo ha evolucionado la coautoría entre los economistas argentinos. Los autores encuentran que las propiedades estructurales de la red, los principales actores, tanto hombres como mujeres, las principales universidades o el centro que los afilia, una brecha de género que podría estar cerrando.

Limitaciones / implicaciones de la investigación

El documento se centra en la red para el período 1964-2014 sin una dinámica más detallada. Tampoco explica los principales temas trabajados por los autores.


Implicaciones prácticas

El trabajo proporciona conocimiento sobre cómo se crean los grupos en Economía en Argentina, cómo ha evolucionado la cooperación y cuál ha sido el papel de las mujeres en este desarrollo. También muestra cómo diferentes departamentos y entidades colaboran con éxito diverso en la creación de nuevos conocimientos en Economía en Argentina.

Originalidad / valor

El documento trabaja con datos de una fuente de información no estudiada anteriormente y contribuye a explicar un tipo particular de trabajo colaborativo en una profesión en Argentina.



Juan M.C. Larrosa, (2019) "Coauthorship networks of Argentine economists", Journal of Economics, Finance and Administrative Science, https://doi.org/10.1108/JEFAS-06-2018-0062


jueves, 15 de noviembre de 2018

Barabási y colegas cuantifican y predicen el éxito en el arte

Cuantificando la reputación y el éxito en el arte

Samuel P. Fraiberger 1,2; , Roberta Sinatra 3,1,4,5; Magnus Resch 6,7; Christoph Riedl 1,2*, Albert -László Barabási 1,3,8,9* 
1. Instituto de Ciencias de la Red, Northeastern University, Boston, MA, EE. UU.2. Instituto Harvard de Ciencias Sociales Cuantitativas, Cambridge, MA, EE. UU.3. Departamento de Matemáticas y sus aplicaciones y Centro de Ciencia de Redes, Universidad de Europa Central, Budapest, Hungría.4. Complexity Science Hub, Viena, Austria.5. ISI Fundación, Turín, Italia.6. Universidad de St Gallen, St. Gallen, Suiza.7. Zagreb Escuela de Economía y Gestión, Zagreb, Croacia.8. División de Medicina de la Red, Departamento de Medicina, Harvard Medical School, Boston, MA, EE. UU.9. Departamento de Redes y Ciencia de Datos, Universidad de Europa Central, Budapest, Hungría. 
En áreas de actividad humana donde el rendimiento es difícil de cuantificar de manera objetiva, la reputación y las redes de influencia desempeñan un papel clave en la determinación del acceso a los recursos y las recompensas. Para comprender el papel de estos factores, reconstruimos la historia de la exposición de medio millón de artistas, trazando un mapa de la red de coexposición que captura el movimiento del arte entre instituciones. La centralidad dentro de esta red capturó el prestigio institucional, lo que nos permite explorar la trayectoria profesional de artistas individuales en términos de acceso a instituciones codiciadas. El acceso temprano a instituciones centrales de prestigio ofreció acceso de por vida a lugares de alto prestigio y una tasa de deserción reducida. Por el contrario, al comenzar en la periferia de la red se produjo una alta tasa de abandono, lo que limita el acceso a las instituciones centrales. Un modelo de Markov predice la trayectoria profesional de artistas individuales y documenta el sólido camino y la dependencia de la historia de la valoración en el arte.



   

domingo, 18 de diciembre de 2016

Intermediación vs Autovalor en la detección de influenciadores

Es la intermediación que importa, no su autovalor: La oscuridad de la influencia

Déjame explicar, antes de pensar que he estado haciendo gárgaras de sopa de letras.

Investigaciones recientes sugieren que las personas más importantes en las redes sociales, en relación con la transmisión de ideas, virus o estados de ánimo, podrían no ser las personas con más seguidores, sino personas que están conectadas a un gran número de individuos a través de caminos más cortos que otros tienen.


- ARVIX blog, Best Connected Individuals Are Not the Most Influential Spreaders in Social Networks
El estudio de las redes sociales ha arrojado más de unas cuantas sorpresas a lo largo de los años. Es fácil imaginar que debido a que los vínculos que se forman entre varios individuos en una sociedad no están gobernados por reglas generales, deben tener una estructura aleatoria. Así que el descubrimiento en los años ochenta de que las redes sociales son muy diferentes fue algo sorprendente. En una red social, la mayoría de los nodos no están conectados entre sí, pero pueden alcanzarse fácilmente mediante un pequeño número de pasos. Esta es la llamada red de mundos pequeños.
Hoy en día, hay otra sorpresa en la tienda para los conocedores de redes cortesía de Maksim Kitsak en la Universidad de Boston y varios amigos. Una de las observaciones importantes de estas redes es que ciertos individuos están mucho mejor conectados que otros. Estos llamados hubs deberían desempeñar un papel mayor en la forma en que la información y los virus se propagan a través de la sociedad.
De hecho, no se ha hecho ningún esfuerzo para identificar a estos individuos y explotarlos para difundir la información con mayor eficacia o para evitar que se propaguen enfermedades.
La importancia de los centros puede haber sido exagerada, dicen Kitsak y amigos. "En contraste con la creencia común, los esparcidores más influyentes en una red social no corresponden a las mejores personas conectadas oa la gente más central", dicen.
A primera vista esto parece un poco contra-intuitivo, pero en la reflexión tiene perfecto sentido. Kitsak y co señalan que hay varios escenarios en los que los centros bien conectados tienen poca influencia sobre la difusión de la información. "Por ejemplo, si un hub existe al final de una sucursal en la periferia de una red, tendrá un impacto mínimo en el proceso de propagación a través del núcleo de la red".
Por el contrario, "una persona menos conectada que está estratégicamente situada en el núcleo de la red tendrá un efecto significativo que conduce a la difusión a través de una gran fracción de la población".
La pregunta entonces es cómo encontrar a estos individuos influyentes. Kitsak y el co dicen que la manera de hacer esto es estudiar una cantidad llamada la "descomposición del k-shell" de la red. Eso suena complicado pero no lo es: una k-shell es simplemente una red podada hasta los nodos con más de k vecinos. Los individuos en los k-conchas más altos son los esparcidores más influyentes.
(Via @karllong)

En la teoría de la red, estos dos casos son ambos ejemplos de centralidad: maneras de asignar valores a nodos individuales en una red basada en cómo cada nodo se relaciona con los otros.

Las personas más conectadas en una red social -las que tienen el mayor número de conexiones entrantes y salientes- tienen altos valores propios. Estos valores propios pueden ser calculados - como el algoritmo PageRank de Google - ponderando el valor de cada conexión basado en el valor propio del originador.

No es quien conoces, sino donde lo conoces.

Pero esta investigación sugiere que una manera diferente de medir la centralidad podría ser más útil para determinar cuánto peso lanzar una persona realmente tiene. Entremeditud es una medida de lo cortas son las cadenas que conecta a una persona con la totalidad de la red. Al igual que PageRank, la interconexión es recursiva: es probable que las personas con la mayor interrelación estén conectadas con otras personas con un alto intermedio.

Esto significa que la gente es influyente porque está conectada con muchas personas influyentes. Pero la influencia no parece estar directamente relacionada con la cantidad de personas a las que está conectado. Es una función de estar conectado a otros que tienen cadenas cortas a muchas otras personas con alto intermedio. O, mirado de otra manera, la interrelación es una medida de cuántos círculos sociales, o escenas sociales, una persona está conectada.

Así que, no es quien sabes, es donde sabes. Es donde usted está situado en la red, y no sólo en el sentido limitado de cuántos contactos inmediatos que tiene.

El misterio sutil de la materia oscura de las redes sociales es que la influencia es oblicua y no se determina fácilmente por los tipos de herramientas que tenemos hoy en día.

No es tu cuenta del seguidor, o quiénes sigues, per se. Pero, en cambio, ¿tiene caminos cortos en otras escenas sociales, tanto entrantes como salientes? Esa es la estructura profunda de estar verdaderamente conectados: pasar por diferentes escenas sociales, actuar como un conducto, un vector, un filtro y un amplificador para las ideas buenas y malas, las mejores percepciones y los virus mortales.

Stowey Boyd and the Messengers

miércoles, 14 de septiembre de 2016

ARS 101: Centralidad Alfa



Centralidad Alfa
Wikipedia

En la teoría de grafos y análisis de redes sociales, la centralidad Alfa es una medida de centralidad de los nodos de un grafo. Es una adaptación de la centralidad de vector propio con la particularidad de que los nodos están impregnadas de importancia a partir de fuentes externas.

Definición

Dada una gráfica con la matriz de adyacencia A_{i,j} la centralidad alfa se define como sigue:

{\vec  {x}}=(I-\alpha A^{T})^{{-1}}{\vec  {e}}\,

donde e_{j} es la importancia dada al nodo externo j y \alpha  es un parámetro. [1]

Motivación

Para entender la centralidad alfa primero hay que entender Centralidad del Vector Propio. Un proceso intuitivo para calcular vector propio carácter central es dar a cada nodo de una cantidad positiva al azar a partir de influencia. Cada nodo se divide entonces su influencia de manera uniforme y lo divide entre sus vecinos hacia el exterior, recibiendo de sus vecinos hacia el interior en especie. Este proceso se repite hasta que todo el mundo está dando hacia fuera tanto como que están tomando y el sistema ha alcanzado el estado estacionario. La cantidad de influencia que tienen en este estado estacionario es su centralidad del vector propio. Computacionalmente este proceso se llama el método de la potencia. Sabemos que este proceso ha convergido cuando el vector de influencia cambia sólo por una constante de la siguiente manera.

x_{i}={\frac  {1}{\lambda }}A_{{i,j}}^{T}x_{j}

Donde x_{i} es la cantidad de influencia que el nodo i lleva, A_{i,j} es la matriz de adyacencia y \lambda  pasa a ser el valor propio director (aunque esto no es muy importante en este caso).

La centralidad Alfa mejora este proceso al permitir que los nodos que tienen fuentes de influencia. La cantidad de influencia que el nodo i recibe en cada ronda se codifica en e_{i}. El proceso descrito anteriormente ahora debe detenerse cuando

x_{i}=\alpha A_{{i,j}}^{T}x_{j}+e_{i}\,,
Donde \alpha  es una constante que intercambia la importancia de la influencia externa en contra de la importancia de la conexión. Cuando \alpha =0 sólo importa la influencia externa. Cuando \alpha  es muy grande, entonces sólo importa la conectividad, es decir, reducimos al caso centralidad del vector propio.

En lugar de realizar la iteración descrita anteriormente se puede resolver este sistema para x, obteniendo la siguiente ecuación:

x=(I-\alpha A^{T})^{{-1}}e\,,

Aplicaciones

La centralidad Alfa se lleva a cabo en la biblioteca igraph para el análisis y visualización de red. [2]




Ejemplo

FUna epidemia representa otro tipo de flujo en una red. Una epidemia es un proceso dinámico que, a diferencia del paseo aleatorio, transiciona simultáneamente a todos los vecinos de un nodo dado (y con éxito infecta cada nodo, o sobrevive en ese nodo, con una probabilidad a). La película anterior muestra una propagación de la epidemia en el gráfico Club de Karate. Bajo ciertas condiciones, que alcanza un estado estacionario, dada por centralidad Alfa. La centralidad Alfa fue introducido por Bonacich [1987] como una generalización del índice de Katz de un nodo. Cuando la probabilidad de infección está supeditada a sobrepasar un umbral epidémico, la centralidad Alfa del Vector Propio es proporcional a la centralidad. Esta medida, introducido por Bonacich [2001] está dada por el vector propio que corresponde al valor propio más grande de la matriz de adyacencia del grafo [Ghosh y Lerman, 2011]. Por cierto, el umbral de epidemia está dado por la inversa de la mayor valor propio de la matriz de adyacencia [Wang et al., 2003].

Código de Matlab para calcularla


a=0.1; % damping factor has to be smaller than 1/lambda0, where lambda0 is largest eigenvalue of A
s=A*t;
cr=s;
for i=1:20
    cr=s+a*A*cr;
end
cr

Fuente

domingo, 19 de junio de 2016

Redes de normas y temas en Wikipedia

La evolución de la red de normas de Wikipedia
Bradi Heaberlin y Simon DeDeo
Future Internet


Resumen: Las normas sociales han sido tradicionalmente difíciles de cuantificar. En cualquier sociedad en particular, su cantidad y las interdependencias complejas a menudo limitan un análisis a nivel de sistema. Una excepción es la de la red de normas que sustentan la comunidad de Wikipedia en línea. Estudiamos la evolución de quince años de esta red con el conjunto interconectado de páginas que se establecen, describiendo e interpretando las normas de la comunidad. A pesar de la reputación de Wikipedia de gobernabilidad ad hoc, nos encontramos con que su evolución normativa es muy conservadora. Los primeros usuarios crean normas que tanto dominan la red y persisten en el tiempo. Estas normas básicas rigen tanto el contenido como las interacciones interpersonales utilizando principios abstractos como la neutralidad, verificabilidad, y asumen de buena fe. A medida que la red crece, vecindarios de normas se desacoplan topológicamente el uno del otro, mientras que el aumento en la coherencia semántica. Tomados en conjunto, estos resultados sugieren que la evolución de la red de Wikipedia norma es similar a los sistemas burocráticos que son anteriores a la era de la información.
Palabras clave: normas sociales; redes de normas; Wikipedia; oligarquía; burocracia; gobernancia; conocimiento común


1. Introducción

Las ideas comunes de la sociedad sobre cómo se "debe" gobernar comportan características esenciales de la vida económica y política [1,2,3,4,5,6]. Fuera de ambientes idealizados de teoría de juegos, por ejemplo, los incentivos económicos se complementan con las normas sobre la honestidad y un salario más alto es posible cuando los trabajadores creen que no deberían engañar a su empleador [7]. Y, si bien la estructura racional de las normas y leyes es una parte importante de las acciones de coordinación y deseos [8], las personas a determinar la legitimidad de estas soluciones basadas en las creencias acerca de la imparcialidad y la autoridad. Una fuerza policial sin legitimidad no puede hacer cumplir la ley [9,10].
Las normas también están en desarrollo continuo. La norma moderna contra la violencia física, por ejemplo, tiene raíces inesperados y sigue evolucionando [11,12,13]. Sin embargo, entendemos mucho menos acerca de la historia y el desarrollo de las normas que sobre la economía o la ley [14]. A menudo carecen de los datos que nos permita hacer el seguimiento de la coevolución de las ideas complejas, interrelacionadas e interpretativos, tales como la honestidad, la justicia, y la autoridad, la forma en que podemos realizar un seguimiento de los precios y los flujos monetarios o la creación y el cumplimiento de los estatutos.
Los sistemas en línea, tales como Wikipedia, proporcionan nuevas oportunidades para estudiar el desarrollo de normas en el tiempo. Junto con los repositorios de información y de códigos en el centro de la economía mundial moderna, tales como GNU / Linux, Wikipedia es un ejemplo canónico de un conocimiento común [15,16,17,18]. conocimientos comunes se basan en las normas, en lugar de los mercados o leyes, para la mayor parte de su gobierno [19,20]. En Wikipedia, editores colaboran para escribir artículos enciclopédicos en un entorno de código abierto gestionado por la comunidad [21,22], y que se basan en las normas sociales para estandarizar y gobiernan sus decisiones de edición [23]. los registros del servidor minuto a minuto de Wikipedia cubren más de quince años de creación de normas y la evolución de una población de editores que se contaban por decenas de miles. Las normas son importantes en la Wikipedia en formas que hacen que sea imposible para que los participantes pasan por alto: es el sistema de normas, en lugar de leyes justas, que dicta lo que el contenido está o no está incluido, que participa, y lo que hacen.
Paralelamente a los hallazgos en el estudio de la evolución regla en grandes instituciones académicas [24], esperamos que las normas de Wikipedia que juegan un papel en la preservación de la memoria institucional, para ser una fuente de estabilidad institucional y el cambio, y que tienen una relación compleja con el circunstancias que llevaron a su creación. páginas norma desempeñan un papel clave en la coordinación de comportamiento entre los editores de la Enciclopedia [25]. Editores citan habitualmente las normas sobre las páginas de discusión de artículos en un intento de coordinar [26], crear consenso y resolver conflictos [23,27].
Este estudio se centra en un subespacio de la enciclopedia dedicada a la información y discusión acerca de las normas de la propia enciclopedia. Las comunidades asociadas a cada uno de 291 idiomas y ediciones tienen una gran independencia para definir y modificar las normas que utilizan de Wikipedia; o sea, se puede seguir una trayectoria evolutiva diferente. Aquí, nos centramos únicamente en las normas de la Wikipedia en idioma Inglés. Se estudia la evolución de estas normas utilizando un subconjunto de las páginas enlazadas estrechamente que establecen, describir e interpretar ellos. Estas páginas, junto con las relaciones entre ellos, nos permiten cuantificar cómo los editores describen las expectativas de comportamiento y, en consecuencia, la forma de crear y volver a interpretar las normas de su comunidad.
Nos centramos en los enlaces entre páginas norma. la formación en línea de enlace se produce por una variedad de razones [28], incluyendo la asociación estratégica por la persona que hace la cita [29]. En el caso de Wikipedia, enlaces entre páginas en la enciclopedia "mainspace" codifican información acerca de las relaciones semánticas [30,31] y la importancia relativa de las páginas [32,33]. La extensión de estos análisis a las páginas de la enciclopedia norma nos permite ver cómo se describen las normas, justificados y explicados por referencia a otras normas. Nuestro uso de esta red es paralela a los estudios de citaciones en los sistemas jurídicos; los investigadores utilizan citas legales para realizar un seguimiento a través de la influencia de precedencia [34] y la legitimación [35], así como el prestigio de la citada [35,36]. El paralelo a las citaciones legales no es exacta: las páginas de la red norma de Wikipedia no (por lo general), creado en respuesta a un evento en particular, como en un caso judicial, sino más bien en respuesta a una necesidad percibida son; páginas pueden ser creados por cualquier usuario, en lugar de un juez o tribunal en particular; y las páginas pueden ser editadas de forma retrospectiva (que conduce, por ejemplo, a la posibilidad de ciclos de gráfico cuando se introducen nuevos enlaces).
Esta perspectiva de la red nos permite ir más allá del seguimiento de un solo comportamiento a través del tiempo (un enfoque común en los estudios de la evolución cultural [37]) para examinar la evolución de las relaciones entre cientos, e incluso miles, de ideas distintas. Utilizamos estos datos para formular tres preguntas críticas. En un sistema en el que constantemente se están discutiendo y crean normas, cómo y cuándo algunas normas llegan a dominar sobre los demás? ¿Qué tipo de comportamiento es lo que gobiernan? Además, ¿cómo esas normas básicas evolucionan con el tiempo?
Las respuestas son sorprendentes. Mientras que algunas cuentas de Wikipedia subrayan su flexibilidad y la naturaleza ad hoc de su gobierno [38,39,40], nos encontramos con que la evolución normativa de la Wikipedia es muy conservadora. Normas que dominan el sistema en los últimos años de la Wikipedia se crearon temprano, cuando la población era mucho menor. Estas normas básicas dicen los editores de la forma de escribir y artículos de formato; también describen cómo colaborar con los demás cuando se enfrentan a los desacuerdos e incluso acaloradas discusiones. Para ello, las normas básicas de referencia, principios racionalizadas universales, como la neutralidad, verificabilidad, la cortesía, y el consenso. Con el tiempo, los barrios de la red de estas normas se desacoplan topológicamente. Mientras lo hacen, su coherencia semántica interna aumenta, tal como se mide utilizando un modelo tema del texto de la página. normas básicas abstractas de Wikipedia y proceso de desacoplamiento muestran que adopta una estructura "organización institucionalizada" similar a los sistemas burocráticos que son anteriores a la era de la información [41].

2. Métodos

Para recopilar datos sobre la red de normas en la Wikipedia, que SPIDER enlaces dentro del "espacio de nombres" reservado para (entre otras cosas) las políticas, lineamientos, procesos y discusión. Estas páginas pueden ser identificados debido a que llevan el prefijo "Wikipedia:" o "WP:". Los nodos de red son páginas. aristas dirigidas entre páginas se producen cuando una página enlaza a otra a través de al menos un hipervínculo que cumple con nuestros criterios de filtrado; estos enlaces se encuentran analizando el código HTML en bruto de cada página y con exclusión de las plantillas de navegación estándar y listas. Nuestra red es, pues, ambos dirigidos y no ponderado. Comenzamos nuestro rastreo en la (seleccionado arbitrariamente) página norma "Asumir la buena fe". Los detalles del proceso de rastreo, los filtros de hipervínculo y el post-tratamiento de los enlaces entre páginas aparecen en el Apéndice A; tanto los datos sin procesar y procesada nuestra red están libremente disponibles en línea [42].
Editores clasifican las páginas del espacio de nombres mediante la adición de etiquetas; estas etiquetas incluyen, sobre todo, "la política", "guía", y "ensayo", entre otros. Cuando descargamos texto de la página, también registrar estas categorizaciones. Estas categorizaciones describen los niveles de gradated expectativas para la adhesión [43]. En el texto "plantilla" que se incluye de forma automática-, las políticas se describen como "normas ampliamente aceptadas" que "todos los editores debe seguir normalmente" [44], las directrices como "normas de aceptación general" que "los editores deben intentar seguir" y para el que "de vez en cuando excepciones pueden ocurrir "[45], mientras que los ensayos proporcionan" apoyo y opinión ":" [s] ome ensayos representan normas generalizadas ", mientras que" otros sólo representan puntos de vista minoritarios "[46]. Una cuarta categoría es la "propuesta", que describe las posibles políticas y directrices "Sin embargo ... en el desarrollo, en discusión, o en el proceso de reunir consenso para la adopción" [47].
Los análisis previos de entorno de políticas de Wikipedia ha hecho hincapié en los muchos, a menudo se superponen, las funciones que las normas de juego en la enciclopedia, como las políticas que tanto intento de controlar el uso no-autorizado de material con derechos de autor y para establecer la legitimidad a través del uso de la dicción legal y la gramática [ 25]. En el estudio actual, consideramos un sistema de clasificación complementaria que se centra en los tipos de interacciones de las normas regulan, en lugar de sus funciones. Proponemos tres categorías distintas normativas en base a, y la clasificación se extiende, preexistente de las normas que rigen [19] y conocimientos comunes naturales [20].
Las normas pueden intentar regular la creación de contenido (normas "-Contenido de Usuario") e interacciones entre los usuarios (normas "usuario-usuario"). Además, las normas pueden intentar definir una estructura administrativa más formal con distintas funciones, deberes y las expectativas de los administradores (normas "usuario-admin"). Los dos autores de este trabajo clasifican de forma independiente una muestra aleatoria de cuarenta páginas que utilizan este esquema, y ​​se calculó la confiabilidad entre codificadores utilizando kappa de Cohen [48].
Para nuestro análisis semántico, incluimos todos los textos, excepto que se encuentra en cajas especiales cuyo texto es reproducido por la plantilla a través de múltiples páginas. Para construir nuestra distribución a través de uno-gramas, se normaliza todo el texto a minúsculas, combinar palabras con guiones ( "corrección de errores" a "errorcorrection"), y soltar puntuación ( "no" a "don't"). Hacemos ninguna corrección derivada ni de ortografía.
Una variable externa crítico es el número de usuarios activos en la enciclopedia en cualquier punto en el tiempo. Tras [49], definimos un usuario activo como uno que ha hecho cinco o más ediciones dentro de un mes; estas estadísticas se mantienen públicamente en [50].

2.1. Medidas de centralidad y atención 

Las páginas de nuestro corpus se crean para explicar las normas de Wikipedia para editores e influir en sus interacciones con la comunidad de edición de la enciclopedia y el contenido. Los usuarios navegar por el sistema de normas como una estructura de red y por lo tanto se encuentran con algunas de las páginas más que otros.
Lo medimos utilizando centralidad del vector propio (CE), que cuantifica la importancia de una página en función de su accesibilidad global dentro de la red. La CE de una página es la probabilidad de que ocurra a través de una página durante una caminata al azar; equivalente al algoritmo PageRank, que se utiliza en las ciencias del comportamiento para identificar a un consenso sobre el dominio y el poder [51]. Hemos establecido ε, la probabilidad de un salto al azar, a 0,15.
Esperamos que algunas de las páginas que se convierten en ideal para acceder a la red, mientras que otros permanecen en gran parte periférica. Estamos cuantificar la desigualdad del sistema utilizando el coeficiente de Gini (GC). GC varía entre cero (igualdad perfecta, todas las páginas tienen la misma CE) y uno (una página tiene un alto CE; todas las demás páginas tienen el mismo valor bajo). GC es ampliamente utilizado en economía para medir la desigualdad en los ingresos. A continuación, se proporciona una medida global de la medida en que un sistema está dominado por unas pocas normas. Como una cantidad sin dimensiones, que permite a los investigadores comparar este sistema con otras que pueden ser objeto de una investigación posterior.
Debido a que estamos interesados ​​en la forma en que evoluciona la red norma citación y el papel que juegan las normas en el contexto de esta estructura, la CE es una medida ideal de la importancia de una norma. Además de cuantificar importancia estructural, sin embargo, se espera que la CE para correlacionar con, y para predecir, medidas de comportamiento de la atención que recibe una página. Para medir la relación entre centralidad y de comportamiento medidas de atención, hacemos un seguimiento de visitas de página de datos (a partir de los registros del servidor de Wikipedia puestos a disposición por StatsGrok [52], véase el Apéndice B), el número total de ediciones de una página ha recibido, el número de ediciones en diversas su página de discusión asociada, y el número de editores que han editado la página. Llevamos a cabo una regresión lineal multivariable sobre estas medidas de atención, junto con la edad y el tamaño de página de la página (en bytes) como predictores de la página de un CE (véase el Apéndice C).

2.2. Influencia y superposición

Una característica importante de la red de norma es la esfera de influencia: las páginas que se basan en cualquier página en particular para el contexto.
Consideremos, por ejemplo, la página norma "Punto de vista neutral" (PVN), una página instando a los editores para describir los sujetos de artículos sin tomar partido. Una página que enlaza con PVN se refiere a su propio sujeto NPOV de alguna manera. Por ejemplo, entre muchas páginas que enlazan con PVN es "Propaganda", un ensayo instando a los editores que tener cuidado con el uso de medios de propaganda de los gobiernos autoritarios. La página de enlaces a la página de la propaganda de PVN el fin de definir la noción de "peso indebido"; El contenido de PVN por lo tanto se puede decir de influir en la interpretación de lo que se encuentra en la propaganda.
La influencia es distinta de centralidad; medidas de centralidad en la medida en que páginas enlazan a la página en cuestión. Por el contrario, la influencia mide el grado en que el contenido de esa página influencias otras páginas. En nuestro formalismo, un nodo p puede ser entendida para influir en un nodo q cuando Q enlaces a p. Influencia no necesita ser directa, sin embargo: p puede influir q si q enlaces a R y R enlaces a p. Para medir la influencia no local, consideramos paseos aleatorios en la red la dirección invertida.
Más formalmente, la colocación de un caminante aleatorio en el nodo p, permitimos que ella tome n pasos de este punto de partida a lo largo de la red de orientación invertida; escribimos la distribución de probabilidad resultante sobre la posición final como pi, la probabilidad de que el caminante terminando en el nodo i. El pi de distribución define la influencia que tiene en p i.
Para cuantificar la distancia entre dos nodos, se considera además la superposición influencia entre dos nodos arbitrarias p y q. Solapamiento cuantifica el grado en que dos caminantes al azar, a partir de estos nodos, tenderán a visitar las mismas páginas. Si pi y qi son las distribuciones de probabilidad asociados con la influencia de nodo p y q, a continuación, se superponen, se define como:


     (1)

Por varias páginas, podemos calcular la media de superposición de par en par simplemente promediando la superposición entre todos los pares posibles dentro del conjunto.
Alta superposición entre p y q indica que dos páginas influyen en un gran número de nodos comunes. Cuando n tiende a infinito, los caminantes al azar convergen a la distribución estacionaria, y la superposición es uno; A la inversa, cuando n es pequeño, caminantes aleatorios tienen menos tiempo para encontrar uno al otro. Tomamos n igual a cinco, más grande que el camino más corto promedio (aproximadamente tres, en nuestra red), de manera que los nodos son potencialmente alcanzable, pero mucho menos que el tiempo de convergencia a la distribución estacionaria.
La superposición puede ser pensado como una medida de la separación de las esferas de influencia. Se invoca únicos mecanismos locales: los usuarios que viajan de una página a otra mediante los enlaces que los conectan. Esto es en contraste a una medida, tal como los caminos más cortos, lo que es computacionalmente caro y requiere un conocimiento detallado, global del enlace-estructura de la red. En general, por ejemplo, el número de nodos de un algoritmo necesita visitar el fin de determinar el camino más corto entre dos nodos por lo general será mucho mayor que la longitud de la trayectoria final.
Tanto la influencia y la superposición requieren que especifique los nodos particulares de interés; nos centramos en este trabajo sobre pares de páginas de alta CE, o normas básicas.

2.3. La coherencia semántica

Consideramos que las relaciones semánticas entre las páginas. Esto proporciona una noción de relación que es distinta de cómo las normas se conectan a través de hipervínculos. Para ello, hacemos (asignación de Dirichlet latente [53]) El modelado de tema en los uno-gramos del, texto legible aparece en cada página. Tema modelos nos permiten representar textos cortos, incluso cuando se obtienen de un rico vocabulario: temas de grano grueso de las distribuciones subyacentes más palabras.
Con el modelo resultante tema, entonces podemos calcular la distancia semántica entre todos los pares de páginas utilizando la distancia Jensen-Shannon (JSD), una medida que cuantifica la posibilidad de distinguir de las dos distribuciones [54]. Esto nos da una red semántica con peso que se puede comparar a la red de enlaces entre páginas. En particular, podemos calcular la coherencia semántica: la correlación de Pearson entre pi (la influencia del nodo p en el nodo i) y el JSD negativo desde el nodo P al nodo i, Ji. Cuando los nodos que están estrechamente relacionadas topológicamente también están estrechamente relacionadas semánticamente (JSD baja), la coherencia es alta.

2.4. La detección de la comunidad

Esperamos que los enlaces que los editores hacen a nivel local para dar lugar a grupos distintos, o haces norma, a nivel mundial. Usamos el algoritmo de detección de Lovaina comunidad [55] para detectar la agrupación entre los nodos de la red. El algoritmo de Lovaina maximiza la modularidad en cada partición local de la red. El primer algoritmo asigna a cada nodo i al otro clúster, a continuación, calcula la ganancia potencial de la modularidad i para unirse al grupo de su nodo vecino j. Cada voy a unirse al grupo de j cuando la combinación de la ganancia ofrece modularidad positiva más alta. Si no hay un posible aumento de la modularidad, que permanece en su grupo inicial.

miércoles, 9 de diciembre de 2015

La influencia de todos los nodos en procesos de difusión


La comprensión de la influencia de todos los nodos en una red
Glenn Lawyer - Nature
Scientific Reports 5, Article number: 8665 (2015)
doi:10.1038/srep08665


Resumen

Medidas de centralidad, como el grado, k-shell, o centralidad de valores propios pueden identificar los nodos más influyentes de la red, pero rara vez son útilmente precisos para cuantificar el poder difusión de la gran mayoría de los nodos que no son muy influyentes. El poder difusión de todos los nodos de la red se explica mejor por considerar, desde una perspectiva epidemiológica continua en el tiempo, la distribución de la fuerza de la infección por cada nodo genera. El, la fuerza esperada métrica resultante, cuantifica con precisión nodo de difusión de poder bajo todos los modelos epidemiológicos primarios a través de una amplia gama de redes de contactos humanos arquetípicos. Cuando el poder nodo es baja, la influencia es una función del grado vecino. A medida que aumenta de poder, propio grado de un nodo se vuelve más importante. La fuerza de esta relación es modulada por estructura de red, siendo más pronunciado en, redes densas estrechas típicas de las redes sociales y el debilitamiento de las redes más amplias, más flexibles de asociación, como Internet. La fuerza esperada se puede calcular de forma independiente para los nodos individuales, por lo que es aplicable para las redes cuyos matriz de adyacencia es dinámica, no bien especificado, o abrumadoramente grande.


Introducción

Las redes han convertido en el enfoque premier a describir los procesos de difusión, tales como epidemias o transferencia de información porque expresan la heterogeneidad de las interacciones característicos de muchos actividades humanas. Treinta años de innovación han perfeccionado nuestra capacidad para identificar los nodos que son de gran influencia en el resultado de casi cualquier proceso de difusión en una red dada a través de características como centralidad de intermediación, centralidad de valor propio, grado o k-shell. Sin embargo, los nodos altamente influyentes son raras, por definición, y las medidas que acabamos de mencionar no son informativos para la gran mayoría de los nodos de la red. Estas medidas de centralidad única rango nodos y no están diseñados para cuantificar la potencia de difusión. Mientras que la clasificación se identifican con precisión los pocos nodos altamente influyentes, pueden subestimar considerablemente el poder de difusión de nodos que no son centrales (hub). Tampoco estas clasificaciones incorporan explícitamente la dinámica de procesos de propagación. Esto deja abierta la cuestión de la cuantificación de la energía difusión de los mucho más numerosos nodos no muy influyentes, y de hecho la comprensión de la naturaleza del nodo de difusión propio poder. Como nodos altamente influyentes sólo en raras ocasiones se originan difundir los procesos, ya sean enfermedades patógenas, ideas innovadoras o conversaciones, hay una profunda hambre intelectual y la utilidad práctica de medir y comprender el poder difusión de cada nodo individual en una red con precisión.

La potencia la difusión de un nodo es la fuerza con la que se puede empujar un proceso que se extiende al resto de la red. Esta definición puede hacerse más precisa con referencia a los modelos epidemiológicos comunes de propagación. En un proceso de difusión susceptible de ser infectados (SI) sin recuperación, que alcanza inevitablemente todo el componente conectado de la red, la potencia de propagación de la semilla nodo predice el retardo antes de la mitad (o alguna otra gran porcentaje de) se alcanza la red. En un proceso con recuperación ya sea a la susceptible (SIS) o inmunes (SIR) del estado, la difusión de la energía se correlaciona con la probabilidad de que un nodo puede sembrar una epidemia dado que la relación de la velocidad de transmisión por contacto a la tasa de recuperación permite , pero no garantiza, una epidemia. Cuando esta relación supera el rango crítico, la dinámica se acercan al sistema SI como un caso límite.

Recientemente se han propuesto varios enfoques para la cuantificación de la potencia de difusión de todos los nodos, incluyendo el accesibilidad, la influencia dinámico, y el impacto. Estos se extienden enfoques anteriores para medir la centralidad incorporando explícitamente la dinámica de propagación. La accesibilidad es una forma modificada de grado jerárquico que controla tanto las probabilidades de transmisión y la diversidad de los sectores de una longitud fija determinada. La influencia dinámica, como la centralidad valor propio, es la proporción de infinito paseos a partir de cada nodo, donde los pasos a pie se escalan de tal manera que se espera que la dinámica lineal del sistema a converger a un estado constante no nulo. Las sumas de impacto, sobre longitudes crecientes pie, la probabilidad de transmisión al nodo final de la caminata y que el nodo de extremo no se ha visitado previamente por un senderos más corto. Estas nuevas métricas de potencia de propagación se han demostrado para ser distinto de medidas de centralidad anterior y más altamente correlacionado con resultados de epidemia. Sin embargo, conservan el fundamento común de los enfoques más habituales a la centralidad, el conteo de paseos por la red. Como los paseos se cuentan utilizando potencias de la matriz de adyacencia, propagación se observa sólo en tiempo discreto.

La epidemiología, en cambio, estudia la dinámica de tiempo continuo de la fuerza de la infección (FOI), definida como la tasa actual en la que los nodos susceptibles son cada infectado. En los modelos de red, el FoI es directamente proporcional al número actual de aristas entre los nodos infectados y susceptibles. La distinción fundamental entre FoI y paseos es que el FoI se determina por el número de enlaces infectados susceptibles, independientemente de su distancia desde el nodo de la semilla. La distinción fundamental entre continuo- y de tiempo discreto es que continua en el tiempo permite la resolución a las dos primeras transmisiones, un nivel no se expresa fácilmente en un marco de tiempo discreto, donde pueden ocurrir múltiples transmisiones en cada paso de tiempo. La distinción es agudo, como el número de eventos por paso de tiempo crece a un ritmo de doble exponencial de red libre de escala, el tipo de red más representativo de estructuras humanas y tal vez incluso en su vida misma.

La perspectiva epidemiológica de tiempo continuo sugiere que la difusión de nodo de potencia se puede cuantificar con precisión resumiendo apropiadamente la distribución del número de aristas susceptibles infectadas después de un pequeño número de eventos de transmisión derivados de un nodo de semilla en una red de otro modo totalmente susceptible; es decir, por el FoI esperada generada por ese nodo. Estamos aquí proponemos una medida de este tipo, llamada la fuerza esperada (ExF), y mostramos que supera a la accesibilidad, k-shell, y centralidad valor propio en la predicción de los resultados de epidemia en el SI, SIS y SIR procesos de difusión, tanto en discrete- y continua -hora. La base de la estructura local de barrio: el ExF es aplicable incluso cuando la matriz de adyacencia completa es desconocido o inherentemente incognoscible. La métrica se extiende naturalmente a las redes ponderados y dirigidas. Lo más importante, la fuerza esperada es capaz de iluminar los factores responsables de potencia nodo de difusión.


Definición de la Fuerza Esperada

La fuerza esperada es una propiedad nodo derivado de topología de red local, independiente del resto de la red o cualquier proceso de difusión específico. Se formalmente se define como sigue. Considere una red con un solo nodo i infectado y todos los nodos restantes susceptibles. Enumerar todos los grupos posibles 1, ..., J de nodos infectados después de los eventos de transmisión de x, suponiendo que no hay recuperación (Ver Figura 1). En términos generales, x = 2 es suficiente y asumido por el resto de este manuscrito. De ahí J incluye todas las combinaciones posibles de i y dos nodos en la distancia uno del yo, y más un nodo a una distancia uno y uno a una distancia de dos. La enumeración es sobre todas las posibles ordenaciones de los eventos de transmisión. Dos vecinos de la semilla (A y B) forman dos grupos ([i → A, i → b] y [i → b, i → A]) o, si a y b también comparten un enlace, cuatro grupos. Después de dos transmisiones sin recuperación, la FoI de un proceso de difusión sembraron desde el nodo i es una variable aleatoria discreta teniendo un valor en (d1, …, dJ), lo que permite la constante de proporcionalidad igual a la velocidad de transmisión del proceso. La fuerza esperada de la infección se puede aproximar por la entropía del dj después de la normalización

 

donde i refiere al nodo semilla un 



Esta red estará en uno de los ocho estados posibles después de dos transmisiones desde el nodo de la semilla (rojo). Dos estados se ilustran, donde la semilla se ha transmitido a los dos nodos de naranja a lo largo de los enlaces negros sólidos. Cada estado tiene un número asociado de (naranja discontinua) enlaces de nodos susceptibles (azules), el grado de clúster. Unidos que contienen dos vecinos de la semilla (panel A) se pueden formar de dos maneras o, si son parte de un triángulo, de cuatro maneras. Los ocho estados de red asociados con la semilla relevancia que el nodo en la foto de trece posibles agrupaciones de transmisión. La fuerza esperada de un nodo semilla es la entropía de la distribución del (normalizada) grado clúster sobre toda (aquí 13) posibles agrupaciones de transmisión.

Se necesita la entropía para generar el valor esperado debido a la variabilidad extrema en la forma, el número de modos, y el número de términos en las distribuciones de dj para diferentes nodos de semillas. Redes complejas tienen grado distribuciones libres de escala. Los momentos de las distribuciones libres de escala son divergentes, lo que implica que la distribución de dj no puede tener un valor medio en el sentido tradicional. La entropía es una herramienta estándar para domar distribuciones rebeldes debido a su estrecha relación con cumulante funciones generadoras, motivando el uso de la ecuación 1 para generar un valor cuasi-esperada del FoI. Una analogía suelta se puede hacer que el uso de la entropía en la física estadística para resumir el macroestado de un sistema (por ejemplo, la presión de un gas), basado en la distribución de sus microestados (las posiciones y momentums de moléculas en el gas). La analogía es que la presión es una combinación de la cantidad y el calor de las moléculas, así mismo, la fuerza esperada de un nodo es una combinación del número de posibles grupos de transmisión que puede formarse y la FoI generados por cada grupo. Una discusión en profundidad de la relación entre la entropía, cumulantes y física estadística se puede encontrar en review26 de Touchette.

Se recomienda ajustar x = 2, pero no es obligatorio. Investigaciones complementarias muestran que aumentar el número de transmisiones más allá de dos añade muy poca información al tiempo que aumenta el coste computacional (véase la nota complementaria 1), de acuerdo con otra propuesta métricas de difusión poder y consistente con la influencia en descomposición de las trayectorias más largas en los cálculos de el valor propio, subgrafo y centralidades relacionadas. En ciertos casos, sin embargo, puede ser deseable considerar más eventos de transmisión. Por ejemplo, un nodo en el extremo de una cadena de longitud dos sólo puede formar un clúster transmisión de tamaño dos, por lo tanto, su fuerza esperada es cero. La comparación de dos tales nodos requiere ajuste de x = 3, en cuyo caso un subíndice se puede utilizar para mayor claridad (por ejemplo ExF3).

Una modificación puede ser el fin de que los procesos de SIS / SIR, inspirados en lo siguiente. Imagine un nodo con grado uno conectado a un concentrador. Mientras que un nodo tal tendrá una fuerza esperada alta, su oportunidad de hacer realidad esta fuerza depende enteramente de la transmisión al cubo antes de la recuperación. Estos nodos son comunes en densas redes sociales. Por ejemplo, el 84% de los 225K nodos en un red de correo electrónico institución de la UE tienen grado una. En tales redes, puede ser útil para explicar la dependencia de la transmisión inicial multiplicando el ExF por el registro de grado del nodo simiente después de primero reescalado grado de la semilla por algún factor α> 1.




El cambio de escala está motivada en que el registro de uno es cero, y el exfm es más informativo en redes en las que muchos nodos tienen un grado una. El factor de cambio de escala debe ser mayor que uno, y también debe ser pequeña para evitar dominar la influencia del grado. En el resto de este manuscrito, usamos α = 2, el menor entero que satisface estos criterios. Nota complementaria 2 muestra que el cálculo de la exfm para α van 1,0001-16 no altera sustancialmente la métrica, como todas las variaciones muestran correlaciones superiores a 0,99 a exfm calcula con α = 2.

El cálculo directo de la fuerza esperada tiene complejidad temporal , donde n1 y n2 son el número de vecinos en la distancia de uno y dos de la semilla. Es difícil comparar analíticamente una complejidad de tiempo calculado en nodos individuales con complejidades de tiempo cuyo cálculo se basa en toda la matriz de adyacencia. Además, puesto que la métrica se basa únicamente en la información local, se puede calcular de una manera masiva en paralelo o sólo calcula en nodos de interés. También permite que los cálculos significativos (parciales), incluso en los gráficos masivos, es decir, aquellos cuyo tamaño abruma la memoria del ordenador. Sin embargo, una comparación de tiempos de ejecución se requiere de indicadores existentes. Nos referencia la mediana del tiempo de ejecución más de cincuenta redes Pareto de 1.000 nodos de todas las medidas discutidas aquí. El tiempo de ejecución de cada red se mide como la mediana del tiempo de cálculo más de diez carreras en esa red, con el tiempo de cálculo se mide a con una precisión de sub-microsegundo. El cálculo del ExF para todos los nodos no-hub tarda 0,16 segundos. El k-shell se calcula en 2% de ese tiempo (0.003 segundos), y la centralidad valor propio en el 20% de ese tiempo (0.03 segundos). Cálculo de la accesibilidad tiene varios cientos de veces más. La evaluación comparativa se repite con el mismo protocolo de nodo 10.000 redes de Pareto. Los incrementos en el tiempo de funcionamiento de la concha k (6x), centralidad valor propio (9x), y se espera la fuerza (16x) tienen correspondencia aproximadamente lineal con el aumento de diez veces en el número de nodos de la red. Recordemos que la complejidad del tiempo probada para el k-shell y la hora prevista para la centralidad de valores propios son ambos O (| V | + | E |), es decir, lineal. Como era de esperar, la accesibilidad no escala bien, con un incremento de diez veces en el tamaño de la red que lleva a un aumento de 265 veces en la mediana de tiempo de ejecución. Recordemos que se calcula tomando los poderes de la matriz de adyacencia, es decir, algo peor que O (| V | 2.4). Benchmarking se llevó a cabo en el entorno de programación R29 se ejecuta en un ordenador portátil de los productos básicos. K-shell y valores propios cálculos se calculan a través de las funciones estándar de la paquete IGRAPH. La accesibilidad se calcula en el código R29 nativa utilizando la multiplicación matriz dispersa desde el paquete Matrix 1,0-1.031. La fuerza esperada se calcula de código C a través de una interfaz R.

Un ejemplo de código que proporciona una implementación de la fuerza esperada está disponible en https://github.com/glennlawyer/ExpectedForce.

La correlación con los resultados de epidemia

Medimos las correlaciones entre los resultados de la fuerza y epidémicas esperados en cinco familias de redes simuladas elegidos de tal manera que sus densidades y distribuciones de grado abarcan una amplia gama de estructuras de contacto humano, que se enumeran en la Tabla 1. El cien redes aleatorias de 1.000 nodos se generan en cada familia . Además la comparación se realiza mediante un conjunto de veinticuatro redes del mundo real que van desde 1,133 a 855,800 nodos, como se indica en la Tabla 2. Los resultados de epidemia son el tiempo a la mitad la cobertura de los procesos del SI y el potencial epidémico para procesos SIS y SIR. Estos se observan mediante la simulación de múltiples epidemias tanto en tiempo continuo y discreto a partir de un número de nodos de semillas en cada red. Las correlaciones se miden entre estos resultados y la fuerza esperada, exfm, la accesibilidad, la centralidad de valores propios, y el k-shell de los nodos de semillas. Motivaciones para estas elecciones y detalles adicionales se dan en los métodos.


Tabla 1: Simulación de las familias de la red. El diámetro medio, media densidad gráfica, y empírica media 65% Gama cuantil del mayor valor propio de las diferentes familias de la red. Pareto y Amazonas redes co-compra tienen una gran estructura, sueltos y poco valor propio, lo que sugiere la susceptibilidad menos inherente a las epidemias que las redes de colaboración más pequeñas y más densas; Mapa de Internet de Google se encuentra en el medio. Los medios y las desviaciones estándar se calculan más de 100 redes simuladas con 1.000 nodos

diámetrodensidad65% cuantil
Pareto11.6 ± 1.03.2 e-047.1–10.1
Amazon [42]7.2 ± 0.46.9 e-0410.1–13.7
Internet [42]7.0 ± 0.59.4 e-0325.2–35.2
Astrophysics [27]5.5 ± 0.62.1 e-0254.5–61.9
Facebook [44]5.5 ± 0.52.4 e-0265.2–73.7

Tabla 2: redes del mundo real. El número de nodos, 90a percentil diámetro efectivo, y la densidad de las redes reales. Redes fueron descargados de la Stanford Large Red Collection (SNAP), la colección de Alex Arena (AA), y el Instituto Max Planck para la página web Software Systems (MPI), que a su vez créditos de la publicación citada por la red
nodesdiameterdensitysource
PGPgiantcompo1068010.04.26 e-4AA [46]
amazon030226211111.10.26 e-4SNAP [42]
amazon06014033647.60.30 e-4SNAP [42]
ca-AstroPh179035.012.30 e-4SNAP [27]
ca-CondMat213636.54.01 e-4SNAP [27]
ca-GrQc41587.615.53 e-4SNAP [27]
ca-HepPh112045.818.74 e-4SNAP [27]
ca-HepTh86387.46.65 e-4SNAP [27]
cit-HepPh344015.07.11 e-4SNAP [47]
cit-HepTh274005.39.38 e-4SNAP [47]
com-dblp3170808.00.21 e-4SNAP [48]
email-EuAll2248324.50.13 e-4SNAP [27]
email-Uni11334.385.00 e-4AA [49]
facebooklcc596915.64.09 e-4MPI [44]
loc-brightkite567396.01.32 e-4SNAP [50]
loc-gowalla1965915.70.49 e-4SNAP [50]
p2p-Gnutella31625616.70.76 e-4SNAP [27]
soc-Epinions1758775.01.41 e-4SNAP [51]
soc-Slashdot0902821684.71.49 e-4SNAP [43]
soc-sign-epinions1191304.90.99 e-4SNAP [52]
web-Google8558028.10.12 e-4SNAP [43]
web-NotreDame3257299.40.21 e-4SNAP [53]
web-Stanford2552659.70.60 e-4SNAP [43]
wiki-Vote70663.840.36 e-4SNAP [52]

La fuerza esperada es altamente predictivo de todos los resultados de epidemia en todas las redes analizadas, simulado y real. La media de correlación con los resultados del proceso de la IS es 83% en simulación y el 74% en las redes reales. Para los procesos con la recuperación, la correlación media es del 91% sobre simulado y el 82% en las redes reales. Las desviaciones estándar en los cien redes simuladas en cada familia son típicamente 0,02-0,03. Los 95% límites de confianza en las redes reales están en el mismo rango. En todos los casos la ExF (o exfm) supera significativamente la accesibilidad y la centralidad valor propio (diferencia en correlaciones medias mayores que la desviación estándar de la media más alta). Por lo general supera a la k-shell, superando significativamente en 82 casos, mostrando un rendimiento equivalente en 11 casos (diferencia en correlaciones medias menores que la desviación estándar de la media más alta), y el rendimiento significativamente inferior en 6 casos (redes de Internet simulada SIS- C, SIR-C, SIR-D; redes Astrofísica simulados SIR-D, las redes de Facebook simulados SIR-D, "email-EUAll" red de SI). El rendimiento de la k-shell era sorprendentemente fuerte, dado que los dos estudios previos por parte de grupos independientes han observado bastante pobre desempeño de este indicador. Las correlaciones observadas en 100 redes simuladas en cada familia se muestran en parcelas de violín (Figura 2); la información se duplica en forma de tabla en la tabla complementaria 5. Del mismo modo, las correlaciones medidos y sus errores estándar para todas las redes reales se muestran en la Figura 3, dadas en forma de tabla en los cuadros suplementarios 6, 7 y 8, y se representan de forma individual en las figuras complementarias 16.


Figura 2: Correlación de propagación de las métricas de potencia a los resultados epidémicas en las redes simuladas.


Figuras de Violín muestran la distribución de valores de correlación observados para cada resultado proceso de difusión en cada familia red. La fuerza de lo esperado y exfm (tonos naranja) son consistentemente fuerte, con correlaciones medias superiores a 0,85 y pequeña variación. Las otras medidas (k-shell, centralidad valor propio, y de accesibilidad, tonos azules y verdes) muestran ambos valores medios más bajos y mayor varianza, como se ve en la posición y la propagación vertical de sus violines. Cada violín resume las correlaciones calculadas en 100 redes simuladas. Procesos Difusión (eje x) se sufijo para indicar simulaciones en continuo (C) o discreta (-D) tiempo. El resultado epidemia para los procesos de SI es el tiempo hasta que se infecta medio de la red. Para SIS y SIR procesa es la probabilidad de que se observa una epidemia.


Figura 3: Correlación de difundir mediciones de potencia a los resultados de epidemia en las redes reales.


Gráficas de puntos y barras de error muestran la correlación observada y el intervalo de confianza del 95% entre cada medida y la difusión de los resultados del proceso en las 24 redes reales. La fuerza esperada y exfm (tonos naranja) muestran un desempeño sólido, superando constantemente las otras métricas (k-shell, centralidad valor propio, y de accesibilidad cuando computados, tonos azul-verde). El resultado epidemia para los procesos de SI es el tiempo hasta que se infecta medio de la red. Para SIS y SIR procesa es la probabilidad de que se observa una epidemia. El sufijo "-D" indica difundir procesos simulados en tiempo discreto. Paneles individuales se dan como cifras separadas (más grandes) de las figuras complementarias 1-6.


Poder predictivo del vigor se espera es robusto a la variación en la estructura de red. La teoría detrás de la exfm sugiere que el ExF podría perder rendimiento para SIS / SIR procesa en las redes más densas, pero significaría correlación para procesos SIS tiempo continuo apenas cambió entre las redes sueltas Pareto / Amazonas (0,93 / 0,95) y la densa Astrofísica / Facebook redes (0,92 / 0,90). Como era de esperar, el poder predictivo de la exfm mejora en las redes más densas (media correlaciones: Pareto / Amazon 0.89 / 0.92, Astrofísica / Facebook 0.94 / 0.95). Un análisis previo que observa malos resultados similares: La precisión de la métrica de la accesibilidad, por el contrario, se derrumba para todos los procesos de difusión en las redes densas (Pareto / Amazon 0.74 / 0.90, Astrofísica / Facebook 0.28 / 0.20. La correlación sobre todos los procesos de extensión media) para la accesibilidad en las redes densas concluyeron que los procesos de difusión sembradas de nodos con baja accesibilidad no son capaces de entrar en el phase18 epidemia. Nuestros resultados muestran que esto no es el caso, ya que estos nodos tienen un pequeño potencial epidémico todavía observable que la fuerza esperada es capaz de capturar y cuantificar. El rendimiento de la k-shell y la centralidad de valores propios también está fuertemente influenciada por la estructura de la red. Para los procesos SIS / SIR, ambos mostraron mayor media y la drástica reducción de la varianza en las redes más densas. En un contraste interesante, el poder predictivo del k-shell para los procesos del SI se reduce en las redes más densas. El desempeño de la centralidad de valores propios también varía según el proceso de difusión, mostrando su mejor rendimiento en tiempo discreto SIS modelos- aunque de nuevo esta variación es modulada por densidad de la red. Otros dos grupos independientes han observado que las relaciones entre el ranking de centralidad y resultados epidémicas están fuertemente influenciadas por la estructura de la red y los parámetros de los procesos de difusión, lo que lleva a los autores de ref. 9 a la conclusión de que estas medidas subestiman gravemente el impacto epidemia de nodos estructuralmente periféricos.

Grafos ponderados

La fuerza esperada generaliza a grafos con enlaces ponderados, donde asumimos el peso del enlace corresponden a las probabilidades de transmisión por punta. Utilice estos pesos para calcular la probabilidad de cada forma en que podría ocurrir cada grupo, y volver a definir el grado de clúster como la suma de todos los pesos de vanguardia hacia fuera de ese grupo. La extensión de grafos dirigidos también es sencillo; limitar la enumeración de enlaces de ataque de un infectado a un nodo susceptible.

Probamos esta generalización calculando la fuerza esperada ponderado y no ponderado de 1.000 redes de nodos con Pareto (1,2.3) distribuciones de grado y pesos de las aristas elegidos de acuerdo con una de las siguientes tres distribuciones: distribuida uniformemente entre uno y tres, distribuidos uniformemente entre uno y diez, y exponencialmente distribuido con tasa unitaria, pesos redondean al número entero más cercano. Se simularon Cincuenta redes para cada distribución de pesos de las aristas. La correlación entre la ExF ponderado y no ponderado fue mayor que 0,99 para todas las distribuciones de ponderación de los enlaces de la red probadas. Como era de esperar de la estrecha correlación, la ExF ponderado y no ponderado no mostró ninguna diferencia significativa en la capacidad de predicción, que se mantuvo alta. Correlaciones observadas entre el nodo espera la fuerza y ​​potencial epidémico en los procesos de SIS en tiempo discreto fueron 0,88 / 0,89 ± 0,03 (no ponderado / ponderada ExF) con arreglo al régimen uniforme-3, 0.83 / 0.04 ± 0.03 bajo el esquema de 10 uniformes, y 0,80 / 0,79 ± 0,05 bajo el esquema de ponderación distribuido exponencialmente.


Discusión

La fuerza esperada predice todos los tipos de resultados epidémicas con alta precisión sobre una amplia gama de estructuras de red y los procesos de ensanchamiento. La baja variación en las correlaciones observadas en múltiples modelos de red y epidémicas simulados muestra que la medida es robusto, al igual que los límites de confianza ajustados en las redes del mundo real. ¿Cuál es, entonces, qué nos dice sobre la naturaleza del nodo de difusión de poder? La definición de la fuerza esperada implica que la difusión de potencia se determina por tanto el grado del nodo y el grado de sus vecinos, y que la influencia relativa de estos dos factores es diferente para los nodos de baja frente a la difusión de alta potencia. Nodos débiles ganar lo fuerza que tienen de sus vecinos, mientras que los nodos más influyentes obtienen su fuerza de su gran número de conexiones. Estas relaciones se acentúan por la densidad de la red.

Este es un resultado de la combinatoria detrás de la enumeración sobre agrupaciones de transmisión. El número de rutas con un borde (p1) contribuye cuadráticamente con el número de racimos de transmisión, mientras que el número de caminos de dos de borde (p2) contriutes linealmente, ya J = p1 * (p1 - 1) + p2. Grado de nodo es exactamente p1. Grado Vecino es en la mayoría de p2. Nodos más débiles tienden a tener menor grado, por lo tanto, el grado vecino contribuye en mayor medida a su fuerza esperada. La influencia de la densidad de la red proceden en parte de la sensibilidad de la ExF de motivos de la red, tales como triángulos y cuadrados. Cada triángulo se traza por dos caminos con dos bordes, aumentando la proporción de p2 asociados con el grado de nodo. Más importante aún, el ExF es la entropía de la conectividad en adelante de cada grupo de transmisión. Un triángulo genera cuatro de estos grupos, cada uno de los cuales tiene el grado de clúster idénticos. Del mismo modo, cada cuadrado representa dos grupos. Estos motivos de la red, que son más comunes hacia los núcleos de las redes densas y reducir la disparidad de la distribución de grado de clúster que aumenta la entropía. Los combinatoria se complican cuando el recuento se basa en más de dos transmisiones, pero estos patrones generales permanecen. Estas relaciones pueden ser vistos por el trazado de ExF contra las sumas de los grados de los nodos en el aumento de la distancia geodésica de la semilla (Figura 4, que complementa el cuadro 3).


Figura 4: Extensión de la energía es un factor de primer y segundo grado la orden de un nodo.


Trazado de la fuerza esperada (eje x) frente a grado nodo (naranja), la suma del grado de todos los vecinos (Azules), y la suma del grado de todos los vecinos en la distancia 2 (verde) muestra que para los nodos con baja ExF, grado del vecino tiene una fuerte correlación con ExF, mientras que para los nodos con alta ExF su propio grado está más estrechamente correlacionados. El resultado se acentúa en las redes de colaboración más densos en comparación con las redes de Pareto más difusos. La correlación entre ExF y el grado vecino es 0,94 ± 0,01 en las redes de colaboración, y se reduce a 0,84 ± 0,02 en las redes de Pareto (media tomado más de 50 redes; Ver cuadro complementario 3 para las correlaciones más de todas las estructuras de la red).

El enfoque adoptado por la fuerza esperada es fundamentalmente diferente de la adoptada por la mayoría de las medidas de centralidad. Medidas de centralidad normalmente establecidos para producir una clasificación que identifica los nodos más influyentes en la red, bajo el supuesto de que los nodos altamente influyentes son aquellos con la suma máxima de algún tipo de paseo. La elección del tipo adecuado, escalamiento, y la duración de las caminatas contiene supuestos implícitos en relación con los flujos de red, la estructura de la cohesión, y / o otras características topológicas de la red. El k-shell es una pequeña excepción, ya que inicialmente estaba destinado a precipitar las regiones más cohesivas de la red en lugar de para clasificar explícitamente nodos dentro de las regiones de cohesión, sin embargo, ahora se reconoce como una de las mejores medidas de centralidad para la identificación de una red de difusores más influyente. Difundir las métricas de poder generalizar el paseo contando marco al incluir explícitamente las probabilidades de transmisión al escalar los paseos. La cuestión no se plantea es si el tipo, escala, y las longitudes de los sectores que mejor se adapte a la identificación de los nodos más importantes se aplica igualmente bien con el resto de la red. En la medida en que la elección óptima de los factores depende de la topología de red, entonces la diferencia en la topología entre el núcleo y la periferia sugiere que las opciones muy apropiadas para el núcleo son menos apropiados para el resto de la red.

Tanto la combinatoria detrás de la fuerza esperada y el paseo contando detrás medidas más centralidad de acuerdo en que los nodos influyentes son aquellos que combinan alto grado con una preponderancia de vecinos influyentes. El ExF tiene alta correlación rango tanto con la centralidad de valores propios y de la cáscara de k (0,62-0,92 a través de las familias de la red simulada, véase la nota complementaria 3). Asimismo, el ExF tiene 60-90% de acuerdo con la centralidad valor propio en el diez nodos de red y 100% del acuerdo superior con el k-shell. La diferencia entre el conteo de pie y la fuerza esperada es que la fuerza esperada adopta la influencia relativa de los diferentes sectores y caminar largos basados ​​en conectividad local, mientras que los enfoques basados ​​en funciones de la matriz de adyacencia aplican un protocolo fijo. La centralidad de valores propios es el grado del nodo ponderada, donde los pesos son la importancia de los vecinos. Pero la centralidad valor propio es estrictamente una medida global, incapaz de distinguir las variaciones más sutiles en la estructura local. El k-shell erosiona grado nodo para que coincida con el número de vecinos con grado similar. Desde esta descarta restante información sobre el grado individual de nodos dentro de una carcasa común, la exactitud de sus predicciones está fuertemente influenciado por el número de conchas en la red. La accesibilidad combina nodo y el grado vecino en una medida del número de nodos susceptibles de ser alcanzado por los sectores de una longitud dada. Pero este enfoque tiene dificultades cuantificar nodos en redes de diámetro densos, pequeñas, que acentúan las diferencias entre el núcleo y la topología periférica.

La fuerza esperada ofrece ventajas adicionales sobre la difusión medidas de potencia y de centralidad existentes en que su cálculo sólo depende de la topología local. Esto permite que los resultados de epidemia en toda la red para predecir con gran precisión incluso cuando se conoce sólo una pequeña porción de la red. Es raro que la estructura completa de una red real para ser totalmente conocido; normalmente la estructura de red se infiere de observaciones indirectas, incompletas, ya menudo sesgadas. Especificación de una matriz de adyacencia es aún más difícil cuando la red subyacente es dinámica. Estos límites tienen implicaciones prácticas. Las estimaciones de centralidad valor propio fluctúan dependiendo de que se muestrean nodos. Tanto el Pagerank y el k-shell son muy sensibles a pertubaciones en topología de la red, por lo que poco fiable para sistemas incompletos o ruidosos.

La confianza en un vecindario local es consistente con la teoría establecida mostrando que topológica de contenido de información cae rápidamente con la distancia. Bonacich demostrada en 1987 que la centralidad valor propio se puede expresar en términos de sumas sobre los ámbitos de longitud k, k = 1 ... ∞, estableciendo que la influencia de los sectores debe decaer, al menos de manera exponencial en k para garantizar convergencia. Un trabajo más reciente muestra que casi todas las medidas de centralidad, incluidos los basados ​​en resolventes matriz, así mismo se puede expresar como sumas infinitas más bases por bolas, y que las tasas de decaimiento exponencial más rápido que a menudo son motivados. La caída de la información también puede ser mostrado por el siguiente ejemplo. Considere una cadena lineal larga de nodos que conecta finalmente a un concentrador de red. Vamos β sea la relación de transmisión / recuperación en un proceso con recuperación y Delta I de la distancia desde el nodo i-ésimo de la cadena al concentrador. Si el proceso de difusión alcanza el centro, una epidemia es casi seguro. La probabilidad de que esto ocurra es en el mejor. Para β <0,1, esta probabilidad es estimable a tres de cuatro cifras decimales utilizando información solamente local. De manera más general, ya que la propagación epidémica es casi instantánea en las redes libres de escala, la expectativa es que el tiempo de paso que tiene un proceso fuera de la vecindad local de su origen lo lleva a la mayoría de la red.

La confianza en una red local, sin embargo, conduce a una debilidad en la fuerza esperada. Una red puede contener grandes comunidades pero dispares. Aquí, un nodo que actúa como un puente entre dos comunidades podría ser capaz de propagarse a un proceso para toda la red con más fuerza que un nodo lejos del puente, incluso cuando el segundo nodo tiene más (local) de potencia difusión que el nodo de puenteo. Carácter local del vigor se esperaba hace ciegos a estas restricciones topológicas más grandes en expansión.

Este trabajo define el resultado epidemia en el SIS / SIR procesa como la probabilidad de que se produzca una epidemia. Esto está en contraste con la medida utilizada normalmente, el número medio de nodos infectados (es decir, refs. 6, 8, 9, 11, 17, 18, 37). No estamos convencidos de que la media es un buen resumen estadístico. En más de 20.000 procesos de tiempo continuo simulado SIS difusión, no hay procesos que se extinguieron llegaron a más de 20 nudos, mientras que los procesos que no se extinguen llegaron a la mayoría de la red. Se ha argumentado que tal bifurcación en los resultados es predicha por la teoría. Dado que la distribución del número de nodos infectados se caracteriza por dos modos bien separados, la media se ve mejor como una estimación indirecta de la probabilidad de que el modo superior. Es esta posibilidad la que medimos directamente como el potencial epidemia.

La fuerza esperada predice resultados de epidemia de características locales de los nodos específicos en una red específica, con la única referencia de pasada a la naturaleza y los parámetros del proceso de difusión. Trabajo seminal ha abordado la cuestión desde el otro lado. Teniendo en cuenta los parámetros de un proceso de difusión de SIR y una clase de redes caracterizadas por su grado de distribución, soluciones exactas para valores típicos de una serie de resultados epidémicas están disponibles, y su evolución en el tiempo pueden expresarse como ecuaciones diferenciales ordinarias pareadas. Nodo de difusión de potencia puede ser pensado como explicando que parte de la varianza en torno a estos valores típicos que se debe a la elección de nodo de semilla.

La fuerza esperada está fuertemente correlacionada con el resultado epidemia, superando las métricas existentes de nodo de poder difundir y centralidad. La medida depende sólo de topología de la red local, permitiendo su uso en la dinámica así como las redes estáticas. Para la mayoría de los nodos, el determinante más importante de su poder de difusión es la suma del grado de sus vecinos. Como el poder nodo crece, también lo hace la importancia del propio grado del nodo. Esta relación se acentúa en las redes más densas.