Mostrando entradas con la etiqueta topología. Mostrar todas las entradas
Mostrando entradas con la etiqueta topología. Mostrar todas las entradas

viernes, 23 de febrero de 2018

Usando métricas para detectar fraudes

Detección de fraude utilizando aprendizaje profundo (deep learning) en incrustaciones de grafos y métricas de topología

Graham Ganssle, Ph.D., P.G. || Expero

¿No estás usando grafos todavía? Si no, obviamente no has leído mis otras publicaciones en el blog. Ve a hacer eso, luego instala algo de bondad gráfica, luego regresa aquí. Te veo pronto.



De acuerdo, ahora que eres un experto en grafos, podemos continuar hablando sobre el título de este artículo. Como Andrew Ng señala en su conferencia sobre la aplicación de una función de pérdida de triplete, es común en la literatura de aprendizaje profundo que los títulos sean <dominio de interés> insertados en cualquiera de las secuencias "______ Net" o "Deep ______". En ese espíritu, iba a nombrar este papel Fraude neto o Fraude profundo, pero luego me di cuenta de que la publicación de una publicación de blog de la compañía sobre Fraude profundo probablemente no es la mejor comunicación.

Estoy divagando. Hablemos de detección de fraude.


Figura 1: Un grafo que incluye transacciones financieras corporativas regulares y transacciones financieras fraudulentas.

Lo que realmente queremos es predicción de fraude (y desde allí prevención de fraude), ¿verdad? Sí, pero eso está en una próxima publicación de blog. Hoy hablaremos de atribuir cierto comportamiento a priori a un objetivo de clase binaria, a saber, un objetivo de fraude / notfraud. Veremos dos formas de determinar si una determinada entidad ha realizado o no una actividad fraudulenta, primero utilizando incrustaciones de un grafo y, en segundo lugar, usando varias métricas de topología de un grafo.

Sé lo que estás pensando: si el fraude ya ha sido cometido, ¿a quién le importa? Según este artículo, a todos debería importarles. En 2015, afirma el autor, el costo del etiquetado de fraude falso positivo fue de 118 mil millones de dólares. Eso es mil millones. Con una "b". El costo de los casos reales de fraude fue de solo $ 9 mil millones. No me malinterpreten, nueve mil millones de smackeroos son bastantes, pero es solo el siete por ciento del total de dinero perdido. Etiquetar incorrectamente las transacciones como fraudulento vale tanto como construir una nueva estación espacial internacional. Todos los años. Entonces, sin más digresiones, permítanme mostrarles cómo ahorrar $ 118,000,000,000. (De nada)

Uso de incrustaciones de grafos: Fraude individual

Escenario número uno: desea aumentar la precisión de su herramienta de análisis de fraude de tarjetas de crédito. Primero organizaría sus datos en un grafo, creando instancias de nodos como clientes individuales y comerciantes con propiedades de nodo sobre sus historiales financieros. Construiría enlaces que representen transacciones financieras entre estas entidades con propiedades de nodo, como la marca de tiempo de la transacción y el importe pagado.

Ahora debe incrustar el grafo en un espacio dimensional inferior para que pueda usar un modelo simple para analizarlo. ¿Por qué no insertas directamente tu grafo en tu modelo? Porque las geometrías no son compatibles. Si te interesa la teoría de grafos o la geometría diferencial, léelo para comprender la última oración sobre geometrías. Para aquellos de nosotros que no están dentro de las teorías de graph thingys o different whosits, consideremos como un axioma que tenemos que insertar nuestro grafo.

Aquí hay un grafo con una seria necesidad de incrustación. Como se describió anteriormente, los nodos representan a las personas con tarjetas de crédito y a los comerciantes a quienes les cuelgan el plástico. Tenga en cuenta la compleja estructura tridimensional y la gran cantidad de enlaces, que representan las transacciones financieras.


Figura 2: un grafo antes de la incrustación. Los nodos son titulares de tarjetas de crédito y comerciantes. Los enlaces son transacciones financieras.

Las estrategias de inclusión abundan; algunos son más populares que otros por razones fuera del alcance de este artículo. Mostraré dos más comunes en la imagen siguiente, reducción de dimensionalidad por análisis de componente principal e incrustación espectral por descomposición de valores propios.


Figura 3: la incrustación bidimensional del grafo en la Figura 2. El algoritmo naranja fue PCA, el azul fue incrustación espectral.

Finalmente, estamos listos para construir un modelo. La codificación del grafo incrustado para modelar es tan simple como crear vectores de características a partir de los nodos ahora aplanados. Incluimos las propiedades de nodo (entidad) y enlace (transacción), pero también concatenamos la información de coordenadas incorporada de la imagen anterior. Luego construimos un vector objetivo (o matriz para un régimen objetivo de clase múltiple) de nuestras etiquetas conocidas, activamos nuestra GPU y lo vemos comer.


Uso de métricas de topología: fraude organizacional

Escenario número dos: desea descubrir las organizaciones de lavado de dinero de su base de datos de registros transaccionales. Este problema es un orden de magnitud más interesante que analizar registros transaccionales individuales; en lugar de buscar muestras discretas, estamos interesados ​​en analizar los anillos de interacción financiera. Este es el paradigma en el cual el grafo realmente brilla.

Echa un vistazo a la imagen a continuación. Es un conjunto de empresas que interactúan financieramente. Los colores son representativos de su "comunidad", determinada por un algoritmo de aprendizaje no supervisado. Esta discusión se está acercando peligrosamente al territorio de salsa secreta, así que lo dejo así. La pregunta es, ¿las empresas amarillas están haciendo negocios como de costumbre, o es esta comunidad amarilla realmente un anillo de lavado de dinero?


Figura 4: un grafo de empresas coloreadas por comunidad. ¿Las empresas amarillas en la parte inferior derecha son realmente frentes para un anillo de lavado de dinero?

Paso uno: Combine sus datos en la misma estructura de grafos definida en la sección anterior.

Paso dos: cree un algoritmo inteligente que extraiga subgrafos de interés (las comunidades de color en la imagen anterior) y calcule las métricas de topología para cada comunidad. "Métrica de topología" es un nombre elegante para las descripciones de la geometría del subgrafo en cuestión. Por ejemplo, una métrica de topología popular es number-of-edges; en el subgrafo amarillo tenemos 23 bordes. Existen muchas de estas métricas de topología, y calculamos varias docenas para cada subgrafo.

Paso tres: cree un vector de características de estas métricas de topología para cada subgrafo. Concatenar las propiedades del nodo en otro tipo de forma secreta. Una implementación de ejemplo de esto sería calcular las propiedades de nodo promedio de todos los nodos en el subgrafo.

Paso cuatro: construya un vector objetivo (o matriz para un régimen objetivo de clase múltiple) de nuestras etiquetas conocidas, active nuestra GPU y deje que se horneen.

Envuélvelo ya

Estas técnicas dependen en gran medida de qué tipos de datos están disponibles y la estructura de las entidades que describen estos datos. La implementación debe ser personalizada (o al menos apropiada para el pedido) para cada banco / agencia / investigador interesado en realizar este trabajo. Es probable que el uso de una solución estándar empeore el problema, pero cuando se diseñan e implementan correctamente, estas técnicas pueden ahorrar miles de millones de dólares por año.

PD Sintonícese la próxima semana para obtener una versión más sofisticada de este análisis utilizando una metodología kernelizado llamada Graph graph convolutional network.

P.P.S. La detección de fraude es un problema manejable sin grafo. ¿Desea encontrar estafadores sin volver a manipular su base de datos 100 PB en otro formato? No hay problema. Nosotros hacemos eso, también.

sábado, 17 de febrero de 2018

No hay tanta evidencia de redes libre de escala en la realidad



Escasa evidencia de leyes de potencia encontradas en redes del mundo real

Un nuevo estudio desafía una de las ideas más celebradas y controvertidas en la ciencia de redes.

Erica Klarreich | Quanta Magazine



Un artículo publicado en línea el mes pasado ha reavivado un debate sobre una de las afirmaciones más antiguas y sorprendentes en la era moderna de la ciencia de redes: la proposición de que las redes más complejas en el mundo real, desde la World Wide Web hasta proteínas interactuando en una célula, están "libres de escala". Hablando en términos generales, eso significa que algunos de sus nodos deberían tener muchas más conexiones que otras, siguiendo una fórmula matemática llamada ley de poder, de modo que no haya una sola escala que caracterice a la red.

Las redes puramente aleatorias no obedecen las leyes de poder, así que cuando los primeros defensores del paradigma sin escalas comenzaron a ver leyes de poder en las redes del mundo real a fines de la década de 1990, las vieron como evidencia de un principio de organización universal subyacente a la formación de estos diversos redes. La arquitectura de la ausencia de escalas, argumentaron los investigadores, podría proporcionar información sobre cuestiones fundamentales, como la probabilidad de que un virus cause una epidemia, o qué tan fácilmente los hackers pueden deshabilitar una red.

En las últimas dos décadas, una avalancha de artículos ha afirmado la ausencia de escala de cientos de redes del mundo real. En 2002, Albert-László Barabási - un físico convertido en red científico que fue pionero en el paradigma de redes sin escala - escribió un libro para una audiencia general, Linked, en el que afirmaba que las leyes de poder son omnipresentes en redes complejas.

Las redes del mundo real exhiben una rica diversidad estructural que probablemente requerirá nuevas ideas y mecanismos para explicar.
Anna Broido y Aaron Clauset

"Las leyes naturales increíblemente simples y de largo alcance rigen la estructura y la evolución de todas las redes complejas que nos rodean", escribió Barabási (que ahora se encuentra en la Universidad Northeastern de Boston) en Linked. Más tarde agregó: "Descubrir y explicar estas leyes ha sido una atracción fascinante de la montaña rusa durante la cual hemos aprendido más sobre nuestro mundo complejo e interconectado de lo que se conocía en los últimos cien años".

Pero a lo largo de los años, otros investigadores han cuestionado tanto la omnipresencia de la ausencia de escala como la medida en que el paradigma ilumina la estructura de redes específicas. Ahora, el nuevo artículo informa que pocas redes del mundo real muestran evidencia convincente de la ausencia de escala.

En un análisis estadístico de casi 1.000 redes extraídas de la biología, las ciencias sociales, la tecnología y otros dominios, los investigadores descubrieron que solo el 4 por ciento de las redes (como ciertas redes metabólicas en las células) superaban las pruebas más sólidas del documento. Y para el 67 por ciento de las redes, incluidas las redes de amistad de Facebook, las redes alimentarias y las redes de distribución de agua, las pruebas estadísticas rechazaron una ley de poder como una descripción plausible de la estructura de la red.

"Estos resultados socavan la universalidad de las redes sin escala y revelan que las redes del mundo real exhiben una rica diversidad estructural que probablemente requerirá nuevas ideas y mecanismos para explicar", escribieron los autores del estudio, Anna Broido y Aaron Clauset de la Universidad de Colorado. Boulder


Aaron Clauset ha descubierto que las redes libres de escala son de naturaleza rara, contrariamente a la creencia popular.
Universidad de Colorado, Boulder

Los científicos de redes están de acuerdo, en general, en que el análisis del artículo es estadísticamente sólido. Pero cuando se trata de interpretar sus hallazgos, el documento parece funcionar como una prueba de Rorschach, en la que tanto los defensores como los críticos del paradigma libre de escala ven lo que ya creían que era cierto. Gran parte de la discusión se ha desarrollado en vigorosos debates de Twitter.

Los partidarios del punto de vista libre de escala, muchos de los cuales llegaron a la ciencia de la red a través de la física, argumentan que la ausencia de escala pretende ser un modelo idealizado, no algo que captura precisamente el comportamiento de las redes del mundo real. Muchas de las propiedades más importantes de las redes libres de escala, dicen, también son válidas para una clase más amplia llamada "redes de cola pesada" a la que pueden pertenecer muchas redes del mundo real (estas son redes que tienen centros significativamente más conectados que la red aleatoria tiene, pero no necesariamente obedece una ley de poder estricta).

Los críticos objetan que términos como "sin escalas" y "colas pesadas" se mencionan en la literatura de ciencias de la red de manera tan vaga e inconsistente como para hacer que las afirmaciones centrales del sujeto sean infalsificables.

El nuevo documento "fue un intento de tomar un enfoque basado en datos para ordenar esta cuestión", dijo Clauset.

La ciencia de la red es una disciplina joven -la mayoría de sus trabajos datan de los últimos 20 años- y la conflictividad que rodea al periódico y el vocabulario propio de la ausencia de escala se deriva de la inmadurez del campo, dijo Mason Porter, matemático y científico de redes de la Universidad. de California, Los Angeles. La ciencia de la red, dijo, "todavía está en el Salvaje Oeste".

¿Una ley universal?

Muchas redes, desde celosías perfectamente ordenadas hasta redes puramente aleatorias, tienen una escala característica. En una retícula cuadrada bidimensional, por ejemplo, cada nodo está conectado exactamente a otros cuatro nodos (por lo que los matemáticos dicen que el "grado" del nodo es cuatro). En una red aleatoria, en la que cada par de nodos tiene alguna probabilidad constante de estar conectado entre sí, los diferentes nodos pueden tener diferentes grados, pero estos grados sin embargo se agrupan bastante cerca de la media. La distribución de grados tiene aproximadamente la forma de una curva de campana, y los nodos con un número desproporcionadamente grande de enlaces nunca ocurren, así como la distribución de las alturas de las personas se agrupa en un rango de 5 a 6 pies y nadie es un millón ( o incluso 10) pies de altura.

Pero cuando un equipo dirigido por Barabási examinó una muestra de la World Wide Web en 1998, vio algo muy diferente: algunas páginas web, como las páginas principales de Google y Yahoo, se vincularon con mucha más frecuencia que otras. Cuando los investigadores trazaron un histograma de los grados de los nodos, parecía seguir la forma de una ley de potencia, lo que significa que la probabilidad de que un nodo dado tuviera un grado k era proporcional a 1 / k elevado a una potencia. (En el caso de los enlaces entrantes en la World Wide Web, este poder fue de aproximadamente 2, informó el equipo).


Revista Lucy Reading-Ikkanda / Quanta

En una distribución de la ley de poder, no hay una escala característica (por lo tanto, el nombre "sin escala"). Una ley de poder no tiene ningún pico: simplemente disminuye para grados más altos, pero de forma relativamente lenta, y si amplía las secciones de su gráfico, se verá similar. Como resultado, aunque la mayoría de los nodos aún tienen un grado bajo, los centros con una enorme cantidad de enlaces aparecen en pequeñas cantidades, en todas las escalas.

El paradigma libre de escala en las redes surgió en un momento histórico en el que las leyes de poder habían adquirido un papel de gran envergadura en la física estadística. En los años sesenta y setenta, desempeñaron un papel clave en las leyes universales que subyacen a las transiciones de fase en una amplia gama de sistemas físicos, un hallazgo que le valió a Kenneth Wilson el Premio Nobel de Física de 1982. Poco después, las leyes de poder formaron el núcleo de otros dos paradigmas que se extendieron por el mundo de la física estadística: los fractales y una teoría sobre la organización en la naturaleza llamada criticidad autoorganizada.

Para cuando Barabási estaba centrando su atención en las redes a mediados de la década de 1990, los físicos estadísticos estaban preparados para ver leyes de poder en todas partes, dijo Steven Strogatz, un matemático de la Universidad de Cornell (y miembro del consejo asesor de Quanta). En física, dijo, hay una "religión de ley de poder".

Hubo un efecto de vagón en el que la gente hacía cosas indiscriminadamente.Mason Porter

El equipo de Barabási publicó sus hallazgos en Nature en 1999; un mes después, Barabási y su entonces estudiante de posgrado Réka Albert (ahora un científico de la red en la Universidad Estatal de Pensilvania) escribieron en Science, en un documento que ha sido citado más de 30,000 veces, que las leyes de poder describen la estructura no solo del World Wide Web pero también de muchas otras redes, incluida la red de colaboración de actores de cine, la red de energía eléctrica del oeste de los Estados Unidos y la red de citas de artículos científicos. La mayoría de las redes complejas, afirmó Barabási unos años más tarde en Linked, obedecen una ley de poder, cuyo exponente suele ser entre 2 y 3.

Un simple mecanismo llamado "fijación preferencial", argumentaron Albert y Barabási, explica por qué aparecen estas leyes de poder: cuando un nuevo nodo se une a una red, es más probable que se conecte a un nodo llamativo y de alto grado que a un oscuro y oscuro grado nodo. En otras palabras, los ricos se hacen más ricos y los centros se vuelven más exclusivos.

Las redes libres de escala, escribió el equipo de Barabási en el número del 27 de julio de 2000 de Nature, tienen algunas propiedades clave que las distinguen de otras redes: son robustas al mismo tiempo contra fallas en la mayoría de los nodos y vulnerables a los ataques dirigidos contra los centros. La portada de Nature pregonó esta última propiedad como el "talón de Aquiles de internet" (una caracterización que desde entonces ha sido disputada rotundamente por expertos en Internet).

El trabajo de Barabási electrizó a muchos matemáticos, físicos y otros científicos, y fue instrumental en el lanzamiento del campo moderno de la ciencia de redes. Desató un torrente de papeles que afirmaban que una red del mundo real tras otra no tenía escalas, una especie de vínculo preferencial en el que los primeros artículos de Barabási se convirtieron en los centros neurálgicos. "Hubo un efecto de vagón (efecto de red) en el que las personas estaban haciendo cosas indiscriminadamente", dijo Porter. La emoción se extendió a la prensa popular, con palabras sobre leyes universales de la naturaleza e historias de portada en Science, New Scientist y otras revistas.


Albert-László Barabási ha sido un campeón del paradigma de red sin escala. Su artículo de 1999 en Science argumentando que las redes libres de escala se encuentran ampliamente en la naturaleza ha sido citado más de 30,000 veces.

Desde el principio, sin embargo, el paradigma libre de escala también atrajo retrocesos. Los críticos señalaron que el apego preferencial está lejos del único mecanismo que puede dar lugar a leyes de poder, y que las redes con la misma ley de poder pueden tener topologías muy diferentes. Algunos científicos de redes y expertos en el campo arrojan dudas sobre la ausencia de escala de redes específicas como redes eléctricas, redes metabólicas y la internet física.

Otros se opusieron a la falta de rigor estadístico. Cuando una ley de poder se grafica en un "diagrama de registro y registro" (en el que los ejes xey tienen escalas logarítmicas) se convierte en una línea recta. Entonces, para decidir si una red estaba libre de escalas, muchos de los primeros investigadores simplemente observaron un diagrama log-log de los grados de la red. "Incluso bizqueábamos la pantalla de la computadora desde un ángulo para tener una mejor idea si la curva era recta o no", recuerda el científico de redes Petter Holme del Instituto de Tecnología de Tokio en una publicación de blog.

"Debe haber un millar de papeles", dijo Clauset, "en los que las personas planifican la distribución de títulos, la trazan y dicen que no tiene escalas sin realmente hacer un trabajo estadístico cuidadoso".

En respuesta a estas críticas, a lo largo de los años algunos de los físicos que estudiaban la ausencia de escalas cambiaron su enfoque a la clase más amplia de redes de cola pesada. Aun así, un flujo constante de artículos continuó afirmando que no hay escala para una creciente gama de redes.

Y la discusión quedó empañada por la falta de coherencia, de un periódico a otro, sobre lo que realmente significaba "sin escala". ¿Era una red sin escala una que obedecía a una ley de poder con un exponente entre 2 y 3, o una en la cual esta ley de poder surgía de un vínculo preferencial? ¿O fue solo una red que obedece a alguna ley de poder, o sigue una ley de poder en algunas escalas, o algo aún más impresionista?

"La falta de precisión del lenguaje es una frustración constante", dijo Porter.

Clauset, quien es activo en los esfuerzos de divulgación, ha descubierto que muchos de los estudiantes con los que interactúa todavía piensan que la omnipresencia de las leyes de poder es ciencia establecida. "Me llamó la atención la cantidad de confusión que había en la próxima generación de científicos acerca de las redes libres de escala", dijo.

La evidencia contra la falta de escalabilidad estaba dispersa en la literatura, con la mayoría de los documentos examinando solo unas pocas redes a la vez. Clauset estaba bien posicionado para hacer algo mucho más ambicioso: su grupo de investigación ha pasado los últimos años seleccionando un compendio gigante en línea, el Índice de Redes Complejas de Colorado (ICON), que comprende más de 4.000 redes extraídas de economía, biología, transporte y otros dominios

"Queríamos tratar la hipótesis como falsable, y luego evaluar la evidencia en todos los dominios", dijo.

Barriendo la suciedad y el polvo

Para probar el paradigma sin escalas, Clauset y Broido, su estudiante de posgrado, sometieron a casi un millar de las redes de ICON a una serie de pruebas estadísticas cada vez más estrictas, diseñadas para medir qué definiciones de escalabilidad (si es que las hay) podrían ser plausibles explicar la distribución de grados de la red. También compararon la ley de poder con varios otros candidatos, incluyendo una distribución exponencial (que tiene una cola relativamente delgada) y una distribución "logarítmica normal" (que tiene una cola más pesada que una distribución exponencial, pero una cola más ligera que una ley de poder )

No hay una teoría general de redes.

Alessandro Vespignani

Broido y Clauset descubrieron que, en cerca de dos tercios de las redes, ninguna ley de poder encaja lo suficientemente bien como para explicar de manera plausible la distribución de grados. (Eso no significa que el tercio restante necesariamente obedezca una ley de poder, solo que no se descartó una ley de poder). Y cada una de las otras distribuciones candidatas superó a la ley de poder en muchas redes, con el registro normal superando al poder ley en el 45 por ciento de las redes y, esencialmente, vincular con él en otro 43 por ciento.

Solo alrededor del 4 por ciento de las redes cumplió con la prueba más fuerte de Broido y Clauset, lo que requiere, en términos generales, que la ley de poder sobreviva a su prueba de bondad de ajuste, tenga un exponente entre 2 y 3 y supere las otras cuatro distribuciones.

Para Barabási, estos hallazgos no socavan la idea de que la falta de escalabilidad subyace a muchas o más complejas redes. Después de todo, dijo, en las redes del mundo real, un mecanismo como el afecto preferencial no será lo único que ocurre: otros procesos a menudo empujarán a la red lejos de la pureza, haciendo que la red falle las pruebas de Broido y Clauset. Los científicos de la red ya han descubierto cómo corregir estos otros procesos en docenas de redes, dijo Barabási.

"En el mundo real, hay tierra y polvo, y esta suciedad y polvo estarán en sus datos", dijo Alessandro Vespignani de Northeastern, otro físico convertido en científico de la red. "Nunca verás la ley de poder perfecta".

Como una analogía, observó Barabási, una roca y una pluma caen a velocidades muy diferentes a pesar de que la ley de la gravedad dice que deberían caer a la misma velocidad. Si no supiera sobre el efecto de la resistencia del aire, dijo, "concluiría que la gravitación es incorrecta".

Clauset no encuentra esta analogía convincente. "Creo que es bastante común para los físicos que están entrenados en mecánica estadística ... usar este tipo de analogías de por qué su modelo no debe mantenerse a un nivel muy alto".


Anna Broido es coautora del nuevo artículo.

Si observaras 1,000 objetos que caen en lugar de solo una roca y una pluma, dijo Clauset, surgiría una imagen clara de cómo funcionan tanto la gravedad como la resistencia al aire. Pero su análisis y el de Broido de casi 1,000 redes no han arrojado una claridad similar. "Es razonable creer que un fenómeno fundamental requeriría un trabajo de detective menos personalizado" de lo que pide Barabási, escribió Clauset en Twitter.

"La suposición tácita y común de que todas las redes están libres de escalas y depende de nosotros descubrir cómo verlas de esa manera, eso suena como una hipótesis no infalsificable", dijo.

Si algunas de las redes rechazadas por las pruebas involucran un mecanismo libre de escala superpuesto por otras fuerzas, entonces esas fuerzas deben ser bastante fuertes, dijeron Clauset y Strogatz. "Al contrario de lo que vemos en el caso de la gravedad ... donde los efectos dominantes son realmente dominantes y los efectos más pequeños en realidad son pequeñas perturbaciones, parece que lo que sucede con las redes es que no hay un solo efecto dominante", dijo Strogatz. .

Para Vespignani, el debate ilustra un abismo entre las mentalidades de físicos y estadísticos, quienes tienen perspectivas valiosas. Los físicos están tratando de ser "los artistas de la aproximación", dijo. "Lo que queremos encontrar es algún principio de organización".

El paradigma libre de escala, dijo Vespignani, brinda una valiosa intuición sobre cómo debería comportarse la clase más amplia de redes de cola pesada. Muchos de los rasgos de las redes sin escala, incluida su combinación de solidez y vulnerabilidad, son compartidos por redes de cola pesada, dijo, por lo que la pregunta importante no es si una red es precisa o no, sino si tiene una cola pesada. "Pensé que la comunidad estaba de acuerdo con eso", dijo.

Pero Duncan Watts, un científico de redes de Microsoft Research en la ciudad de Nueva York, objetó en Twitter que este punto de vista "realmente está cambiando las metas". Al igual que con "sin escala", dijo, el término "cola pesada" se usa de diferentes maneras en la literatura, y los dos términos a veces se combinan, lo que dificulta la evaluación de los diversos reclamos y pruebas. La versión de "cola larga" que está lo suficientemente cerca como para "escalar" para que muchas propiedades se transfieran no es una clase de redes especialmente amplia, dijo.

La ausencia de escala "en realidad significó algo muy claro una vez, y casi con certeza esa definición no se aplica a muchas cosas", dijo Watts. Pero en lugar de que los científicos de la red retrocedieran y retractaran las primeras afirmaciones, dijo, "el reclamo simplemente se transforma lentamente para ajustarse a toda la evidencia, al mismo tiempo que mantiene su factor sorpresa de etiqueta de marca. Eso es malo para la ciencia ".

A Porter le gusta bromear que si las personas quieren discutir algo polémico, deberían dejar de lado la política de EE. UU. Y hablar sobre las leyes de poder. Pero, dijo, hay una buena razón por la cual estas discusiones son tan tensas. "Tenemos estos argumentos porque los problemas son difíciles e interesantes".

Clauset ve su trabajo con Broido no como un ataque, sino como un llamado a la acción para los científicos de la red, para examinar un conjunto más diverso de posibles mecanismos y distribuciones de grados de lo que han estado haciendo. "Tal vez deberíamos considerar nuevas ideas, en lugar de intentar forzar viejas ideas para que encajen", dijo.

Vespignani está de acuerdo en que hay trabajo por hacer. "Si me preguntan, '¿Están todos de acuerdo en cuál es la verdad del campo?' Bueno, todavía no hay verdad", dijo. "No hay una teoría general de las redes".

domingo, 30 de julio de 2017

La topología de las redes ponderadas

La arquitectura de las redes ponderadas complejas

A. Barrat *, M. Barthélemy †, R. Pastor-Satorras ‡, y A. Vespignani *, §
afiliaciones de autor

Comunicado por Giorgio Parisi, Universidad de Roma, Roma, Italia, 8 de enero de 2004 (recibido para revisión el 29 de octubre de 2003)

PNAS

ResumenLas estructuras en red surgen en una amplia gama de contextos diferentes, tales como las infraestructuras tecnológicas y de transporte, los fenómenos sociales y los sistemas biológicos. Estos sistemas altamente interconectados han sido recientemente el foco de una gran atención que ha descubierto y caracterizado su complejidad topológica. Junto con una compleja estructura topológica, las redes reales muestran una gran heterogeneidad en la capacidad e intensidad de las conexiones. Sin embargo, estas características no se han considerado principalmente en estudios anteriores en los que los enlaces se representan normalmente como estados binarios, es decir, presentes o ausentes. Aquí estudiamos la red de colaboración científica y la red mundial de transporte aéreo, que son ejemplos representativos de sistemas sociales y de grandes infraestructuras, respectivamente. En ambos casos es posible asignar a cada enlace del grafo un peso proporcional a la intensidad o capacidad de las conexiones entre los diversos elementos de la red. Definimos métricas apropiadas que combinan observables ponderados y topológicos que nos permiten caracterizar las propiedades estadísticas complejas y la heterogeneidad de la resistencia real de enlaces y vértices. Esta información nos permite investigar las correlaciones entre las cantidades ponderadas y la estructura topológica subyacente de la red. Estos resultados proporcionan una mejor descripción de las jerarquías y principios organizativos en la base de la arquitectura de redes ponderadas.
Un gran número de sistemas naturales y artificiales se estructuran en forma de redes. Ejemplos típicos son los grandes sistemas de comunicación (Internet, red telefónica, World Wide Web), las infraestructuras de transporte (rutas ferroviarias y aéreas), los sistemas biológicos (redes de interacción de genes y / o proteínas) y una variedad de estructuras de interacción social -3). Las propiedades macroscópicas de estas redes han sido objeto de intensa actividad científica que ha puesto de manifiesto la aparición de una serie de características topológicas significativas. Específicamente, muchas de estas redes muestran la propiedad del mundo pequeño (4), lo que implica que la red tiene una distancia topológica media entre los distintos nodos que aumenta muy lentamente con el número de nodos (logarítmica o incluso más lenta), a pesar de mostrar un alto grado De interconexión local típica de los retículos más ordenados. Adicionalmente, varias de estas redes se caracterizan por una abundancia estadística de "hubs" con un número muy grande de conexiones k comparadas con el valor medio grado Formula. La evidencia empírica recogida a partir de datos reales indica que esta característica distintiva encuentra su caracterización estadística en presencia de distribuciones de grados libres de escala P (k), es decir, mostrando un comportamiento de potencia-ley P (k) ~ k -γ para un rango significativo De valores de k (5). Estas características topológicas resultan ser extremadamente relevantes porque tienen un fuerte impacto en la evaluación de las propiedades físicas de estas redes como su robustez o vulnerabilidad (6-9).
Si bien estas conclusiones por sí solas pueden proporcionar una visión para el análisis de amenazas y las decisiones de política, las redes se especifican no sólo por su topología, sino también por la dinámica de la información o el flujo de tráfico que tiene lugar en la estructura. En particular, la heterogeneidad en la intensidad de las conexiones puede ser muy importante en la comprensión de los sistemas sociales. Análogamente, la cantidad de tráfico que caracteriza las conexiones en los sistemas de comunicación y las grandes infraestructuras de transporte es fundamental para una descripción completa de estas redes.
Motivados por estas observaciones, emprendemos en este trabajo el análisis estadístico de redes complejas cuyos enlaces se han asignado a un peso dado (el flujo o la intensidad) y por lo tanto pueden describirse generalmente en términos de grafos ponderados (10, 11). Trabajando con dos ejemplos típicos de este tipo de red, introducimos algunas métricas que combinan de forma natural tanto la topología de las conexiones como el peso que se les asigna. Estas cantidades proporcionan una caracterización general de las propiedades estadísticas heterogéneas de pesos e identifican definiciones alternativas de centralidad, cohesividad local y afinidad. Mediante mediciones apropiadas también es posible explotar la correlación entre los pesos y la estructura topológica del grafo, revelando la arquitectura compleja mostrada por redes ponderadas reales.

Datos de redes ponderadas

Para proceder al análisis general de las redes ponderadas complejas consideramos dos ejemplos específicos para los cuales es posible tener una caracterización completa de los enlaces entre los elementos de los sistemas, la red mundial de aeropuertos (WAN) y la red de colaboración científica SCN).

WAN. Analizamos la base de datos de la Asociación Internacional de Transporte Aéreo (www.iata.org) que contiene la lista mundial de pares de aeropuertos conectados por vuelos directos y el número de plazas disponibles en cualquier conexión para el año 2002. El grafo de transporte aéreo resultante comprende N = 3.880 vértices denota aeropuertos y E = 18.810 enlaces que representan la presencia de una conexión de vuelo directo. El grado medio de la red es  Formula, mientras que el grado máximo es 318. La topología del grafo muestra tanto las propiedades del mundo pequeño como las sin escalas, como ya se observó en diferentes análisis de conjuntos de datos (12, 13). En particular, la longitud media de la trayectoria más corta, medida como el número medio de aristas que separa cualquier dos nodos de la red, muestra el valor Formula, muy pequeño comparado con el tamaño de la red N. La distribución del grado toma la forma P(k) = k  f(k/k x), donde γ ≅ 2.0 y f(k/k x) es una función de corte exponencial que encuentra su origen en restricciones físicas sobre el número máximo de conexiones que un solo aeropuerto puede manejar (3, 13 ). Por lo tanto, el gráfico de conexión al aeropuerto es un ejemplo claro de una red con una distribución heterogénea de grados, que muestra propiedades libres de escala en una amplia gama de valores de grado.

SCN. Consideramos la red de científicos que han escrito manuscritos enviados al Archivo de e-Print en relación con la física de la materia condensada (http://xxx.lanl.gov/archive/cond-mat) entre 1995 y 1998. Los científicos están identificados con nodos, Y existe una ventaja entre dos científicos si han coautorizado al menos un trabajo. La red conectada resultante tiene N = 12.722 nodos, con un grado medio (es decir, número medio de colaboradores Formula) y grado máximo 97. Las propiedades topológicas de esta red y otras redes similares de colaboraciones científicas han sido estudiadas en refs. 14-16.

Las propiedades de un grafo pueden ser expresadas por su matriz de adyacencia a ij, cuyos elementos toman el valor 1 si un enlace conecta el vértice i con el vértice j y 0 en caso contrario. Los datos contenidos en los conjuntos de datos anteriores permiten ir más allá de esta representación topológica definiendo un gráfico ponderado (10) que asigna un peso o valor que caracteriza cada enlace de conexión. En el caso de la WAN, el peso w ij de un enlace que une los aeropuertos iyj representa el número de asientos disponibles en los vuelos entre estos dos aeropuertos. La inspección de los pesos muestra que el número medio de asientos en ambas direcciones es idéntico w ij = w ji para una abrumadora mayoría de enlaces. En lo sucesivo trabajaremos con el gráfico simétrico no dirigido y evitaremos la complicación derivada de los desequilibrios de flujo. Se muestra un ejemplo del gráfico ponderado resultante en la Fig. 1. Es evidente que la definición anterior de pesos es una medida directa y objetiva del flujo de tráfico en la parte superior de la red.


Figura. 1.
Representación gráfica del grafo ponderado obtenido de los datos de la red aeroportuaria. Los principales aeropuertos de los Estados Unidos están conectados por enlaces que indican la presencia de un vuelo sin escalas en ambas direcciones cuyos pesos representan el número de asientos disponibles (millones / año).

Para el SCN seguimos la definición de peso introducida en refs. 14 y 15: La intensidad w ij  de la interacción entre dos colaboradores i y j se define como
Formula
Donde el índice p corre sobre todos los papeles, n p es el número de autores de papel p, y Formula es 1 si el autor i ha contribuido al papel p y 0 de lo contrario. Si bien cualquier definición de la intensidad de una conexión en las redes sociales depende de los elementos particulares elegidos para ser relevantes, la definición anterior parece ser más objetiva y representativa de la interacción científica: Es grande para los colaboradores que tienen muchos documentos en común, Al peso introducido por cualquier papel dado es inversamente proporcional al número de autores.

Centralidad y ponderaciones

Para tener en cuenta la información proporcionada por el grafo ponderado, identificaremos las cantidades apropiadas que caracterizan su estructura y organización a nivel estadístico. El análisis estadístico de los pesos w ij entre pares de vértices indica la presencia de distribuciones asimétricas hacia la derecha, ya señalando un alto nivel de heterogeneidad en el sistema tanto para la WAN como para el SCN como también se indica en refs. 12, 14 y 15. Sin embargo, se ha observado que los ponderadores de los enlaces individuales no proporcionan una imagen general de la complejidad de la red (11). Una medida más significativa de las propiedades de la red en términos de los pesos reales se obtiene extendiendo la definición del grado de vértice k i = Σj a ij en términos de la fuerza de vértice s i,, definida como
Formula

Esta cantidad mide la fuerza de los vértices en términos del peso total de sus conexiones. En el caso de la WAN, la intensidad de los vértices simplemente explica el tráfico total manejado por cada aeropuerto. Por el contrario, la fuerza es una medida de la productividad científica porque es igual al número total de publicaciones de cualquier científico dado, excluyendo las publicaciones de autor único. Esta cantidad es una medida natural de la importancia o centralidad de un vértice i en la red.

La identificación de los nodos más centrales del sistema es un problema importante en la caracterización de la red (17). La medida topológica más intuitiva de la centralidad viene dada por el grado: los nodos más conectados son más centrales. Sin embargo, más no es necesariamente mejor. De hecho, al considerar únicamente el grado de un nodo, hacemos caso omiso de que los nodos de grado pequeño pueden ser cruciales para conectar diferentes regiones de la red actuando como puentes. Para determinar cuantitativamente el papel de estos nodos, se ha definido la centralidad de intermediación (14, 15, 17, 18) como el número de trayectos más cortos entre pares de vértices que pasan a través de un vértice dado. Los nodos centrales son por lo tanto parte de los más cortos Dentro de la red que los nodos periféricos. Además, la centralidad de intermediación se utiliza a menudo en las redes de transporte para proporcionar una estimación del tráfico manejado por los vértices, suponiendo que el número de trayectos más cortos es una aproximación de orden cero a la frecuencia de uso de un nodo dado. De centralidad se basa sólo en elementos topológicos. Por lo tanto, es intuitivo considerar la definición alternativa de centralidad construida considerando la fuerza s i de los vértices como una definición más apropiada de la importancia de un vértice en redes ponderadas. Por ejemplo, en el caso de la WAN, esta cantidad proporciona el tráfico real que atraviesa el vértice i, y es natural estudiar cómo se compara y correlaciona con otras medidas topológicas de centralidad.

La distribución de probabilidad P(s) de que un vértice tiene fuerza s es pesada en ambas redes, y el comportamiento funcional presenta similitudes con la distribución de grados P(k) (ver Fig. 2). Una descripción funcional precisa de las distribuciones de cola pesada puede ser muy importante para entender la evolución de la red y será diferida para un análisis futuro. Este comportamiento no es inesperado porque es plausible que la fuerza s i aumente con el grado de vértice k i y, por lo tanto, la lenta cola decadente de P(s) deriva directamente de la muy lenta decadencia de la distribución de grados. Para arrojar más luz sobre la relación entre la fuerza y ​​el grado de los vértices, investigamos la dependencia de s i en k i. Encontramos que la fuerza media s(k) de vértices con grado k aumenta con el grado como
Formula


Fig.2. (A) Grado (inserción) y distribución de la fuerza en el SCN. El grado k corresponde al número de coautores de cada científico, y la fuerza s representa el número total de publicaciones del científico. Las distribuciones son de cola pesada incluso si no es posible distinguir una forma funcional definida. (B) Las mismas distribuciones para la WAN. El grado k (inserto) es el número de conexiones sin escalas a otros aeropuertos, y la fuerza s es el número total de pasajeros manejados por cualquier aeropuerto dado. En este caso, la distribución del grado puede ser aproximada por el comportamiento de la ley de potencia P(k) ∼ k   con γ = 1.8 ± 0.2. La distribución de la fuerza tiene una pesada cola que se extiende más de cuatro órdenes de magnitud.

En ausencia de correlaciones entre el peso de los bordes y el grado de vértices, los pesos w ij  son en promedio independientes de i y j, por lo que podemos aproximar Formula, donde Formula es el ponderador promedio en la red. De la ecuación 2 entonces tenemos Formula. Es decir, la fuerza de un vértice es simplemente proporcional a su grado, dando un exponente β = 1, y las dos cantidades proporcionan por lo tanto la misma información sobre el sistema. En la Fig. 3 se presenta el comportamiento obtenido tanto para las redes ponderadas reales como para sus versiones aleatorias, generadas por una redistribución aleatoria de los pesos reales sobre la topología existente de la red. Para el SCN las curvas son muy similares y bien ajustadas por la fuerza de aproximación no correlacionada Formula . Curiosamente, este no es el caso de la WAN. La Fig. 3B muestra claramente un comportamiento muy diferente para el conjunto de datos reales y su versión aleatoria. En particular, el ajuste de potencia-ley para los datos reales da un exponente "anómalo" βWAN = 1,5 ± 0,1. Este valor implica que la resistencia de los vértices crece más rápidamente que su grado, es decir, el peso de los bordes que pertenecen a vértices altamente conectados tiende a tener un valor mayor que el correspondiente a una asignación aleatoria de pesos. Esta tendencia denota una fuerte correlación entre el peso y las propiedades topológicas en la WAN, donde cuanto más grande es un aeropuerto, más tráfico puede manejar.


Fig. 3. La fuerza media s (k) en función del grado k de los nudos. (A) En el SCN los datos reales son muy similares a los obtenidos en una red ponderada al azar. Sólo a valores k muy grandes es posible observar una ligera desviación del comportamiento lineal esperado. (B) En la WAN los datos reales siguen un comportamiento de ley de potencia con exponente β = 1,5 ± 0,1. Este valor denota correlaciones anómalas entre el tráfico manejado por un aeropuerto y el número de sus conexiones.

La huella dactilar de estas correlaciones también se observa en la dependencia del peso w ij en los grados de los nudos finales k i y k j. Como podemos ver en la Fig. 4, para la WAN el comportamiento del peso medio en función de los grados de punto final puede ser bien aproximado por una dependencia de la ley de potencia
Formula



Fig.4. Peso medio en función del grado de punto final. La línea continua corresponde a una fórmula de comportamiento potencia-ley, con exponente θ = 0,5 ± 0,1. En el caso del SCN es posible observar un comportamiento casi plano para aproximadamente dos órdenes de magnitud.

Con un exponente θ = 0,5 ± 0,1. Este exponente puede estar relacionado con el exponente β al notar que Formula, resultando en β = 1 + θ, si las correlaciones topológicas entre los grados de vértices conectados pueden ser descuidadas. Éste es precisamente el caso de la WAN, donde la relación de escalamiento anterior está bien satisfecha por los valores numéricos proporcionados por las mediciones independientes de los exponentes. En el SCN, en cambio, la fórmula es casi constante durante más de dos décadas, lo que confirma una falta general de correlaciones entre los pesos y los grados de vértice.

Análogamente, un estudio del valor medio s (b) de la fuerza para vértices con intermedios b muestra que el comportamiento funcional puede ser aproximado por una forma de escala  s(b) ∼ b δ  con δSCN ≅ 0.5 y δWAN ≅ 0.8 para el SCN Y la WAN, respectivamente. Como antes, la comparación entre el comportamiento de los datos reales y el caso aleatorizado muestra diferencias más pronunciadas en el caso de la WAN. En ambas redes, la fuerza crece con la intermediación más rápido que en el caso aleatorio, especialmente en la WAN. Este comportamiento es otra clara firma de las correlaciones entre las propiedades ponderadas y la topología de red.

Organización estructural de redes ponderadas

Junto con la jerarquía de vértices impuesta por la distribución de la fuerza, mayores son las redes más centrales y complejas que muestran una arquitectura impuesta por la organización estructural y administrativa de estos sistemas. Por ejemplo, las áreas temáticas y las estructuras nacionales de investigación dan lugar a grupos o comunidades bien definidos en el SCN. En la WAN, por otra parte, las diferentes jerarquías corresponden a grupos aeroportuarios nacionales o regionales y sistemas de transporte intracontinental; Factores políticos o económicos pueden imponer restricciones adicionales a la estructura de la red (13). Para descubrir estas estructuras, algunas cantidades topológicas se estudian habitualmente. El coeficiente de agrupación mide la cohesividad del grupo local y se define para cualquier vértice i como la fracción de vecinos conectados de i (4). El coeficiente de agrupamiento promedio C = N -1Σi c i expresa así el nivel estadístico de cohesividad que mide la densidad global de trillizos de vértices interconectados en la red. Se puede obtener más información inspeccionando el coeficiente de agrupamiento promedio C (k) restringido a clases de vértices con grado k. En redes reales (20, 21), C (k) presenta un comportamiento altamente no trivial con un decaimiento de la ley de potencia en función de k, señalando una jerarquía en la que los vértices de grados bajos pertenecen generalmente a comunidades bien interconectadas (alto coeficiente de agrupación) Mientras que los concentradores conectan muchos vértices que no están conectados directamente (coeficiente de agrupación pequeño) (20, 21). Otra cantidad utilizada para investigar la arquitectura de las redes es el grado medio de vecinos más cercanos, k nn (k), para vértices de grado k (22). Esta última cantidad está relacionada con las correlaciones entre el grado de vértices conectados (22, 23), ya que puede expresarse como k nn(k) = Σk kP(k′|k), donde P(k′|k) es la probabilidad condicional de que un vértice dado con grado k esté conectado a un vértice de grado k'. En ausencia de correlaciones de grados, P(k′|k) no depende de k y tampoco el grado medio de vecinos más cercano; Es decir, k nn(k) = constante (22). En presencia de correlaciones, el comportamiento de k nn(k) identifica dos clases generales de redes. Si k nn(k) es una función creciente de k, los vértices de alto grado tienen una probabilidad mayor de estar conectados con vértices de gran envergadura. Esta propiedad se conoce en física y ciencias sociales como mezclas asortativas (24). Por el contrario, un comportamiento decreciente de k nn(k) define la mezcla desasortativas, en el sentido de que los vértices de alto grado tienen una mayoría de vecinos con grado bajo, mientras que lo contrario ocurre para los vértices de bajo grado.

Las cantidades anteriores proporcionan firmas claras de una organización estructural de redes en las que diferentes clases de grado muestran diferentes propiedades en la estructura de conectividad local. Sin embargo, se definen únicamente en términos topológicos, y la inclusión de pesos y sus correlaciones puede cambiar constantemente nuestra visión de la organización jerárquica y estructural de la red. Esto se puede comprender fácilmente con el ejemplo simple de una red en la que los pesos de todos los bordes que forman triples de vértices interconectados son extremadamente pequeños. Incluso para un gran coeficiente de agrupación, es evidente que estos triples tienen un papel menor en la dinámica de la red y la organización, y que las propiedades de agrupamiento son definitivamente sobrestimado por un simple análisis topológico. De manera similar, los vértices de alto grado podrían estar conectados a una mayoría de vértices de bajo grado mientras que concentran la mayor fracción de su fuerza solamente en los vértices con alto grado. En este caso, la información topológica apunta a propiedades desasistidas, mientras que la red podría considerarse asortativa de manera efectiva, porque los bordes más relevantes en términos de pesos están enlazando vértices de alto grado.

Para resolver las incongruencias anteriores se introducen métricas que combinan la información topológica con la distribución de peso de la red. En primer lugar, consideramos que el coeficiente de agrupamiento ponderado definido como (véase la Fig. 5)
Formula


Fig. 5.Ejemplos de configuraciones locales cuyas cantidades topológicas y ponderadas son diferentes. En ambos casos el vértice central (lleno) tiene un enlace muy fuerte con sólo uno de sus vecinos. El agrupamiento ponderado y el grado medio de vecinos más cercanos capturan con mayor precisión el nivel efectivo de cohesividad y afinidad debido a la fuerza de interacción real.

Este coeficiente es una medida de la cohesión local que tiene en cuenta la importancia de la estructura agrupada sobre la base de la cantidad de tráfico o intensidad de interacción realmente encontrada en los trillizos locales. De hecho, Formula cuenta para cada triplete formado en la vecindad del vértice i el peso de los dos bordes participantes del vértice i. De esta manera, consideramos no sólo el número de trillizos cerrados en el vecindario de un vértice sino también su peso relativo total con respecto a la fuerza del vértice. El factor de normalización si(k i - 1) explica el peso de cada borde multiplicado por el número máximo posible de tripletes en los que puede participar, y asegura que la Formula. Consistentemente, la definición de Formula recupera el coeficiente de agrupamiento topológico en el caso de que w ij = constante. A continuación, definimos Cw y Cw (k) como el coeficiente de agrupación ponderada promediado sobre todos los vértices de la red y sobre todos los vértices con grado k, respectivamente. Estas cantidades proporcionan información global sobre la correlación entre pesos y topología, especialmente comparándolos con sus análogos topológicos. En el caso de una gran red aleatoria (falta de correlaciones) es fácil ver que Cw C  y Cw (k) = C(k). En redes ponderadas reales, sin embargo, podemos enfrentar dos casos opuestos. Si Cw C, estamos en presencia de una red en la que los trillizos interconectados son más probables formados por los bordes con pesos más grandes. Por otro lado, Cw C señala una red en la que el agrupamiento topológico se genera por los bordes con bajo peso. En este caso, el agrupamiento tiene un efecto menor en la organización de la red porque la mayor parte de las interacciones (tráfico, frecuencia de las relaciones, etc.) se produce en los bordes que no pertenecen a trillizos interconectados. Lo mismo puede suceder para Cw (k), para lo cual también es posible analizar las variaciones con respecto a la clase de grado k.

Junto con el coeficiente de agrupación ponderada, se introduce el grado de vecinos más próximos promedios ponderados, definido como (véase la figura 5)
Formula

En este caso, realizamos un promedio local ponderado del grado de vecindad más cercano según el peso normalizado de los bordes de conexión, w ij/s i. Esta definición implica que Formula si los enlaces con los pesos más grandes están apuntando a los vecinos con mayor grado y Formula en el caso opuesto. La Formula mide así la afinidad efectiva para conectar con vecinos de alto o bajo grado según la magnitud de las interacciones reales. Además, el comportamiento de la función Formula marca las propiedades ponderadas asortativas o desasortativas considerando las interacciones reales entre los elementos del sistema.

Como prueba general, inspeccionamos los resultados obtenidos tanto para el SCN como para la WAN comparando las cantidades topológicas regulares con las obtenidas con la definición ponderada aquí introducida. Las medidas topológicas nos dicen que el SCN tiene un espectro continuamente en descomposición C(k) (véase la figura 6A). Esto implica que los hubs presentan un vecindario agrupado mucho más bajo que los vértices de bajo grado. Este efecto puede interpretarse como la evidencia de que los autores con pocos colaboradores trabajan normalmente dentro de un grupo de investigación bien definido en el que colaboran todos los científicos (agrupación alta). Sin embargo, los autores con un alto grado de colaboración colaboran con diferentes grupos y comunidades, que a su vez no suelen tener colaboraciones, creando así un coeficiente de agrupamiento más bajo. Además, el SCN exhibe una conducta asociativa de acuerdo con la evidencia general de que las redes sociales se denotan generalmente por un fuerte carácter asociativo (24) (véase la figura 6B). El análisis de las cantidades ponderadas confirma este cuadro topológico, proporcionando más información sobre la arquitectura de la red. El coeficiente de agrupamiento ponderado es muy cercano al topológico (Cw /C ≅ 1). Este hecho indica de manera cuantitativa que las colaboraciones de grupo tienden en promedio a ser estables y determinar la intensidad media de las interacciones en la red. Además, la inspección de Cw (k) (ver Fig. 6A) muestra generalmente que para k ≥ 10 el coeficiente de agrupación ponderada es mayor que el topológico. Esta diferencia implica que los autores de alto grado (es decir, con muchos colaboradores) tienden a publicar más artículos con grupos interconectados de coautores. Este hallazgo sugiere que los científicos influyentes forman grupos de investigación estables donde se obtiene la mayor parte de su producción. Finalmente, las propiedades asociativas encuentran una confirmación de corte claro en el análisis ponderado con una Formula que crece como una potencia de k.


Fig. 6. Cantidades topológicas y ponderadas para el SCN. (A) La agrupación ponderada se separa de la topológica alrededor de k ≥ 10. Este valor marca una diferencia para los autores con mayor número de colaboradores. (B) El comportamiento asortativo se mejora en la definición ponderada del grado medio de vecinos más cercanos.

Una imagen diferente se encuentra en la WAN, donde el análisis ponderado proporciona un escenario más rico y de alguna manera diferente (Fig. 7). Esta red también muestra una C (k) en descomposición, una consecuencia del papel de los grandes aeropuertos que proporcionan conexiones sin escalas a destinos muy lejanos a escala internacional e intercontinental. Estos destinos no suelen estar interconectados entre ellos, dando lugar a un bajo coeficiente de agrupamiento para los hubs. Encontramos, sin embargo, que Cw /C ≅ 1.1, lo que indica una acumulación de tráfico en los grupos interconectados de vértices. El coeficiente de agrupamiento ponderado Cw (k) también tiene un comportamiento diferente en que su variación es mucho más limitada en todo el espectro de k. Esta observación implica que los aeropuertos de alto grado tienen una tendencia progresiva a formar grupos interconectados con enlaces de alto tráfico, equilibrando así la agrupación topológica reducida. Debido a que el alto tráfico está asociado a los hubs, tenemos una red en la que los nodos de alto grado tienden a formar cliques con nodos de igual o mayor grado, el llamado fenómeno del club rico (25). Prueba interesante también emerge de la comparación de k nn(kFormula. El k nn(k) topológico muestra un comportamiento asortativo sólo en grados pequeños. Para k> 10, k nn(k) se aproxima a un valor constante, hecho que revela una estructura no correlacionada en la que vértices con grados muy diferentes tienen un vecindario muy similar. Sin embargo, el análisis de la Fórmula ponderada muestra un pronunciado comportamiento asociativo en todo el espectro k, proporcionando una imagen diferente en la que los aeropuertos de alto grado tienen una mayor afinidad con otros grandes aeropuertos en los que se dirige la mayor parte del tráfico.


Fig.7. Cantidades topológicas y ponderadas para la WAN. (A) El coeficiente de agrupación ponderada es mayor que el topológico en todo el espectro de grados. (B) k nn(k) alcanza una meseta para k> 10 que denota la ausencia de correlaciones topológicas marcadas. En contraste, la Formula exhibe un comportamiento asortativo más definido.

Conclusiones

Hemos demostrado que una visión más completa de las redes complejas se proporciona por el estudio de las interacciones que definen los vínculos de estos sistemas. Los pesos que caracterizan las diversas conexiones muestran características estadísticas complejas con distribuciones muy variables y comportamiento de ley de potencia. En particular, hemos considerado los ejemplos específicos de SCN y WAN donde es posible apreciar la importancia de las correlaciones entre pesos y topología en la caracterización de las propiedades de la red real. De hecho, el análisis de las cantidades ponderadas y el estudio de las correlaciones entre pesos y topología proporcionan una perspectiva complementaria sobre la organización estructural de la red que podría no ser detectada por cantidades basadas únicamente en información topológica. Nuestro estudio ofrece así un enfoque cuantitativo y general para entender la arquitectura compleja de redes ponderadas reales.



Referencias

  1. Albert, R. & Barabási, A.-L. (2002) Rev. Mod. Phys. 74 , 47-97. CrossRef | Web of Science | Google Scholar
  2. Dorogovtsev, S. N. & Mendes, J. F. F. (2003) Evolution of Networks: From Biological Nets to the Internet and WWW (Oxford Univ. Press, Oxford). Google Scholar
  3. Amaral, L. A. N., Scala, A., Barthélemy, M. & Stanley, H. E. (2000) Proc. Natl. Acad. Sci. USA 97 ,11149-11152. Abstract/FREE Full Text
  4. Watts, D. J. & Strogatz, S. H. (1998) Nature 393 , 440-442. CrossRef | Medline | Web of Science | Google Scholar
  5. Barabási, A.-L & Albert, R. (1999) Science 286 , 509-512. Abstract/FREE | Full Text
  6. Cohen, R., Erez, K., ben Avraham, D. & Havlin, S. (2000) Phys. Rev. Lett. 85 , 4626-4628. CrossRef | Medline | Web of Science | Google Scholar 
  7. Callaway, D. S., Newman, M. E. J., Strogatz, S. H. & Watts, D. J. (2000) Phys. Rev. Lett. 85 , 5468-5471 2000 CrossRef | Medline | Web of Science | Google Scholar 
  8. Albert, R., Jeong, H. & Barabási, A.-L. (2000) Nature 406 , 378-382 2000 CrossRef | Medline | Web of Science | Google Scholar
  9. Pastor-Satorras, R. & Vespignani, A. (2001) Phys. Rev. Lett. 86 , 3200-3203. CrossRef | Medline | Web of Science | Google Scholar
  10. Clark, J. & Holton, D. A. (1998) A First Look at Graph Theory (World Scientific, Singapore). Google Scholar
  11. Yook, S. H., Jeong, H., Barabási, A.-L. & Tu, Y. (2001) Phys. Rev. Lett. 86 , 5835-5838.  CrossRef  | Medline | Web of Science | Google Scholar
  12. Li, W. & Cai, X. (2003) e-Print Archive, http://xxx.lanl.gov/abs/cond-mat/0309236Google Scholar
  13. Guimerà, R., Mossa, S., Turtschi, A. & Amaral, L. A. N. (2003) e-Print Archive,http://xxx.lanl.gov/abs/cond-mat/0312535.  Google Scholar
  14. Newman, M. E. J. (2001) Phys. Rev. E 64 , 016131. CrossRef | Google Scholar
  15. Newman, M. E. J. (2001) Phys. Rev. E 64 , 016132. CrossRef | Google Scholar
  16. Barabási, A. L., Jeong, H., Néda, Z., Ravasz, E., Schubert, A. & Vicsek, T. (2002) Physica A 311 ,590-614. CrossRef | Web of Science | Google Scholar
  17. Freeman, L. C. (1977) Sociometry 40 , 35-41. CrossRef | Web of Science | Google Scholar
  18. Goh, K.-I., Kahng, B. & Kim, D. (2001) Phys. Rev. Lett. 87 , 278701. CrossRef | Medline | Google Scholar
  19. Brandes, U. (2001) J. Math. Soc. 25 , 163-177. CrossRef | Google Scholar
  20. Vázquez, A., Pastor-Satorras, R. & Vespignani, A. (2002) Phys. Rev. E 65 , 066130. CrossRef | Google Scholar
  21. Ravasz, E. & Barabási, A.-L. (2003) Phys. Rev. E 67 , 026112. CrossRef | Google Scholar
  22. Pastor-Satorras, R., Vázquez, A. & Vespignani, A. (2001) Phys. Rev. Lett. 87 , 258701. CrossRef | Medline | Google Scholar
  23. Maslov, S. & Sneppen, K. (2001) Science 296 , 910-913. Google Scholar
  24. Newman, M. E. J. (2002) Phys. Rev. Lett. 89 , 208701. CrossRef | Medline | Google Scholar
  25. Zhou, S. & Mondragon, R. J. (2003) e-Print Archive, http://xxx.lanl.gov/abs/cs.NI/0303028Google Scholar