domingo, 10 de septiembre de 2017

Redes de comunidades de relaciones evolutivas

Detección de comunidades de red: una aplicación al análisis filogenético

Roberto FS Andrade, Ivan C. Rocha-Neto, Leonardo BL Santos, Carlos N. de Santana, Marcelo VC Diniz, Thierry Petit Lobão, Aristóteles Goés-Neto, Suani TR Pinho,  y Charbel N. El - Hani, *
Christos Ouzounis, Editor
PLOS Computational Biology


Resumen
Este artículo propone un nuevo método para identificar comunidades en redes complejas generalmente ponderadas y aplicarlo al análisis filogenético. En este caso, los pesos corresponden a los índices de similitud entre las secuencias de proteínas, que se pueden utilizar para la construcción de la red para que la estructura de la red se puede analizar para recuperar la información filogenéticamente útil de sus propiedades. Los análisis analizados aquí se basan principalmente en el carácter modular de las redes de similitud de proteínas, exploradas a través del algoritmo de Newman-Girvan, con ayuda de la matriz de vecindad. An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e006.jpg  Las redes más relevantes se encuentran cuando la topología de la red cambia abruptamente revelando módulos distintos relacionados con los conjuntos de organismos a los que pertenecen las proteínas. La información biológica de sonido puede ser recuperada por las rutinas computacionales utilizadas en el enfoque de red, sin utilizar suposiciones biológicas distintas de las incorporadas por BLAST. Por lo general, todos los principales phyla bacterianos y, en algunos casos, también algunas clases bacterianas correspondieron totalmente (100%) o en gran medida (> 70%) a los módulos. Hemos comprobado la consistencia interna en los resultados obtenidos, y se obtuvo una puntuación cercana al 84% de los partidos por la pertinencia de la comunidad cuando se compararon los resultados. Para ilustrar cómo utilizar el método basado en la red, empleamos datos para las enzimas implicadas en la ruta metabólica de quitina que están presentes en más de 100 organismos a partir de un conjunto original de datos que contiene 1.695 organismos, descargados de GenBank el 19 de mayo de 2007. la comparación entre los resultados del método basado en la red y los resultados de los métodos basados ​​en criterios bayesianos, de distancia, de probabilidad y de parsimonia sugiere que el primero es tan fiable como estos métodos comúnmente utilizados. Concluimos que el método basado en la red puede ser utilizado como una poderosa herramienta para recuperar la información de modularidad de redes ponderadas, lo que es útil para el análisis filogenético.


Introducción

En redes, el módulo o la estructura de la comunidad desempeña un papel central cuando se trata de comprender la topología y la dinámica de la red. Para avanzar soluciones a muchos problemas relacionados con las redes biológicas, necesitamos identificar, por lo tanto, la estructura de la comunidad en conjuntos de datos. En consecuencia, la introducción de nuevos métodos eficientes y robustos que sean capaces de realizar tal tarea en una variedad de situaciones es de suma importancia.

Aquí nos interesa dar una contribución a la compleja cuestión de la inferencia filogenética apelando al complejo enfoque de red que se ha aplicado con éxito para descubrir principios organizativos que rigen la constitución y la evolución de diversos sistemas biológicos, tecnológicos y sociales complejos [1] - [4]. Estudios recientes que utilizan enfoques de redes complejas en los campos de la genómica y la proteómica han contribuido a un mejor conocimiento de la estructura y la dinámica de las complejas redes de interacciones de una célula viva [5] - [12]. En los últimos años se han estudiado varios tipos de redes biológicamente relevantes, principalmente la interacción proteica, la transcripción y las redes metabólicas [1]. En este estudio, trabajamos con otro conjunto de relaciones, a saber, las relaciones evolutivas entre las proteínas a lo largo de la filogenia, e introducir un nuevo método para identificar comunidades en las redes complejas generalmente ponderadas.

La fiabilidad y aplicabilidad global de un nuevo método propuesto es objeto de un programa de investigación a largo plazo que, necesariamente, comienza con una clara formulación de los pasos clave del método, junto con el análisis de un problema no trivial analizado anteriormente, tales como, por ejemplo, la inferencia filogenética.

Hay cuatro familias de métodos de análisis filogenético que se utilizan comúnmente, a saber: máxima parsimonia, distancia, máxima verosimilitud, y Bayesiano [13]. Las perspectivas prometedoras de desarrollar nuevos métodos confiables para inferir relaciones filogenéticas son ofrecidas por la posibilidad de usar información primaria sobre secuencias de proteínas contenidas en bases de datos de acceso abierto y las medidas de similitud de proteínas derivadas. Introducimos aquí una metodología para identificar la estructura de la comunidad en tales conjuntos de datos primarios, basados ​​en el concepto de distancia entre redes complejas, y aplicarlo al problema específico de recuperar información útil que se puede utilizar para inferir relaciones filogenéticas. En este proceso, evitamos tanto como sea posible el uso de cualquier información biológica preexistente cualitativa. Se muestra aquí que un método basado en la teoría de la red compleja puede recuperar información sobre las relaciones evolutivas entre organismos, tal como se expresa en las similitudes y diferencias entre sus secuencias de proteínas o ADN.

Dependiendo de la forma en que los nodos estén conectados dentro de una red, puede ser posible identificar uno o más subconjuntos de nodos de tal manera que el número promedio de conexiones entre nodos dentro de cualquiera de estos subconjuntos sea distintamente mayor que el número promedio de conexiones con nodos fuera este subconjunto. La identificación de estos subconjuntos (comúnmente denominados comunidades, módulos, componentes, clusters, etc.), una cuestión clave que no ha sido completamente resuelta dentro de la teoría de la red compleja, es de suma importancia para las aplicaciones biológicas. De hecho, las propiedades modulares son características muy comunes en cualquier rama o nivel de investigaciones de redes biológicas.

En los últimos años, la cantidad de investigación en la identificación de comunidades en las redes es realmente asombroso. Hay varios artículos de revisión que discuten este tema, basado en los enfoques matemáticos y computacionales [14] - [16]. Además, los análisis comparativos de los métodos disponibles se encuentran también en la literatura [17], [18].

Los enfoques computacionalmente eficientes basados ​​en matrices de similitud y análisis de conglomerados para la exploración de bases de datos de proteínas con poco o ningún conocimiento previo son herramientas importantes para el análisis filogenético. Actualmente se están utilizando varios enfoques para inferir relaciones evolutivas entre proteínas. Por ejemplo, el Algoritmo de Markov Cluster (MCL) [19], [20] es un algoritmo de cluster sin supervisión que se ha aplicado al análisis de gráficos en varios dominios diferentes, sobre todo en bioinformática. El algoritmo MCL se utilizó, por ejemplo, para la detección de proteínas de las familias [21], una importante meta de investigación en genómica estructural y funcional. MCL también se extendió a la identificación de Orthologous grupos de OrthoMCL [22]. También se utilizó para desarrollar phylogenomic análisis de taxones específicos, como el Ascomycota [23]. Se desarrolló un enfoque híbrido para el agrupamiento secuencial de proteínas, combinando Markov con un agrupamiento de un solo enlace, con la intención de obtener tanto la especificidad (permitida por MCL) como la preservación de la información topológica como función de la información umbral sobre las familias de proteínas. como en agrupación de un solo enlace) [24]. Otro método recientemente desarrollado para la detección automática y no supervisada de las familias de proteínas y la anotación del genoma es el Algoritmo Global Super Paramagnetic Clustering (SPC), que mostró mayor precisión, especificidad y sensibilidad de la agrupación de MCL [25]. Finalmente, Kóvacs et al. [18] introdujo ModuLand, una familia de métodos integradores de determinación de módulos de red, que puede determinar módulos de red superpuestos como colinas de un paisaje comunitario de tipo centralidad basado en función de la influencia. El nuevo método para identificar comunidades en redes complejas generalmente ponderadas, propuesto aquí, es bastante potente e innovador en el uso de una distancia δ (que se definirá en la siguiente sección) para determinar un valor óptimo del umbral de similitud.

Dos tareas principales son cruciales para derivar una identificación comunitaria objetiva y matemática: En primer lugar, definir una medida adecuada para distinguir el carácter no modular del modular y, en segundo lugar, identificar las comunidades, cuando éste sea el caso. La distancia δ usada aquí puede ayudar a la identificación del carácter modular de una manera muy clara. Por lo tanto, nuestra principal contribución, basada en la teoría de la red compleja, es utilizar esta medida junto con la matriz de similitud de proteínas (de hecho, la matriz de peso de cualquier red ponderada) para identificar el conjunto mínimo de enlaces que están incluidos en la red en orden para preservar la información biológica relevante necesaria para desvelar el carácter modular dentro del conjunto de datos en juego.

Una vez que se encuentre dicha red elegida de forma óptima, se podrá utilizar cualquier método de detección de comunidad propuesto para recuperar las comunidades existentes. Utilizamos aquí el algoritmo de Newman Girvan (NGA) [26], que, aunque lleva mucho tiempo, también permite identificar la secuencia de sucesos ramificados, dando lugar a dendrogramas útiles y bien definidos.

Dado que se requieren varias biomoléculas orgánicas para propósitos metabólicos básicos, se pueden encontrar en un gran número de organismos, lo que hace posible el uso de técnicas derivadas de la teoría de redes complejas para explorar la información que es útil para las inferencias filogenéticas. Las enzimas que participan en la síntesis de moléculas ubicuas y metabólicamente importantes parecen particularmente prometedoras para este enfoque de red tan complejo. Es probable que se encuentren en muchos organismos distintos y, si están involucrados en las vías metabólicas antiguas, se pueden encontrar en los tres dominios de vida, Archaea, Bacteria y Eukarya. A pesar de que distintos organismos utilizan sus propias variantes enzimáticas para producir una molécula dada, estas variantes tenderán a parecer más similares en sus secuencias de aminoácidos cuanto más cercanas estén las especies en términos filogenéticos. Así, las especies se pueden agrupar en grupos filogenéticamente significativos analizando el grado de similitud de las enzimas implicadas en alguna vía metabólica básica. Aquí se muestra cómo la similitud de las secuencias de aminoácidos de las enzimas derivadas de genomas completamente secuenciados de organismos existentes pueden ser utilizados para la construcción de la red y, posteriormente, la estructura de la red se puede analizar para recuperar la información filogenéticamente útil de sus propiedades y estadísticas.

Los métodos descritos aquí pueden usarse para cualquier conjunto de proteínas implicadas en vías metabólicas básicas. Trabajaremos en este trabajo con datos de enzimas involucradas en la síntesis de quitina. La quitina, el homopolímero lineal ligado a β-1,4 de la N-acetilglucosamina, es un carbohidrato endógeno estructural, que es un componente principal de las paredes celulares de los hongos [27], cefalópodos [28], tegumentos de larvas y nemátodos jóvenes [29]. ], y artrópodos exoesqueletos [30]. La quitina es el segundo polisacárido más abundante en la naturaleza después de la celulosa. Ocurre sólo en organismos eucariotas del clado Metazoa-Fúngico. Esto sugiere que la quitina puede haber evolucionado antes de la radiación eucariótica de la corona.

La quitina se sintetiza mediante una secuencia de seis reacciones sucesivas: (i) conversión de Glu-6P en Fru-6-P por fosfogluco-isomerasas (E.C. 5.3.1.9); (ii) conversión de Fru-6-P en GlcN-6-P por glucosamina fosfato isomerasas (E.C. 2.6.1.16); (iii) acetilación de GlcNA-6-P generando GlcNAc-6-P por fosfoglucosamina acetilasas (EC 2.3.1.4), (iv) interconversión de GlcNAc-6-P en GlcNAc-1-P por acetilglucosamina fosfomutasas (EC 5.4.2.3 ) o, alternativamente, por acetilglucosamina fosfato desacetilasas (EC 3.5.1.25); (v) uridilación de GlcNAc-1-P por UDP-acetilglucosamina pirofosforlasas (E.C. 2.7.7.23); y (vi) conversión de UDP-GlcNAc en quitina por quitinas sintasas (E.C. 2.1.4.16) [31], [32].

La quitinación se consigue por las quitinasas (EC 3.2.1.14), ya sea por exocitinasas, que convierten la quitina en residuos de N-acetilglucosamina, o por endochitinases, que convierten la quitina en chitobiose, que a su vez puede convertirse en residuos de N-acetilglucosamina por hexoaminidasas (EC 3.2.1.52). Los residuos de N-acetilglucosamina pueden ser activados por acetilglucosamina quinasas (E.C. 2.7.1.59) para formar N-acetilglucosamina-6-P, restaurando el precursor del ciclo de retroalimentación corto del metabolismo de quitina. La quitina también puede ser desacetilada por quitinas desacetilasas (EC 3.5.1.41), convertida en quitosano, que se degrada por las quitosanasas (EC 3.2.1.132) en glucosaminida, que, cuando se convierte en glucosamina, puede ser activada por las glucocinasas de hexoquinasa tipo IV (EC 2.7.7.1), que restaurar el precursor de N-acetilglucosamina-6-P, glucosamina-6-P, la configuración de un mayor ciclo de retroalimentación [33].

Aunque la quitina misma se encuentra sólo en el clado Metazoa-Fúngico, podemos encontrar proteínas que son homólogas a las enzimas implicadas en la síntesis de quitina en otros clados, incluyendo bacterias y arqueobacterias. Por lo tanto, la vía metabólica de quitina puede usarse para recuperar información filogenéticamente relevante en los tres dominios de vida.

En este artículo utilizamos el enfoque de red compleja como una herramienta teórica y metodológica para realizar un estudio comparativo de las enzimas relacionadas con la ruta metabólica de quitina en organismos existentes de los tres dominios de vida Archaea, Bacteria y Eukarya. Vamos a mostrar cómo la información derivada de la estructura de la red y las estadísticas se pueden utilizar para descubrir los módulos filogenéticamente útiles, la recuperación de información biológica de sonido mediante rutinas computacionales, sin utilizar suposiciones biológicas distintas de las incorporadas por BLAST.

Métodos

Base de datos y análisis comparativo


Nuestra base de datos primaria consta de secuencias de proteínas de genomas completamente secuenciados de organismos existentes que se pueden acceder libremente en el GenBank - NCBI [34] (http://www.ncbi.nlm.nih.gov/Genbank/). Los datos de proteínas proporcionan información esencial para la identificación de cualquier organismo dado, así como a estudios comparativos sobre los caminos evolutivos seguidos por diferentes organismos. Nuestro conjunto de datos, descargado de GenBank el 19 de mayo de 2007, contiene información de 1695 organismos. Hemos utilizado genomas completamente secuenciados para asegurar que todas las proteínas putativo y sus isoformas, si alguno, podría ser adecuadamente recuperado [35].

Desarrollamos procedimientos automáticos para filtrar los datos relacionados con proteínas en la base de datos completa descargada. En la primera etapa del proceso, se extrajo de la base de datos primaria la información relevante para el trabajo actual, a saber, la fuente molecular de secuencias de proteínas, su información estructural y funcional y la clasificación taxonómica de los organismos en los que se encuentran las proteínas . A continuación, se analizó la base de datos secundaria obtenida de esta manera, con el fin de identificar qué proteínas (es decir, las variantes de proteínas específicas del organismo que desempeñan la misma función biológica) están presentes en un gran número de organismos. Una manera de optimizar esta búsqueda, en el sentido de encontrar muchos organismos con la misma proteína, es pre-seleccionar una biomolécula básica, como la quitina, y buscar las enzimas que intervienen en su metabolismo. De hecho, nuestra búsqueda reveló que algunas de las proteínas con mayor número de entradas en la base de datos son las enzimas que participan en la síntesis metabólica o la degradación de la quitina. En la Tabla 1, se indican cinco de estas enzimas, que satisfacen la condición de estar presentes en más de 100 organismos del conjunto original de 1695 [33]. El número notablemente grande de registros bacterianos en la base de datos refleja el hecho de que hay organismos mucho más completamente secuenciados del dominio de las bacterias que de los dominios Archaea y Eukarya.

Tabla 1. Enzimas asociadas con la ruta metabólica de la quitina que satisfacen la condición de estar presentes en más de 100 organismos del conjunto de datos original de 1695, descargado de GeneBank el 19 de mayo de 2007.
Proteínanúmero E.C.Dominio (#)
Acetylglucosamine phosphate deacetylase3.5.1.25B(170), A(6)
Glucosaminephosphate isomerase2.6.1.16E(23), B(285), A(5)
Hexosaminidase3.2.1.52E(3), B(235)
Phosphoglucoisomerase5.3.1.9E(16), B(472), A(12)
UDP-acetylglucosamine pyrophosphorylase2.7.7.23E(2), B(324), A(2)
Abreviaturas: E = Eukarya; B = Bacteria; A = Archaea; E. C. = Enzyme commission. Number in parentheses after the letters shows the total of organismic individual sequences per domain for each protein.

Después de identificar los conjuntos de organismos que poseen cada una de las proteínas enumeradas en la Tabla 1, se utilizó BLAST 2.2.15 [36], con una pareja de alineación, para realizar comparaciones cuantitativas entre las secuencias de proteínas que pertenecen a cada conjunto. A partir de las salidas BLAST, se utilizó en nuestro estudio el índice de similitud.

A continuación, se construyó una matriz de similitud S basada en el nivel de similitud entre secuencias de proteínas, donde cualquier elemento de la matriz de similitud Sij∈0,100] es el índice de similitud asociado con las secuencias de proteínas iyj. Dado que S no es necesariamente simétrico (Sij ≠ Sji), es importante considerar una versión simétrica S, donde los elementos están definidos por Sij = min (Sij, Sji).

Los programas se ejecutaron tanto en Linux como en WINDOWS. Las bases de datos se gestionaban a través de MySQL. Los scripts y los programas auxiliares se escribieron en PERL, BASH, C, C ++ y FORTRAN 77. Se utilizó PAJEK [37] para generar imágenes de red.

En la subsección Construcción de redes, describimos cómo utilizamos S para generar redes complejas dependiendo del umbral de similitud para cada una de las cinco proteínas mostradas en la Tabla 1. Las redes se analizaron por los métodos descritos en la subsección Análisis de red, mientras que los patrones modulares generados por el enfoque de la red compleja fueron interpretados biológicamente a la luz de las relaciones filogenéticas de los organismos.

Construcción de redes

Antes de definir las redes utilizadas en este estudio, recordemos que la caracterización más utilizada de las propiedades de red se basa en una serie de medidas [38], incluyendo: el número de nodos, N; el camino más corto d (i, j) entre los nodos i y j; la distancia mínima media <d> tomada sobre todos los pares de nodos; el diámetro de la red D, definido por el mayor valor de d (i, j); el coeficiente de agrupación de nodos ci, que mide cuán fuertemente están conectados los vecinos del nodo i; el coeficiente de agrupación en red C, correspondiente al valor medio sobre el ci; el grado del nodo, ki, definido por el número de enlaces de un nodo i y su valor medio sobre todos los nodos <k>; las relaciones funcionales p (k), la distribución de probabilidad de los nodos con k enlaces, y C (k), la distribución de los coeficientes de agrupación de nodos con respecto al grado del nodo k.

En general, el paso clave en la construcción de una red de interacción del sistema es definir un criterio significativo para colocar un borde entre dos nodos, que debería ser capaz de identificar la presencia y la fuerza de la interacción entre ellos. En el presente estudio, el concepto de interacción corresponde a la similitud de proteínas, que se relaciona, a su vez, con las relaciones evolutivas entre los organismos que poseen las proteínas en juego [35]. Por lo tanto, la matriz de similitud S constituye el punto de partida para obtener las redes de similitud de proteínas (PSN).
En un PSN, los nodos corresponden a las secuencias de proteínas, y la presencia de bordes entre dos nodos depende de la similitud de las proteínas relacionadas. Cada red puede ser definida por su matriz de adyacencia (AM) M, para la cual cualquier elemento de matriz mi, j se pone a 1, si los nodos iyj están conectados, o a 0, si no. Tenga en cuenta que es sencillo cambiar de la descripción de la red AM a la descripción de la lista, en la que la red se caracteriza por una lista de L pares de nodos conectados por un enlace. Para ser más precisos, definamos una familia de red dependiente de un valor umbral σ, donde los elementos de su matriz de adyacencia M (σ) satisfacen:

equation image (1)

Esta estrategia permite reemplazar una única red ponderada definida en términos de S por una familia de redes no ponderadas, que pueden analizarse mediante un gran número de métodos y medidas recientemente desarrollados [38] - [41].

Dependiendo del valor de σ, la red de interacción puede ser completamente distinta: para valores pequeños de σ está altamente conectada, mientras que para valores grandes de σ está mal conectada. Como veremos en la siguiente sección, hemos realizado una investigación detallada de la dependencia de las propiedades de la red sobre el valor de σ. Somos capaces de establecer un criterio bien definido para las elecciones óptimas de σ, en el sentido de que las redes generadas dentro de un rango relativamente estrecho de valores de σ muestran un patrón modular que se puede interpretar en términos filogenéticos, como se aborda en la sección de resultados y la discusión del presente documento.

Para afinar el valor de σ que hace posible desvelar el carácter modular, utilizamos el concepto de barrios de orden superior de un nodo [42]. Dos nodos i y j son vecinos de orden ℓ cuando el camino más corto entre ellos consiste en ℓ bordes. De esta manera, es posible definir un vecindario de orden ℓ de una red dada representada por M si conectamos todos los pares de nodos que están separados por ℓ. Tales redes se pueden definir en términos de M (ℓ), la AM correspondiente de orden ℓ. Los elementos de esta matriz se definen como:

equation image (2)

El conocimiento del conjunto {M (ℓ)}, donde ℓ∈ [1, D], nos permite definir la siguiente matriz de vecindad

equation image (3)


Los elementos de matriz An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e007.jpg, denotado como An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e008.jpg i, j, indican la ruta más corta entre los nodos i y j. Si la red está ensamblada por dos o más racimos disjuntos, la distancia d (i, j) entre dos nodos, digamos i y j, pertenecientes a dos racimos distintos está mal definida. Con el fin de eludir esta indeterminación y sigue operando con An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e009.jpg, fijamos An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e010.jpgi, j = 0 cuando esto ocurre. La importancia de An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e011.jpg para un análisis más profundo de la estructura de vecindad de una red se ha indicado en una serie de estudios previos [43] - [45]. La utilidad de An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e012.jpg los intervalos de proporcionar una visualización perspicaz de la estructura del vecindario por medio de diagramas del color a definir una distancia entre pares de redes [45]. Esta última medida puede utilizarse para identificar la similitud de dos redes. Para ello definimos la distancia δ (α, β) entre dos redes con el mismo número de nodos (α y β) mediante:

En un proceso de comparación general, el valor obtenido de δ (α, β) depende de la enumeración de nodos adoptada para ambas redes, aunque la topología de red no depende de ella. Por lo tanto, con el fin de proporcionar una medida útil, la definición (4) puede hacerse más precisa restringiendo el valor de δ (α, β) al valor mínimo asumido cuando se tienen en cuenta todas las enumeraciones de nodos posibles. ]). En el presente estudio, α y β son dos redes de proteínas distintas, generadas por un mismo conjunto de datos, pero donde los bordes se insertan de acuerdo con la ecuación. (1) cuando consideramos α = σ1 = σ y β = σ2 = σ + Δσ. En esta definición, suponemos que σ1 y σ2 son dos valores cercanos de σ. Dado que los nodos representan las mismas proteínas, no es necesario considerar diferentes enumeraciones, sino simplemente usar la misma enumeración para generar ambas redes. Si representamos δ (σ, σ + Δσ) como función de σ, resulta que el gráfico se caracteriza por la presencia de picos agudos. Esta serie de valores consecutivos de δ (σ, σ + Δσ) marca los puntos donde las redes obtenidas están a punto de sufrir importantes cambios topológicos [43], es decir, se dividen en comunidades separadas.

El valor de σ desempeña un papel clave en la definición de la red, que es similar a la probabilidad p para establecer un borde en una red aleatoria Erdös-Rényi. Variando el valor de p, la red cambia a un conjunto de bordes desconectados en p = 0 a un grafo completo cuando p = 1. Sin embargo, la situación más interesante ocurre en el vecindario de un valor crítico pcr≈1 / N, que está relacionado con la aparición de un grupo gigante que contiene la abrumadora mayoría de nodos.

Análisis de red

La investigación descrita en este documento se basa en las medidas definidas en la subsección anterior, así como en otras medidas que permitan la identificación de las propiedades de modularidad de la red, en su caso. Hablando francamente, un módulo en una red está compuesto por un subconjunto de nodos que están abrumadoramente más conectados entre sí que con otros nodos de red.

El vínculo entre el grado bij entre los nodos i y j es el concepto básico dentro de la NGA para identificar las comunidades de la red. bij cuenta la fracción de todos los caminos más cortos que conectan los N (N-1) / 2 pares de nodos que pasan a través del enlace (i, j), proporcionando una medida cuantitativa de la relevancia de cada enlace para el tráfico optimizado de información de red. NGA procede por la eliminación secuencial de los bordes con mayor valor de bij [26]. Como resultado, es posible obtener un dendrograma de red en el que el número de ramas aumenta con el número r de enlaces eliminados. De esta manera, el dendrograma tiene una sola rama cuando r = 0 - en el caso de una red conectada - y N comunidades de nodo único cuando r = L. Cada valor de r informa el conjunto de nodos que todavía están conectados en un dado racimo. Dado que este es un programa que consume mucho tiempo, pistas más rápidas se han propuesto para analizar grandes redes [38] - [41], [46]. En el caso actual, sin embargo, podemos trabajar con este método, dado que nuestras redes no son demasiado grandes.

En nuestro análisis, hemos utilizado la NGA para identificar las comunidades existentes para cualquier valor de σ. Como las comunidades detectadas pueden ser bastante distintas de un valor de σ a otro, los resultados de NGA corroboran nuestra afirmación de que la identificación del valor óptimo de σ usando la distancia δ es el paso crucial de todo el procedimiento.

Para revelar la estructura modular de la red, NGA requiere una re-enumeración de nodos, un paso que también se incluye en nuestro procedimiento. Por lo tanto, es posible utilizar la forma re-enumerada de An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e013.jpg para visualizar la modularidad de las redes de similitud de proteínas con gráficos de color. La estructura de la modularidad se hace bastante clara cuando dibujamos grafos de color para los An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e013.jpgusando el mismo etiquetado de nodo obtenido en el paso final de la evaluación del dendrograma.

Queremos comentar además que el concepto de distancia δ (α, β) también puede usarse para seguir el proceso de eliminación del enlace dentro de NGA. En este caso particular, α y β identifican dos redes caracterizadas por tener m y m + 1 eliminado enlaces dentro de NGA (véase [26]]. Una gráfica de δ (m, m + 1) en función de m indica, por altos picos, aquellos eventos de eliminación de enlaces que corresponden a puntos de ramificación en el dendrograma. Como se muestra en [45], la distancia δ (m, m + 1) es capaz de indicar los puntos de ramificación de una manera mucho más clara en comparación, por ejemplo, la función de modularidad Q introducido por Newman y Girvan [26].

Como se muestra en la Tabla 1, hemos construido redes para cinco enzimas de la ruta metabólica quitina, que a su vez, diferentes clasificaciones para los organismos incluidos en la base de datos. Con el fin de evaluar cuantitativamente las posibles diferencias entre la clasificación proporcionada por las redes basadas en diferentes enzimas, digamos φ y ψ, se evaluó un índice de congruencia G (φ, ψ) de acuerdo con la siguiente receta: i) contamos el número R ( φ, ψ) de organismos comunes que están presentes simultáneamente en ambas redes; ii) buscamos la correspondencia entre las diferentes comunidades de φ y ψ que maximiza el número de organismos de correspondencia Q (φ, ψ), es decir, los organismos que se colocan en las mismas comunidades en las dos redes. Al hacer esto, debemos observar que, si el número de comunidades en φ y ψ son diferentes, es necesario hacer una correspondencia de dos o más comunidades de red φ a la misma comunidad en la red ψ. El valor G (φ, ψ) se define como la relación Q (φ, ψ) / R (φ, ψ).

Para concluir, la metodología que se aplica para generar los resultados presentados en la siguiente sección se puede resumir en los siguientes pasos:

  1. Seleccione las secuencias de proteínas con la información relevante para establecer el nivel de similitud entre las secuencias.
  2. Comparar las secuencias de proteínas utilizando BLAST y establecer la matriz de similitud n × n, siendo n el número de secuencias de proteínas.
  3. Generar un conjunto de redes asociadas con los valores elegidos del umbral de similitud (σ): los nodos corresponden a las secuencias de proteínas y se inserta un enlace entre un par de nodos si la similitud entre las proteínas es mayor o igual a σ. En el caso actual consideramos todos los valores enteros de σ en el intervalo [0,100].
  4. Configurar la matriz de barrio Un archivo externo que contiene una imagen, ilustración, etc.
  5. El nombre del objeto es pcbi.1001131.e015.jpg asociado con cada matriz de adyacencia.
  6. Calcular la distancia entre las redes δ (σ, σ + Δσ), y seleccionar para el análisis las redes críticas, para las cuales el δ (σ, σ + Δσ) asumió el valor máximo local.
  7. Para las redes críticas, aplique el algoritmo de Newman Girvan (NGA), quitando los bordes con el valor máximo de interlineado de borde hasta que no haya ningún enlace en absoluto.
  8. Con el fin de detectar la estructura modular de la red, configurar el dendrograma de la red crítica, así como la representación de color de la matriz vecinal.
  9. Calcular el índice de congruencia G (φ, ψ) para evaluar cuantitativamente las diferencias entre la clasificación proporcionada por las distintas redes.

Resultados / Discusión

Aquí, presentamos y discutimos los resultados relativos a la estructura modular de las redes de similitud de proteínas proporcionadas por nuestro método que son útiles para las inferencias filogenéticas. Para ser conciso, proporcionamos una discusión detallada de los resultados obtenidos para dos proteínas en la Tabla 1: UDP-acetilglucosamina pirofosforilasa (a la que nos referiremos a continuación como UDP) y acetilglucosamina fosfato desacetilasa (Acetilo). A continuación, se proporcionará un análisis comparativo de los resultados de las redes de las cinco proteínas investigadas en este estudio, con el fin de proporcionar pruebas de la clasificación consistencia del método.


Detección de comunidades

Ahora vamos a ilustrar cómo el comportamiento de δ (σ, σ + Δσ) proporciona una manera precisa de caracterizar la dependencia de las redes en σ (paso (E) en el resumen de la metodología presentada en la sección anterior). Este comportamiento se ilustra en la Figura 1a para la red de acetilo. Los resultados se obtuvieron haciendo que los valores de σ difieran en Δσ = 1%. El gráfico muestra tres máximos bien definidos de δ (σ, σ + Δσ) para σ en el intervalo [30%, 50%], el mayor de los cuales ocurre en σ = σmax = 42%. Estos resultados deben interpretarse de la siguiente manera: si σ = 0, la red consiste en un solo conglomerado completamente conectado. Al aumentar el valor de σ, restringimos el número de enlaces en la red, de modo que <d> aumenta junto con los valores de los elementos de la matriz. Un archivo externo que contiene una imagen, ilustración, etc.
El nombre del objeto es pcbi.1001131.e005.jpg. Dado que la distancia δ (σ, σ + Δσ) hace una comparación de la influencia del cambio σ en d (i, j), un fuerte incremento en su valor indica que la eliminación del enlace está llevando a grandes cambios en los valores de algunos de d (i, j). Esto sugiere también que importantes cambios topológicos de red están a punto de ocurrir. Los eventos más drásticos, expresados ​​por los primeros picos agudos, suelen estar relacionados con el desmontaje de un gran conjunto de nodos (módulo) del clúster original, completamente conectado. Esta red, que llamaremos red crítica, es seleccionada para ser analizada. Más adelante, los picos más pequeños indican la división de los módulos más grandes en los más pequeños. Esto ocurre cuando se eliminan los últimos enlaces que enlazan estos módulos a la red. El pico muy alto a σ = σmax = 42% indica que se produjo un gran cambio topológico a este valor particular.


Figura 1. El tamaño del componente conectado más grande (Nc) frente a la similitud de umbral σ: a) Acetilo; b) UDP.






El mismo escenario se observa en la Figura 1b para los resultados δ (σ, σ + Δσ) obtenidos de la red UDP. Obsérvese que los picos se producen a valores más altos de σ, en comparación con la red de acetilo, y se encuentra una estructura más rica de picos de tamaños comparables. A pesar de estos cambios cuantitativos, los dos gráficos muestran características similares, que representan los tipos de cambios estructurales en la red debido a la variación del valor de similitud de umbral.

La interpretación presentada de la influencia de σ en δ(σ,σ+Δσ) es corroborada por otras medidas de la red. Consideremos cómo Nc, el tamaño de la mayor componente conectada en la red, depende de σ. Esto se ilustra en las Figuras 2a y 2b para las redes de acetilo y UDP, respectivamente (véase también [35]). En ambas figuras se observa una rápida disminución de Nc en un intervalo relativamente estrecho de valores de σ. Este efecto está relacionado con el desprendimiento de grandes grupos de nodos del clúster principal a medida que aumenta la restricción en el establecimiento de enlaces entre nodos. Como se ha anticipado en la sección anterior, las curvas siguen las mismas características cualitativas que las de las redes de Erdös-Rényi en función de la probabilidad de unión p cercana a pc. Las figuras S1 y S2 ilustran cómo δ y Nc dependen de p para redes con el tamaño promedio de las PSN analizadas (N = 256) y también en el límite de N grande (véase también el Texto S1).

Figura 2. La distancia δ (σ, σ + Δσ) entre redes para sucesivas similitudes en el valor máximo, con Δσ = 1, en el caso de: a) Acetilo en σ = σmax ...




A partir de ahora, consideraremos los dendrogramas, las matrices vecinales y la representación usual de la red asociada con las proteínas enumeradas en la Tabla 1 para los valores de σ de tal manera que la distancia mostrada en las Figuras 1a y 1b asume un valor máximo. En cuanto a UDP, las cifras no se muestran, ya que ya se presentaron en un documento anterior [35], en el que el criterio para establecer el rango de σ que revela la estructura modular de la red se basa en la región de transición asociada con C y <d>. Es importante llamar la atención sobre el hecho de que el criterio basado en la distancia δ (σ, σ + Δσ) revela de manera mucho más precisa, en comparación con C y <d>, el valor de σ en el que la variable modular estructura.

La influencia de σ sobre la estructura de la red se puede apreciar mejor comparando dos dendrogramas en la Figura 3 para las redes de acetilo en σ = 30% y σ = σmax = 42%. En la primera situación (Figura 3a), el gran número de aristas no permite percibir la estructura modular del sistema. En consecuencia, la NGA basada en bij se caracteriza por un desprendimiento progresivo de pequeños grupos de nodos del grupo gigante original. A su vez, el dendrograma para σ = σmax (Figura 3b) revela una gran cantidad de estructura. Comienza, en r = 0, con algunos grupos ya aislados, correspondientes a los módulos que se separaron en σ = σmax, σ = 45% y σ = 48%. A continuación, observamos la separación de un grupo grande con un valor bajo de r, que es causado por la eliminación de los pocos enlaces con nodos de conexión de grado de intersección muy grandes de los diferentes módulos. Este desprendimiento de racimo es exactamente el mismo producido al aumentar el valor de σ al 42%, causando el δ (σ, σ + Δσ) máximo en la Figura 2a. La eliminación subsiguiente de los enlaces conduce a una ramificación adicional en el dendrograma, algunos de los cuales pueden estar relacionados con los máximos locales en la región σ> σmax del gráfico δ (σ, σ + Δσ) × σ.

Figura 3. El dendrograma producido por la eliminación sucesiva de los eslabones con mayor valor de intermediación en el caso de Acetilo: a) para σ = 30% <42%; b) para σ = σmax = 42% que revela la estructura modular de la red.




Los dendrogramas evaluados a valores σ intermedios, por ejemplo, σ = 40%, son capaces de identificar claramente los módulos de red correspondientes a los cúmulos separados del grupo gigante seleccionando σ cerca de este valor pico a σmax. Sin embargo, la imagen que emerge para aquellos grupos que se separan a valores más grandes es aún bastante borrosa.

Como se anticipó en la sección anterior, reunamos resultados suplementarios en la construcción del dendrograma para mostrar la estructura modular de la red con la ayuda de la matriz vecinal. An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e016.jpg. Para evitar los cruces de línea en el dendrograma, el orden en el que los nodos aislados se dibujan para el valor más grande de r no necesariamente sigue a la numeración original. Esta ordenación define un nuevo etiquetado de nodo que deja intacta la topología de red. Si ahora usamos un código de color para representar un archivo externo que contiene una imagen, ilustración, etc.
An external file that holds a picture, illustration, etc.
Object name is pcbi.1001131.e016.jpg con nodos reetiquetados, la estructura de modularidad se vuelve bastante clara, como se muestra en la Figura 4. Corriendo de azul (vecinos inmediatos) a rojo (nodos más alejados), los colores indican claramente cómo los nodos son agrupados en módulos, así como la existencia de subconjuntos dentro de los módulos y la distancia media entre nodos en módulos distintos. Tenga en cuenta que utilizamos el gris para indicar el valor d (i, j) = 0, de modo que las comunidades que han sido desvinculadas del grupo principal a valores inferiores de σ aparecen aisladas unas de otras en el diagrama de color. Identificamos 11 módulos (C1-C11), cuya importancia biológica se tratará a continuación. Observamos también una serie de nodos aislados o pequeños sub-gráficos que no constituyen un módulo por sí solo. La figura 4 muestra el gráfico de colores para la estructura de vecindad de la red de acetilo en σ = σmax. Es relativamente fácil inferir la estructura de los dendrogramas de la posición de los módulos. Es importante destacar que ambos gráficos no sólo muestran la estructura modular de la red, sino que también muestran claramente cómo las comunidades recuperadas están relacionadas entre sí.

Figura 4. La matriz de vecindad con los 11 módulos para Acetilo en σ = σmax = 42%.



La información obtenida a partir del procedimiento descrito también se puede usar para la representación de red usual formada por nodos y enlaces. En la figura 5, dibujamos tal representación para la red de acetilo en σ = σmax. Aquí, los colores utilizados para dibujar los nodos representan las diferentes comunidades a las que pertenecen. El conjunto de nodos aislados y pequeños sub-gráficos se caracteriza por la etiqueta C12.

Figura 5. La representación en red estándar de Acetilo en σ = σmax = 42% (utilizando el paquete de Pajek) con las comunidades que se indicaron en la Figura 4.




Esta discusión muestra que el método propuesto nos permite encontrar las redes más relevantes, es decir, aquellas en valores críticos de σcr. Estos valores, donde la topología de la red cambia abruptamente, corresponden a opciones óptimas entre la eliminación de bordes entre comunidades (efecto de ruido) y la preservación de enlaces intra-módulos (información valiosa). Nos permiten identificar comunidades distintas, que pueden estar relacionadas, entonces, con los conjuntos de organismos a los que pertenecen las proteínas (ver también las figuras S3, S4, S5, S6 y S7). Observamos que σmax corresponde al σcr particular, donde δ(σcrcr+Δσ) alcanza el valor más alto.

En la Tabla 2 se muestran los valores de σmax, el número de nodos y el número de comunidades obtenidas para cada una de las cinco redes de enzimas. En el caso de UDP, observamos el valor σmax más alto, indicando que, en el caso de esta proteína, el desmontaje del clúster original, completamente conectado, ocurre en valores más altos de similitud. Se trata de una proteína con un papel central en la síntesis de quitina y, por consiguiente, no es sorprendente que demuestre el mayor grado de conservación de secuencias a lo largo de la evolución, entre las proteínas estudiadas en este trabajo. Esto sugiere características adicionales del método discutido aquí, en el sentido de que existe una relación entre el valor σmax, el grado de conservación de las secuencias de proteínas (una característica estructural) y su centralidad en las redes metabólicas (una característica funcional).

Tabla 2. Resumen de los resultados para cada una de las cinco redes de enzimas: valores de σmax correspondientes a los picos más grandes de las gráficas δ × σ; número de nodos; número de organismos distintos; y el número de comunidades distintas.
Proteínaσmax# nodos# organismos# comunidades
Acetylglucosamine phosphate deacetylase421768812
Glucosaminephosphate isomerase403132095
Hexosaminidase372386710
Phosphoglucoisomerase375013326
UDP-acetylglucosamine pyrophosphorylase513272457

Interpretación biológica

Es relevante notar que, hasta este punto, todos los resultados discutidos se han obtenido sin ningún conocimiento previo de la clasificación filogenética. Sólo construimos rutinas informáticas para proceder con el análisis de datos, construcción de redes y análisis de redes, lo que conduce a la identificación de la comunidad.

Si ahora interconectamos los resultados discutidos anteriormente con datos taxonómicos y filogenéticos, la información biológica de sonido puede ser recuperada rápidamente por estas rutinas computacionales, sin utilizar suposiciones biológicas distintas a las incorporadas por BLAST en la producción de sus resultados.

Los módulos de acetilo que se pueden identificar en σ = σmax (Figura 4) corresponden, de manera clara y bastante precisa, a los filos y / o clases bacterianas (e incluso órdenes, en algunas comunidades). Como ya se ha comentado, restringimos nuestro análisis a los phyla debido al hecho de que la mayoría de las secuencias de proteínas en la base de datos se derivaron de este dominio biológico. Todos los representantes de las cianobacterias formaron un solo grupo exclusivo recuperado en el módulo C8 (a). Además, hay seis comunidades [C3 (a), C4 (a), C5 (a), C6 (a), C7 (a), C10 (a), C11 (a)] que están formadas exclusivamente por representantes de uno Fila bacteriana o clase y, en algunos casos, orden: comunidad C3 (a) está formada exclusivamente por especies del mismo orden bacteriano (Mollicutes); comunidad C4 (a) están compuestas de representantes de Actinobacteria, bacterias Gram-positivas de monoderma Gram + altas, de la misma clase (Actinomycetales); la comunidad C5 (a) incluye exclusivamente alfa-proteobacteria de la clase Rhodobacterales; y la comunidad C11 (a) contiene solo especies de Firmicutes, bacterias monodermas Gram + positivas G + C, pertenecientes a las órdenes muy relacionadas Bacillales y Lactobacillales. A pesar de no estar completamente compuestos por representantes de la misma fila, 18 de los 20 nodos (90%) de la comunidad C2 (a) son de la misma bacteria (Proteobacteria) y 16 (80%) pertenecen a las clases de beta más relacionadas filogenéticamente - y gamma-proteobacterias [47].

Cuatro módulos se recuperan en la red de glucosamina fosfato isomerasa (gluco) a σ = σmax = 40% y, como en el caso de UDP y Acetilo, la mayoría de ellos corresponden a filas bacterianas individuales y / o clases (e incluso órdenes) C2 (g) está compuesto exclusivamente por representantes bacterianos de phyla Firmicutes de sólo dos clases: Bacillales y Lactobacillales; la comunidad C4 (g) está completamente formada por secuencias del orden Alteromonadales de la clase gamma-proteobacteria; y 21 de las 23 secuencias (91,3%) de la comunidad C3 (g) son representantes de la phyla Proteobacteria (Figuras S5a, S6a y S7a).

Un total de 9 módulos se producen en la red de Hexosaminidasa (hexo) en σ = σmax = 37% y tres de ellos, que contienen el mayor número de nodos, están formados casi exclusivamente por una fila o clase bacteriana: Comunidad C1 (h) se compone de 97 nodos, de los cuales 95 (98%) son representantes de phyla Proteobacteria; la comunidad C2 está formada casi exclusivamente por especies de la clase alfa-proteobacteria; y la comunidad C4 (h) contiene sólo miembros de la más filogenéticamente relacionados con las clases de beta y gamma-proteobacteria [47]. Las demás comunidades están compuestas por pocos nodos que corresponden a especies de filas distintas (Figuras S5b, S6b y S7b).

Cinco módulos se producen en la red Phosphoglucoisomerase (fosfo) a σ = σmax = 37% y, de forma similar a las otras enzimas de la ruta metabólica de quitina, existe una correspondencia más bien estricta entre estos módulos y phyla bacteriana. La comunidad C1 (p) está compuesta principalmente por representantes cianobacterianos (71%), la comunidad C2 (p) está formada casi exclusivamente por especies de Firmicutes (96,4%) y la comunidad C5 (p), con 328 nodos, es principalmente representado por secuencias de proteobacterias (76%) (figuras S5c, S6c y S7c).

Finalmente, UDP se puede descomponer en 6 módulos claramente identificados C1 (u) -C6 (u), como se ha demostrado anteriormente [35]. C1 (u) está compuesta por 16 nodos, 14 (87,5%) de los cuales son secuencias de proteínas de representantes de la cianobacteria phylum. Uno de los nodos corresponde a una secuencia de una especie de Deinococcus-Thermus, un grupo de bacterias diderm Gram negativos de extremófilos que está estrechamente relacionado con Cyanobacteria [48]. C2 (u) contiene 135 nodos y, entre ellos, 132 (97,8%) son secuencias de especies de beta-y gamma-proteobacteria, que se consideran más estrechamente relacionados entre sí que a cualquier otra clase proteobacterial [47] . C3 (u) está enteramente constituido por 80 secuencias de la especie Firmicutes, de tres órdenes filogenéticamente relacionados: Bacillales, Lactobacillales y Clostridiales. C4 (u) contiene 33 vértices, de los cuales 31 (93,4%) son secuencias del supuesto grupo monofilético de alfa-proteobacteria [47]. C5 (u) está completamente formado por secuencias de Actinobacteria, todas del mismo orden: Actinomycetales. Finalmente, C6 (u) comprende sólo nueve nodos del grupo monofilético putativo de epsilon-proteobacteria [47], todos del mismo orden: Campylobacterales.

Por lo general, todos los phyla bacterianos principales (Actinobacteria, Cyanobacteria, Firmicutes, Proteobacteria) y, en algunos casos, también algunas clases bacterianas (Proteobacterias alfa, beta y gamma) correspondieron totalmente (100%) o con un número sustancial de los representantes (> 70%), a los módulos formados como resultado del complejo análisis en red de las proteínas de la ruta metabólica de la quitina. Incluso cuando había pocos genomas completamente secuenciados que exhiben una de las proteínas estudiadas, todos los representantes de los mismos phyla se agruparon generalmente en la misma comunidad.

En cada una de las redes de proteínas, los nodos con los números de grado más alto, o hubs, se produjo dentro de la misma comunidad. Aunque estos hubs no eran los mismos en las cinco diferentes redes de proteínas, muchos de ellos eran de la misma especie bacteriana para distintas proteínas, p. Yersinia pestis para gluco, hexo y UDP; Escherichia coli para acetilo, hexo y UDP. En contraste con todas las otras proteínas, los centros en la red del gluco eran principalmente representantes archeal.



Conclusiones

Este trabajo relata un método basado en la teoría de la red compleja que puede recuperar información sobre las relaciones evolutivas entre los organismos, tal como se expresa en las similitudes y diferencias entre sus secuencias de proteínas, que es útil para la inferencia filogenética. La red de interacción del sistema construida se basa en la similitud de proteínas como el criterio significativo para colocar un borde entre dos nodos. Cada nodo de la red es una secuencia de proteína específica y la colocación de los bordes depende de un valor umbral σ, relacionado con la similitud de proteínas requerida para tal colocación.

Se realizó un estudio comparativo de las enzimas relacionadas con la ruta metabólica de quitina en genomas completamente secuenciados de organismos existentes de los tres dominios de vida, Archaea, Bacteria y Eukarya, con el fin de mostrar cómo la información derivada de la estructura de la red y las estadísticas pueden descubrir patrones filogenéticos. Los resultados referentes a la clasificación filogenética discutidos en este artículo se basan principalmente en el carácter modular de las redes de similitud de proteínas. Una vez encontrado el valor crítico de σ (σcr) usando la medida de distancia δ (α, β), podemos elegir la red óptima para la detección de comunidades, es decir, aquella en la que la topología de la red cambia abruptamente, la eliminación de bordes comunitarios (efecto de ruido) y la preservación de enlaces intra-módulos (información valiosa). Aunque la NGA puede utilizarse para identificar comunidades para cualquier valor de σ, es en esta red óptima donde se pueden obtener los mejores resultados con respecto a la identificación de comunidades distintas, que pueden relacionarse, a su vez, con los conjuntos de organismos al que pertenecen las proteínas.

Con este método, la información biológica sonora puede recuperarse rápidamente mediante rutinas computacionales, sin utilizar supuestos biológicos distintos de los incorporados por BLAST. Por lo general, todos los principales phyla bacterianos y, en algunos casos, también algunas clases bacterianas correspondieron en gran medida (70% -100%) a los módulos obtenidos mediante el análisis de red compleja de las proteínas de la ruta metabólica de la quitina. Por lo tanto, el método aquí descrito puede usarse como una poderosa herramienta para revelar patrones de relación entre los organismos con los que tenemos conocimiento y los organismos sobre los que no tenemos mucha información disponible.

Hemos proporcionado resultados que muestran la consistencia interna de los resultados obtenidos a través de nuestro método para los datos correspondientes a cinco enzimas diferentes. A pesar de los diferentes índices de cambios experimentados por estas enzimas durante la evolución, encontramos 84% ​​de concordancias para la pertinencia de la comunidad cuando se realizaron comparaciones entre los resultados. Por otra parte, una comparación preliminar entre los resultados obtenidos con el enfoque de red compleja presentado aquí y los resultados de métodos basados ​​en criterios bayesianos, de distancia, probabilidad y parsimonia sugiere que la metodología presentada en este documento es tan confiable como estos métodos comúnmente utilizados.

Hay, sin embargo, algunas ventajas posibles del método de red compleja cuando se compara con estos otros métodos. Una de ellas se refiere al hecho de que podemos determinar el valor de σ en el que la red compleja recupera la mayor parte de la información filogenética disponible en el conjunto de datos. En segundo lugar, aunque todos estos métodos usan matrices de sustitución -incluidas las nuestras-, el complejo método de red no depende de patrones inferidos del estudio detallado de ningún organismo.

Los próximos pasos en nuestro programa de investigación serán la aplicación del método presentado aquí a nuevos conjuntos de secuencias de proteínas, una comparación más completa de los resultados obtenidos a través de nuestro enfoque de red compleja con el resultado de otros métodos utilizados para recuperar información de datos moleculares que es útil para la inferencia filogenética, y la aplicación de nuestro método para abordar las preguntas de investigación pertinentes dentro de diferentes campos de la biología.


Referencias

1. Silva E, Stumpf MPH. Complex networks and simple models in biology. J R Soc Interface. 2005;2:419–430. [PMC free article] [PubMed]
2. Strogatz SH. Exploring complex networks. Nature. 2001;410:268–276. [PubMed]
3. Barabási AL, Oltvai ZN. Network biology: Understanding the cell's functional organization. Nat Rev Genet. 2004;5:101–13. [PubMed]
4. Amaral LAN, Ottino JM. Complex networks: Augmenting the framework for the study of complex systems. Eur Phys J B. 2004;38:147–162.
5. Milo R, Shen-Orr S, Itzkovitz S, Kashtan N, Chklovskii D, Alon U. Network motifs: Simples building blocks of complex networks. Science. 2002;298:824–827. [PubMed]
6. Bahn A, Galas DJ, Dewey TG. A duplication growth model of gene expression networks. Bioinformatics. 2002;18:1486–1493. [PubMed]
7. Gavin AC, Bösche M, Krause R, Grandi P, Marzioch M, et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature. 2002;415:141–147. [PubMed]
8. Gavin AC, Aloy P, Grandi P, Krause R, Boesche M, et al. Proteome survey reveals modularity of the yeast cell machinery. Nature. 2004;440:631–6. [PubMed]
9. Bersini H, Lenaerts T, Santos FC. Growing biological networks: Beyond the gene-duplication model. J Theor Biol. 2006;241:488–505. [PubMed]
10. Boone C, Bussey H, Andrews BJ. Exploring genetic interactions and networks in yeast. Nat Rev Genet. 2007;8:437–449. [PubMed]
11. Pieroni E, van Bentem SDLF, Mancosu G, Capobianco E, Hirt H, et al. Protein networking: Insights into global functional organization of proteomes. Proteomics. 2008;8:799–816. [PubMed]
12. Castro-e-Silva A, Weber G, Machado RF, Wanner EF, Guerra-Sá R. Identity transposon networks in D. melanogaster. In: Bazzan ALC, Craven M, Martins NF, editors. BSB 2008, LNBI 5167. Berlin: Springer; 2008. pp. 161–164.
13. Felsenstein J. Inferring phylogenies. Sunderland, MA: Sinauer; 2004. 580
14. Fortunato S. Community detection in graphs. Phys Rep. 2010;486:75–174.
15. Parter MA, Onnela J-P, Mucha P. Communities in Networks. Not Am Math Soc. 2009;56:1164–1166.
16. Schaeffer SE. Graph Clustering. Comput Sci Rev. 2007;1:27–64.
17. Danon L, Diaz-Guilera A, Duch JD, Arenas A. Comparing community structure identification. J Stat Mech Theory E. 2005:P09008.
18. Kovács IA, Palotai R, Szalay MS, Csermely P. Community landscapes: an integrative approach to determine overlapping network module hierarchy, identify key nodes and predict network dynamics. PLOS One. 2010;5:e12528. [PMC free article] [PubMed]
19. Van Dongen S. Graph Clustering by Flow Simulation. Amsterdam: Centre for Mathematics and Computer Science; 2000.
20. Van Dongen S. Graph Clustering Via a Discrete Uncoupling Process. SIAM J Matrix Anal A. 2008;30:121–141.
21. Enright AJ, van Dongen S, Ouzonis CA. An efficient algorithm for large-scale detection of protein families. Nucleic Acids Res. 2002;30:1575–1584. [PMC free article] [PubMed]
22. Li L, Stoeckert CJ, Jr, Roos DS. Genome Res. 2003;13:2178–2189. [PMC free article] [PubMed]
23. Robbertse B, Reeves JB, Schoch CL, Spatafora JW. A phylogenomic analysis of the Ascomycota. Fungal Genet. Bio. 2006;43:715–725. [PubMed]
24. Harlow TJ, Gogarten JP, Ragan MA. A hybrid clustering approach to recognition of protein families in 114 microbial genomes. BMC Bioinformatics. 2004;5:45. [PMC free article] [PubMed]
25. Tetko IV, Facius A, Ruepp A, Mewes HW. Super paramagnetic clustering of protein sequences. 82BMC Bioinformatics. 2005;6 [PMC free article] [PubMed]
26. Newman MEJ, Girvan M. Finding and evaluating community structure in networks. Phys Rev E. 2004;69:026113. [PubMed]
27. Bowmann SM, Free SJ. The structure and synthesis of the fungal cell wall. Bioessays. 2006;28:799–808. [PubMed]
28. Hanlon RT, Messenger JB. Cephalopod behaviour. Cambridge: Cambridge University Press.; 1996. 232
29. Ax P. Multicellular animals: A new approach to the phylogenetic order in nature. Berlin: Springer.; 1996. 225
30. Merzendorfer H. Insect chitin synthases: A review. J Comp Physiol B. 2006;176:1–15. [PubMed]
31. Mio T, Yabe T, Arisawa M, Yamada-Okabe H. The Eukaryotic UDP N-acetylglucosamine pyrophosphorylases: Gene cloning, protein expression, and catalytic mechanism. J Biol Chem. 1998;273:14392–14397. [PubMed]
32. Lagorce A, Berre-Anton V, Aguilar-Uscanga B, Martin-Yken H, Dagkessamanskaia A, François J. Involvement of GFA1, which encodes glutamine–fructose-6-phosphate amidotransferase, in the activation of the chitin synthesis pathway in response to cell-wall defects in Saccharomyces cerevisiae. Eur J Biochem. 2002;269:1697–1707. [PubMed]
33. Pirovani CP, Hora-Júnior BT, Oliveira BM, Lopes MA, Dias CV, et al. Knowledge discovery in genome database: The chitin metabolic pathway in Crinipellis perniciosa (Stahel)Singer. In: Mondaini R, editor. Proceedings of IV Brazilian Symposium on Mathematical and Computational Biology/I International Symposium on Mathematical and Computational Biology. Rio de Janeiro: E-Papers Serviços Editoriais LTDA. v. 1; 2005. pp. 122–139.
34. Benson DA, Boguski MS, Lipman DJ, Ostell J, Ouellette BF, et al. Genbank. Nucleic Acids Res. 1999;27:12–17. [PMC free article] [PubMed]
35. Góes-Neto A, Diniz MVC, Santos LB, Pinho ST, Miranda JG, et al. Comparative protein analysis of the chitin metabolic pathway in extant organisms: A complex network approach. Bio Systems. 2010;101:59–66. [PubMed]
36. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, et al. Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucleic Acids Res. 1997;25:3389–3402.[PMC free article] [PubMed]
37. Batagelj V, Mrvar A. Pajek - Analysis and visualization of large networks. In: Jünger M, Mutzel P, editors. Graph drawing software. Berlin: Springer; 2003. pp. 77–103.
38. Albert R, Barabási AL. Statistical mechanics of complex networks. Rev Mod Phys. 2002;74:47–97.
39. Newman MEJ. The Structure and Function of Complex Networks. SIAM Review. 2003;45:167–256.
40. Boccaletti S, Latora V, Moren Y, Chavez M, Hwang D-U. Complex Networks: structure and dynamics. Phys Rep. 2006;424:175–308.
41. Costa LF, Rodrigues FA, Travieso G, Villas-Boas PR. Characterization of complex networks: A survey of measurements. Advances in Physics. 2007;56:167–242.
42. Andrade RFS, Miranda JGV, Lobão TP. Neighborhood properties of complex networks. Phys Rev E. 2006;73:046101. [PubMed]
43. Andrade RFS, Pinho STR, Lobão TP. Identification of community structure in networks using higher order neighborhood concepts. Int J Bifurc Chaos. 2009;19:2677–2685.
44. Andrade RFS, Miranda JGV, Pinho STR, Lobão TP. Characterization of complex networks by higher order neighborhood properties. Eur Phys J B. 2008a;61:247–256.
45. Andrade RFS, Miranda JGV, Pinho STR, Lobão TP. Measuring distances between complex networks. Phys Lett A. 2008b;372:5265–5269.
46. Newman MEJ. Fast algorithm for detecting community structure in networks”. Phys Rev E. 2004;69:066133. [PubMed]
47. Gupta RS, Sneath PHA. The phylogeny of Proteobacteria: Relationships to other eubacterial phyla and eukaryotes. J Mol Evol. 2007;64:90–100. [PubMed]
48. Gupta RS. The branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins. Inter Microbiol. 2001;4:187–202. [PubMed]
49. Allen BL, Steel M. Subtree transfer operations and their induced metrics on evolutionary trees. Ann Comb. 2001;5:1–15.
50. Bordewich M, Semple C. Computing the minimum number of hybridization events for a consistent evolutionary history. Discrete Appl Math. 2007;155:914–928.
51. Swofford DL. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods), Version 4.Sunderland: Sinauer Associates; 1998.
52. Roquist F, Huelsenbeck JP. MRBAYES 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 2003;19:1572–1574. [PubMed]

miércoles, 6 de septiembre de 2017

SEO con Gephi: Un análisis visual e introductorio

Así que desea visualizar y comprender su enlaces de su sitio web 


SEO Kratie

El enlace interno de una página para entender es uno de los mayores desafíos de SEO. Con la visualización correcta, sin embargo, es rápidamente claro donde todavía hay espacio para la mejora. Con Gephi, los datos de rastreos (por ejemplo de Screaming Frog) pueden ser procesados y entendidos gráficamente. ¿Por qué esto es útil para usted, usted aprenderá en este post.


Tiene definitivamente un potencial de poster: La visualización de enlaces internos.

¿Qué es Gephi después de todo?

Gephi es un software libre para la visualización de grafos y redes (enlace a descargar). Con Gephi, los enlaces (enlaces o "aristas") pueden visualizarse visualmente entre diferentes elementos (URL o "nodos"). Dependiendo de lo cerca que estén los puntos individuales y de lo bien que estén conectados en red, se puede leer su relación y su significado.

¿Para qué necesitas Gephi?

Básicamente, la vinculación interna también se puede analizar en Excel. Pero en Excel verá dependiendo del tamaño de la pantalla, más bien de 50 URL. La visualización le permite ver de un vistazo las conexiones y pesos de miles de URL (dependiendo de cuándo sale su computadora). Además, no es posible mostrar en las tablas la estrecha relación entre las URL individuales. Con Gephi que va.

¿Cómo funciona Gephi?

Cómo el software funciona exactamente no debe ser parte del artículo. Esto, por otra parte, rompe el marco y por otro lado, otros ya han hecho el esfuerzo. Así que asegúrese de revisar una de estas fuentes:


Sin embargo, esto no es un requisito previo para entender este artículo. Mi objetivo es ponerlo en primer lugar en todos los enfoques de la evaluación a corazón - o en primer lugar para la herramienta para inspirar.

¿Qué puedes hacer en Gephi?


Básicamente, tiene las siguientes opciones para personalizar su estructura de los vínculos:

  • Ajuste la distribución o extensión de la red ("Layout")
  • Cambiar el tamaño de las URL (≈Nodos)
  • Cambiar el color de las URL
  • Cambiar el color de los enlaces (≈ aristas)

Se recomienda que considere cuidadosamente las métricas que desea utilizar para sus URL antes de iniciar. A continuación, carga estos como una tabla de nodos con columnas para estas métricas o atributos. Los números no se deben importar como "cadena", sino como "largo" en la ventana después de la subida (más información sobre posibles tipos de datos). De lo contrario, no podrá establecer ponderación o coloración gradual después de estos valores.


Ejemplos de evaluaciones


Evaluación temática

Comencemos con lo más obvio: colorear por tema - o incluso por tipo de página o por or o. Si tiene los atributos adecuados, puede colorear directamente los nodos de acuerdo con la "partición" correspondiente en la pestaña "Información general" en "Diseño"



Si no ha hecho el trabajo preliminar necesario, también puede seleccionar los nodos correspondientes directamente en el "laboratorio de datos", editar con el botón derecho del ratón y colorear como desee:



Sin embargo, es más útil trabajar con atributos y columnas adicionales. De lo contrario, sobrescribirá sus cambios todo el tiempo.

Dependiendo del resultado, puede colorear los bordes según el mismo principio para que ciertos enlaces cruzados sean más visibles. Una coloración según los temas puede ser así (para todos los ejemplos, he elegido el diseño "Fruchtermann Reingold" para la distribución):



Esto tiene una cierta estética, pero una delimitación de las áreas temáticas sólo es condicionalmente aparente: Parece que hay de todas las coloraciones dos áreas, que se mezclan muy fuertemente en el margen inferior derecho.

Sería mejor si hubiera una clara demarcación en los silos temáticos, que incluso puede parecer así en casos extremos:



En ambos casos usted ve un círculo colorido fuera. Esto se debe al hecho de que aquí hay documentos individuales sin limpiar (como versiones impresas). Son hermosamente colorido, pero no debe existir realmente (más en mi blogpost sobre el control que se arrastra).

Evaluación ponderada

Hasta aquí todo bien. ¡Pero hay más! A menudo no se trata sólo del tema, sino también de la ponderación. El clásico es el PageRank interno, que se puede calcular en "Descripción general" con dos clics: "Start PageRank", marca de verificación "Use edge weight" y confirme:



Pero otras métricas también son interesantes para la ponderación. Por ejemplo, puede crear una priorización numérica de las páginas de destino principales (manualmente) para resaltarlas. Para ello, debe seleccionar la métrica apropiada como "Ranking":



Allí, sin embargo, su métrica sólo aparece si lo ha almacenado como un valor numérico real (por ejemplo, como un tipo de datos Entero o largo, no como una cadena). El resultado es el siguiente:




Es interesante notar que algunos de los espacios de aterrizaje que son importantes para nosotros aparecen en el círculo exterior - es decir, no están conectados muy bien internamente. Además, hay un área relativamente grande en la parte inferior derecha de las páginas, que parecen tener poca relevancia para nosotros.

Estos hallazgos ahora pueden combinarse, por ejemplo con el PageRank interno, que además podemos destacar en color:




Podemos ver más claramente que hay ciertos nodos más grandes (es decir, URL), que son todavía muy blancos y, por tanto, ligeramente vinculados. Esto significa que estas URL deben estar vinculadas mejor.

Una posibilidad alternativa de la evaluación es agregar adicionalmente el tráfico orgánico:


}


Aquí de nuevo se puede ver que hay una URL con un montón de tráfico, que está mal conectado. Además, la gran pila hacia abajo a la derecha otra vez, que es en general muy blanco y por lo tanto sólo trae muy poco tráfico.

Evaluación combinada


Por último, se puede combinar todo: la "importancia SEO" (tamaño), así como la conexión en red (posición), así como la afiliación temática o semántica (color):




Aquí de nuevo se hace evidente que dos importantes páginas de desembarque rojas están temáticamente fuera de las rutas batidas, más bien en la zona verde. De hecho, hay dos URLs que se encuentran en entornos de páginas independientes (otras migas de pan, etc.). Es por lo tanto útil traer estas páginas en el bloque superior grande por la vinculación hábil.

Evaluación de backlinks

Si lo desea, también puede incluir enlaces entrantes, es decir, vínculos de retroceso, en la evaluación. En este caso, sólo se tiñen los bordes: cuanto más naranja, más alta es la métrica de confianza de Power * de LinkResearchTools, por lo que esto corresponde a la intensidad de este enlace. Podemos ver fácilmente cuáles de nuestras páginas importantes (grandes) y de tráfico fuerte (azul) todavía están débilmente conectadas en red:



¡Tantas posibilidades, tantas ideas!

Espero que usted pueda ver de los ejemplos seleccionados, cuánto se puede extraer de la herramienta. Para mí, el atractivo especial reside no sólo en la estética, sino también en la tangibilidad de situaciones complejas. Con las imágenes, los enemigos de Excel y no-SEO pueden ser explicados, lo que significa la vinculación interna en absoluto - y por qué es relevante.

Por supuesto hay mucho más que el anterior. ¿Qué evaluaría? ¿Qué ideas tienes? Parte con mucho gusto en los comentarios!

Si usted no desea construir tal cosa usted mismo, sólo póngase en contacto con nosotros (en Alemán!) y vamos a hacerlo!

lunes, 4 de septiembre de 2017

Las distintas redes cerebrales de hombres y mujeres

Vive la différence!


Una nueva técnica ha elaborado diagramas de cableado de los cerebros de los dos sexos. El contraste entre ellos es revelador.

The Economist





Los hombres y las mujeres no piensan de la misma manera. Pocos estarían en desacuerdo con eso. Y la ciencia ha cuantificado algunas de esas diferencias. Los hombres, está bastante bien establecido, tienen mejores habilidades motoras y espaciales que las mujeres, y más patrones de pensamiento monomaníacos. Las mujeres tienen mejores recuerdos, son más socialmente adeptos, y son mejores en tratar con varias cosas a la vez. Hay un montón de superposición, obviamente. Pero en promedio estas observaciones son verdaderas.

Sugerir por qué son verdaderos en términos evolutivos es un juego que cualquiera puede jugar. Una idea obvia es que debido a que, en los días de caza y recolección, los hombres pasaban más tiempo alejándose del campamento, su cerebro necesitaba adaptarse para poder encontrar su camino. También pasaron más tiempo buscando, combatiendo y matando cosas, ya fueran animales o vecinos intrusos. Las mujeres, por el contrario, se politizaban entre sí y criaban a los niños, por lo que necesitaban adaptarse para permitirles manipular las emociones del otro y de sus hijos para tener éxito en su mundo.

Descubrir por qué las diferencias sexuales son verdaderas en términos neurológicos -en otras palabras, cómo se conecta el cerebro para crearlas- es otra cosa en conjunto. Para jugar este juego tienes que tener un montón de kit caro, no sólo una cómoda silla de la que pontificar. Y eso es exactamente lo que tienen Ragini Verma de la Universidad de Pensilvania y sus colegas. Como resultado, como se esboza en los Proceedings de la Academia Nacional de Ciencias, han sido capaces de trazar las diferencias en las formas en que los cerebros masculinos y femeninos están cableados y combinarlos, al menos a su propia satisfacción, con los estereotipos amados de tanto folklore como psicología.

¿Azúcar y especias o colas de perros?

La neurología se ha revolucionado en el último par de décadas por una serie de técnicas que pueden escanear los cerebros vivos. La técnica de elección del Dr. Verma es la formación de imágenes de tensor de difusión. Esto sigue a las moléculas de agua alrededor del cerebro. Debido a que las fibras que conectan las células nerviosas tienen vainas grasas, el agua en ellas puede difundirse sólo a lo largo de una fibra, no a través de la vaina. Por lo tanto, imágenes de tensor de difusión es capaz de detectar haces de tales fibras, y ver a dónde van.

La Dra. Verma y su equipo aplicaron la técnica a 428 hombres y niños, y 521 mujeres y niñas. Sus resultados se resumen en los dos diagramas anteriores, que muestran las tendencias de conexión promedio de la suma de cerebros de los participantes.

Las dos partes principales de un cerebro humano son el cerebro, por encima y hacia el frente, que hace el pensamiento, y el cerebelo, por debajo y hacia la espalda, lo que hace la actuación. Cada uno se divide en hemisferios derecho e izquierdo. Como muestran los diagramas, en los hombres (la imagen de la izquierda) las conexiones dominantes en el cerebro son las marcadas en azul, dentro de los hemisferios. En las mujeres, son aquellas, marcadas en naranja, entre hemisferios. En el cerebelo (no visible porque está debajo del cerebro), es al revés.

Lo que esto significa está abierto a la interpretación, pero la opinión del Dr. Verma es que las diferencias en el cableado subyacen en algunas de las variaciones en las habilidades cognitivas masculinas y femeninas. Se cree que los lados izquierdo y derecho del cerebro, en particular, se especializan para el pensamiento lógico e intuitivo respectivamente. A su juicio, la conversación entre ellos en las mujeres, sugerida por los diagramas de cableado, ayuda a explicar sus mejores recuerdos, habilidad social y capacidad de multitarea, todos los cuales se benefician de los hemisferios colaborando. En los hombres, por el contrario, los enlaces dentro del hemisferio les permiten centrarse en cosas que no necesitan insumos complejos de ambos hemisferios. De ahí la monomanía.

Cuando se trata del cerebelo, los enlaces cruzados adicionales entre los hemisferios en los hombres sirven para coordinar la actividad de todo el sub-órgano. Esto es importante porque cada mitad controla, por sí sola, sólo la mitad del cuerpo. Por lo tanto, los hombres tienen mejores habilidades motoras o, en términos sencillos, están mejor coordinados que las mujeres.

viernes, 1 de septiembre de 2017

Redes de comercio de armas

La Red Internacional de Comercio de Armas


Por Tamer Khraisha | Center for Network Science



¿Qué países están comprando y vendiendo más armas? ¿Cómo se ve la red global de comercio de armas y cómo ha cambiado con el tiempo? Las visualizaciones en red de los flujos internacionales de comercio de armas pueden ir un largo camino para responder a estas preguntas.

Los datos de este proyecto provienen de la Base de Datos de Transferencia de Armas del Instituto Internacional de Investigaciones para la Paz de Estocolmo, que documenta todas las transferencias internacionales de las principales armas convencionales desde 1950. Es la fuente de información sobre las transferencias internacionales de armas más completa.

Consideramos los datos como una red dirigida temporal. Esto significa que cada observación, es decir, un flujo de armas de un país a otro en un período dado de cinco años, es un vínculo. Los enlaces codifican dirección y peso: si el país A vende $ 1,000,000 de armas al país B en 1980-1985, dibujamos un enlace de A a B con un grosor proporcional al valor. Los nodos se organizan jerárquicamente: podemos combinar los flujos entre países en flujos entre regiones del mundo. La ventana temporal varía desde 1955 hasta 2005 y se divide en trozos de 5 años, lo que lleva a 11 redes.



Las visualizaciones son en forma de diagramas de acordes, un método gráfico de mostrar las interrelaciones entre datos en una matriz. Los diagramas de acordes son una herramienta de visualización útil especialmente para visualizar redes densas, ponderadas y dirigidas, como el comercio, los flujos migratorios y los desplazamientos entre ubicaciones geográficas.

Vea la visualización interactiva en el blog de Tamer.

Cada visualización se puede acceder haciendo clic en los botones marcados por años. La visualización predeterminada es por región, de la que hay 10. Al pasar el ratón sobre cada región, es posible ver los flujos agregados entre las regiones. La cantidad de comercio también se puede ver colocando el ratón sobre el acorde que conecta dos regiones. Las cantidades se expresan en dólares estadounidenses. Para ir un nivel más bajo y explorar los flujos a nivel de país, puede hacer clic en el segmento (nombre de región) para cambiar entre vista de país y región. Para volver a la vista de país haga clic en cualquier país dentro de la región.



Las visualizaciones pueden mostrar muchas historias interesantes sobre la situación internacional y geopolítica a través de la segunda mitad del siglo XX. La red de comercio de armas no es aleatoria, sino que tiene una estructura que refleja intereses estratégicos y redes de alianzas internacionales. Una limitación de los datos es que no contiene ninguna información sobre los intercambios de armas entre la ex Unión Soviética y los otros países antes de 1985. Siga 1985, sin embargo, la carrera de armamentos entre la ex Unión Soviética y los Estados Unidos cuenta una muy interesante historia. Juntos, Estados Unidos y Rusia (antigua Unión Soviética) representan una parte significativa de las ventas de armas. Estas ventas indican las alianzas de estos dos países. Por ejemplo, Estados Unidos vende principalmente a sus aliados en Oriente Medio como Israel, Arabia Saudita, Turquía, Japón y Corea del Sur en Asia Oriental y Pakistán en el sur de Asia. Por otro lado, la antigua Unión Soviética (Rusia) suministra a la India, Irán, China, países como Venezuela en América Latina y algunos países africanos.

Otra tendencia interesante a observar es el cambio en los suministros de armas y los intercambios basados ​​en la situación política entre los países. Por ejemplo, Hungría solía comprar armas desde Rusia hasta el año 2000. Posteriormente, trasladó sus compras a Estados Unidos y Europa. Hungría se unió a la OTAN en 1999. Del mismo modo, Irán compró muchas armas de los EE.UU. hasta la década de 1980, sin duda debido a la lucha anti-EE.UU., la revolución anti-occidental en 1979.

Otro hallazgo interesante es que más de dos tercios de los oficios de armas provienen de sólo cinco países (Estados Unidos, Rusia, China, Reino Unido y Francia), que son los cinco miembros permanentes del Consejo de Seguridad de las Naciones Unidas.

La visualización puede contar muchas otras historias sobre los oficios de armas. Como tal vez sea la parte más interesante de la visualización, dejo su exploración al lector.


miércoles, 30 de agosto de 2017

Una exploración muy simple a las comunidades personales en Facebook

Visualizaciones de redes sociales personales en Facebook y estructura de la comunidad: un estudio exploratorio

Christina Gkini Alexios Brailas - SOC ARXIV



Estudiamos el patrón de estructura de la comunidad en las visualizaciones de diez redes sociales personales en Facebook en un solo punto en el tiempo. Parece ser una fuerte tendencia hacia la formación de la comunidad en las redes personales, sociales en línea: los amigos de alguien son generalmente también amigos entre ellos, formando subgrupos de nodos más densamente conectados. La investigación sobre la estructura de la comunidad en las redes sociales suele centrarse en las propiedades estadísticas de las redes. Existe la necesidad de estudios cualitativos que superen la brecha entre las topologías de la red y sus implicaciones sociológicas. En esta dirección, las representaciones visuales de las redes personales en los medios sociales podrían ser una valiosa fuente de datos empíricos para la interpretación cualitativa. La mayoría de las visualizaciones de las redes sociales personales en el presente estudio están muy agrupadas con subgrupos de amigos que se solapan densamente y se interconectan entre ellos a través de puentes anchos. Este patrón de topología de red parece ser bastante eficiente, permitiendo una rápida difusión y difusión de información a través de toda la red social.








miércoles, 23 de agosto de 2017

Dinámica y construcción de grupos de colaboración en Wikipedia

Minería del grafo de Wikipedia: La estructura dinámica de la memoria colectiva

De Volodymyr Miz


Este es el blog que acompaña a nuestro próximo trabajo de investigación (pronto en arXiv); Trabajo conjunto con Kirell Benzi, Benjamin Ricaud y Pierre Vandergheynst (EPFL, LTS2). Aquí, nos centramos en los resultados, omitiendo los detalles del algoritmo y la implementación.

Introducción

Wikipedia es una gran fuente de análisis de datos debido a su destacada escala y la estructura del grafo. Decenas de millones de visitantes lo navegan a diario, dejando su huella en la Web. La combinación de la estructura del grafo de Wikipedia y la actividad del visitante en las páginas nos da el grafo dinámico - el grafo con señales de la serie de tiempo en los nodos. La naturaleza dinámica del grafo hace que el problema de análisis a gran escala sea bastante complicado.

En el artículo original analizamos el grafo de Wikipedia. El objetivo es detectar eventos y recuerdos colectivos utilizando la actividad de los visitantes de Wikipedia. Utilizamos un enfoque basado en grafos para construir nuestro modelo. El modelo computacional se inspira en la plasticidad sináptica y en la teoría de Hebbian.

No es sorprendente que no pudiéramos incluir todos los resultados en el trabajo. Aparte de eso, PDF es un formato bastante pobre para comunicar los hallazgos de la investigación. El objetivo de este post es mostrar los resultados de manera interactiva. Al leer el artículo y esta publicación, le recomendamos que abra los grafos, que aparezcan en todas partes en esta publicación y que juegue con ellos: haga clic con el botón de zoom, haga clic, mueva, busque y seleccione. Esta es de lejos la forma más divertida de sumergirnos en los principales resultados de nuestro trabajo.

Los grafos son interactivos


  1. Haga clic en cualquier grafo de este post para abrirlo en una nueva ventana.
  2. Haga zoom, haga clic en los nodos, busque las páginas por nombre, resalte los grupos por color.
    • Al hacer clic en un nodo, se seleccionan todos los vecinos.
    • Cuando selecciona un clúster, selecciona todos los nodos de este clúster.
    • La lista de nodos seleccionados aparece a la derecha.

Funciona mejor en la última versión de Chrome. NO intente abrir los grafos en un smartphone. Los grafos son demasiado grandes y puede tardar una eternidad en renderizarlos.


Conjunto de datos

Los conjuntos de datos originales están disponibles públicamente en el sitio web de Wikimedia. Tomamos los volcados SQL de los artículos de Wikipedia en inglés para crear el grafo. La actividad visitante es el número de visitas por página por hora. Consideramos el período de 02:00, 23 de septiembre de 2014 hasta las 23:00, 30 de abril de 2015. Los detalles de pre-procesamiento se describen en nuestro artículo en la sección Dataset.

Dinámica de la red Wikipedia




7 meses de dinámica Wikipedia graph

En el trabajo se supone que la dinámica del grafo puede afectar su estructura. Aplicamos la regla de actualización, basada en la señal en los nodos, para observar este efecto. Aquí mostramos que el grafo de Wikipedia puede auto-organizarse en los conjuntos de comunidades significativas de los nodos, si tenemos en cuenta la dinámica de actividad de los visitantes de la gráfica. Haga clic en el grafo de la derecha y explore el resultado por sí mismo.

Este grafo es el resultado de la dinámica de 7 meses de actividad de los visitantes en Wikipedia. Aquí puede encontrar los principales eventos que se han llevado a cabo durante el período considerado. Los eventos estables o programados, como torneos, ceremonias de premios, concursos y festividades más populares forman grandes grupos. Los eventos inestables o inesperados, como incidentes y accidentes, se agrupan en pequeños grupos. A pesar de que, este grafo proporciona un buen resumen de los patrones dinámicos, sólo podemos ver el resultado final. Lo que es más importante, es obtener información sobre la dinámica del grafo en el tiempo. ¿Cómo emergen los agrupamientos, evolucionan y desaparecen? Para responder a esta pregunta, elegimos un evento en particular y observamos su dinámica en detalles.


Dinámica de un evento: campeonato de la NFL

Con el fin de comprender la dinámica de la evolución del grafo, elegimos uno de los eventos más populares, destacado en la Wikipedia en inglés - el campeonato de la NFL. Consideramos la temporada 2014-2015. La parcela está a la derecha (haga clic para ampliar). Para la interpretabilidad de la trama extraímos 30 equipos de la NFL de 485 páginas en el grupo original. La línea de tiempo muestra la actividad general del grupo durante el período de 7 meses. La línea de tiempo de la dinámica del grafo y la evolución del cluster NFL se ilustra en la fila superior. Refleja el interés de los fanáticos de la NFL en el campeonato. El grupo es pequeño y escaso al principio del campeonato y se vuelve más denso y más grande, acercándose a la fecha final del juego. El comportamiento de los visitantes de Wikipedia durante el día del juego final Super Bowl es excepcional. La actividad de los aficionados de la NFL es mucho mayor, en comparación con la actividad de otros usuarios de Wikipedia. Hace una analogía con la vida real, cuando durante las finales los fans se convierten en la gente más activa en las calles.



El campeonato de la NFL es sólo un ejemplo de un evento detectado y su evolución. Puede explorar los grafos de la actividad mensual y consultar otros clústeres de eventos detectados. El número total de eventos detectados es 172. Haga clic en los grafos siguientes para abrir una versión interactiva y explorar por sí mismo.

      Octubre       Noviembre      Diciembre         Enero               Febrero           Marzo           Abril

El clúster NFL es un buen ejemplo de un evento estable, representado como uno de los clusters más grandes en el grafo resultante. ¿Qué pasa con los eventos no programados, como ataques y otros accidentes?


Memoria colectiva

Los eventos traumáticos, como ataques terroristas, accidentes aéreos, guerras y conflictos, a menudo nos recuerdan el pasado. Estos recuerdos son a menudo comunes para un grupo de personas en una comunidad social. Esa es la razón por la que se llaman recuerdos colectivos. Nuestro enfoque permite detectar estos recuerdos y sirve como un modelo general para la emergencia de la memoria colectiva. Proporcionamos los ejemplos de 3 eventos, detectados entre los demás.

Ejemplos de memorias colectivas se presentan en la siguiente tabla. Para mostrar los detalles de las memorias colectivas detectadas, seleccionamos 3 eventos particulares entre los otros detectados: Ferguson disturbio (segunda ola - 24 de noviembre de 2014), Charlie Hebdo ataque (07 de enero 2015), vuelo de Germanwings 9525 accidente de avión (24 de marzo , 2015). La fila superior contiene los grupos extraídos de memorias colectivas para cada uno de los eventos discutidos. La fila inferior muestra la actividad detallada de cada página en los clústeres.

Disturbios en FergusonAtaque a Charlie Hebdo Caída del Germanwings 9525

Vemos que los eventos centrales desencadenan recuerdos relevantes. Los disturbios de Ferguson nos recuerdan otros disturbios, disparos de gente inocente, e incluso nos lleva de regreso a la esclavitud en los Estados Unidos. Charlie Hebdo tiroteo tiene vínculos con otros ataques terroristas, derramamiento de sangre, y las agencias de aplicación de la ley. El accidente de Germanwings está rodeado por el denso grupo de los otros accidentes aéreos, lo que indica que los accidentes de vuelo están completamente estructurados en Wikipedia.

Aunque, podemos ver un poco de ruido en los racimos. El ruido es relevante para los temas principales de los conglomerados y no afecta la formación del conglomerado. Normalmente, la fuente principal del ruido es un nodo, que es relevante para varios grupos de eventos. Por ejemplo, el grupo de disturbios de Ferguson contiene el grupo nodo anónimo. Este nodo enlaza otro gran grupo de empresas líderes en tecnología y comercio electrónico. En este caso, el primer aumento constante de la actividad es causado por la página de compras en línea, ya que el día más rentable para las tiendas en línea se detectó el 11/11/2014. Otro ejemplo del ruido está en el racimo de Germanwings. La causa principal del ruido es la página del día - 24 de marzo - que contiene la mayoría de los acontecimientos históricos notables.

A pesar de que el ruido es causado por páginas bastante populares, el algoritmo sigue siendo capaz de localizar los eventos más pequeños y crear clusters relevantes. Para detectar eventos más pequeños, como los presentados en los ejemplos, se utilizó una ventana de tiempo menor de una semana. Los pequeños eventos aún se pueden encontrar en los grafos dinámicos mensuales, presentados en la sección anterior de la tabla de línea de tiempo. Revise los grafos y busque los eventos de su interés.

Conclusiones

Wikipedia puede decirnos más de lo que está escrito en sus páginas. Es una gran fuente de datos para la investigación colectiva del comportamiento humano. Sin embargo, la naturaleza dinámica de los datos estructurados por grafos genera nuevos retos para la ciencia de los datos y el aprendizaje automático. En el artículo propusimos un nuevo método para la detección de patrones en grafos dinámicos a gran escala. Aplicamos el método a los conjuntos de datos de Wikipedia. Hemos logrado detectar patrones dinámicos en términos de eventos y recuerdos colectivos en Wikipedia usando la combinación del grafo de hipervínculos y la actividad de los visitantes en el sitio web. El siguiente paso es mejorar la parte de filtrado del algoritmo para disminuir la cantidad de ruido, descrita en la sección de memoria colectiva de este post.

Herramientas y código

Hacemos todos los experimentos utilizando Apache Spark GraphX. El código está escrito en Scala y disponible en GitHub. El pre-procesamiento de datos se puede hacer usando el código Python, disponible en otro repositorio de GitHub.

Expresiones de gratitud

Me gustaría dar las gracias a Michaël Defferrard por fructíferas discusiones y sugerencias útiles.

lunes, 21 de agosto de 2017

Visualización del financiamiento interdisciplinario en Suiza (con Gephi)

Visualización de red compleja de la historia de la interdisciplinariedad: Mapeo de la financiación de la investigación en Suiza

Martin Grandjean
       


Introducción

En Suiza, el panorama de la investigación científica se considera profundamente afectado por las barreras idiomáticas y las fuertes identidades académicas locales. ¿Es esta impresión confirmada por los datos de los proyectos de investigación? ¿Cuáles son los factores que mejor explican la estructura de las colaboraciones científicas en los últimos cuarenta años? ¿Las regiones lingüísticas o las lógicas académicas locales tienen realmente un impacto en el mapeo de las colaboraciones de investigación y en qué medida están incrustadas en las lógicas disciplinarias, históricas y generacionales?

Nos centramos en la gran base de datos de la Fundación Nacional de Ciencias de Suiza (FNS), la principal agencia de financiación de la investigación en Suiza, que enumera todos los 62.000 proyectos financiados entre 1975 y 2015. Aunque los estudios cientométricos generalmente se centran en la medición del desempeño laboral y financiero , Pretendemos crear conciencia sobre la búsqueda de un análisis sociohistórico de los círculos académicos suizos mediante el cruce de datos del FNS con una base de datos prosopográfica de todos los profesores universitarios suizos del siglo XX aportada por el Observatorio Suizo de Elite (OBELIS).

Análisis

Aquí, estamos interesados ​​en el periodo 2006-2015, diez años durante los cuales 25.000 proyectos que involucran a 45.000 personas producen un grafo de 2 modos con más de 63.000 aristas. Para centrarse en proyectos y disciplinas, la red se proyecta en un grafo de un solo modo de proyectos. Así, el grafo que se muestra a continuación contiene más de 15.000 proyectos que se financiaron entre 2006 y 2015. Los restantes 10.000 son proyectos aislados que no se muestran para evitar sobrecargar el grafo, pero se tienen en cuenta en el análisis de las relaciones entre disciplinas siguiente grafo).


15.000 proyectos financiados por el FNS entre 2006 y 2015. Dos proyectos están conectados si comparten uno o más investigadores comunes. 

El grafo es muy escaso en algunos lugares, particularmente en disciplinas donde los investigadores trabajan solos o en pequeños grupos (derecho, economía, humanidades). En las ciencias naturales o la medicina, los proyectos a menudo involucran laboratorios más grandes y, por lo tanto, crean clusters más densos. Para decir más sobre la interdisciplinariedad de estos campos, es obvio que es necesario desarrollar las categorías y calcular las medidas individuales, pero las disciplinas en las que se producen las colaboraciones ya son claramente visibles.

Mapeo de disciplinas

Reducido a las disciplinas (abajo), la macro-red es más legible y permitirá la comparación con el tiempo. El grafo de las disciplinas muestra que las tres divisiones principales de la agencia financiadora ya no encajan perfectamente con la realidad del siglo XXI: muchos sub-campos de la biología (división 3, con la medicina) y la química (división 2, matemáticas e ingeniería Ciencias) están más unidas que con los otros sub-campos de sus divisiones oficiales (ver los nodos rosados, afiliados a la división 3 pero muy cerca de la división 2). Comprender la evolución de esta situación es, por supuesto, uno de nuestros principales objetivos.


El mapa de las disciplinas, extraído del grafo anterior. Dos disciplinas están conectadas si sus proyectos involucran a investigadores entre sí.

Perspectivas

Con la información contenida en la lista de proyectos, vemos que es posible asignar a los individuos una categoría disciplinaria extraída de los proyectos que los involucran. Como sucede que un investigador está participando en proyectos etiquetados en diferentes disciplinas, este enfoque conducirá a una reflexión sobre la medición de la interdisciplinariedad dentro de un estudio comparativo entre una selección de disciplinas "abiertas" y "cerradas". Esto se compara entonces con la disciplina de su departamento, para mostrar la diferencia entre la afiliación oficial y la actividad científica real.
Todavía hay mucho que hacer, estamos trabajando en ello!

Póster