Detección de comunidades de red: una aplicación al análisis filogenético
Roberto FS Andrade, Ivan C. Rocha-Neto, Leonardo BL Santos, Carlos N. de Santana, Marcelo VC Diniz, Thierry Petit Lobão, Aristóteles Goés-Neto, Suani TR Pinho, y Charbel N. El - Hani, *Christos Ouzounis, Editor
PLOS Computational Biology
Resumen
Este artículo propone un nuevo método para identificar comunidades en redes complejas generalmente ponderadas y aplicarlo al análisis filogenético. En este caso, los pesos corresponden a los índices de similitud entre las secuencias de proteínas, que se pueden utilizar para la construcción de la red para que la estructura de la red se puede analizar para recuperar la información filogenéticamente útil de sus propiedades. Los análisis analizados aquí se basan principalmente en el carácter modular de las redes de similitud de proteínas, exploradas a través del algoritmo de Newman-Girvan, con ayuda de la matriz de vecindad. Las redes más relevantes se encuentran cuando la topología de la red cambia abruptamente revelando módulos distintos relacionados con los conjuntos de organismos a los que pertenecen las proteínas. La información biológica de sonido puede ser recuperada por las rutinas computacionales utilizadas en el enfoque de red, sin utilizar suposiciones biológicas distintas de las incorporadas por BLAST. Por lo general, todos los principales phyla bacterianos y, en algunos casos, también algunas clases bacterianas correspondieron totalmente (100%) o en gran medida (> 70%) a los módulos. Hemos comprobado la consistencia interna en los resultados obtenidos, y se obtuvo una puntuación cercana al 84% de los partidos por la pertinencia de la comunidad cuando se compararon los resultados. Para ilustrar cómo utilizar el método basado en la red, empleamos datos para las enzimas implicadas en la ruta metabólica de quitina que están presentes en más de 100 organismos a partir de un conjunto original de datos que contiene 1.695 organismos, descargados de GenBank el 19 de mayo de 2007. la comparación entre los resultados del método basado en la red y los resultados de los métodos basados en criterios bayesianos, de distancia, de probabilidad y de parsimonia sugiere que el primero es tan fiable como estos métodos comúnmente utilizados. Concluimos que el método basado en la red puede ser utilizado como una poderosa herramienta para recuperar la información de modularidad de redes ponderadas, lo que es útil para el análisis filogenético.
Introducción
En redes, el módulo o la estructura de la comunidad desempeña un papel central cuando se trata de comprender la topología y la dinámica de la red. Para avanzar soluciones a muchos problemas relacionados con las redes biológicas, necesitamos identificar, por lo tanto, la estructura de la comunidad en conjuntos de datos. En consecuencia, la introducción de nuevos métodos eficientes y robustos que sean capaces de realizar tal tarea en una variedad de situaciones es de suma importancia.Aquí nos interesa dar una contribución a la compleja cuestión de la inferencia filogenética apelando al complejo enfoque de red que se ha aplicado con éxito para descubrir principios organizativos que rigen la constitución y la evolución de diversos sistemas biológicos, tecnológicos y sociales complejos [1] - [4]. Estudios recientes que utilizan enfoques de redes complejas en los campos de la genómica y la proteómica han contribuido a un mejor conocimiento de la estructura y la dinámica de las complejas redes de interacciones de una célula viva [5] - [12]. En los últimos años se han estudiado varios tipos de redes biológicamente relevantes, principalmente la interacción proteica, la transcripción y las redes metabólicas [1]. En este estudio, trabajamos con otro conjunto de relaciones, a saber, las relaciones evolutivas entre las proteínas a lo largo de la filogenia, e introducir un nuevo método para identificar comunidades en las redes complejas generalmente ponderadas.
La fiabilidad y aplicabilidad global de un nuevo método propuesto es objeto de un programa de investigación a largo plazo que, necesariamente, comienza con una clara formulación de los pasos clave del método, junto con el análisis de un problema no trivial analizado anteriormente, tales como, por ejemplo, la inferencia filogenética.
Hay cuatro familias de métodos de análisis filogenético que se utilizan comúnmente, a saber: máxima parsimonia, distancia, máxima verosimilitud, y Bayesiano [13]. Las perspectivas prometedoras de desarrollar nuevos métodos confiables para inferir relaciones filogenéticas son ofrecidas por la posibilidad de usar información primaria sobre secuencias de proteínas contenidas en bases de datos de acceso abierto y las medidas de similitud de proteínas derivadas. Introducimos aquí una metodología para identificar la estructura de la comunidad en tales conjuntos de datos primarios, basados en el concepto de distancia entre redes complejas, y aplicarlo al problema específico de recuperar información útil que se puede utilizar para inferir relaciones filogenéticas. En este proceso, evitamos tanto como sea posible el uso de cualquier información biológica preexistente cualitativa. Se muestra aquí que un método basado en la teoría de la red compleja puede recuperar información sobre las relaciones evolutivas entre organismos, tal como se expresa en las similitudes y diferencias entre sus secuencias de proteínas o ADN.
Dependiendo de la forma en que los nodos estén conectados dentro de una red, puede ser posible identificar uno o más subconjuntos de nodos de tal manera que el número promedio de conexiones entre nodos dentro de cualquiera de estos subconjuntos sea distintamente mayor que el número promedio de conexiones con nodos fuera este subconjunto. La identificación de estos subconjuntos (comúnmente denominados comunidades, módulos, componentes, clusters, etc.), una cuestión clave que no ha sido completamente resuelta dentro de la teoría de la red compleja, es de suma importancia para las aplicaciones biológicas. De hecho, las propiedades modulares son características muy comunes en cualquier rama o nivel de investigaciones de redes biológicas.
En los últimos años, la cantidad de investigación en la identificación de comunidades en las redes es realmente asombroso. Hay varios artículos de revisión que discuten este tema, basado en los enfoques matemáticos y computacionales [14] - [16]. Además, los análisis comparativos de los métodos disponibles se encuentran también en la literatura [17], [18].
Los enfoques computacionalmente eficientes basados en matrices de similitud y análisis de conglomerados para la exploración de bases de datos de proteínas con poco o ningún conocimiento previo son herramientas importantes para el análisis filogenético. Actualmente se están utilizando varios enfoques para inferir relaciones evolutivas entre proteínas. Por ejemplo, el Algoritmo de Markov Cluster (MCL) [19], [20] es un algoritmo de cluster sin supervisión que se ha aplicado al análisis de gráficos en varios dominios diferentes, sobre todo en bioinformática. El algoritmo MCL se utilizó, por ejemplo, para la detección de proteínas de las familias [21], una importante meta de investigación en genómica estructural y funcional. MCL también se extendió a la identificación de Orthologous grupos de OrthoMCL [22]. También se utilizó para desarrollar phylogenomic análisis de taxones específicos, como el Ascomycota [23]. Se desarrolló un enfoque híbrido para el agrupamiento secuencial de proteínas, combinando Markov con un agrupamiento de un solo enlace, con la intención de obtener tanto la especificidad (permitida por MCL) como la preservación de la información topológica como función de la información umbral sobre las familias de proteínas. como en agrupación de un solo enlace) [24]. Otro método recientemente desarrollado para la detección automática y no supervisada de las familias de proteínas y la anotación del genoma es el Algoritmo Global Super Paramagnetic Clustering (SPC), que mostró mayor precisión, especificidad y sensibilidad de la agrupación de MCL [25]. Finalmente, Kóvacs et al. [18] introdujo ModuLand, una familia de métodos integradores de determinación de módulos de red, que puede determinar módulos de red superpuestos como colinas de un paisaje comunitario de tipo centralidad basado en función de la influencia. El nuevo método para identificar comunidades en redes complejas generalmente ponderadas, propuesto aquí, es bastante potente e innovador en el uso de una distancia δ (que se definirá en la siguiente sección) para determinar un valor óptimo del umbral de similitud.
Dos tareas principales son cruciales para derivar una identificación comunitaria objetiva y matemática: En primer lugar, definir una medida adecuada para distinguir el carácter no modular del modular y, en segundo lugar, identificar las comunidades, cuando éste sea el caso. La distancia δ usada aquí puede ayudar a la identificación del carácter modular de una manera muy clara. Por lo tanto, nuestra principal contribución, basada en la teoría de la red compleja, es utilizar esta medida junto con la matriz de similitud de proteínas (de hecho, la matriz de peso de cualquier red ponderada) para identificar el conjunto mínimo de enlaces que están incluidos en la red en orden para preservar la información biológica relevante necesaria para desvelar el carácter modular dentro del conjunto de datos en juego.
Una vez que se encuentre dicha red elegida de forma óptima, se podrá utilizar cualquier método de detección de comunidad propuesto para recuperar las comunidades existentes. Utilizamos aquí el algoritmo de Newman Girvan (NGA) [26], que, aunque lleva mucho tiempo, también permite identificar la secuencia de sucesos ramificados, dando lugar a dendrogramas útiles y bien definidos.
Dado que se requieren varias biomoléculas orgánicas para propósitos metabólicos básicos, se pueden encontrar en un gran número de organismos, lo que hace posible el uso de técnicas derivadas de la teoría de redes complejas para explorar la información que es útil para las inferencias filogenéticas. Las enzimas que participan en la síntesis de moléculas ubicuas y metabólicamente importantes parecen particularmente prometedoras para este enfoque de red tan complejo. Es probable que se encuentren en muchos organismos distintos y, si están involucrados en las vías metabólicas antiguas, se pueden encontrar en los tres dominios de vida, Archaea, Bacteria y Eukarya. A pesar de que distintos organismos utilizan sus propias variantes enzimáticas para producir una molécula dada, estas variantes tenderán a parecer más similares en sus secuencias de aminoácidos cuanto más cercanas estén las especies en términos filogenéticos. Así, las especies se pueden agrupar en grupos filogenéticamente significativos analizando el grado de similitud de las enzimas implicadas en alguna vía metabólica básica. Aquí se muestra cómo la similitud de las secuencias de aminoácidos de las enzimas derivadas de genomas completamente secuenciados de organismos existentes pueden ser utilizados para la construcción de la red y, posteriormente, la estructura de la red se puede analizar para recuperar la información filogenéticamente útil de sus propiedades y estadísticas.
Los métodos descritos aquí pueden usarse para cualquier conjunto de proteínas implicadas en vías metabólicas básicas. Trabajaremos en este trabajo con datos de enzimas involucradas en la síntesis de quitina. La quitina, el homopolímero lineal ligado a β-1,4 de la N-acetilglucosamina, es un carbohidrato endógeno estructural, que es un componente principal de las paredes celulares de los hongos [27], cefalópodos [28], tegumentos de larvas y nemátodos jóvenes [29]. ], y artrópodos exoesqueletos [30]. La quitina es el segundo polisacárido más abundante en la naturaleza después de la celulosa. Ocurre sólo en organismos eucariotas del clado Metazoa-Fúngico. Esto sugiere que la quitina puede haber evolucionado antes de la radiación eucariótica de la corona.
La quitina se sintetiza mediante una secuencia de seis reacciones sucesivas: (i) conversión de Glu-6P en Fru-6-P por fosfogluco-isomerasas (E.C. 5.3.1.9); (ii) conversión de Fru-6-P en GlcN-6-P por glucosamina fosfato isomerasas (E.C. 2.6.1.16); (iii) acetilación de GlcNA-6-P generando GlcNAc-6-P por fosfoglucosamina acetilasas (EC 2.3.1.4), (iv) interconversión de GlcNAc-6-P en GlcNAc-1-P por acetilglucosamina fosfomutasas (EC 5.4.2.3 ) o, alternativamente, por acetilglucosamina fosfato desacetilasas (EC 3.5.1.25); (v) uridilación de GlcNAc-1-P por UDP-acetilglucosamina pirofosforlasas (E.C. 2.7.7.23); y (vi) conversión de UDP-GlcNAc en quitina por quitinas sintasas (E.C. 2.1.4.16) [31], [32].
La quitinación se consigue por las quitinasas (EC 3.2.1.14), ya sea por exocitinasas, que convierten la quitina en residuos de N-acetilglucosamina, o por endochitinases, que convierten la quitina en chitobiose, que a su vez puede convertirse en residuos de N-acetilglucosamina por hexoaminidasas (EC 3.2.1.52). Los residuos de N-acetilglucosamina pueden ser activados por acetilglucosamina quinasas (E.C. 2.7.1.59) para formar N-acetilglucosamina-6-P, restaurando el precursor del ciclo de retroalimentación corto del metabolismo de quitina. La quitina también puede ser desacetilada por quitinas desacetilasas (EC 3.5.1.41), convertida en quitosano, que se degrada por las quitosanasas (EC 3.2.1.132) en glucosaminida, que, cuando se convierte en glucosamina, puede ser activada por las glucocinasas de hexoquinasa tipo IV (EC 2.7.7.1), que restaurar el precursor de N-acetilglucosamina-6-P, glucosamina-6-P, la configuración de un mayor ciclo de retroalimentación [33].
Aunque la quitina misma se encuentra sólo en el clado Metazoa-Fúngico, podemos encontrar proteínas que son homólogas a las enzimas implicadas en la síntesis de quitina en otros clados, incluyendo bacterias y arqueobacterias. Por lo tanto, la vía metabólica de quitina puede usarse para recuperar información filogenéticamente relevante en los tres dominios de vida.
En este artículo utilizamos el enfoque de red compleja como una herramienta teórica y metodológica para realizar un estudio comparativo de las enzimas relacionadas con la ruta metabólica de quitina en organismos existentes de los tres dominios de vida Archaea, Bacteria y Eukarya. Vamos a mostrar cómo la información derivada de la estructura de la red y las estadísticas se pueden utilizar para descubrir los módulos filogenéticamente útiles, la recuperación de información biológica de sonido mediante rutinas computacionales, sin utilizar suposiciones biológicas distintas de las incorporadas por BLAST.
Métodos
Base de datos y análisis comparativo
Nuestra base de datos primaria consta de secuencias de proteínas de genomas completamente secuenciados de organismos existentes que se pueden acceder libremente en el GenBank - NCBI [34] (http://www.ncbi.nlm.nih.gov/Genbank/). Los datos de proteínas proporcionan información esencial para la identificación de cualquier organismo dado, así como a estudios comparativos sobre los caminos evolutivos seguidos por diferentes organismos. Nuestro conjunto de datos, descargado de GenBank el 19 de mayo de 2007, contiene información de 1695 organismos. Hemos utilizado genomas completamente secuenciados para asegurar que todas las proteínas putativo y sus isoformas, si alguno, podría ser adecuadamente recuperado [35].
Desarrollamos procedimientos automáticos para filtrar los datos relacionados con proteínas en la base de datos completa descargada. En la primera etapa del proceso, se extrajo de la base de datos primaria la información relevante para el trabajo actual, a saber, la fuente molecular de secuencias de proteínas, su información estructural y funcional y la clasificación taxonómica de los organismos en los que se encuentran las proteínas . A continuación, se analizó la base de datos secundaria obtenida de esta manera, con el fin de identificar qué proteínas (es decir, las variantes de proteínas específicas del organismo que desempeñan la misma función biológica) están presentes en un gran número de organismos. Una manera de optimizar esta búsqueda, en el sentido de encontrar muchos organismos con la misma proteína, es pre-seleccionar una biomolécula básica, como la quitina, y buscar las enzimas que intervienen en su metabolismo. De hecho, nuestra búsqueda reveló que algunas de las proteínas con mayor número de entradas en la base de datos son las enzimas que participan en la síntesis metabólica o la degradación de la quitina. En la Tabla 1, se indican cinco de estas enzimas, que satisfacen la condición de estar presentes en más de 100 organismos del conjunto original de 1695 [33]. El número notablemente grande de registros bacterianos en la base de datos refleja el hecho de que hay organismos mucho más completamente secuenciados del dominio de las bacterias que de los dominios Archaea y Eukarya.
Tabla 1. Enzimas asociadas con la ruta metabólica de la quitina que satisfacen la condición de estar presentes en más de 100 organismos del conjunto de datos original de 1695, descargado de GeneBank el 19 de mayo de 2007.
Proteína | número E.C. | Dominio (#) |
Acetylglucosamine phosphate deacetylase | 3.5.1.25 | B(170), A(6) |
Glucosaminephosphate isomerase | 2.6.1.16 | E(23), B(285), A(5) |
Hexosaminidase | 3.2.1.52 | E(3), B(235) |
Phosphoglucoisomerase | 5.3.1.9 | E(16), B(472), A(12) |
UDP-acetylglucosamine pyrophosphorylase | 2.7.7.23 | E(2), B(324), A(2) |
Abreviaturas: E = Eukarya; B = Bacteria; A = Archaea; E. C. = Enzyme commission. Number in parentheses after the letters shows the total of organismic individual sequences per domain for each protein.
Después de identificar los conjuntos de organismos que poseen cada una de las proteínas enumeradas en la Tabla 1, se utilizó BLAST 2.2.15 [36], con una pareja de alineación, para realizar comparaciones cuantitativas entre las secuencias de proteínas que pertenecen a cada conjunto. A partir de las salidas BLAST, se utilizó en nuestro estudio el índice de similitud.
A continuación, se construyó una matriz de similitud S basada en el nivel de similitud entre secuencias de proteínas, donde cualquier elemento de la matriz de similitud Sij∈0,100] es el índice de similitud asociado con las secuencias de proteínas iyj. Dado que S no es necesariamente simétrico (Sij ≠ Sji), es importante considerar una versión simétrica S, donde los elementos están definidos por Sij = min (Sij, Sji).
Los programas se ejecutaron tanto en Linux como en WINDOWS. Las bases de datos se gestionaban a través de MySQL. Los scripts y los programas auxiliares se escribieron en PERL, BASH, C, C ++ y FORTRAN 77. Se utilizó PAJEK [37] para generar imágenes de red.
En la subsección Construcción de redes, describimos cómo utilizamos S para generar redes complejas dependiendo del umbral de similitud para cada una de las cinco proteínas mostradas en la Tabla 1. Las redes se analizaron por los métodos descritos en la subsección Análisis de red, mientras que los patrones modulares generados por el enfoque de la red compleja fueron interpretados biológicamente a la luz de las relaciones filogenéticas de los organismos.
Construcción de redes
Antes de definir las redes utilizadas en este estudio, recordemos que la caracterización más utilizada de las propiedades de red se basa en una serie de medidas [38], incluyendo: el número de nodos, N; el camino más corto d (i, j) entre los nodos i y j; la distancia mínima media <d> tomada sobre todos los pares de nodos; el diámetro de la red D, definido por el mayor valor de d (i, j); el coeficiente de agrupación de nodos ci, que mide cuán fuertemente están conectados los vecinos del nodo i; el coeficiente de agrupación en red C, correspondiente al valor medio sobre el ci; el grado del nodo, ki, definido por el número de enlaces de un nodo i y su valor medio sobre todos los nodos <k>; las relaciones funcionales p (k), la distribución de probabilidad de los nodos con k enlaces, y C (k), la distribución de los coeficientes de agrupación de nodos con respecto al grado del nodo k.En general, el paso clave en la construcción de una red de interacción del sistema es definir un criterio significativo para colocar un borde entre dos nodos, que debería ser capaz de identificar la presencia y la fuerza de la interacción entre ellos. En el presente estudio, el concepto de interacción corresponde a la similitud de proteínas, que se relaciona, a su vez, con las relaciones evolutivas entre los organismos que poseen las proteínas en juego [35]. Por lo tanto, la matriz de similitud S constituye el punto de partida para obtener las redes de similitud de proteínas (PSN).
En un PSN, los nodos corresponden a las secuencias de proteínas, y la presencia de bordes entre dos nodos depende de la similitud de las proteínas relacionadas. Cada red puede ser definida por su matriz de adyacencia (AM) M, para la cual cualquier elemento de matriz mi, j se pone a 1, si los nodos iyj están conectados, o a 0, si no. Tenga en cuenta que es sencillo cambiar de la descripción de la red AM a la descripción de la lista, en la que la red se caracteriza por una lista de L pares de nodos conectados por un enlace. Para ser más precisos, definamos una familia de red dependiente de un valor umbral σ, donde los elementos de su matriz de adyacencia M (σ) satisfacen:
(1)
Esta estrategia permite reemplazar una única red ponderada definida en términos de S por una familia de redes no ponderadas, que pueden analizarse mediante un gran número de métodos y medidas recientemente desarrollados [38] - [41].
Dependiendo del valor de σ, la red de interacción puede ser completamente distinta: para valores pequeños de σ está altamente conectada, mientras que para valores grandes de σ está mal conectada. Como veremos en la siguiente sección, hemos realizado una investigación detallada de la dependencia de las propiedades de la red sobre el valor de σ. Somos capaces de establecer un criterio bien definido para las elecciones óptimas de σ, en el sentido de que las redes generadas dentro de un rango relativamente estrecho de valores de σ muestran un patrón modular que se puede interpretar en términos filogenéticos, como se aborda en la sección de resultados y la discusión del presente documento.
Para afinar el valor de σ que hace posible desvelar el carácter modular, utilizamos el concepto de barrios de orden superior de un nodo [42]. Dos nodos i y j son vecinos de orden ℓ cuando el camino más corto entre ellos consiste en ℓ bordes. De esta manera, es posible definir un vecindario de orden ℓ de una red dada representada por M si conectamos todos los pares de nodos que están separados por ℓ. Tales redes se pueden definir en términos de M (ℓ), la AM correspondiente de orden ℓ. Los elementos de esta matriz se definen como:
(2)
El conocimiento del conjunto {M (ℓ)}, donde ℓ∈ [1, D], nos permite definir la siguiente matriz de vecindad
(3)
Los elementos de matriz , denotado como i, j, indican la ruta más corta entre los nodos i y j. Si la red está ensamblada por dos o más racimos disjuntos, la distancia d (i, j) entre dos nodos, digamos i y j, pertenecientes a dos racimos distintos está mal definida. Con el fin de eludir esta indeterminación y sigue operando con , fijamos i, j = 0 cuando esto ocurre. La importancia de para un análisis más profundo de la estructura de vecindad de una red se ha indicado en una serie de estudios previos [43] - [45]. La utilidad de los intervalos de proporcionar una visualización perspicaz de la estructura del vecindario por medio de diagramas del color a definir una distancia entre pares de redes [45]. Esta última medida puede utilizarse para identificar la similitud de dos redes. Para ello definimos la distancia δ (α, β) entre dos redes con el mismo número de nodos (α y β) mediante:
En un proceso de comparación general, el valor obtenido de δ (α, β) depende de la enumeración de nodos adoptada para ambas redes, aunque la topología de red no depende de ella. Por lo tanto, con el fin de proporcionar una medida útil, la definición (4) puede hacerse más precisa restringiendo el valor de δ (α, β) al valor mínimo asumido cuando se tienen en cuenta todas las enumeraciones de nodos posibles. ]). En el presente estudio, α y β son dos redes de proteínas distintas, generadas por un mismo conjunto de datos, pero donde los bordes se insertan de acuerdo con la ecuación. (1) cuando consideramos α = σ1 = σ y β = σ2 = σ + Δσ. En esta definición, suponemos que σ1 y σ2 son dos valores cercanos de σ. Dado que los nodos representan las mismas proteínas, no es necesario considerar diferentes enumeraciones, sino simplemente usar la misma enumeración para generar ambas redes. Si representamos δ (σ, σ + Δσ) como función de σ, resulta que el gráfico se caracteriza por la presencia de picos agudos. Esta serie de valores consecutivos de δ (σ, σ + Δσ) marca los puntos donde las redes obtenidas están a punto de sufrir importantes cambios topológicos [43], es decir, se dividen en comunidades separadas.
El valor de σ desempeña un papel clave en la definición de la red, que es similar a la probabilidad p para establecer un borde en una red aleatoria Erdös-Rényi. Variando el valor de p, la red cambia a un conjunto de bordes desconectados en p = 0 a un grafo completo cuando p = 1. Sin embargo, la situación más interesante ocurre en el vecindario de un valor crítico pcr≈1 / N, que está relacionado con la aparición de un grupo gigante que contiene la abrumadora mayoría de nodos.
Análisis de red
La investigación descrita en este documento se basa en las medidas definidas en la subsección anterior, así como en otras medidas que permitan la identificación de las propiedades de modularidad de la red, en su caso. Hablando francamente, un módulo en una red está compuesto por un subconjunto de nodos que están abrumadoramente más conectados entre sí que con otros nodos de red.El vínculo entre el grado bij entre los nodos i y j es el concepto básico dentro de la NGA para identificar las comunidades de la red. bij cuenta la fracción de todos los caminos más cortos que conectan los N (N-1) / 2 pares de nodos que pasan a través del enlace (i, j), proporcionando una medida cuantitativa de la relevancia de cada enlace para el tráfico optimizado de información de red. NGA procede por la eliminación secuencial de los bordes con mayor valor de bij [26]. Como resultado, es posible obtener un dendrograma de red en el que el número de ramas aumenta con el número r de enlaces eliminados. De esta manera, el dendrograma tiene una sola rama cuando r = 0 - en el caso de una red conectada - y N comunidades de nodo único cuando r = L. Cada valor de r informa el conjunto de nodos que todavía están conectados en un dado racimo. Dado que este es un programa que consume mucho tiempo, pistas más rápidas se han propuesto para analizar grandes redes [38] - [41], [46]. En el caso actual, sin embargo, podemos trabajar con este método, dado que nuestras redes no son demasiado grandes.
En nuestro análisis, hemos utilizado la NGA para identificar las comunidades existentes para cualquier valor de σ. Como las comunidades detectadas pueden ser bastante distintas de un valor de σ a otro, los resultados de NGA corroboran nuestra afirmación de que la identificación del valor óptimo de σ usando la distancia δ es el paso crucial de todo el procedimiento.
Para revelar la estructura modular de la red, NGA requiere una re-enumeración de nodos, un paso que también se incluye en nuestro procedimiento. Por lo tanto, es posible utilizar la forma re-enumerada de para visualizar la modularidad de las redes de similitud de proteínas con gráficos de color. La estructura de la modularidad se hace bastante clara cuando dibujamos grafos de color para los usando el mismo etiquetado de nodo obtenido en el paso final de la evaluación del dendrograma.
Queremos comentar además que el concepto de distancia δ (α, β) también puede usarse para seguir el proceso de eliminación del enlace dentro de NGA. En este caso particular, α y β identifican dos redes caracterizadas por tener m y m + 1 eliminado enlaces dentro de NGA (véase [26]]. Una gráfica de δ (m, m + 1) en función de m indica, por altos picos, aquellos eventos de eliminación de enlaces que corresponden a puntos de ramificación en el dendrograma. Como se muestra en [45], la distancia δ (m, m + 1) es capaz de indicar los puntos de ramificación de una manera mucho más clara en comparación, por ejemplo, la función de modularidad Q introducido por Newman y Girvan [26].
Como se muestra en la Tabla 1, hemos construido redes para cinco enzimas de la ruta metabólica quitina, que a su vez, diferentes clasificaciones para los organismos incluidos en la base de datos. Con el fin de evaluar cuantitativamente las posibles diferencias entre la clasificación proporcionada por las redes basadas en diferentes enzimas, digamos φ y ψ, se evaluó un índice de congruencia G (φ, ψ) de acuerdo con la siguiente receta: i) contamos el número R ( φ, ψ) de organismos comunes que están presentes simultáneamente en ambas redes; ii) buscamos la correspondencia entre las diferentes comunidades de φ y ψ que maximiza el número de organismos de correspondencia Q (φ, ψ), es decir, los organismos que se colocan en las mismas comunidades en las dos redes. Al hacer esto, debemos observar que, si el número de comunidades en φ y ψ son diferentes, es necesario hacer una correspondencia de dos o más comunidades de red φ a la misma comunidad en la red ψ. El valor G (φ, ψ) se define como la relación Q (φ, ψ) / R (φ, ψ).
Para concluir, la metodología que se aplica para generar los resultados presentados en la siguiente sección se puede resumir en los siguientes pasos:
- Seleccione las secuencias de proteínas con la información relevante para establecer el nivel de similitud entre las secuencias.
- Comparar las secuencias de proteínas utilizando BLAST y establecer la matriz de similitud n × n, siendo n el número de secuencias de proteínas.
- Generar un conjunto de redes asociadas con los valores elegidos del umbral de similitud (σ): los nodos corresponden a las secuencias de proteínas y se inserta un enlace entre un par de nodos si la similitud entre las proteínas es mayor o igual a σ. En el caso actual consideramos todos los valores enteros de σ en el intervalo [0,100].
- Configurar la matriz de barrio Un archivo externo que contiene una imagen, ilustración, etc.
- El nombre del objeto es pcbi.1001131.e015.jpg asociado con cada matriz de adyacencia.
- Calcular la distancia entre las redes δ (σ, σ + Δσ), y seleccionar para el análisis las redes críticas, para las cuales el δ (σ, σ + Δσ) asumió el valor máximo local.
- Para las redes críticas, aplique el algoritmo de Newman Girvan (NGA), quitando los bordes con el valor máximo de interlineado de borde hasta que no haya ningún enlace en absoluto.
- Con el fin de detectar la estructura modular de la red, configurar el dendrograma de la red crítica, así como la representación de color de la matriz vecinal.
- Calcular el índice de congruencia G (φ, ψ) para evaluar cuantitativamente las diferencias entre la clasificación proporcionada por las distintas redes.
Resultados / Discusión
Aquí, presentamos y discutimos los resultados relativos a la estructura modular de las redes de similitud de proteínas proporcionadas por nuestro método que son útiles para las inferencias filogenéticas. Para ser conciso, proporcionamos una discusión detallada de los resultados obtenidos para dos proteínas en la Tabla 1: UDP-acetilglucosamina pirofosforilasa (a la que nos referiremos a continuación como UDP) y acetilglucosamina fosfato desacetilasa (Acetilo). A continuación, se proporcionará un análisis comparativo de los resultados de las redes de las cinco proteínas investigadas en este estudio, con el fin de proporcionar pruebas de la clasificación consistencia del método.
Detección de comunidades
Ahora vamos a ilustrar cómo el comportamiento de δ (σ, σ + Δσ) proporciona una manera precisa de caracterizar la dependencia de las redes en σ (paso (E) en el resumen de la metodología presentada en la sección anterior). Este comportamiento se ilustra en la Figura 1a para la red de acetilo. Los resultados se obtuvieron haciendo que los valores de σ difieran en Δσ = 1%. El gráfico muestra tres máximos bien definidos de δ (σ, σ + Δσ) para σ en el intervalo [30%, 50%], el mayor de los cuales ocurre en σ = σmax = 42%. Estos resultados deben interpretarse de la siguiente manera: si σ = 0, la red consiste en un solo conglomerado completamente conectado. Al aumentar el valor de σ, restringimos el número de enlaces en la red, de modo que <d> aumenta junto con los valores de los elementos de la matriz. Un archivo externo que contiene una imagen, ilustración, etc.El nombre del objeto es pcbi.1001131.e005.jpg. Dado que la distancia δ (σ, σ + Δσ) hace una comparación de la influencia del cambio σ en d (i, j), un fuerte incremento en su valor indica que la eliminación del enlace está llevando a grandes cambios en los valores de algunos de d (i, j). Esto sugiere también que importantes cambios topológicos de red están a punto de ocurrir. Los eventos más drásticos, expresados por los primeros picos agudos, suelen estar relacionados con el desmontaje de un gran conjunto de nodos (módulo) del clúster original, completamente conectado. Esta red, que llamaremos red crítica, es seleccionada para ser analizada. Más adelante, los picos más pequeños indican la división de los módulos más grandes en los más pequeños. Esto ocurre cuando se eliminan los últimos enlaces que enlazan estos módulos a la red. El pico muy alto a σ = σmax = 42% indica que se produjo un gran cambio topológico a este valor particular.
Figura 1. El tamaño del componente conectado más grande (Nc) frente a la similitud de umbral σ: a) Acetilo; b) UDP.
El mismo escenario se observa en la Figura 1b para los resultados δ (σ, σ + Δσ) obtenidos de la red UDP. Obsérvese que los picos se producen a valores más altos de σ, en comparación con la red de acetilo, y se encuentra una estructura más rica de picos de tamaños comparables. A pesar de estos cambios cuantitativos, los dos gráficos muestran características similares, que representan los tipos de cambios estructurales en la red debido a la variación del valor de similitud de umbral.
La interpretación presentada de la influencia de σ en δ(σ,σ+Δσ) es corroborada por otras medidas de la red. Consideremos cómo Nc, el tamaño de la mayor componente conectada en la red, depende de σ. Esto se ilustra en las Figuras 2a y 2b para las redes de acetilo y UDP, respectivamente (véase también [35]). En ambas figuras se observa una rápida disminución de Nc en un intervalo relativamente estrecho de valores de σ. Este efecto está relacionado con el desprendimiento de grandes grupos de nodos del clúster principal a medida que aumenta la restricción en el establecimiento de enlaces entre nodos. Como se ha anticipado en la sección anterior, las curvas siguen las mismas características cualitativas que las de las redes de Erdös-Rényi en función de la probabilidad de unión p cercana a pc. Las figuras S1 y S2 ilustran cómo δ y Nc dependen de p para redes con el tamaño promedio de las PSN analizadas (N = 256) y también en el límite de N grande (véase también el Texto S1).
Figura 2. La distancia δ (σ, σ + Δσ) entre redes para sucesivas similitudes en el valor máximo, con Δσ = 1, en el caso de: a) Acetilo en σ = σmax ...
A partir de ahora, consideraremos los dendrogramas, las matrices vecinales y la representación usual de la red asociada con las proteínas enumeradas en la Tabla 1 para los valores de σ de tal manera que la distancia mostrada en las Figuras 1a y 1b asume un valor máximo. En cuanto a UDP, las cifras no se muestran, ya que ya se presentaron en un documento anterior [35], en el que el criterio para establecer el rango de σ que revela la estructura modular de la red se basa en la región de transición asociada con C y <d>. Es importante llamar la atención sobre el hecho de que el criterio basado en la distancia δ (σ, σ + Δσ) revela de manera mucho más precisa, en comparación con C y <d>, el valor de σ en el que la variable modular estructura.
La influencia de σ sobre la estructura de la red se puede apreciar mejor comparando dos dendrogramas en la Figura 3 para las redes de acetilo en σ = 30% y σ = σmax = 42%. En la primera situación (Figura 3a), el gran número de aristas no permite percibir la estructura modular del sistema. En consecuencia, la NGA basada en bij se caracteriza por un desprendimiento progresivo de pequeños grupos de nodos del grupo gigante original. A su vez, el dendrograma para σ = σmax (Figura 3b) revela una gran cantidad de estructura. Comienza, en r = 0, con algunos grupos ya aislados, correspondientes a los módulos que se separaron en σ = σmax, σ = 45% y σ = 48%. A continuación, observamos la separación de un grupo grande con un valor bajo de r, que es causado por la eliminación de los pocos enlaces con nodos de conexión de grado de intersección muy grandes de los diferentes módulos. Este desprendimiento de racimo es exactamente el mismo producido al aumentar el valor de σ al 42%, causando el δ (σ, σ + Δσ) máximo en la Figura 2a. La eliminación subsiguiente de los enlaces conduce a una ramificación adicional en el dendrograma, algunos de los cuales pueden estar relacionados con los máximos locales en la región σ> σmax del gráfico δ (σ, σ + Δσ) × σ.
Figura 3. El dendrograma producido por la eliminación sucesiva de los eslabones con mayor valor de intermediación en el caso de Acetilo: a) para σ = 30% <42%; b) para σ = σmax = 42% que revela la estructura modular de la red.
Los dendrogramas evaluados a valores σ intermedios, por ejemplo, σ = 40%, son capaces de identificar claramente los módulos de red correspondientes a los cúmulos separados del grupo gigante seleccionando σ cerca de este valor pico a σmax. Sin embargo, la imagen que emerge para aquellos grupos que se separan a valores más grandes es aún bastante borrosa.
Como se anticipó en la sección anterior, reunamos resultados suplementarios en la construcción del dendrograma para mostrar la estructura modular de la red con la ayuda de la matriz vecinal. . Para evitar los cruces de línea en el dendrograma, el orden en el que los nodos aislados se dibujan para el valor más grande de r no necesariamente sigue a la numeración original. Esta ordenación define un nuevo etiquetado de nodo que deja intacta la topología de red. Si ahora usamos un código de color para representar un archivo externo que contiene una imagen, ilustración, etc.
con nodos reetiquetados, la estructura de modularidad se vuelve bastante clara, como se muestra en la Figura 4. Corriendo de azul (vecinos inmediatos) a rojo (nodos más alejados), los colores indican claramente cómo los nodos son agrupados en módulos, así como la existencia de subconjuntos dentro de los módulos y la distancia media entre nodos en módulos distintos. Tenga en cuenta que utilizamos el gris para indicar el valor d (i, j) = 0, de modo que las comunidades que han sido desvinculadas del grupo principal a valores inferiores de σ aparecen aisladas unas de otras en el diagrama de color. Identificamos 11 módulos (C1-C11), cuya importancia biológica se tratará a continuación. Observamos también una serie de nodos aislados o pequeños sub-gráficos que no constituyen un módulo por sí solo. La figura 4 muestra el gráfico de colores para la estructura de vecindad de la red de acetilo en σ = σmax. Es relativamente fácil inferir la estructura de los dendrogramas de la posición de los módulos. Es importante destacar que ambos gráficos no sólo muestran la estructura modular de la red, sino que también muestran claramente cómo las comunidades recuperadas están relacionadas entre sí.
Figura 4. La matriz de vecindad con los 11 módulos para Acetilo en σ = σmax = 42%.
La información obtenida a partir del procedimiento descrito también se puede usar para la representación de red usual formada por nodos y enlaces. En la figura 5, dibujamos tal representación para la red de acetilo en σ = σmax. Aquí, los colores utilizados para dibujar los nodos representan las diferentes comunidades a las que pertenecen. El conjunto de nodos aislados y pequeños sub-gráficos se caracteriza por la etiqueta C12.
Figura 5. La representación en red estándar de Acetilo en σ = σmax = 42% (utilizando el paquete de Pajek) con las comunidades que se indicaron en la Figura 4.
Esta discusión muestra que el método propuesto nos permite encontrar las redes más relevantes, es decir, aquellas en valores críticos de σcr. Estos valores, donde la topología de la red cambia abruptamente, corresponden a opciones óptimas entre la eliminación de bordes entre comunidades (efecto de ruido) y la preservación de enlaces intra-módulos (información valiosa). Nos permiten identificar comunidades distintas, que pueden estar relacionadas, entonces, con los conjuntos de organismos a los que pertenecen las proteínas (ver también las figuras S3, S4, S5, S6 y S7). Observamos que σmax corresponde al σcr particular, donde δ(σcr,σcr+Δσ) alcanza el valor más alto.
En la Tabla 2 se muestran los valores de σmax, el número de nodos y el número de comunidades obtenidas para cada una de las cinco redes de enzimas. En el caso de UDP, observamos el valor σmax más alto, indicando que, en el caso de esta proteína, el desmontaje del clúster original, completamente conectado, ocurre en valores más altos de similitud. Se trata de una proteína con un papel central en la síntesis de quitina y, por consiguiente, no es sorprendente que demuestre el mayor grado de conservación de secuencias a lo largo de la evolución, entre las proteínas estudiadas en este trabajo. Esto sugiere características adicionales del método discutido aquí, en el sentido de que existe una relación entre el valor σmax, el grado de conservación de las secuencias de proteínas (una característica estructural) y su centralidad en las redes metabólicas (una característica funcional).
Tabla 2. Resumen de los resultados para cada una de las cinco redes de enzimas: valores de σmax correspondientes a los picos más grandes de las gráficas δ × σ; número de nodos; número de organismos distintos; y el número de comunidades distintas.
Proteína | σmax | # nodos | # organismos | # comunidades |
Acetylglucosamine phosphate deacetylase | 42 | 176 | 88 | 12 |
Glucosaminephosphate isomerase | 40 | 313 | 209 | 5 |
Hexosaminidase | 37 | 238 | 67 | 10 |
Phosphoglucoisomerase | 37 | 501 | 332 | 6 |
UDP-acetylglucosamine pyrophosphorylase | 51 | 327 | 245 | 7 |
Interpretación biológica
Es relevante notar que, hasta este punto, todos los resultados discutidos se han obtenido sin ningún conocimiento previo de la clasificación filogenética. Sólo construimos rutinas informáticas para proceder con el análisis de datos, construcción de redes y análisis de redes, lo que conduce a la identificación de la comunidad.Si ahora interconectamos los resultados discutidos anteriormente con datos taxonómicos y filogenéticos, la información biológica de sonido puede ser recuperada rápidamente por estas rutinas computacionales, sin utilizar suposiciones biológicas distintas a las incorporadas por BLAST en la producción de sus resultados.
Los módulos de acetilo que se pueden identificar en σ = σmax (Figura 4) corresponden, de manera clara y bastante precisa, a los filos y / o clases bacterianas (e incluso órdenes, en algunas comunidades). Como ya se ha comentado, restringimos nuestro análisis a los phyla debido al hecho de que la mayoría de las secuencias de proteínas en la base de datos se derivaron de este dominio biológico. Todos los representantes de las cianobacterias formaron un solo grupo exclusivo recuperado en el módulo C8 (a). Además, hay seis comunidades [C3 (a), C4 (a), C5 (a), C6 (a), C7 (a), C10 (a), C11 (a)] que están formadas exclusivamente por representantes de uno Fila bacteriana o clase y, en algunos casos, orden: comunidad C3 (a) está formada exclusivamente por especies del mismo orden bacteriano (Mollicutes); comunidad C4 (a) están compuestas de representantes de Actinobacteria, bacterias Gram-positivas de monoderma Gram + altas, de la misma clase (Actinomycetales); la comunidad C5 (a) incluye exclusivamente alfa-proteobacteria de la clase Rhodobacterales; y la comunidad C11 (a) contiene solo especies de Firmicutes, bacterias monodermas Gram + positivas G + C, pertenecientes a las órdenes muy relacionadas Bacillales y Lactobacillales. A pesar de no estar completamente compuestos por representantes de la misma fila, 18 de los 20 nodos (90%) de la comunidad C2 (a) son de la misma bacteria (Proteobacteria) y 16 (80%) pertenecen a las clases de beta más relacionadas filogenéticamente - y gamma-proteobacterias [47].
Cuatro módulos se recuperan en la red de glucosamina fosfato isomerasa (gluco) a σ = σmax = 40% y, como en el caso de UDP y Acetilo, la mayoría de ellos corresponden a filas bacterianas individuales y / o clases (e incluso órdenes) C2 (g) está compuesto exclusivamente por representantes bacterianos de phyla Firmicutes de sólo dos clases: Bacillales y Lactobacillales; la comunidad C4 (g) está completamente formada por secuencias del orden Alteromonadales de la clase gamma-proteobacteria; y 21 de las 23 secuencias (91,3%) de la comunidad C3 (g) son representantes de la phyla Proteobacteria (Figuras S5a, S6a y S7a).
Un total de 9 módulos se producen en la red de Hexosaminidasa (hexo) en σ = σmax = 37% y tres de ellos, que contienen el mayor número de nodos, están formados casi exclusivamente por una fila o clase bacteriana: Comunidad C1 (h) se compone de 97 nodos, de los cuales 95 (98%) son representantes de phyla Proteobacteria; la comunidad C2 está formada casi exclusivamente por especies de la clase alfa-proteobacteria; y la comunidad C4 (h) contiene sólo miembros de la más filogenéticamente relacionados con las clases de beta y gamma-proteobacteria [47]. Las demás comunidades están compuestas por pocos nodos que corresponden a especies de filas distintas (Figuras S5b, S6b y S7b).
Cinco módulos se producen en la red Phosphoglucoisomerase (fosfo) a σ = σmax = 37% y, de forma similar a las otras enzimas de la ruta metabólica de quitina, existe una correspondencia más bien estricta entre estos módulos y phyla bacteriana. La comunidad C1 (p) está compuesta principalmente por representantes cianobacterianos (71%), la comunidad C2 (p) está formada casi exclusivamente por especies de Firmicutes (96,4%) y la comunidad C5 (p), con 328 nodos, es principalmente representado por secuencias de proteobacterias (76%) (figuras S5c, S6c y S7c).
Finalmente, UDP se puede descomponer en 6 módulos claramente identificados C1 (u) -C6 (u), como se ha demostrado anteriormente [35]. C1 (u) está compuesta por 16 nodos, 14 (87,5%) de los cuales son secuencias de proteínas de representantes de la cianobacteria phylum. Uno de los nodos corresponde a una secuencia de una especie de Deinococcus-Thermus, un grupo de bacterias diderm Gram negativos de extremófilos que está estrechamente relacionado con Cyanobacteria [48]. C2 (u) contiene 135 nodos y, entre ellos, 132 (97,8%) son secuencias de especies de beta-y gamma-proteobacteria, que se consideran más estrechamente relacionados entre sí que a cualquier otra clase proteobacterial [47] . C3 (u) está enteramente constituido por 80 secuencias de la especie Firmicutes, de tres órdenes filogenéticamente relacionados: Bacillales, Lactobacillales y Clostridiales. C4 (u) contiene 33 vértices, de los cuales 31 (93,4%) son secuencias del supuesto grupo monofilético de alfa-proteobacteria [47]. C5 (u) está completamente formado por secuencias de Actinobacteria, todas del mismo orden: Actinomycetales. Finalmente, C6 (u) comprende sólo nueve nodos del grupo monofilético putativo de epsilon-proteobacteria [47], todos del mismo orden: Campylobacterales.
Por lo general, todos los phyla bacterianos principales (Actinobacteria, Cyanobacteria, Firmicutes, Proteobacteria) y, en algunos casos, también algunas clases bacterianas (Proteobacterias alfa, beta y gamma) correspondieron totalmente (100%) o con un número sustancial de los representantes (> 70%), a los módulos formados como resultado del complejo análisis en red de las proteínas de la ruta metabólica de la quitina. Incluso cuando había pocos genomas completamente secuenciados que exhiben una de las proteínas estudiadas, todos los representantes de los mismos phyla se agruparon generalmente en la misma comunidad.
En cada una de las redes de proteínas, los nodos con los números de grado más alto, o hubs, se produjo dentro de la misma comunidad. Aunque estos hubs no eran los mismos en las cinco diferentes redes de proteínas, muchos de ellos eran de la misma especie bacteriana para distintas proteínas, p. Yersinia pestis para gluco, hexo y UDP; Escherichia coli para acetilo, hexo y UDP. En contraste con todas las otras proteínas, los centros en la red del gluco eran principalmente representantes archeal.
Conclusiones
Este trabajo relata un método basado en la teoría de la red compleja que puede recuperar información sobre las relaciones evolutivas entre los organismos, tal como se expresa en las similitudes y diferencias entre sus secuencias de proteínas, que es útil para la inferencia filogenética. La red de interacción del sistema construida se basa en la similitud de proteínas como el criterio significativo para colocar un borde entre dos nodos. Cada nodo de la red es una secuencia de proteína específica y la colocación de los bordes depende de un valor umbral σ, relacionado con la similitud de proteínas requerida para tal colocación.Se realizó un estudio comparativo de las enzimas relacionadas con la ruta metabólica de quitina en genomas completamente secuenciados de organismos existentes de los tres dominios de vida, Archaea, Bacteria y Eukarya, con el fin de mostrar cómo la información derivada de la estructura de la red y las estadísticas pueden descubrir patrones filogenéticos. Los resultados referentes a la clasificación filogenética discutidos en este artículo se basan principalmente en el carácter modular de las redes de similitud de proteínas. Una vez encontrado el valor crítico de σ (σcr) usando la medida de distancia δ (α, β), podemos elegir la red óptima para la detección de comunidades, es decir, aquella en la que la topología de la red cambia abruptamente, la eliminación de bordes comunitarios (efecto de ruido) y la preservación de enlaces intra-módulos (información valiosa). Aunque la NGA puede utilizarse para identificar comunidades para cualquier valor de σ, es en esta red óptima donde se pueden obtener los mejores resultados con respecto a la identificación de comunidades distintas, que pueden relacionarse, a su vez, con los conjuntos de organismos al que pertenecen las proteínas.
Con este método, la información biológica sonora puede recuperarse rápidamente mediante rutinas computacionales, sin utilizar supuestos biológicos distintos de los incorporados por BLAST. Por lo general, todos los principales phyla bacterianos y, en algunos casos, también algunas clases bacterianas correspondieron en gran medida (70% -100%) a los módulos obtenidos mediante el análisis de red compleja de las proteínas de la ruta metabólica de la quitina. Por lo tanto, el método aquí descrito puede usarse como una poderosa herramienta para revelar patrones de relación entre los organismos con los que tenemos conocimiento y los organismos sobre los que no tenemos mucha información disponible.
Hemos proporcionado resultados que muestran la consistencia interna de los resultados obtenidos a través de nuestro método para los datos correspondientes a cinco enzimas diferentes. A pesar de los diferentes índices de cambios experimentados por estas enzimas durante la evolución, encontramos 84% de concordancias para la pertinencia de la comunidad cuando se realizaron comparaciones entre los resultados. Por otra parte, una comparación preliminar entre los resultados obtenidos con el enfoque de red compleja presentado aquí y los resultados de métodos basados en criterios bayesianos, de distancia, probabilidad y parsimonia sugiere que la metodología presentada en este documento es tan confiable como estos métodos comúnmente utilizados.
Hay, sin embargo, algunas ventajas posibles del método de red compleja cuando se compara con estos otros métodos. Una de ellas se refiere al hecho de que podemos determinar el valor de σ en el que la red compleja recupera la mayor parte de la información filogenética disponible en el conjunto de datos. En segundo lugar, aunque todos estos métodos usan matrices de sustitución -incluidas las nuestras-, el complejo método de red no depende de patrones inferidos del estudio detallado de ningún organismo.
Los próximos pasos en nuestro programa de investigación serán la aplicación del método presentado aquí a nuevos conjuntos de secuencias de proteínas, una comparación más completa de los resultados obtenidos a través de nuestro enfoque de red compleja con el resultado de otros métodos utilizados para recuperar información de datos moleculares que es útil para la inferencia filogenética, y la aplicación de nuestro método para abordar las preguntas de investigación pertinentes dentro de diferentes campos de la biología.
Referencias
1. Silva E, Stumpf MPH. Complex networks and simple models in biology. J R Soc Interface. 2005;2:419–430. [PMC free article] [PubMed]2. Strogatz SH. Exploring complex networks. Nature. 2001;410:268–276. [PubMed]
3. Barabási AL, Oltvai ZN. Network biology: Understanding the cell's functional organization. Nat Rev Genet. 2004;5:101–13. [PubMed]
4. Amaral LAN, Ottino JM. Complex networks: Augmenting the framework for the study of complex systems. Eur Phys J B. 2004;38:147–162.
5. Milo R, Shen-Orr S, Itzkovitz S, Kashtan N, Chklovskii D, Alon U. Network motifs: Simples building blocks of complex networks. Science. 2002;298:824–827. [PubMed]
6. Bahn A, Galas DJ, Dewey TG. A duplication growth model of gene expression networks. Bioinformatics. 2002;18:1486–1493. [PubMed]
7. Gavin AC, Bösche M, Krause R, Grandi P, Marzioch M, et al. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature. 2002;415:141–147. [PubMed]
8. Gavin AC, Aloy P, Grandi P, Krause R, Boesche M, et al. Proteome survey reveals modularity of the yeast cell machinery. Nature. 2004;440:631–6. [PubMed]
9. Bersini H, Lenaerts T, Santos FC. Growing biological networks: Beyond the gene-duplication model. J Theor Biol. 2006;241:488–505. [PubMed]
10. Boone C, Bussey H, Andrews BJ. Exploring genetic interactions and networks in yeast. Nat Rev Genet. 2007;8:437–449. [PubMed]
11. Pieroni E, van Bentem SDLF, Mancosu G, Capobianco E, Hirt H, et al. Protein networking: Insights into global functional organization of proteomes. Proteomics. 2008;8:799–816. [PubMed]
12. Castro-e-Silva A, Weber G, Machado RF, Wanner EF, Guerra-Sá R. Identity transposon networks in D. melanogaster. In: Bazzan ALC, Craven M, Martins NF, editors. BSB 2008, LNBI 5167. Berlin: Springer; 2008. pp. 161–164.
13. Felsenstein J. Inferring phylogenies. Sunderland, MA: Sinauer; 2004. 580
14. Fortunato S. Community detection in graphs. Phys Rep. 2010;486:75–174.
15. Parter MA, Onnela J-P, Mucha P. Communities in Networks. Not Am Math Soc. 2009;56:1164–1166.
16. Schaeffer SE. Graph Clustering. Comput Sci Rev. 2007;1:27–64.
17. Danon L, Diaz-Guilera A, Duch JD, Arenas A. Comparing community structure identification. J Stat Mech Theory E. 2005:P09008.
18. Kovács IA, Palotai R, Szalay MS, Csermely P. Community landscapes: an integrative approach to determine overlapping network module hierarchy, identify key nodes and predict network dynamics. PLOS One. 2010;5:e12528. [PMC free article] [PubMed]
19. Van Dongen S. Graph Clustering by Flow Simulation. Amsterdam: Centre for Mathematics and Computer Science; 2000.
20. Van Dongen S. Graph Clustering Via a Discrete Uncoupling Process. SIAM J Matrix Anal A. 2008;30:121–141.
21. Enright AJ, van Dongen S, Ouzonis CA. An efficient algorithm for large-scale detection of protein families. Nucleic Acids Res. 2002;30:1575–1584. [PMC free article] [PubMed]
22. Li L, Stoeckert CJ, Jr, Roos DS. Genome Res. 2003;13:2178–2189. [PMC free article] [PubMed]
23. Robbertse B, Reeves JB, Schoch CL, Spatafora JW. A phylogenomic analysis of the Ascomycota. Fungal Genet. Bio. 2006;43:715–725. [PubMed]
24. Harlow TJ, Gogarten JP, Ragan MA. A hybrid clustering approach to recognition of protein families in 114 microbial genomes. BMC Bioinformatics. 2004;5:45. [PMC free article] [PubMed]
25. Tetko IV, Facius A, Ruepp A, Mewes HW. Super paramagnetic clustering of protein sequences. 82BMC Bioinformatics. 2005;6 [PMC free article] [PubMed]
26. Newman MEJ, Girvan M. Finding and evaluating community structure in networks. Phys Rev E. 2004;69:026113. [PubMed]
27. Bowmann SM, Free SJ. The structure and synthesis of the fungal cell wall. Bioessays. 2006;28:799–808. [PubMed]
28. Hanlon RT, Messenger JB. Cephalopod behaviour. Cambridge: Cambridge University Press.; 1996. 232
29. Ax P. Multicellular animals: A new approach to the phylogenetic order in nature. Berlin: Springer.; 1996. 225
30. Merzendorfer H. Insect chitin synthases: A review. J Comp Physiol B. 2006;176:1–15. [PubMed]
31. Mio T, Yabe T, Arisawa M, Yamada-Okabe H. The Eukaryotic UDP N-acetylglucosamine pyrophosphorylases: Gene cloning, protein expression, and catalytic mechanism. J Biol Chem. 1998;273:14392–14397. [PubMed]
32. Lagorce A, Berre-Anton V, Aguilar-Uscanga B, Martin-Yken H, Dagkessamanskaia A, François J. Involvement of GFA1, which encodes glutamine–fructose-6-phosphate amidotransferase, in the activation of the chitin synthesis pathway in response to cell-wall defects in Saccharomyces cerevisiae. Eur J Biochem. 2002;269:1697–1707. [PubMed]
33. Pirovani CP, Hora-Júnior BT, Oliveira BM, Lopes MA, Dias CV, et al. Knowledge discovery in genome database: The chitin metabolic pathway in Crinipellis perniciosa (Stahel)Singer. In: Mondaini R, editor. Proceedings of IV Brazilian Symposium on Mathematical and Computational Biology/I International Symposium on Mathematical and Computational Biology. Rio de Janeiro: E-Papers Serviços Editoriais LTDA. v. 1; 2005. pp. 122–139.
34. Benson DA, Boguski MS, Lipman DJ, Ostell J, Ouellette BF, et al. Genbank. Nucleic Acids Res. 1999;27:12–17. [PMC free article] [PubMed]
35. Góes-Neto A, Diniz MVC, Santos LB, Pinho ST, Miranda JG, et al. Comparative protein analysis of the chitin metabolic pathway in extant organisms: A complex network approach. Bio Systems. 2010;101:59–66. [PubMed]
36. Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, et al. Gapped BLAST and PSI-BLAST: A new generation of protein database search programs. Nucleic Acids Res. 1997;25:3389–3402.[PMC free article] [PubMed]
37. Batagelj V, Mrvar A. Pajek - Analysis and visualization of large networks. In: Jünger M, Mutzel P, editors. Graph drawing software. Berlin: Springer; 2003. pp. 77–103.
38. Albert R, Barabási AL. Statistical mechanics of complex networks. Rev Mod Phys. 2002;74:47–97.
39. Newman MEJ. The Structure and Function of Complex Networks. SIAM Review. 2003;45:167–256.
40. Boccaletti S, Latora V, Moren Y, Chavez M, Hwang D-U. Complex Networks: structure and dynamics. Phys Rep. 2006;424:175–308.
41. Costa LF, Rodrigues FA, Travieso G, Villas-Boas PR. Characterization of complex networks: A survey of measurements. Advances in Physics. 2007;56:167–242.
42. Andrade RFS, Miranda JGV, Lobão TP. Neighborhood properties of complex networks. Phys Rev E. 2006;73:046101. [PubMed]
43. Andrade RFS, Pinho STR, Lobão TP. Identification of community structure in networks using higher order neighborhood concepts. Int J Bifurc Chaos. 2009;19:2677–2685.
44. Andrade RFS, Miranda JGV, Pinho STR, Lobão TP. Characterization of complex networks by higher order neighborhood properties. Eur Phys J B. 2008a;61:247–256.
45. Andrade RFS, Miranda JGV, Pinho STR, Lobão TP. Measuring distances between complex networks. Phys Lett A. 2008b;372:5265–5269.
46. Newman MEJ. Fast algorithm for detecting community structure in networks”. Phys Rev E. 2004;69:066133. [PubMed]
47. Gupta RS, Sneath PHA. The phylogeny of Proteobacteria: Relationships to other eubacterial phyla and eukaryotes. J Mol Evol. 2007;64:90–100. [PubMed]
48. Gupta RS. The branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins. Inter Microbiol. 2001;4:187–202. [PubMed]
49. Allen BL, Steel M. Subtree transfer operations and their induced metrics on evolutionary trees. Ann Comb. 2001;5:1–15.
50. Bordewich M, Semple C. Computing the minimum number of hybridization events for a consistent evolutionary history. Discrete Appl Math. 2007;155:914–928.
51. Swofford DL. PAUP*: Phylogenetic Analysis Using Parsimony (*and Other Methods), Version 4.Sunderland: Sinauer Associates; 1998.
52. Roquist F, Huelsenbeck JP. MRBAYES 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 2003;19:1572–1574. [PubMed]