Análisis de redes sociales: Análisis de red de correlaciones ponderadas

sábado, 29 de diciembre de 2018

Análisis de red de correlaciones ponderadas

Redes de correlación ponderadas

El análisis de red de correlación ponderada, también conocido como análisis de red de coexpresión de genes ponderados (WGCNA), es un método de minería de datos ampliamente utilizado, especialmente para el estudio de redes biológicas basadas en correlaciones de pares entre variables. Si bien se puede aplicar a la mayoría de los conjuntos de datos de alta dimensión, se ha utilizado más ampliamente en aplicaciones genómicas. Permite definir módulos (clústeres), concentradores intramodulares y nodos de red con respecto a la pertenencia a módulos, estudiar las relaciones entre los módulos de coexpresión y comparar la topología de red de diferentes redes (análisis diferencial de redes). El WGCNA se puede usar como una técnica de reducción de datos (relacionada con el análisis factorial oblicuo), como un método de agrupamiento (agrupamiento difuso), como un método de selección de características (por ejemplo, como método de detección de genes), como marco para integrar datos complementarios (genómicos) ( basado en correlaciones ponderadas entre variables cuantitativas) y como una técnica de exploración de datos. [1] Aunque WGCNA incorpora técnicas tradicionales de exploración de datos, su lenguaje de red intuitivo y su marco de análisis trascienden cualquier técnica de análisis estándar. Debido a que utiliza una metodología de red y es adecuada para integrar conjuntos de datos genómicos complementarios, puede interpretarse como un método de análisis de datos genéticos de sistemas biológicos o sistemas. Al seleccionar los centros intramodulares en los módulos de consenso, WGCNA también da lugar a técnicas de metanálisis basadas en redes. [2]

Historia

El método WGCNA fue desarrollado por Steve Horvath, profesor de genética humana en la Escuela de Medicina David Geffen en UCLA y de bioestadística en la Escuela de Salud Pública Fielding de la UCLA y sus colegas en la UCLA, y (ex) miembros del laboratorio (en particular Peter). Langfelder, Bin Zhang, Jun Dong). Gran parte del trabajo surgió de colaboraciones con investigadores aplicados. En particular, las redes de correlación ponderadas se desarrollaron en conversaciones conjuntas con los investigadores del cáncer Paul Mischel, Stanley F. Nelson y los neurocientíficos Daniel H. Geschwind, Michael C. Oldham (según la sección de reconocimiento en [1]). Existe una vasta literatura sobre redes de dependencia, redes de escala libre y redes de coexpresión.

Comparación entre redes de correlación ponderadas y no ponderadas

Una red de correlación ponderada puede interpretarse como un caso especial de una red ponderada, una red de dependencia o una red de correlación. El análisis de la red de correlación ponderada puede ser atractivo por los siguientes motivos.

La construcción de la red (basada en un umbral suave del coeficiente de correlación) preserva la naturaleza continua de la información de correlación subyacente. Por ejemplo, las redes de correlación ponderadas que se construyen sobre la base de correlaciones entre variables numéricas no requieren la elección de un umbral duro. La información dicotomizante y el umbral (difícil) pueden llevar a la pérdida de información. [3]
La construcción de la red tiene resultados altamente robustos con respecto a las diferentes opciones de umbral suave. [3] Por el contrario, los resultados basados en redes no ponderadas, construidas por el umbral de una medida de asociación por pares, a menudo dependen en gran medida del umbral.
Las redes de correlación ponderadas facilitan una interpretación geométrica basada en la interpretación angular de la correlación, capítulo 6 en. [4]
Las estadísticas de red resultantes pueden utilizarse para mejorar los métodos estándar de extracción de datos, como el análisis de conglomerados, ya que las medidas de similitud (des) a menudo se pueden transformar en redes ponderadas; [5] ver capítulo 6 en [4].
WGCNA proporciona estadísticas de conservación de módulos potentes que pueden usarse para cuantificar si se pueden encontrar en otra condición. Además, las estadísticas de conservación de módulos permiten estudiar las diferencias entre la estructura modular de las redes. [6]
Las redes ponderadas y las redes de correlación a menudo se pueden aproximar mediante redes "factorizables". [4] [7] Tales aproximaciones a menudo son difíciles de lograr para redes dispersas y no ponderadas. Por lo tanto, las redes ponderadas (de correlación) permiten una parametrización parsimoniosa (en términos de módulos y membresía de módulos) (capítulos 2, 6 en [1]) y [8].

Método

Primero, uno define una medida de similitud de coexpresión de genes que se usa para definir la red. Denotamos la medida de similitud de coexpresión de genes de un par de genes i y j por

s_{ij}

. Muchos estudios de coexpresión utilizan el valor absoluto de la correlación como una medida de similitud de coexpresión sin signo,

s_{{ij}}^{{unsigned}}=|cor(x_{i},x_{j})|

donde los perfiles de expresión génica

x_{i}

x_{{j}}

consisten en la expresión de los genes i y j a través de múltiples muestras. Sin embargo, el uso del valor absoluto de la correlación puede ofuscar información biológicamente relevante, ya que no se hace distinción entre la represión de genes y la activación. En contraste, en las redes firmadas, la similitud entre los genes refleja el signo de la correlación de sus perfiles de expresión. Para definir una medida de coexpresión firmada entre los perfiles de expresión génica

x_{i}

x_{{j}}

, se puede usar una transformación simple de correlación:

s_{{ij}}^{{signed}}=0.5+0.5cor(x_{i},x_{j})

Como la medida no firmada sijunsigned

s_{{ij}}^{{unsigned}}

, la similitud firmada

s_{{ij}}^{{signed}}

toma un valor entre 0 y 1. Tenga en cuenta que la similitud no firmada entre dos genes expresados de manera opuesta (

cor(x_{i},x_{j})=-1

es igual a 1 mientras que es igual a 0 para la similitud signada. De manera similar, mientras que la medida de coexpresión sin firmar de dos genes con correlación cero permanece en cero, la similitud con signo es igual a 0.5.

A continuación, se usa una matriz de adyacencia (red),

A=[a_{{ij}}]

, se utiliza para cuantificar la fuerza con que los genes están conectados entre sí. A se define mediante el umbral de la matriz de similitud de coexpresión

S=[s_{{ij}}]

. El umbral 'duro' (dicotomización) la medida de similitud S da como resultado una red de coexpresión de genes no ponderada. Específicamente, una adyacencia de red no ponderada se define como 1 si

s_{{ij}}>\tau

y 0 en caso contrario. Debido a que el umbral difícil codifica las conexiones genéticas de forma binaria, puede ser sensible a la elección del umbral y resultar en la pérdida de información de coexpresión. [3] La naturaleza continua de la información de coexpresión se puede preservar empleando un umbral suave, que da como resultado una red ponderada. Específicamente, WGCNA utiliza la siguiente función de potencia para evaluar la fuerza de su conexión:

{\textstyle a_{{ij}}=(s_{{ij}})^{\beta }}

,

donde la potencia β es el parámetro de umbral suave. Los valores predeterminados β = 6 y β = 12 se utilizan para redes sin firma y firmadas, respectivamente. Alternativamente, se puede elegir β utilizando el criterio de topología sin escala que equivale a elegir el valor más pequeño de β, de manera que se alcance la topología libre de escala aproximada. [3]

Dado que

log(a_{{ij}})=\beta log(s_{{ij}})

, la adyacencia de red ponderada está relacionada linealmente con la similitud de coexpresión en una escala logarítmica. Tenga en cuenta que un β de alta potencia transforma altas similitudes en adyacencias altas, mientras que empuja similitudes bajas hacia 0. Dado que este procedimiento de umbral suave aplicado a una matriz de correlación de pares conduce a una matriz de adyacencia ponderada, el análisis que sigue es Se denomina análisis de red de coexpresión de genes ponderados.

Un paso importante en el análisis centrado en el módulo es agrupar genes en módulos de red utilizando una medida de proximidad de red. En términos generales, un par de genes tiene una alta proximidad si está estrechamente interconectado. Por convención, la proximidad máxima entre dos genes es 1 y la proximidad mínima es 0. Normalmente, el WGCNA usa la medida de superposición topológica (TOM) como proximidad. [9] [10] que también se puede definir para redes ponderadas. [3] El TOM combina la adyacencia de dos genes y las fortalezas de conexión que estos dos genes comparten con otros genes de "terceros". El TOM es una medida altamente robusta de interconexión de red (proximidad). Esta proximidad se utiliza como entrada del agrupamiento jerárquico de enlaces promedio. Los módulos se definen como ramas del árbol de agrupamiento resultante utilizando el enfoque de corte dinámico de ramas. [11] A continuación, los genes dentro de un módulo dado se resumen con el módulo eigengene, que se puede considerar como el mejor resumen del modo estandarizado.El módulo eigengene de un módulo dado se define como el primer componente principal de los perfiles de expresión estandarizados. Los eigengenes definen biomarcadores robustos. [12] Para encontrar módulos que se relacionan con un rasgo clínico de interés, los módulos de eigengenes se correlacionan con el rasgo clínico de interés, lo que da lugar a una medida de significación de eigengene. Los eigengenes se pueden usar como características en modelos predictivos más complejos, incluidos los árboles de decisión y las redes bayesianas. [12] También se pueden construir redes de coexpresión entre módulos de eigengenes (redes de eigengene), es decir, redes cuyos nodos son módulos. [13] Para identificar los genes centrales intramodulares dentro de un módulo dado, se pueden usar dos tipos de medidas de conectividad. El primero, denominado

kME_{i}=cor(x_{i},ME)

, es definido en función de la correlación de cada gen con el respectivo módulo eigengene. El segundo, denominado kIN, se define como una suma de adyacencias con respecto a los genes del módulo. En la práctica, estas dos medidas son equivalentes. [4] Para probar si un módulo se conserva en otro conjunto de datos, se pueden usar varias estadísticas de red, por ejemplo.

Zsummary

. [6]

Aplicaciones

WGCNA se ha utilizado ampliamente para analizar datos de expresión génica (es decir, datos de transcripción), por ej. para encontrar genes hub intramodulares. [2] [14]

A menudo se usa como un paso de reducción de datos en aplicaciones de sistemas genéticos donde los módulos están representados por "módulos eigengenes", por ejemplo [15] [16] Los eigengenes del módulo pueden usarse para correlacionar módulos con rasgos clínicos. Las redes Eigengene son redes de coexpresión entre módulos eigengenes (es decir, redes cuyos nodos son módulos). WGCNA se usa ampliamente en aplicaciones neurocientíficas, por ejemplo [17] [18] y para analizar datos genómicos, incluidos datos de micromatrices, [19] datos de RNA-Seq de células individuales [20] [21] datos de metilación del DNA, [22] datos de miRNA, conteos de péptidos [23] y datos de microbiota (secuenciación del gen 16S rRNA). 24] Otras aplicaciones incluyen datos de imágenes del cerebro, por ejemplo, datos funcionales de resonancia magnética. [25]

Paquete de software R

El paquete de software WGCNA R [26] proporciona funciones para llevar a cabo todos los aspectos del análisis de redes ponderadas (construcción de módulos, selección de genes centrales, estadísticas de conservación de módulos, análisis de redes diferenciales, estadísticas de redes). El paquete WGCNA está disponible en Comprehensive R Archive Network (CRAN), el repositorio estándar para paquetes del complemento de R.

Referencias

Horvath S (2011). Weighted Network Analysis: Application in Genomics and Systems Biology. New York, NY: Springer. ISBN 978-1-4419-8818-8.
Langfelder P, Mischel PS, Horvath S, Ravasi T (17 April 2013). "When Is Hub Gene Selection Better than Standard Meta-Analysis?". PLoS ONE. 8 (4): e61505. Bibcode:2013PLoSO...861505L. doi:10.1371/journal.pone.0061505. PMC 3629234. PMID 23613865.
Zhang B, Horvath S (2005). "A general framework for weighted gene co-expression network analysis" (PDF). Statistical Applications in Genetics and Molecular Biology. 4: 17. CiteSeerX 10.1.1.471.9599. doi:10.2202/1544-6115.1128. PMID 16646834.
Horvath S, Dong J (2008). "Geometric Interpretation of Gene Coexpression Network Analysis". PLoS Computational Biology. 4 (8): e1000117. Bibcode:2008PLSCB...4E0117H. doi:10.1371/journal.pcbi.1000117. PMC 2446438. PMID 18704157.
Oldham MC, Langfelder P, Horvath S (12 June 2012). "Network methods for describing sample relationships in genomic datasets: application to Huntington's disease". BMC Systems Biology. 6: 63. doi:10.1186/1752-0509-6-63. PMC 3441531. PMID 22691535.
Langfelder P, Luo R, Oldham MC, Horvath S (20 January 2011). "Is my network module preserved and reproducible?". PLoS Computational Biology. 7 (1): e1001057. Bibcode:2011PLSCB...7E1057L. doi:10.1371/journal.pcbi.1001057. PMC 3024255. PMID 21283776.
Dong J, Horvath S (4 June 2007). "Understanding network concepts in modules". BMC Systems Biology. 1: 24. doi:10.1186/1752-0509-1-24. PMC 3238286. PMID 17547772.
Ranola JM, Langfelder P, Lange K, Horvath S (14 March 2013). "Cluster and propensity based approximation of a network". BMC Systems Biology. 7: 21. doi:10.1186/1752-0509-7-21. PMC 3663730. PMID 23497424.
Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). "Hierarchical organization of modularity in metabolic networks". Science. 297 (5586): 1551–1555. arXiv:cond-mat/0209244. Bibcode:2002Sci...297.1551R. doi:10.1126/science.1073374. PMID 12202830.
Yip AM, Horvath S (24 January 2007). "Gene network interconnectedness and the generalized topological overlap measure" (PDF). BMC Bioinformatics. 8: 22. doi:10.1186/1471-2105-8-22. PMC 1797055. PMID 17250769.
Langfelder P, Zhang B, Horvath S (2007). "Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R". Bioinformatics. 24 (5): 719–20. doi:10.1093/bioinformatics/btm563. PMID 18024473.
Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 March 2017). "Large-scale gene network analysis reveals the significance of extracellular matrix pathway and homeobox genes in acute myeloid leukemia: an introduction to the Pigengene package and its applications". BMC Medical Genomics. 10 (1): 16. doi:10.1186/s12920-017-0253-6. PMC 5353782. PMID 28298217.
Langfelder P, Horvath S (2007). "Eigengene networks for studying the relationships between co-expression modules". BMC Systems Biology. 2007 (1): 54. doi:10.1186/1752-0509-1-54. PMC 2267703. PMID 18031580.
Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF, Nelson SF, Mischel PS (2006). "Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target". PNAS. 103 (46): 17402–17407. Bibcode:2006PNAS..10317402H. doi:10.1073/pnas.0608396103. PMC 1635024. PMID 17090670.
Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE (27 March 2008). "Variations in DNA elucidate molecular networks that cause disease". Nature. 452 (7186): 429–35. Bibcode:2008Natur.452..429C. doi:10.1038/nature06757. PMC 2841398. PMID 18344982.
Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 September 2009). "A Systems Genetics Approach Implicates USF1, FADS3, and Other Causal Candidate Genes for Familial Combined Hyperlipidemia". PLoS Genetics. 5 (9): e1000642. doi:10.1371/journal.pgen.1000642. PMC 2730565. PMID 19750004.
Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 May 2011). "Transcriptomic analysis of autistic brain reveals convergent molecular pathology". Nature. 474 (7351): 380–4. doi:10.1038/nature10110. PMC 3607626. PMID 21614001.
Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, David Daly B, Dang C, Datta S, Dee N, Dolbeare TA, Faber V, Feng D, Fowler DR, Goldy J, Gregor BW, Haradon Z, Haynor DR, Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR, Smith SM, Koch C, Grant S, Jones AR (20 September 2012). "An anatomically comprehensive atlas of the adult human brain transcriptome". Nature. 489 (7416): 391–399. Bibcode:2012Natur.489..391H. doi:10.1038/nature11405. PMC 4243026. PMID 22996553.
Kadarmideen HN, Watson-Haigh NS, Andronicos NM (2011). "Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers". Molecular BioSystems. 7 (1): 235–246. doi:10.1039/C0MB00190B. PMID 21072409.
Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 September 2014). "Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model". BMC Medical Genomics. 7 (1): 57. doi:10.1186/1755-8794-7-57. PMC 4183073. PMID 25270054.
Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 August 2013). "Genetic programs in human and mouse early embryos revealed by single-cell RNA sequencing". Nature. 500 (7464): 593–7. Bibcode:2013Natur.500..593X. doi:10.1038/nature12364. PMC 4950944. PMID 23892778.
Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 October 2012). "Aging effects on DNA methylation modules in human brain and blood tissue". Genome Biology. 13 (10): R97. doi:10.1186/gb-2012-13-10-r97. PMC 4053733. PMID 23034122.
Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 July 2012). "Network organization of the huntingtin proteomic interactome in mammalian brain". Neuron. 75 (1): 41–57. doi:10.1016/j.neuron.2012.05.024. PMC 3432264. PMID 22794259.
Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013). "A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease". PLoS One. 8 (11): e80702. Bibcode:2013PLoSO...880702T. doi:10.1371/journal.pone.0080702. PMC 3834335. PMID 24260458.
Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 October 2010). "Detecting network modules in fMRI time series: a weighted network analysis approach". NeuroImage. 52 (4): 1465–76. doi:10.1016/j.neuroimage.2010.05.047. PMC 3632300. PMID 20553896.
Langfelder P, Horvath S (29 December 2008). "WGCNA: an R package for weighted correlation network analysis". BMC Bioinformatics. 9: 559. doi:10.1186/1471-2105-9-559. PMC 2631488. PMID 19114008.

Análisis de redes sociales

Páginas