domingo, 30 de diciembre de 2018

Redes, enfermedades y la difusión de innovaciones para el crecimiento económico

Crecimiento, enfermedad y el toque personal.

Las conexiones sociales conducen a un mayor crecimiento económico a través de la difusión de la tecnología. Pero las redes también propagan patógenos, con efecto contrario.

Douglas Clement | Federal Reserve Bank of Minneapolis



"La difusión de una innovación se convierte en un proceso formalmente similar a la propagación de una enfermedad infecciosa".
Premio Nobel Kenneth Arrow


Si no hemos aprendido nada más de las redes sociales, es que las redes transmiten el bien y el mal. Las redes sociales desempeñan un papel similarmente ambivalente en la economía. Al difundir ideas y tecnología, las redes ayudan a transformar las economías de subsistencia a prosperidad. Pero las conexiones sociales también propagan enfermedades, desde el resfriado común hasta el ébola endémico.

Las interacciones de la enfermedad, el ingreso, la innovación y las redes son multidireccionales. La tecnología puede proteger y curar con mejores medicamentos y dispositivos médicos. La enfermedad generalizada reduce el crecimiento económico al perjudicar la productividad. Las redes están conformadas por la tecnología y la enfermedad. Crecen a través de nuevos métodos de transporte y comunicación. Pero para sobrevivir al contagio, las sociedades pueden restringir las redes para reducir la transmisión de enfermedades; la cuarentena es un claro ejemplo.

Comprender cómo las redes afectan el progreso tecnológico y el crecimiento económico es, por lo tanto, un intrincado rompecabezas, acosado por los desafíos de la causalidad inversa. Pero "Germs, Social Networks, and Growth", un informe reciente del personal (SR572) de Alessandra Fogli, directora asistente de investigación de desigualdad y asesora monetaria de la Fed de Minneapolis, y Laura Veldkamp de la Universidad de Columbia ofrece una solución elegante: desenmarañamiento de enfermedades, desarrollo , y datos demográficos y proporciona un modelo analítico que cuantifica el efecto de las redes en el ingreso nacional, pero también explica por qué las sociedades adoptan estructuras que inhiben el crecimiento.
Al difundir ideas y tecnología, las redes ayudan a transformar las economías de subsistencia a prosperidad. Pero las conexiones sociales también propagan enfermedades, desde resfriados hasta ébola.

Su modelo muestra que las pequeñas diferencias iniciales en el entorno epidemiológico de una nación (tasas de enfermedad o capacidad de contagio) pueden dar lugar a grandes y persistentes diferencias en la estructura de la red que, a su vez, generan niveles muy diferentes de difusión tecnológica y de producción económica. Cambiar la red social de una nación puede aumentar su productividad y crecimiento hasta en un 100 por ciento, según sus estimaciones. Pero si se hace en un entorno de alta enfermedad, el crecimiento se verá afectado por una propagación paralela de la enfermedad.

"En general, las redes sociales han evolucionado para adaptarse a su entorno económico y epidemiológico", escriben Fogli y Veldkamp. "Tratar de cambiar las redes en un país para imitar a las de un país con ingresos más altos puede ser contraproducente".

Un modelo evolutivo

El núcleo de su investigación es un modelo de difusión de red, un marco que les permite medir el efecto de las redes en el crecimiento. Las redes sociales tienen innumerables dimensiones; los economistas se centran en aquellos que son medibles y que median la difusión de la tecnología, pero también responden a la enfermedad. En este modelo, las redes gobiernan la propagación de enfermedades y tecnologías, pero, inversamente, las enfermedades y las tecnologías influyen en la evolución de las redes.

Las variables explicativas clave del modelo, entonces, son la prevalencia de la enfermedad, la adopción de tecnología y la difusión en red. Los datos nacionales para la prevalencia de enfermedades transmisibles son relativamente fáciles de obtener. Medidas de adopción de tecnología también están disponibles. Una métrica para redes sociales es más problemática. Los economistas desarrollan un índice a partir de tres elementos: movilidad, cantidad de vínculos sociales en ubicaciones a distancia; grado, número de conexiones personales cercanas; e individualismo / colectivismo, el nivel de agrupación de una sociedad. ¿Las conexiones personales son compartidas o independientes? ¿Los amigos tienden a tener un amigo mutuo?

Reuniendo datos sobre estas variables para 71 países y calibrando el modelo, Fogli y Veldkamp miden la relación entre la difusión de la red y el ingreso nacional. Encuentran, como se esperaba, una correlación muy alta. "Las fuerzas del modelo pueden explicar conjuntamente las grandes diferencias en los ingresos entre los países", escriben.

Un "experimento político"

Pero la estrecha correlación entre la difusión y el ingreso podría deberse a otros factores, en particular, el impacto de la enfermedad en ambos. Para aislar el papel causal de la difusión de la red, los economistas intentan, en esencia, un experimento político: mantener constante el entorno de la enfermedad, variar el nivel de difusión de la red y ver qué sucede con el crecimiento económico. (Todos los experimentos incluyen dos efectos de retroalimentación: sobre la innovación a medida que aumentan las tasas de infección y sobre la probabilidad de infección a medida que mejora la tecnología).

Su punto de referencia es Estados Unidos, que tiene una prevalencia de enfermedades muy baja (0.05 por ciento para las enfermedades transmisibles). En este entorno, encuentran, las redes de alta difusión tienen un impacto fuertemente positivo en el crecimiento económico. Duplicar el número de individuos altamente móviles o conectados eleva sustancialmente las tasas de crecimiento.
Cambiar la red social de una nación puede aumentar su productividad hasta en un 100 por ciento. Pero en un entorno de alta enfermedad, el crecimiento se verá afectado por una propagación paralela de la enfermedad.

Pero en un entorno de alta enfermedad (utilizando la prevalencia del 18 por ciento de Ghana), la alteración de la red social para facilitar una difusión más rápida reduce el ingreso nacional. Duplicar el número de individuos altamente conectados causa que la producción caiga en un 90 por ciento.

"La conclusión es que la forma en que las redes afectan el crecimiento económico depende del entorno de la enfermedad", escriben los economistas. Las redes de alta difusión propagan patógenos y empobrecen a las naciones en las que prevalece la enfermedad. En las naciones con baja enfermedad, las redes difusas tienen menos patógenos para propagarse. Las ideas se vuelven virales, no gérmenes. “Las mismas redes que empobrecen a los países pobres pueden facilitar el crecimiento de los ricos donde las epidemias son raras. Para prosperar, cada país necesita una red social que esté bien adaptada a su entorno ".

Orígenes de la red

La consulta principal de Fogli y Veldkamp es, según lo expresan, "sobre el efecto, no el origen, de las redes". Pero comprender cómo las redes emergen y evolucionan en respuesta a la enfermedad es clave para apreciar por qué la modificación de las redes puede ser peligrosa. En un ejercicio separado, los economistas, por lo tanto, realizan simulaciones por períodos múltiples de dos economías idénticas que varían solo en sus tasas iniciales de prevalencia de la enfermedad.

En entornos de baja enfermedad, las simulaciones generan redes de alta difusión porque los individuos conectados, independientes y móviles prosperan. Están expuestos a más ideas nuevas y disfrutan de mayores ingresos y mayores tasas de reproducción. "En entornos de baja enfermedad, las características de la red de alta difusión prosperan".
“Las redes que empobrecen a los países pobres pueden facilitar el crecimiento de los ricos donde las epidemias son raras. Para prosperar, cada país necesita una red social ... adaptada a su entorno ".

Pero en entornos de alta enfermedad, ocurre lo contrario: las personas con más amigos, mayor movilidad y mayor independencia se enferman rápidamente. "También pueden obtener nuevas ideas", observa Fogli y Veldkamp. Pero si están enfermos, son "improductivos, independientemente de [su] tecnología. Uno tiene que estar vivo y bien ser productivo ".

Entonces, nuevamente, cuando la enfermedad es común, alterar las redes puede ser una mala idea: “Cambiar la red sin cambiar el entorno de la enfermedad puede ser desastroso. Una red de alta difusión, en un lugar donde prevalecen las enfermedades, es una receta para las epidemias y las crisis humanitarias ".

Confirmación desde un segundo método.

Los economistas evalúan los hallazgos de su modelo mediante el uso de un segundo método, una técnica llamada "estimación de variables instrumentales". Emplea análisis de regresión con variables relacionadas con redes, enfermedades, tecnología y crecimiento, pero que no sufren la causalidad inversa inherente a su modelo. Con datos sobre nueve enfermedades transmisibles en 160 países, miden la diferencia en la prevalencia de las enfermedades transmitidas por los seres humanos y las transmitidas por los animales. Estas enfermedades tienen un impacto similar en la difusión de la tecnología, pero difieren en relación con las redes sociales, por lo que la causalidad inversa no es un problema.

Los hallazgos son tranquilizadores. Los resultados del conjunto completo de países muestran que el aumento del nivel de difusión de la red aumenta considerablemente la productividad de los trabajadores y el PIB per cápita. Pero dividir la muestra entre países con enfermedad alta y países con enfermedad baja "sugiere un mensaje más sutil que refleja los resultados del modelo", observan Fogli y Veldkamp. Como su método principal indica, los efectos de red difieren. "El efecto positivo de las redes sociales solo aparece en los países con baja prevalencia de enfermedad". Por lo tanto, las políticas para implementar redes sociales de alta difusión serían poco recomendables en los países donde las enfermedades contagiosas son comunes.

sábado, 29 de diciembre de 2018

Análisis de red de correlaciones ponderadas

Redes de correlación ponderadas

 Wikipedia




El análisis de red de correlación ponderada, también conocido como análisis de red de coexpresión de genes ponderados (WGCNA), es un método de minería de datos ampliamente utilizado, especialmente para el estudio de redes biológicas basadas en correlaciones de pares entre variables. Si bien se puede aplicar a la mayoría de los conjuntos de datos de alta dimensión, se ha utilizado más ampliamente en aplicaciones genómicas. Permite definir módulos (clústeres), concentradores intramodulares y nodos de red con respecto a la pertenencia a módulos, estudiar las relaciones entre los módulos de coexpresión y comparar la topología de red de diferentes redes (análisis diferencial de redes). El WGCNA se puede usar como una técnica de reducción de datos (relacionada con el análisis factorial oblicuo), como un método de agrupamiento (agrupamiento difuso), como un método de selección de características (por ejemplo, como método de detección de genes), como marco para integrar datos complementarios (genómicos) ( basado en correlaciones ponderadas entre variables cuantitativas) y como una técnica de exploración de datos. [1] Aunque WGCNA incorpora técnicas tradicionales de exploración de datos, su lenguaje de red intuitivo y su marco de análisis trascienden cualquier técnica de análisis estándar. Debido a que utiliza una metodología de red y es adecuada para integrar conjuntos de datos genómicos complementarios, puede interpretarse como un método de análisis de datos genéticos de sistemas biológicos o sistemas. Al seleccionar los centros intramodulares en los módulos de consenso, WGCNA también da lugar a técnicas de metanálisis basadas en redes. [2]


Historia

El método WGCNA fue desarrollado por Steve Horvath, profesor de genética humana en la Escuela de Medicina David Geffen en UCLA y de bioestadística en la Escuela de Salud Pública Fielding de la UCLA y sus colegas en la UCLA, y (ex) miembros del laboratorio (en particular Peter). Langfelder, Bin Zhang, Jun Dong). Gran parte del trabajo surgió de colaboraciones con investigadores aplicados. En particular, las redes de correlación ponderadas se desarrollaron en conversaciones conjuntas con los investigadores del cáncer Paul Mischel, Stanley F. Nelson y los neurocientíficos Daniel H. Geschwind, Michael C. Oldham (según la sección de reconocimiento en [1]). Existe una vasta literatura sobre redes de dependencia, redes de escala libre y redes de coexpresión.

Comparación entre redes de correlación ponderadas y no ponderadas

Una red de correlación ponderada puede interpretarse como un caso especial de una red ponderada, una red de dependencia o una red de correlación. El análisis de la red de correlación ponderada puede ser atractivo por los siguientes motivos.
  • La construcción de la red (basada en un umbral suave del coeficiente de correlación) preserva la naturaleza continua de la información de correlación subyacente. Por ejemplo, las redes de correlación ponderadas que se construyen sobre la base de correlaciones entre variables numéricas no requieren la elección de un umbral duro. La información dicotomizante y el umbral (difícil) pueden llevar a la pérdida de información. [3]
  • La construcción de la red tiene resultados altamente robustos con respecto a las diferentes opciones de umbral suave. [3] Por el contrario, los resultados basados ​​en redes no ponderadas, construidas por el umbral de una medida de asociación por pares, a menudo dependen en gran medida del umbral.
  • Las redes de correlación ponderadas facilitan una interpretación geométrica basada en la interpretación angular de la correlación, capítulo 6 en. [4]
  • Las estadísticas de red resultantes pueden utilizarse para mejorar los métodos estándar de extracción de datos, como el análisis de conglomerados, ya que las medidas de similitud (des) a menudo se pueden transformar en redes ponderadas; [5] ver capítulo 6 en [4].
  • WGCNA proporciona estadísticas de conservación de módulos potentes que pueden usarse para cuantificar si se pueden encontrar en otra condición. Además, las estadísticas de conservación de módulos permiten estudiar las diferencias entre la estructura modular de las redes. [6]
  • Las redes ponderadas y las redes de correlación a menudo se pueden aproximar mediante redes "factorizables". [4] [7] Tales aproximaciones a menudo son difíciles de lograr para redes dispersas y no ponderadas. Por lo tanto, las redes ponderadas (de correlación) permiten una parametrización parsimoniosa (en términos de módulos y membresía de módulos) (capítulos 2, 6 en [1]) y [8].

Método

Primero, uno define una medida de similitud de coexpresión de genes que se usa para definir la red. Denotamos la medida de similitud de coexpresión de genes de un par de genes i y j por . Muchos estudios de coexpresión utilizan el valor absoluto de la correlación como una medida de similitud de coexpresión sin signo,



donde los perfiles de expresión génica y consisten en la expresión de los genes i y j a través de múltiples muestras. Sin embargo, el uso del valor absoluto de la correlación puede ofuscar información biológicamente relevante, ya que no se hace distinción entre la represión de genes y la activación. En contraste, en las redes firmadas, la similitud entre los genes refleja el signo de la correlación de sus perfiles de expresión. Para definir una medida de coexpresión firmada entre los perfiles de expresión génica y , se puede usar una transformación simple de correlación:



Como la medida no firmada sijunsigned , la similitud firmada toma un valor entre 0 y 1. Tenga en cuenta que la similitud no firmada entre dos genes expresados ​​de manera opuesta ( es igual a 1 mientras que es igual a 0 para la similitud signada. De manera similar, mientras que la medida de coexpresión sin firmar de dos genes con correlación cero permanece en cero, la similitud con signo es igual a 0.5.

A continuación, se usa una matriz de adyacencia (red), , se utiliza para cuantificar la fuerza con que los genes están conectados entre sí. A se define mediante el umbral de la matriz de similitud de coexpresión . El umbral 'duro' (dicotomización) la medida de similitud S da como resultado una red de coexpresión de genes no ponderada. Específicamente, una adyacencia de red no ponderada se define como 1 si y 0 en caso contrario. Debido a que el umbral difícil codifica las conexiones genéticas de forma binaria, puede ser sensible a la elección del umbral y resultar en la pérdida de información de coexpresión. [3] La naturaleza continua de la información de coexpresión se puede preservar empleando un umbral suave, que da como resultado una red ponderada. Específicamente, WGCNA utiliza la siguiente función de potencia para evaluar la fuerza de su conexión:

,

donde la potencia β es el parámetro de umbral suave. Los valores predeterminados β = 6 y β = 12 se utilizan para redes sin firma y firmadas, respectivamente. Alternativamente, se puede elegir β utilizando el criterio de topología sin escala que equivale a elegir el valor más pequeño de β, de manera que se alcance la topología libre de escala aproximada. [3]

Dado que , la adyacencia de red ponderada está relacionada linealmente con la similitud de coexpresión en una escala logarítmica. Tenga en cuenta que un β de alta potencia transforma altas similitudes en adyacencias altas, mientras que empuja similitudes bajas hacia 0. Dado que este procedimiento de umbral suave aplicado a una matriz de correlación de pares conduce a una matriz de adyacencia ponderada, el análisis que sigue es Se denomina análisis de red de coexpresión de genes ponderados.

Un paso importante en el análisis centrado en el módulo es agrupar genes en módulos de red utilizando una medida de proximidad de red. En términos generales, un par de genes tiene una alta proximidad si está estrechamente interconectado. Por convención, la proximidad máxima entre dos genes es 1 y la proximidad mínima es 0. Normalmente, el WGCNA usa la medida de superposición topológica (TOM) como proximidad. [9] [10] que también se puede definir para redes ponderadas. [3] El TOM combina la adyacencia de dos genes y las fortalezas de conexión que estos dos genes comparten con otros genes de "terceros". El TOM es una medida altamente robusta de interconexión de red (proximidad). Esta proximidad se utiliza como entrada del agrupamiento jerárquico de enlaces promedio. Los módulos se definen como ramas del árbol de agrupamiento resultante utilizando el enfoque de corte dinámico de ramas. [11] A continuación, los genes dentro de un módulo dado se resumen con el módulo eigengene, que se puede considerar como el mejor resumen del modo estandarizado.El módulo eigengene de un módulo dado se define como el primer componente principal de los perfiles de expresión estandarizados. Los eigengenes definen biomarcadores robustos. [12] Para encontrar módulos que se relacionan con un rasgo clínico de interés, los módulos de eigengenes se correlacionan con el rasgo clínico de interés, lo que da lugar a una medida de significación de eigengene. Los eigengenes se pueden usar como características en modelos predictivos más complejos, incluidos los árboles de decisión y las redes bayesianas. [12] También se pueden construir redes de coexpresión entre módulos de eigengenes (redes de eigengene), es decir, redes cuyos nodos son módulos. [13] Para identificar los genes centrales intramodulares dentro de un módulo dado, se pueden usar dos tipos de medidas de conectividad. El primero, denominado , es definido en función de la correlación de cada gen con el respectivo módulo eigengene. El segundo, denominado kIN, se define como una suma de adyacencias con respecto a los genes del módulo. En la práctica, estas dos medidas son equivalentes. [4] Para probar si un módulo se conserva en otro conjunto de datos, se pueden usar varias estadísticas de red, por ejemplo. . [6]

Aplicaciones

WGCNA se ha utilizado ampliamente para analizar datos de expresión génica (es decir, datos de transcripción), por ej. para encontrar genes hub intramodulares. [2] [14]

A menudo se usa como un paso de reducción de datos en aplicaciones de sistemas genéticos donde los módulos están representados por "módulos eigengenes", por ejemplo [15] [16] Los eigengenes del módulo pueden usarse para correlacionar módulos con rasgos clínicos. Las redes Eigengene son redes de coexpresión entre módulos eigengenes (es decir, redes cuyos nodos son módulos). WGCNA se usa ampliamente en aplicaciones neurocientíficas, por ejemplo [17] [18] y para analizar datos genómicos, incluidos datos de micromatrices, [19] datos de RNA-Seq de células individuales [20] [21] datos de metilación del DNA, [22] datos de miRNA, conteos de péptidos [23] y datos de microbiota (secuenciación del gen 16S rRNA). 24] Otras aplicaciones incluyen datos de imágenes del cerebro, por ejemplo, datos funcionales de resonancia magnética. [25]

Paquete de software R

El paquete de software WGCNA R [26] proporciona funciones para llevar a cabo todos los aspectos del análisis de redes ponderadas (construcción de módulos, selección de genes centrales, estadísticas de conservación de módulos, análisis de redes diferenciales, estadísticas de redes). El paquete WGCNA está disponible en Comprehensive R Archive Network (CRAN), el repositorio estándar para paquetes del complemento de R.


Referencias

  1. Horvath S (2011). Weighted Network Analysis: Application in Genomics and Systems Biology. New York, NY: Springer. ISBN 978-1-4419-8818-8.
  2. Langfelder P, Mischel PS, Horvath S, Ravasi T (17 April 2013). "When Is Hub Gene Selection Better than Standard Meta-Analysis?". PLoS ONE. 8 (4): e61505. Bibcode:2013PLoSO...861505L. doi:10.1371/journal.pone.0061505. PMC 3629234. PMID 23613865.
  3. Zhang B, Horvath S (2005). "A general framework for weighted gene co-expression network analysis" (PDF). Statistical Applications in Genetics and Molecular Biology. 4: 17. CiteSeerX 10.1.1.471.9599. doi:10.2202/1544-6115.1128. PMID 16646834.
  4. Horvath S, Dong J (2008). "Geometric Interpretation of Gene Coexpression Network Analysis". PLoS Computational Biology. 4 (8): e1000117. Bibcode:2008PLSCB...4E0117H. doi:10.1371/journal.pcbi.1000117. PMC 2446438. PMID 18704157.
  5. Oldham MC, Langfelder P, Horvath S (12 June 2012). "Network methods for describing sample relationships in genomic datasets: application to Huntington's disease". BMC Systems Biology. 6: 63. doi:10.1186/1752-0509-6-63. PMC 3441531. PMID 22691535
  6. Langfelder P, Luo R, Oldham MC, Horvath S (20 January 2011). "Is my network module preserved and reproducible?". PLoS Computational Biology. 7 (1): e1001057. Bibcode:2011PLSCB...7E1057L. doi:10.1371/journal.pcbi.1001057. PMC 3024255. PMID 21283776
  7. Dong J, Horvath S (4 June 2007). "Understanding network concepts in modules". BMC Systems Biology. 1: 24. doi:10.1186/1752-0509-1-24. PMC 3238286. PMID 17547772
  8. Ranola JM, Langfelder P, Lange K, Horvath S (14 March 2013). "Cluster and propensity based approximation of a network". BMC Systems Biology. 7: 21. doi:10.1186/1752-0509-7-21. PMC 3663730. PMID 23497424
  9. Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). "Hierarchical organization of modularity in metabolic networks". Science. 297 (5586): 1551–1555. arXiv:cond-mat/0209244. Bibcode:2002Sci...297.1551R. doi:10.1126/science.1073374. PMID 12202830
  10. Yip AM, Horvath S (24 January 2007). "Gene network interconnectedness and the generalized topological overlap measure" (PDF). BMC Bioinformatics. 8: 22. doi:10.1186/1471-2105-8-22. PMC 1797055. PMID 17250769
  11. Langfelder P, Zhang B, Horvath S (2007). "Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R". Bioinformatics. 24 (5): 719–20. doi:10.1093/bioinformatics/btm563. PMID 18024473
  12. Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 March 2017). "Large-scale gene network analysis reveals the significance of extracellular matrix pathway and homeobox genes in acute myeloid leukemia: an introduction to the Pigengene package and its applications". BMC Medical Genomics. 10 (1): 16. doi:10.1186/s12920-017-0253-6. PMC 5353782. PMID 28298217
  13. Langfelder P, Horvath S (2007). "Eigengene networks for studying the relationships between co-expression modules". BMC Systems Biology. 2007 (1): 54. doi:10.1186/1752-0509-1-54. PMC 2267703. PMID 18031580
  14. Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF, Nelson SF, Mischel PS (2006). "Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target". PNAS. 103 (46): 17402–17407. Bibcode:2006PNAS..10317402H. doi:10.1073/pnas.0608396103. PMC 1635024. PMID 17090670
  15. Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE (27 March 2008). "Variations in DNA elucidate molecular networks that cause disease". Nature. 452 (7186): 429–35. Bibcode:2008Natur.452..429C. doi:10.1038/nature06757. PMC 2841398. PMID 18344982
  16. Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 September 2009). "A Systems Genetics Approach Implicates USF1, FADS3, and Other Causal Candidate Genes for Familial Combined Hyperlipidemia". PLoS Genetics. 5 (9): e1000642. doi:10.1371/journal.pgen.1000642. PMC 2730565. PMID 19750004
  17. Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 May 2011). "Transcriptomic analysis of autistic brain reveals convergent molecular pathology". Nature. 474 (7351): 380–4. doi:10.1038/nature10110. PMC 3607626. PMID 21614001
  18. Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, David Daly B, Dang C, Datta S, Dee N, Dolbeare TA, Faber V, Feng D, Fowler DR, Goldy J, Gregor BW, Haradon Z, Haynor DR, Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR, Smith SM, Koch C, Grant S, Jones AR (20 September 2012). "An anatomically comprehensive atlas of the adult human brain transcriptome". Nature. 489 (7416): 391–399. Bibcode:2012Natur.489..391H. doi:10.1038/nature11405. PMC 4243026. PMID 22996553
  19. Kadarmideen HN, Watson-Haigh NS, Andronicos NM (2011). "Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers". Molecular BioSystems. 7 (1): 235–246. doi:10.1039/C0MB00190B. PMID 21072409
  20. Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 September 2014). "Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model". BMC Medical Genomics. 7 (1): 57. doi:10.1186/1755-8794-7-57. PMC 4183073. PMID 25270054
  21. Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 August 2013). "Genetic programs in human and mouse early embryos revealed by single-cell RNA sequencing". Nature. 500 (7464): 593–7. Bibcode:2013Natur.500..593X. doi:10.1038/nature12364. PMC 4950944. PMID 23892778
  22. Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 October 2012). "Aging effects on DNA methylation modules in human brain and blood tissue". Genome Biology. 13 (10): R97. doi:10.1186/gb-2012-13-10-r97. PMC 4053733. PMID 23034122
  23. Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 July 2012). "Network organization of the huntingtin proteomic interactome in mammalian brain". Neuron. 75 (1): 41–57. doi:10.1016/j.neuron.2012.05.024. PMC 3432264. PMID 22794259
  24. Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013). "A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease". PLoS One. 8 (11): e80702. Bibcode:2013PLoSO...880702T. doi:10.1371/journal.pone.0080702. PMC 3834335. PMID 24260458
  25. Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 October 2010). "Detecting network modules in fMRI time series: a weighted network analysis approach". NeuroImage. 52 (4): 1465–76. doi:10.1016/j.neuroimage.2010.05.047. PMC 3632300. PMID 20553896
  26. Langfelder P, Horvath S (29 December 2008). "WGCNA: an R package for weighted correlation network analysis". BMC Bioinformatics. 9: 559. doi:10.1186/1471-2105-9-559. PMC 2631488. PMID 19114008.

sábado, 22 de diciembre de 2018

Uniendo redes en Pajek

ARS | Fusión y orden emergente

The New World Lusophone Sousaphone



Arriba: flujo máximo = 40 dentro de una sola red que conecta Jornal GGN y el Instituto Millenium,

Wouter de Nooy, coautor del libro de texto autorizado sobre el paquete de software de análisis de redes sociales Pajek, responde a una pregunta que he tenido en mente.

Elisa, ya que las dos redes que deseas combinar tienen diferentes conjuntos de vértices, no puedes usar los comandos Unión de líneas e Intersección. Utilice la Unión de Vértices para crear una red con todos los vértices y líneas de ambas redes. Ahora dos vértices pueden referirse a la misma persona u organización. Luego use el comando Net>Partition>Vertex [Labels] para obtener una partición con una clase para cada conjunto de vértices que tienen exactamente la misma etiqueta. Finalmente, reduzca los vértices dentro de estas clases a un nuevo vértice con el comando Operations>Shrink Network>Partition. Creo que esto hará el trabajo pero la red resultante puede no ser reconocida como una red de dos modos por Pajek por más tiempo.

Supongamos que la suma de la suma de vértices en las dos redes es 69, o 36 + 33, pero un cierto número de estas etiquetas se refieren a nodos idénticos. Pajek calcula la intersección de estas particiones y crea otra para mantener los nombres de los vértices.



Los vértices redundantes están marcados con hash-tag, #, de lo contrario, se utilizan para indicar que un nodo es representativo de un cluster o reducción.



Tenga en cuenta que esto se puede aplicar a los casos de múltiples bordes superpuestos y se puede iterar para descubrir información sobre una relación de varias fuentes en distintos momentos.

Aquí, estoy usando una red rastreada por WIRE y sembrada con enlaces de Arts & Letters Daily. Tengo otro basado en los rollos de membresía de la Asociación Mundial de Periódicos y, finalmente, una red más grande (400,000 URL) derivada de un rastreo mucho más exhaustivo basado en los resultados de las dos investigaciones anteriores.

Una forma efectiva de desarrollar semillas para su rastreo es buscar "puestos de periódicos" y "listas" (listas sistemáticas que representan vínculos explícitos) o posibilidades de crearlos de manera eficiente.

También estoy empezando a ser capaz de reconocer ejemplos de estructura de red, como los roles de intermediación.




Desde una lectura del sitio web del programa CENPEC y un análisis de la lista de Abong, la Asociación de ONG brasileñas, pude ver que este diagrama, creado en yEd, era importante: un vértice sin el cual el analista pierde Seguimiento del contexto institucional.

En la red de federaciones laborales brasileñas, más arriba, encontré a IREX en una posición interesante: una estructura de puente clásica, en este caso entre el establecimiento diplomático de los Estados Unidos y el brazo de investigación de políticas de la federación laboral dominante, CUT.

George Soros y Bill Gates ciertamente parecen estar involucrados en muchas ofensivas de "diplomacia pública".



Esto es interesante porque, entre otros proyectos de "lista", he estado trabajando en las federaciones laborales e industriales de Brasil. (La Confederación Industrial Nacional - CNI - ha arruinado las cosas al migrar a una nueva URL que aún no se ha filtrado).







La diplomacia de enlaces del pecado




También he estado acompañando el surgimiento de alianzas estratégicas entre los diarios sudamericanos, la Jornada de México, por ejemplo.





Los llamados "blogs sucios" brasileños exhiben una coordinación más estrecha con la prensa alternativa y se convierten en una alternativa genuina. La integración de Brasil 247 es un ejemplo, al igual que el compromiso del grupo iG con el capital de riesgo y la innovación.



Lamento no haber preparado una presentación más completa.

viernes, 14 de diciembre de 2018

Llevando los grafos de bases de datos a las supercomputadoras

Moviendo las pruebas de grafos analíticos en las supercomputadoras hacia adelante


Jeffrey Burt | Next Platform





Si es la conferencia de supercomputación SC18, entonces debe haber listas. Muchos de ellos.

La muestra dos veces al año es más famosa por la lista Top500 de las supercomputadoras más rápidas del mundo que usan el banco de pruebas paralelo Fortpack de Linpack, una lista que ayuda a la industria a medir el progreso en el desempeño, la creciente influencia de las nuevas tecnologías como los aceleradores de GPU de Nvidia y AMD y el auge de las nuevas arquitecturas, como lo marcó este año con la introducción del primer supercomputador en la lista de procesadores basados ​​en Arm. La supercomputadora "Astra", construida por Hewlett Packard Enterprise e implementada en los Laboratorios Nacionales Sandia, se ejecuta en 125.328 núcleos Cavium ThunderX2 y ahora se encuentra en el número 205 de la ranura.

La lista también ayuda a alimentar la actual competencia mundial por la supremacía de las supercomputadoras, ya que Estados Unidos este año finalmente retomará el primer puesto del Sunway TaihuLight de China en julio con el sistema Summit basado en los motores informáticos IBM Power9 y Nvidia Volta, y luego en Sierra, una similar arquitectura de máquina, ocupando el segundo lugar en el show SC18 de esta semana en Dallas, llevó a TaihuLight al número tres. Sin embargo, China ahora reclama 227 sistemas, o aproximadamente el 45 por ciento del número total, en la lista de los Top500, con los Estados Unidos cayendo a un mínimo histórico de 109, o 22 por ciento.

El Green500 clasifica los supercomputadores en función de la eficiencia energética. El Shoubu System B, un grupo japonés construido por Pezy Computing, conserva el puesto número uno este año.

También en la lista de listas está el Graph500, que clasifica los sistemas según la forma en que ejecutan las cargas de trabajo intensivas en datos de rápido crecimiento utilizando algoritmos de análisis gráfico. La cantidad de tales aplicaciones de supercomputadoras está creciendo a medida que la cantidad de datos que se generan continúa acumulándose, y algunos en la industria creen que los puntos de referencia tradicionalmente utilizados para clasificar los sistemas de HPC para trabajos como las simulaciones de física en 3D no eran adecuados para cargas de trabajo intensivas en datos.

"No creo que sea un salto convencer a nadie hoy de que esto es importante porque, francamente, el mercado de análisis de datos ha crecido demasiado en HPC por un orden de magnitud", dijo Anton Korzh, arquitecto de sistemas de Micron Technology y miembro de Graph500. Comité ejecutivo, dijo durante el evento en el show de esta semana para lanzar la versión 17 de la lista. El primero salió en noviembre de 2010.

El Graph500 aborda dos núcleos de aplicación, la búsqueda concurrente marcada por la búsqueda y optimización de la amplitud (BFS), o la ruta más corta de una sola fuente (SSSP). Los planes están en marcha para un tercer núcleo para un conjunto independiente orientado hacia el borde o máximo, dijo Korzh. La lista aborda cinco áreas comerciales relacionadas con el gráfico de ciberseguridad, informática médica, enriquecimiento de datos, redes sociales y redes simbólicas.

El número de presentaciones ha aumentado de ocho en el primer año a 48 para la lista actual, que incluye dos nuevas entradas en el top ten y una vez más tenía la computadora K gigante en Japón y fue construida por Fujitsu en el primer lugar con 38,621.4 GTEPS , o aristas atravesadas por giga por segundo, la métrica utilizada por el Graph500. La computadora de K, de siete años, tiene 82.944 nodos y 663.552 núcleos Sparc64-XIIIfx. El Sunway TaihuLight ocupó el segundo lugar, seguido por Sequoia y Mira, ambos sistemas IBM BlueGene / Q que se ejecutan en los laboratorios nacionales de EE. UU., y SuperMUC-NG, un clúster de Lenovo ubicado en Alemania.



Pero cuando el comité de Graph500 celebró el lanzamiento de la lista más reciente, Roger Pearce, un científico informático del Centro de Computación Científica Aplicada (CASC) en el Laboratorio Nacional Lawrence Livermore, es el hogar del sistema BlueGene / Q “Sequoia” hecho por IBM también como el nuevo y brillante sistema Sierra, dijo que los cambios eran necesarios para que el Graph500 siga siendo relevante. Pearce habló durante el evento sobre el enfoque del laboratorio para usar NVRAM (memoria de acceso aleatorio no volátil) en Sierra cuando se trata de análisis de rendimiento y escala.

Sin embargo, al final de su presentación, Pearce instó a que se realicen cambios para que la lista sea un indicador importante en la industria. Necesita evolucionar o ya no será relevante. Una cosa que tiene que cambiar es el uso continuo de las etiquetas de vértice 0, N.

"Las etiquetas de vértices de 0 a N simplemente no son realistas", dijo. “Si queremos tratar de estar en un modo realista, necesitamos lidiar con etiquetas hiper-dispersas, hashes de 64 bits, tal vez incluso más que eso, específicamente con cardinalidad desconocida. Realmente no sabemos cuántos vértices hay, porque con conjuntos de vértices muy grandes, es realmente costoso volver a correlacionarlos con N. Este es un verdadero desafío. No es algo que incluso esté rastreado por el Graph500. Para todos los comentarios, necesitamos un Graph500 de transmisión, esto es como un paso de bebé para hacer eso. Si no puede hacer esto, ciertamente no puede hacer análisis de gráficos de transmisión. En mi opinión, la curación comenzará cuando nos alejemos de los datos estáticos CSR / CSC de la edad de piedra ".

Pearce tenía una visión similar de BSD.

“Una década de búsqueda de amplitud es suficiente. Es demasiado simple captar la intensidad de memoria / comunicación y el paralelismo de muchas analíticas importantes y muchas de las optimizaciones actuales no se transfieren a muchas analíticas importantes como la centralidad de Betweeness. No sé sobre usted, pero a menudo me preguntan: '¿Por qué hay miles de artículos en la búsqueda de resultados?' Y yo digo: 'Es una respuesta simple: el Graph500'. Tenemos que averiguar qué estamos tratando de capturar ".

No quiere decir que los últimos ocho años de trabajo hayan sido en vano. Ha habido avances significativos en los algoritmos de gráficos de memoria distribuida debido a los esfuerzos del Graph500, dijo. “Si recuerdas los primeros días, hubo un enorme escepticismo de que el análisis de gráficos de memoria distribuida funcionaría. Solían decir, 'BlueGenes nunca haría bien en el Graph500', y ahora lo han dominado durante cinco o seis años ".

Su lista de propuestas para el Graph500 para 2020 se está moviendo de 0, N graficando y "divide los bordes ingresados ​​en k contenedores, como los pasos de tiempo - 64, 16, no sé qué k debería ser. Agregue de manera incremental cada bandeja de borde en el gráfico y vuelva a calcular algunos analíticos, tal vez cuente duplicados para que las personas agreguen índices a sus listas de cobertura y cosas como esas, que son poderosas para los analíticos. Finalmente, la salida sería como, k resultados para cada borde o vértice dado su analítica ".

La analítica debería ser cualquier cosa menos BFS, con posibilidades como alternativas como la centralidad de Betweeness y la descomposición completa de K-core. Por último, dijo, dado lo difícil que es validar estos algoritmos de nivel superior, la validación debe usar pequeños gráficos de pruebas unitarias con una verdad básica precalculada.

Después de que Pearce habló, Peter Kogge, profesor de ciencias de la computación e ingeniería en Notre Dame y también miembro del comité ejecutivo de Graph500, secundó las sugerencias y agregó algunas de las suyas, incluido el uso de múltiples clases de vértices. Korzh dijo que Pearce hizo puntos justos que deberían ser considerados.

miércoles, 12 de diciembre de 2018

Prediciendo epidemias infecciosas

Sobre la previsibilidad de los brotes de enfermedades infecciosas

Samuel V. Scarpino, Giovanni Petri
(Presentado el 21 de marzo de 2017 (v1), última revisión 10 de octubre de 2018 (esta versión, v6))

Citar como: arXiv:1703.07317 [physics.soc-ph]
(o arXiv:1703.07317v6 [physics.soc-ph] para esta versión)




Los brotes de enfermedades infecciosas recapitulan la biología: emergen de la interacción de múltiples niveles de los hospedadores, patógenos y su entorno compartido. Como resultado, predecir cuándo, dónde y hasta dónde se propagarán las enfermedades requiere un enfoque de sistemas complejos para el modelado. Estudios recientes han demostrado que es posible predecir diferentes componentes de los brotes, por ejemplo, el número esperado de casos, el ritmo y el ritmo de los casos que requieren tratamiento, la demanda de equipo profiláctico, la probabilidad de importación, etc. Por lo tanto, avanzar tanto en la ciencia como en la práctica del pronóstico de enfermedades ahora requiere pruebas para detectar la presencia de límites fundamentales para la predicción de brotes. Para investigar la cuestión de la predicción de brotes, estudiamos los límites teóricos de la información para pronosticar un amplio conjunto de enfermedades infecciosas utilizando la entropía de permutación como un modelo de medida independiente de la previsibilidad. Al estudiar la previsibilidad de una colección diversa de brotes históricos, entre ellos, clamidia, dengue, gonorrea, hepatitis A, influenza, sarampión, paperas, polio y tos ferina, identificamos una barrera de entropía fundamental para el pronóstico de series de tiempo de enfermedades infecciosas. Sin embargo, encontramos que para la mayoría de las enfermedades, esta barrera para la predicción a menudo está más allá de la escala de tiempo de los brotes únicos. También encontramos que el horizonte de pronóstico varía según la enfermedad y demostramos que tanto las estructuras del modelo cambiante como la heterogeneidad de las redes sociales son los mecanismos más probables para las diferencias observadas entre los contagios. Nuestros resultados resaltan la importancia de ir más allá del pronóstico de series de tiempo, al adoptar enfoques de modelado dinámico y sugieren desafíos para realizar la selección de modelos en series de tiempo largas. Además, anticipamos que nuestros hallazgos contribuirán al campo en rápido crecimiento de los pronósticos epidemiológicos y pueden relacionarse más ampliamente con la previsibilidad de los sistemas adaptativos complejos.

lunes, 10 de diciembre de 2018

Francia enfrenta una revolución dirigida mediante Facebook

Francia enfrenta una revolución típica de Facebook


Las revueltas callejeras en París tienen menos que ver con una pequeña subida de impuestos al combustible que con el poder de las redes sociales para radicalizar a sus usuarios.
Por Leonid Bershidsky | Bloomberg




Manifestantes cerca del Arco de Triunfo.

El papel liberador que desempeñaron las redes sociales durante la Primavera Árabe y las protestas rusas de 2011 y 2012 fue ampliamente elogiado. Poco de ese entusiasmo se muestra hoy en día en medio de las violentas protestas de "chalecos amarillos" en Francia, aunque Facebook todavía está haciendo lo que mejor hace: dejar que la gente canalice su furia.

En un artículo de 2011 sobre "la revolución de Facebook", Chris Taylor, del sitio web de noticias de tecnología Mashable, escribió que Facebook era "democracia en acción". Philip Howard, de la Universidad de Washington, quien investigó el papel de la red social en la Primavera Árabe, dijo que el mismo año en que las redes sociales "transmitieron una cascada de mensajes sobre libertad y democracia en el norte de África y Medio Oriente y ayudaron a generar expectativas para el éxito de la revuelta política".

A finales de 2011, participé en las protestas rusas tras una elección parlamentaria amañada. Facebook jugó un papel central en su organización. El patrón emergente: redes de protesta sin líderes que se desarrollan en plataformas propiedad de los Estados Unidos; narraciones de memes que alimentan la indignación popular; Las demandas nebulosas, que se radicalizan rápidamente, alimentadas por una gran cantidad de ira subyacente, llevaron al presidente ruso Vladimir Putin a sospechar que los Estados Unidos organizan acciones en diferentes partes del mundo según el mismo libro de jugadas. Era tan ingenuo como los observadores que pensaban que el papel de Facebook en estos levantamientos populares tenía algo que ver con la libertad o la democracia.

Poco después de que los países que sufrieron las revoluciones de la Primavera Árabe comenzaron a revertirse al autoritarismo o se lanzaron al caos, surgieron preocupaciones sobre la capacidad de las redes sociales para configurar las transiciones democráticas. Pero Facebook y otras plataformas nunca fueron buenas en eso: lo que hicieron fue ayudar a que la gente se emocionara más y más por las cosas que los molestaban. Al amplificar los mensajes e inflar las burbujas de opinión, provocaron un frenesí en el que solo había habido quejas.

Sucede de nuevo en Francia, un país imposible de describir como una autocracia y uno en el que los Estados Unidos no tienen motivos para fomentar una revolución.

Todo comenzó con la decisión del gobierno de aumentar los impuestos en 7.6 centavos por litro en diesel y 3.9 centavos por litro en gasolina. Esto no es una gran indignación. Para alguien que llena un tanque de 50 litros con diesel todas las semanas, la caminata significa 15.2 euros ($ 17.3) al mes en costos adicionales, menos de dos comidas de McDonald's. Pero las protestas, iniciadas a mediados de octubre por un discurso viral en Facebook del acordeonista Jacline Mouraud sobre la política gubernamental contra el automóvil, se han intensificado hasta que produjeron los peores disturbios urbanos del país en más de una década. Durante el fin de semana, 133 personas resultaron heridas, entre ellas 23 policías.

Como en protestas anteriores, estos disturbios son en gran parte sin líder; no necesitan la infraestructura política o mediática de Francia para desarrollarse. Sin embargo, han arrojado a algunos líderes de opinión poco probables, a quienes los manifestantes siguen y cuyas opiniones se amplifican infinitamente a través de los grupos de Facebook del "chaleco amarillo". Uno de ellos es Maxime Nicolle, también conocido como Fly Rider, un nativo de Bretaña de 31 años que ha realizado regularmente transmisiones web de Facebook Live a partir de las protestas cada vez más violentas. Se ha convertido en uno de los ocho voceros del movimiento amorfo facultados para negociar con el gobierno.

"Los pensadores autodenominados se convirtieron en figuras nacionales, gracias a las páginas populares y al revuelo de Facebook Live", escribió Frederic Filloux, ahora investigador en Stanford y anteriormente profesor de periodismo en Sciences Po en París, en Medium. El "evangelio de Nicolle es una mezcolanza de demandas incoherentes, pero ahora es una voz nacional".

El presidente francés, Emmanuel Macron, describió el manifiesto de los "chalecos amarillos" como "un poco de todo y pase lo que pase". Y, de hecho, las demandas originales: la derogación del impuesto a la gasolina de los automóviles, un impuesto de valor agregado mínimo sobre los alimentos. las multas más bajas por infracciones de tránsito, los recortes salariales para los funcionarios electos y el gasto gubernamental más eficiente, ahora se han visto confundidos por los pedidos adicionales de mejores servicios públicos, la disolución del Parlamento y la renuncia de Macron. Ahora se trata de la ira que fluye libremente en todas las direcciones. Como dice Filloux: "Como amplificador absoluto y radicalizador de la ira popular, Facebook ha demostrado su toxicidad para el proceso democrático".

No hay nada democrático en el surgimiento de los administradores de grupos de Facebook como portavoces de lo que pasa por un movimiento popular. A diferencia de Macron y los legisladores franceses, no son elegidos. En una columna de Liberación, el periodista Vincent Glad sugirió que los cambios recientes en el algoritmo de Facebook, que han dado prioridad al contenido creado por grupos sobre el de las páginas, incluidos los de los medios de comunicación tradicionales, han proporcionado el mecanismo para promover a estas personas. El director ejecutivo de Facebook, Mark Zuckerberg, pensó que estaba despolitizando su plataforma y se estaba enfocando en conectar a las personas. Eso no es lo que pasó.

"Los administradores de grupos de Facebook, cuyas prerrogativas se incrementan constantemente por Zuckerberg, son los nuevos intermediarios, que prosperan en las ruinas de los sindicatos, asociaciones o partidos políticos", escribió Glad.

Ya sea difícil descifrar si la ira desatada por el pequeño aumento de impuestos en Francia es real o al menos parcialmente inducida por las cámaras de eco de Facebook sin métodos científicos exactos. Sin embargo, es hora de desechar cualquier ilusión restante de que las redes sociales pueden desempeñar un papel positivo en la promoción de la democracia y la libertad.

Una sociedad libre no puede prohibir Facebook, ni siquiera puede regular por completo su función para mejorar el odio; pero debe ser consciente del riesgo que Facebook y plataformas similares representan para las instituciones democráticas. Irónicamente, la amenaza para los regímenes autoritarios es menor: han aprendido a manipular la opinión en las plataformas con propaganda, piratería, intimidación y tácticas de miedo de la vida real contra los activistas.

Un país como Francia no puede recurrir a tales técnicas. Eso significa más trabajo para la policía y decisiones más difíciles para los políticos que no están dispuestos a someterse al gobierno de la mafia, hasta que los populistas, alentados por las redes sociales, comienzan a ganar las elecciones. Para evitar ese resultado, las personas deberán darse cuenta de lo que realmente hacen las plataformas y comenzar a abandonarlas en tropel.

sábado, 8 de diciembre de 2018

Arte abstracto en Gephi

Arte abstracto en Gephi

Behance


Esta serie de arte abstracto experimental Gelphi fue creada con Gelphi + Photoshop. Tomé los datos de mi red personal de Facebook (mis amigos y su relación entre ellos) y los graficé dentro de Gephi. Luego rendericé las imágenes del gráfico base y creé ilustraciones abstractas con ellas.

Estuve muy feliz con los resultados, y creo que produjo algunas ilustraciones abstractas muy interesantes. Planeo sumergirme más profundamente en Gelphi en el futuro para ver qué otras imágenes creativas puedo extraer de él.


jueves, 6 de diciembre de 2018

Cómo se ve la red de aprendizaje de un proceso de machine learning


¿Qué ven las máquinas a medida que aprenden nuevas habilidades?

Por Matt Burgess | Wired

Graphcore, con sede en Bristol, utilizó su nuevo procesador y software de IA para mostrar lo que sucede dentro de los procesos de aprendizaje automático.

El aprendizaje automático está rompiendo las barreras del idioma, alimentando y combatiendo el ciberdelito, e incluso puede reconocer las emociones, pero los procesos complejos detrás de estos avances son a menudo un misterio.

El emprendimiento Graphcore quiere cambiar esto. La firma con sede en Bristol ha creado una serie de 'exploraciones cerebrales de IA', utilizando su chip y software de desarrollo, para producir imágenes de plato de Petri que revelan lo que sucede cuando se ejecutan los procesos.

La mayoría de los programas de aprendizaje automático, incluidos los sistemas propios de Google y los marcos de código abierto, funcionan mediante la capacitación de AI en gráficos computacionales.

En pocas palabras, los sistemas de aprendizaje automático pasan por una fase de construcción, durante la cual se crea un gráfico que muestra todos los cálculos necesarios. A esto le sigue una fase de ejecución en la que la máquina utiliza los cálculos (o pasos) resaltados en el gráfico para ejecutar sus procesos de capacitación. A medida que avanza a través de sus ejecuciones, hace "pases" que se ejecutan hacia adelante y hacia atrás a través de los datos. En las imágenes de Graphcore, al movimiento de estos pases y las conexiones entre ellos se les han asignado varios colores.

Esto es similar a cómo se compilan las exploraciones cerebrales, según Nigel Toon, CEO de Graphcore.

"La sorprendente similitud con las exploraciones del cerebro resalta que lo que tu cerebro está haciendo es algo muy similar", dijo Toon a WIRED. "Tu cerebro tiene neuronas y sinapsis que conectan esas neuronas, y también estás modelando efectivamente algo muy similar en este mundo de aprendizaje automático.

"Lo que estás viendo es cómo funciona la gráfica en el procesador, por lo que sería análogo a tomar una exploración de un cerebro para ver cómo funciona".

Las imágenes, proporcionadas exclusivamente a WIRED, muestran de lo que es capaz el software Poplar de la empresa cuando se combina con un procesador diseñado para aplicaciones de IA. Graphcore generó las imágenes mientras ejecutaba los procesos de aprendizaje automático utilizados para identificar las imágenes. "Estás llevando efectivamente una descripción gráfica a través de una pieza de software a un procesador gráfico", dijo Toon a WIRED.

"Lo que estás viendo son las capas de una profunda red neuronal expuesta", explicó. "Lo que está haciendo una red neuronal profunda es tratar de extraer características de los datos de forma automática, por lo que proporciona un flujo de datos y están extrayendo niveles de detalle más y más finos".

Graphcore dice que el chip utilizado para crear las imágenes se completará este año y ha desarrollado una Unidad de Procesamiento Inteligente (UIP), que argumenta que es la mejor manera de ejecutar la IA de aprendizaje automático. Explica el proceso tecnológico en una publicación de blog publicada junto con este artículo.

En comparación, las empresas como NVIDIA ejecutan programas de aprendizaje automático existentes en GPU de alta potencia. NVIDIA explica que sus GPU se están desarrollando para ejecutarse en la nube y admiten más procesamiento de datos con menos infraestructura, pero Toon argumenta que los procesadores específicos para el aprendizaje automático son mejores que los GPU.

Es algo, aparentemente, Google está de acuerdo con. Cuando el gigante de la tecnología lanzó recientemente su AI para Google Translate, se vio obligado a crear un nuevo chip: una unidad de procesamiento de tensor. El procesador está estructurado de manera diferente a las GPU y computa menos.

"Se están esforzando bastante para evolucionar a las GPU en una dirección diferente", dijo Toon. "Creemos que al comenzar a formar una hoja de papel limpia, podemos hacer algunos avances importantes y mover el paisaje"....

lunes, 3 de diciembre de 2018

Redes de similitud de acciones y predicción de riesgo financiero

Un enfoque combinado de aprendizaje automático y de red para la previsión del mercado de productos


Jingfang Fan, Keren Cohen, Louis M. Shekhtman, Sibo Liu, Jun Meng, Yoram Louzoun, Shlomo Havlin
Subjects: Physics and Society (physics.soc-ph); Social and Information Networks (cs.SI)
Cite as: arXiv:1811.10273 [physics.soc-ph]
(or arXiv:1811.10273v1 [physics.soc-ph] for this version)


Los mercados financieros sostenibles desempeñan un papel importante en el funcionamiento de la sociedad humana. Sin embargo, la detección y predicción del riesgo en los mercados financieros sigue siendo un reto y atrae mucha atención de la comunidad científica. Aquí desarrollamos un nuevo enfoque basado en la teoría de redes combinadas y el aprendizaje automático para estudiar la estructura y las operaciones de los mercados de productos financieros. Nuestros enlaces de red se basan en la similitud de los productos de las empresas y se construyen utilizando los registros de la Comisión de Bolsa de Valores (SEC) de las empresas que cotizan en Estados Unidos. Encontramos que varias características en nuestra red pueden servir como buenos precursores de los riesgos del mercado financiero. Luego combinamos la topología de la red y los métodos de aprendizaje automático para predecir empresas exitosas y fallidas. Encontramos que los pronósticos hechos usando nuestro método son mucho mejores que otras técnicas de regresión bien conocidas. El marco presentado aquí no solo facilita la predicción de los mercados financieros, sino que también proporciona información y demuestra el poder de combinar la teoría de redes y el aprendizaje automático.






sábado, 1 de diciembre de 2018

El cambio de escala en el ARS cuando arribó la digitalización

Ciencias sociales computacionales: haciendo los enlaces.


Desde los correos electrónicos hasta las redes sociales, los rastros digitales que deja la vida en el mundo moderno están transformando las ciencias sociales.

Jim Giles  | Nature
Nature 488, 448–450 (23 August 2012)
doi:10.1038/488448a




El trabajo inicial de Jon Kleinberg no fue para los matemáticamente débiles de corazón. Su primera publicación[1], en 1992, fue un artículo de informática con contenidos tan densos como su título: 'En diagramas dinámicos de Voronoi y la distancia mínima de Hausdorff para conjuntos de puntos bajo movimiento euclidiano en el plano'.

Eso fue antes de que la World Wide Web explotara en todo el planeta, impulsada por millones de usuarios individuales que toman decisiones independientes sobre a quién y con qué vincularse. Y fue antes de que Kleinberg comenzara a estudiar la amplia gama de subproductos digitales generados por la vida en el mundo moderno, desde correos electrónicos, llamadas desde teléfonos móviles y compras con tarjeta de crédito hasta búsquedas en Internet y redes sociales. Hoy en día, como científico informático en la Universidad de Cornell en Ithaca, Nueva York, Kleinberg usa estos datos para escribir artículos como "¿Qué tan malo está formando tu propia opinión?" [2] y "Me tuviste a mi lado: cómo el fraseo afecta la memorización" [3] Títulos que estarían en casa en una revista de ciencias sociales.

"Me di cuenta de que la informática no se trata solo de tecnología", explica. "También es un tema humano".

Kleinberg no está solo. El campo emergente de la ciencia social computacional está atrayendo a científicos inclinados matemáticamente en números cada vez mayores. Esto, a su vez, está estimulando la creación de departamentos académicos e impulsando a compañías como el gigante de la red social Facebook, con sede en Menlo Park, California, a establecer equipos de investigación para comprender la estructura de sus redes y cómo se propaga la información a través de ellos.

"Ha sido realmente transformador", dice Michael Macy, científico social de Cornell y uno de los 15 coautores de un manifiesto de 2009 que busca elevar el perfil de la nueva disciplina. "Antes estábamos limitados a las encuestas, que son retrospectivas, y los experimentos de laboratorio, que casi siempre se realizan en pequeñas cantidades de estudiantes de segundo año universitarios". Ahora, dice, las corrientes de datos digitales prometen un retrato del comportamiento individual y grupal a escalas sin precedentes. y niveles de detalle. También ofrecen muchos desafíos, especialmente los problemas de privacidad, y el problema de que los conjuntos de datos pueden no reflejar realmente a la población en general.

No obstante, dice Macy, "comparo las oportunidades con los cambios en la física provocados por el acelerador de partículas, y en la neurociencia por imágenes de resonancia magnética funcional".

Llamadas sociales

Un ejemplo temprano de datos digitales a gran escala utilizados en un tema de ciencias sociales fue un estudio realizado en 2002 por Kleinberg y David Liben-Nowell, un científico informático del Carleton College en Northfield, Minnesota. Observaron un mecanismo que los científicos sociales creían que ayudaba a impulsar la formación de relaciones personales: las personas tienden a hacerse amigos de los amigos de sus amigos. Aunque bien establecida, la idea nunca se había probado en redes de más de unas pocas decenas o cientos de personas.

Kleinberg y Liben-Nowell estudiaron las relaciones formadas en las colaboraciones científicas. Observaron a los miles de físicos que cargaron documentos en el servidor de preimpresión arXiv durante 1994–96. Al escribir un software para extraer automáticamente los nombres de los documentos, el par creó una red digital de varios órdenes de magnitud más grande que cualquiera que se haya examinado anteriormente, y cada enlace representa a dos investigadores que habían colaborado. Al observar cómo la red cambió con el tiempo, los investigadores identificaron varias medidas de cercanía entre los investigadores que podrían usarse para pronosticar futuras colaboraciones[5].





Como se esperaba, los resultados mostraron que las nuevas colaboraciones tendían a surgir de investigadores cuyas esferas de colaboradores existentes se superponían: el análogo de la investigación de "amigos de amigos". Pero la sofisticación matemática de las predicciones ha permitido que se utilicen en redes aún más grandes. El antiguo estudiante de doctorado de Kleinberg, Lars Backstrom, también trabajó en el problema de la predicción de la conexión, experiencia que ha aprovechado ahora que trabaja en Facebook, donde diseñó el actual sistema de recomendaciones de amigos de la red social.

Otra idea de larga data de la ciencia social afirmada por los investigadores computacionales es la importancia de los "vínculos débiles", las relaciones con conocidos lejanos que se encuentran relativamente raramente. En 1973, Mark Granovetter, un científico social ahora en la Universidad de Stanford en Stanford, California, argumentó que los vínculos débiles forman puentes entre camarillas sociales y, por lo tanto, son importantes para la difusión de información y la movilidad económica6. En la era pre-digital era casi imposible verificar sus ideas a escala. Pero en 2007, un equipo dirigido por Jukka-Pekka Onnela, un científico de la red que actualmente trabaja en la Universidad de Harvard en Cambridge, Massachusetts, utilizó datos de 4 millones de usuarios de teléfonos móviles para confirmar que los lazos débiles actúan como puentes sociales[7] (ver 'El poder de lazos débiles ').

En 2010, un segundo grupo, que incluía a Macy, mostró que Granovetter también tenía razón sobre la conexión entre la movilidad económica y los lazos débiles. Utilizando datos de 65 millones de teléfonos fijos y teléfonos móviles en el Reino Unido, junto con datos del censo nacional, revelaron una poderosa correlación entre la diversidad de las relaciones de las personas y el desarrollo económico: cuanto más ricas y variadas son sus conexiones, más ricas son sus comunidades[8] (ver 'El vínculo económico'). "En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala", dice Granovetter.

Ideas infecciosas

En algunos casos, los grandes datos han demostrado que las ideas antiguas son erróneas. Este año, Kleinberg y sus colegas utilizaron datos de los aproximadamente 900 millones de usuarios de Facebook para estudiar el contagio en las redes sociales, un proceso que describe la difusión de ideas como modas, opiniones políticas, nuevas tecnologías y decisiones financieras. Casi todas las teorías habían asumido que el proceso refleja un contagio viral: la posibilidad de que una persona adopte una nueva idea aumenta con el número de creyentes a los que está expuesta.



El estudiante de Kleinberg, Johan Ugander, descubrió que hay más que eso: la decisión de la gente de unirse a Facebook no varía con el número total de amigos que ya están usando el sitio, sino con el número de grupos sociales distintos que ocupan esos amigos[9]. En otras palabras, descubrir que Facebook está siendo utilizado por personas de, digamos, su trabajo, su club deportivo y sus amigos cercanos da más impresión que encontrar que los amigos de un solo grupo lo usan. La conclusión de que la difusión de ideas depende de la variedad de personas que las sostienen puede ser importante para las campañas de marketing y de salud pública.

A medida que han proliferado los estudios computacionales de ciencias sociales, también lo han hecho las ideas sobre aplicaciones prácticas. En el Instituto de Tecnología de Massachusetts en Cambridge, el grupo del científico informático Alex Pentland utiliza aplicaciones de teléfonos inteligentes y dispositivos de grabación portátiles para recopilar datos detallados sobre los movimientos y las comunicaciones diarias de los sujetos. Al combinar los datos con encuestas de salud emocional y física, el equipo ha aprendido a detectar la aparición de problemas de salud como la depresión[10]. "Vemos grupos que nunca gritan", dice Pentland. "Poder ver el aislamiento es realmente importante cuando se trata de llegar a las personas que necesitan ser contactadas". Ginger.io, una compañía derivada en Cambridge, Massachusetts, dirigida por el ex alumno de Pentland, Anmol Madan, está desarrollando una aplicación para teléfonos inteligentes que notifica a los proveedores de atención médica cuando detecta un patrón en los datos que puede indicar un problema de salud.

Otras compañías están explotando los más de 400 millones de mensajes que se envían todos los días en Twitter. Varios grupos de investigación han desarrollado un software para analizar los sentimientos expresados ​​en tweets para predecir resultados del mundo real, como los ingresos de taquilla para películas o resultados de elecciones[11]. Aunque la precisión de tales predicciones aún es un tema de debate[12], Twitter comenzó en agosto a publicar un índice político diario para la elección presidencial de los Estados Unidos basada en estos métodos (election.twitter.com). Mientras tanto, en la Universidad de Indiana en Bloomington, Johan Bollen y sus colegas utilizaron un software similar para buscar correlaciones entre el estado de ánimo público, como se expresa en Twitter, y las fluctuaciones del mercado de valores[13]. Sus resultados han sido lo suficientemente poderosos para que Derwent Capital, una firma de inversiones con sede en Londres, pueda licenciar las técnicas de Bollen.

Cuando esas encuestas basadas en Twitter comenzaron a aparecer hace unos dos años, los críticos se preguntaban si la relativa popularidad del servicio entre grupos demográficos específicos, como los jóvenes, alteraría los resultados. Un debate similar gira en torno a todos los nuevos conjuntos de datos. Facebook, por ejemplo, ahora tiene cerca de mil millones de usuarios, sin embargo, los jóvenes todavía están excesivamente representados entre ellos. También hay diferencias entre la comunicación en línea y en el mundo real, y no está claro si los resultados de una esfera se aplicarán en la otra. "Con frecuencia, extrapolamos cómo un solo grupo utiliza una tecnología a cómo interactúan los humanos en general", señala Samuel Arbesman, científico de la red de la Universidad de Harvard. Pero eso, dice, "podría no ser necesariamente razonable".

Los defensores argumentan que estos no son problemas nuevos. Casi todos los datos de la encuesta contienen una cierta cantidad de sesgo demográfico, y los científicos sociales han desarrollado una variedad de métodos de ponderación para corregir el equilibrio. Si se entiende el sesgo en un conjunto de datos en particular, como un exceso de un grupo u otro en Facebook, los resultados se pueden ajustar para tenerlo en cuenta.

"En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala".

Los servicios como Facebook y Twitter también se están utilizando cada vez más, reduciendo el sesgo. E incluso si el sesgo se mantiene, podría decirse que es menos severo que en otros conjuntos de datos como el de la psicología y el comportamiento humano, donde la mayoría del trabajo se realiza en estudiantes universitarios de sociedades occidentales, educadas, industrializadas, ricas y democráticas (a menudo denominadas WEIRD ).
Granovetter tiene una reserva más filosófica sobre la afluencia de big data en su campo. Él dice que está "muy interesado" en los nuevos métodos, pero teme que el enfoque en los datos reste valor a la necesidad de obtener una mejor comprensión teórica de los sistemas sociales. "Incluso lo mejor de estos artículos computacionales se centra en gran medida en las teorías existentes", dice. "Eso es valioso, pero es solo una parte de lo que debe hacerse". El artículo6 de Granovetter sobre los vínculos débiles, por ejemplo, sigue siendo altamente citado casi 40 años después. Sin embargo, fue "más o menos libre de datos", dice. "No fue el resultado de los análisis de datos, fue el resultado de pensar en otros estudios. Esa es una actividad separada y necesitamos que haya gente haciendo eso ".

La nueva generación de científicos sociales también está luchando con el tema del acceso a los datos. "Muchos de los 'big data' emergentes provienen de fuentes privadas que son inaccesibles para otros investigadores", escribió Bernardo Huberman, científico informático de los laboratorios HP en Palo Alto, en febrero de 2014. "La fuente de datos puede estar oculta, lo que agrava los problemas de verificación, así como las preocupaciones sobre la generalidad de los resultados".

Un buen ejemplo es el equipo de investigación interno de Facebook, que utiliza de manera rutinaria datos sobre las interacciones entre los 900 millones de usuarios de la red para sus propios estudios, incluida una reevaluación de la famosa afirmación de que dos personas en la Tierra solo tienen seis presentaciones aparte. (Pone la cifra en cinco[15]). Pero el grupo solo publica las conclusiones, no los datos sin procesar, en parte debido a preocupaciones de privacidad. En julio, Facebook anunció que estaba explorando un plan que daría a los investigadores externos la oportunidad de verificar las conclusiones publicadas del grupo interno contra datos agregados y anónimos, pero solo por un tiempo limitado, y solo si los de fuera viajaban a la sede de Facebook[16].

A corto plazo, los científicos sociales de la computación están más preocupados por los problemas culturales en su disciplina. Varias instituciones, entre ellas Harvard, han creado programas en el nuevo campo, pero el poder de los límites académicos es tal que a menudo hay poco tráfico entre los diferentes departamentos. En la Universidad de Columbia en Nueva York, el científico social y teórico de redes Duncan Watts recuerda un reciente error de programación que lo obligó a combinar reuniones con estudiantes graduados en ciencias de la computación y sociología. "Quedó bastante claro que estos dos grupos realmente podrían usarse entre sí: los estudiantes de ciencias de la computación tenían mejores habilidades metodológicas que sus homólogos de la sociología, pero los sociólogos tenían preguntas mucho más interesantes", dice. "Y sin embargo, nunca se habían escuchado el uno del otro, ni se les había ocurrido a ninguno de ellos caminar hasta el departamento del otro".

Muchos investigadores desconocen el poder de los nuevos datos, está de acuerdo David Lazer, científico social de la Northeastern University en Boston, Massachusetts, y autor principal del manifiesto de 2009. El escaso trabajo basado en datos se está convirtiendo en las principales revistas de ciencias sociales. Y las conferencias de informática que se centran en temas sociales, como la Conferencia sobre weblogs y redes sociales, celebrada en Dublín en junio, atraen a pocos científicos sociales.

No obstante, dice Lazer, con artículos destacados que aparecen en revistas líderes y conjuntos de datos sobre comportamientos de toda la sociedad disponibles por primera vez, esas barreras se están rompiendo constantemente. "Los cambios están más delante de nosotros que detrás de nosotros", dice.

Ciertamente esa es la percepción de Kleinberg. "Me considero un científico informático interesado en cuestiones sociales", dice. "Pero estos límites se están volviendo difíciles de discernir".


Referencias

  1. Huttenlocher, D. P., Kedem, K. & Kleinberg, J. M. Proc. 8th Annu. Symp. on Computational Geometry 110119 (1992).
  2. Bindel, D., Kleinberg, J. & Oren, S. Proc. IEEE 52nd Annu. Symp. Foundations of Computer Science 5766 (2011).
  3. Danescu-Niculescu-Mizil, C., Cheng, J., Kleinberg, J. & Lee, L. Proc. 50th Annu. Meeting Assoc. Computational Linguistics (in the press); Preprint at http://arxiv.org/abs/1203.6360.
  4. Lazer, D. et al. Science 323, 721723 (2009).
  5. Liben-Nowell, D. & Kleinberg, J. J. Am. Soc. Inf. Sci. Technol. 58, 10191031 (2007).
  6. Granovetter, M. S. Am. J. Sociol. 78, 13601380 (1973).
  7. Onnela, J.-P. et al. Proc. Natl Acad. Sci. USA 104, 73327336 (2007).
  8. Eagle, N., Macy, M. & Claxton, R. Science 328, 10291031 (2010).
  9. Ugander, J., Backstrom, L., Marlow, C. & Kleinberg, J. Proc. Natl Acad. Sci. USA 109, 59625966 (2012).
  10. Madan, A., Cebrian, M., Moturu, S., Farrahi, K. & Pentland, S. IEEE Pervasive Computing http://dx.doi.org/10.1109/MPRV.2011.79 (2011).
  11. Asur, S. & Huberman, B. A. Proc. 2010 IEEE/WIC/ACM Int. Conf. Web Intelligence and Intelligent Agent Technology Vol. 1, 492499 (2010).
  12. Gayo-Avello, D., Metaxas, P. T. & Mustafaraj, E. Proc. Fifth Int. AAAI Conf. on Weblogs and Social Media 490493 (2011).
  13. Bollen, J. & Mao, H. IEEE Computer 44(10), 9194 (2011).
  14. Huberman, B. A. Nature 482, 308 (2012).
  15. Backstrom, L., Boldi, P., Rosa, M., Ugander, J. & Vigna S. Preprint at http://arxiv.org/abs/1111.4570 (2011).
  16. Corbyn, Z. Nature http://dx.doi.org/10.1038/nature.2012.11064 (2012).