sábado, 24 de noviembre de 2018

Gephi: El grafo cómo herramienta de visualización de datos

El grafo: una parte del "dataviz" explotable para mapear y explorar un sector de actividad


Mathieu BOYER | Cell'IE
"Un buen boceto es mejor que un discurso largo", Napoleón Bonaparte.

En la era de "Big Data" y "Open Data", estas bases de datos masivas presentadas en forma de tabla, se ha vuelto esencial para aplicar consultas, procesos y dispositivos de cálculo para extraer información relevante y nuevos conocimientos. De hecho, sin estas diferentes etapas, es imposible extraer cualquier valor agregado de estas tablas de valores, imponente y nebuloso.

Es entonces cuando tiene lugar la visualización de datos o "dataviz", lo que hace posible traducir una base de datos no digerible e indigestible en una serie de grafos o imágenes interpretables. Finalmente, es un pasaje "de complejidad a simplicidad" que ocurre cuando organizamos los datos en forma gráfica. Esta disciplina no es nueva y se utiliza en varios campos de actividad: inteligencia económica, geografía, marketing, periodismo, inteligencia, comunicación ... Existen cuatro formas de modelos visuales: gráficos cartesianos, cartografía, diagramas de redes. y modelos experimentales. Deseamos abordar aquí una imagen específica de la visualización de datos que se entrega al lector: el grafo.

El propósito de este artículo es visualizar en forma de grafos, la red formada por los enlaces de hipertexto de sitios alrededor de un tema: el sector del hidrógeno en Francia y en Europa. Nuestro objetivo será mapear el paisaje sectorial del hidrógeno para determinar qué actores forman parte de él. Este tema se toma como ejemplo y el enfoque es replicable para otros sectores de actividad.

Un punto metodológico sobre la construcción de un grafo.

Para entender completamente de qué estamos hablando, es importante volver sobre lo que es una grafo y algunos conceptos que extraen información relevante de ella. Puede ir directamente a la parte de explotación del grafo si ya conoce los principios generales.

Un grafo es un conjunto de nodos interconectados y enlaces entre ellos. Aplicados a la web, los nodos representan un sitio web, un actor (tomamos la sociología de la traducción, o teoría de actores de red, en la definición que tenemos de un actor), es decir, un proyecto, una empresa, una asociación, una agencia estatal, una unión ... Los arcos entre los nodos representan los enlaces de hipertexto presentes en los sitios web que rastreamos y que se refieren a otra entidad web del corpus (ellos son sitios web de la red).

La metodología del mapeo web es relativamente simple. Se puede resumir en cinco pasos principales: extracción, procesamiento, análisis, producción y presentación.

Aquí hay algunos elementos para entender la construcción de nuestros grafos.

La elección del crawler

Es necesario elegir un crawler o rastreador al hacer un mapa de la web. Elegimos utilizar Hyphe, una herramienta gratuita desarrollada por Science Po Medialab. Esta opción es la más relevante en nuestra opinión porque es una herramienta gratuita que, a diferencia de otros rastreadores del mismo tipo, ofrece un margen muy grande de Maniobra al usuario. Además, la herramienta tiene características interesantes como agregar etiquetas a sitios o convertir a archivos .xls o .gexf. Sin embargo, tenga en cuenta que se necesitan algunas horas para que Hyphe se apropie completamente Comprender los mecanismos latentes.

Puntos de entrada

El tema tratado con las geográficas: Francia y Europa. Enthesi es necesario dejar dos web sites (puntos de inicio del rastreo): Afhypac y el sitio de FCH JU. El primer sitio es una asociación de referencia en Francia para el sector del hidrógeno. Restaura a los miembros que son sus principales actores del sector del hexágono. FCH JU es una organización europea que financia proyectos europeos de colaboración en torno al hidrógeno. La idea es la de la página "Miembros" de Afhypac para obtener todos los actores principales (su sitio web). En cumplimiento de la FCH JU, la página "Proyecto" incluye todos los proyectos que han sido financiados por la organización desde 2008. Además, hace referencia a los miembros de los diferentes consorcios. Estos vuelven a sitios sus puntos de partida de la cartografía. El rastreador se ha lanzado para aspirar a los bucles de hipertexto de estos sitios.

Recuperar eso, mar y sector de actividad, existen asociaciones, grupos de profesionales, gremios, etc. que tienen un espacio miembro. Estos espacios son muy buenos puntos de partida para captar un sector de actividad que desconocemos o muy poco (el uso de una consulta simple que combina los operadores booleanos en un motor de búsqueda permite encontrar estos actores). También hay que tener en cuenta que para iniciar un rastreo, es necesario definir para cada sitio una página de inicio. Es recomendable iniciar páginas socios / miembros / miembro / etc. donde sea posible

Tratamiento post-rastreo

Uniendo que la herramienta finaliza el primer rastreo, es necesario tratar como lo que Hyphe denomina "la salida", es decir, los nuevos sitios descubiertos. Este tratamiento implica la eliminación de los sitios que pertenecen a la llamada "alta" de la Web (la capa más visible). De este modo, podemos eliminar los sitios web como Amazon, Twitter, YouTube, Apple, Facebook ... De hecho, estas entidades, se han expandido en popularidad, se concentran una gran cantidad de abrazos y se convertirán en nodos centrales de nuestra cartografía. que No tienen nada que ver con el sector del hidrógeno francés o europeo. Solo se complicarían la comprensión del grafo. En general, si hay una tendencia a sufrir cuando se rastrea un conjunto de sitios. Será necesario asegurar sistemáticamente la eliminación de aquellos que no correspondan al tema observado.

Finalización del corpus

Después de definir los sitios que se inclinarán en el corpus, de reiniciar un Rapeo desnudo, es decir, ver solo va a las estacas recién incluidas. Además, es necesario un centro de formación para eliminar la situación. En total, se realiza muy rastreos para constituir el corpus. El rastreo de la última "salida" obtenida de Hyphe hizo posible completar los temibles abrazos. Después de algunos toques finales de los sitios que serán inclinados, el corpus final contiene 539 nodos y 2.885 entrelazados.

Categorización de sitios

El análisis del grafo pasa por una doble categorización de los sitios web presentados en el corpus. Este paso esencial nos permite entender cómo cuidar la web. También disponible, durante la explotación del grafo, divulgar información de otro modo no habría estado disponible. Por lo tanto, hemos optado por clasificar los sitios web según el tipo de actor (categoría 1) y según el país o área geográfica (categoría 2)..
Categoría 1: Tipo de actor Categoría 2: País o zona geográfica
El sitio es un proyecto. En este caso, en su mayoría proyectos europeos para nosotros. El sitio es un proyecto y no tiene ninguna aplicación exclusivamente francesa y se llamará Europe 2.
El sitio es una organización de investigación, laboratorio, universidad, escuela, centro técnico o instituto. El sitio es un proyecto y tiene una aplicación exclusivamente francesa (France 2 en el grafo).
El sitio es una PYME SMI. Clasificamos como Europa cualquier sitio cuyo objeto no se refiera a una entidad que pertenezca a un país. Ejemplo: El Instituto Eifer, nacido de la colaboración entre EDF y el Instituto Karlsruher de Alemania, se identifica como Europa porque nació de la colaboración de dos países.
El sitio de un gran grupo industrial de una ETI.
El sitio representa una institución financiera o un financiero.
El sitio representa una asociación, un grupo de competitividad o un grupo diverso de actores. Otros tipos de sitios para los cuales un país es claramente identificable serán nombrados como tales. Por ejemplo, la Universidad de Poitiers se llamará Francia. Tenemos varios países que están representados y todos tendrán sus propios colores cuando los vean.
El sitio es una comunidad territorial, un estado, una agencia / servicio nacional.
El sitio representa a un usuario final de aplicaciones de hidrógeno.
El sitio destaca un evento específico.


En general, debemos pensar en la información que queremos obtener cuando construimos su categorización. Optar por una representación por tipo de actor y país proporciona una visión general del sector. Por estas categorizaciones, emerge una visión relevante del paisaje sectorial (ver explotación del grafo).

Sin embargo, también es posible elegir clasificar por posicionamiento en la cadena de valor del sector (fabricante de baterías, integrador, generador de estaciones, investigación ...). Hay muchas posibilidades que deben ser cuidadosamente pensadas y adaptadas a las especificidades de cada sector / análisis.

Visualización del grafo

Para concluir el grafo, ahora es necesario espacializar los nodos y los enlaces, colorearlos, nombrarlos, aplicarles un tamaño ... Por lo tanto, es necesario crear lo que se puede llamar una interfaz de imagen: es el enriquecimiento de los elementos del grafo que depende de un software de visualización. No es necesario abordar aquí la cuestión de la herramienta que define el universo de posibilidades en la visualización y que puede bloquear o hacer dependiente al usuario. Para diseñar la imagen de la interfaz, usar Gephi, un software de código abierto, parece ser la mejor solución. Este, sin embargo, no es muy intuitivo y sigue siendo relativamente complejo. Aquí hay algunos tutoriales que explican muy bien cómo funciona.

Los nodos del grafo están coloreados de acuerdo con las categorizaciones, lo que da 2 grafos diferentes. A esto se agrega un tercer grafo cuyo color de nodo depende de las agrupaciones / comunidades detectadas automáticamente por el algoritmo de modularidad (o método MCL). La teoría subyacente no se desarrollará, pero aquí hay un documento para aprender más. El tamaño de los nodos no es uniforme y está relacionado con el peso asignado a ellos. Está vinculado al número de enlaces de hipertexto salientes o entrantes para un nodo determinado (cuanto más se cita un sitio, más imponente estará en el grafo).

Estas modificaciones aplicadas, debemos agregar una espacialización para completar el grafo. Hay varias opciones disponibles que dependen del tipo de grafo y lo que desea analizar. Respecto a las 3 grafos, se aplicó la misma espacialización y se llevó a cabo en 2 etapas:
  1. Utilizando el algoritmo de Fruchterman Reingold. La salida del grafo final es más interesante cuando este algoritmo se usa de antemano para "airear" el grafo.
  2. Utilizando Force Atlas 2, un algoritmo "dirigido por la fuerza" que posiciona cada nodo de acuerdo con los demás. Se aplicó una reducción de la dispersión de los nodos, una gravedad para acercar los nodos, una influencia nula de los enlaces y una prevención de la recuperación (más estética y legible) al grafo.

Así nos dimos cuenta de las 3 grafos siguientes.


Grafo 1: Tipo de categorización del actor.

Leyenda del grafo 1



Grafo 2: categorización por país



Leyenda del grafo 2


Grafo 3: algoritmo de modularidad de categorización

Explotación del grafo

Un principio básico es latente en un mapa de enlaces de hipertexto. Este es el principio de la homofilia, teorizado por Lazarsfeld y Merton en 1954. Menciona lo siguiente: los individuos tienden a conectarse entre sí según sus similitudes. Así, dos actores estarán más fácilmente en contacto si comparten los mismos valores, la misma cultura, la misma clase social, etc. La cartografía web es una extensión de este razonamiento sociológico. Los enlaces de hipertexto materializan las relaciones sociales y el intercambio del mismo sector de actividad (en este caso) explica la conexión entre estas entidades web.

Estas relaciones traducidas por enlaces de hipertexto son proteicas. De hecho, el enlace puede simbolizar una asociación en torno a un proyecto, una relación comercial, una relación accionaria, la pertenencia a una organización, la participación en un evento, etc. Finalmente, es la representación de una conexión que realmente tuvo lugar en algún punto "en tierra". Es sobre la base de este principio que podemos explotar los grafos.

Al analizar el grafo número 1 que clasifica los tipos de estructura, se descubre información sobre la organización del sector y el posicionamiento de los actores:
  • Las organizaciones de investigación son numerosas y muy conectadas. Vienen de un grupo (ubicado a la derecha del grafo). La colaboración europea parece manifestarse en torno al sector del hidrógeno y el surgimiento del sector (aún en fase de desarrollo) puede justificar la omnipresencia de estos actores. Sería interesante realizar este trabajo de mapeo en unos pocos años; La sospecha de un hallazgo de una disminución neta puede ser de estos organismos para el beneficio de grandes grupos o de SME-SMI.
  • Algunas pymes están mal conectadas. Esto puede explicar el surgimiento del sector y la actividad de las empresas que aún tienen que encontrar su lugar (grupo de sitios alrededor de Afhypac).
  • Alrededor de los proyectos europeos (ubicados alrededor del FCH) giran en torno a diferentes organizaciones: SME-SMI, grandes grupos, ETI, asociaciones, organizaciones de investigación ... Después de una breve investigación, esto se explica por los métodos de financiamiento de este tipo de proyecto. De hecho, cuando los diferentes tamaños de estructuras están presentes en un consorcio, la financiación puede ser mayor o más fácilmente aceptada.
  • Las organizaciones de financiamiento están fuertemente conectadas y están en el corazón de grupos como ADEME o FCH JU. Esto parece reflejar una necesidad exógena de financiamiento para los actores involucrados en el sector del hidrógeno. Esta idea refuerza un análisis inicial que muestra que este sector está en pleno desarrollo.

Si ahora tomamos la cartografía número 2 clasificando los países, podemos deducir ciertas tendencias:
  • Los actores franceses están muy interconectados, pero en su mayor parte están aislados de los actores y proyectos europeos. ¿Es este el signo del retraso en este asunto de Francia en comparación con otros países europeos? Tenga en cuenta que el grafo 3 que colorea los nodos de acuerdo con el algoritmo de modularidad ha identificado muy bien a la comunidad francesa.
  • La mitad del grafo (donde la concentración es menor) presenta a los actores franceses que cierran la brecha entre Europa y Francia (ejemplo: CEA, Airliquide, Symbio, Areva H2, McPhy, CNRS entre otros). Por lo tanto, estos jugadores ocupan un lugar importante y estratégico en la escena francesa y europea para el sector del hidrógeno. Estos actores por lo tanto tienen mucho poder. Recuerde que en un mapeo, los actores que hacen el enlace entre 2 o más redes deben considerarse estratégicos. Una empresa tiene mucho interés en acercarse a estos actores si desea estar presente en el panorama del hidrógeno francés y europeo.

Una tendencia importante surge en el grafo número 3:

El clúster europeo alrededor del FCH se puede dividir en 2. Esto es lo que ha presentado el algoritmo de modularidad. Una parte contiene actores más diversos (en verde en el grafo 3) y la otra parte consiste principalmente en proyectos (en púrpura). La parte verde contiene grupos más grandes y ETI, cluster competitivo, SME-SMI (que se superpone con el grafo 1) que puede explicar la división. Por el contrario, el grupo púrpura está fuertemente conectado con las organizaciones de investigación. Sigue siendo bastante complicado explicar esta distinción, pero eso es lo que podemos asumir.

Al estar en la fase de desarrollo, podemos imaginar que se destacan 2 tipos de proyectos:
  • Proyectos de aplicación (demostradores);
  • Y más proyectos de investigación básica.

Sin embargo, esta división puede hacernos pensar que los proyectos más aplicativos están más fuertemente conectados con el mundo industrial (cluster verde) y, a la inversa, los proyectos más "fundamentales" están en relación con el mundo de la investigación. Si este es el caso, localizar los proyectos de la aplicación se vuelve fácil.

La explotación del grafo también puede ir a través del uso de las métricas inherentes al software de visualización (puntuación de autoridad, centralidad de intermediación ...). Sabemos que la cartografía materializa un conjunto de relaciones sociales. Al combinar esto con métricas matemáticas, podemos obtener otra información. No desarrollaremos el uso de métricas aquí y lo reservaremos para un artículo futuro.

Al analizar completamente los grafos y verificarlos en forma cruzada, es posible dibujar un panorama del sector, sus actores y tendencias, permitiendo que cualquier organización vea con mayor claridad, extraiga información explotable y se abra. pistas estratégicas.

Algunas limitaciones a considerar


Antes de concluir, queríamos advertir al lector de algunas limitaciones en el uso de un mapa web. Éstos son algunos de ellos:
  • Ningún grafo es exhaustiva y ninguna muestra una verdad absoluta;
  • La web está cambiando rápidamente (cierre de sitios, enlaces muertos, agregando enlaces ...). Es posible que la asignación utilizada aquí ya no sea completamente precisa y cualquier asignación está destinada a evolucionar;
  • El vínculo social del que hablamos, transpuesto por el enlace de hipertexto, es construido y complejo. La simple visualización del grafo no permite comprender completamente la profundidad de un enlace. Por lo tanto, es importante hacer una referencia cruzada del mapeo a través de búsquedas de información;
  • La web es imperfecta, algunos enlaces y sitios no funcionan, los actores pueden no aparecer y el mapeo puede estar incompleto;
  • Nunca se debe sobreinterpretar el grafo y sacar conclusiones precipitadas. Es por eso que preferimos hablar sobre tendencias y por qué abogamos por el aspecto exploratorio del mapeo.

Por lo tanto, es necesario, en nuestra opinión, redoblar la precaución durante un ejercicio como el que acabamos de presentar.

Lo hemos demostrado: el mapeo de enlaces de hipertexto permite observar la dinámica de los actores que pertenecen a un sector determinado. La punta de lanza de este trabajo es el resaltar las principales tendencias en el entorno observado que se pueden movilizar como un ancla. Este mapeo no debe verse como un fin sino como un punto de partida para que una fase de exploración active otros enfoques; Pensamos en particular en el reloj y las estrategias de influencia.

Por ejemplo, considere una empresa que quiere posicionarse en un sector del que sabe muy poco. Este tipo de mapeo podría guiar la selección de socios y relaciones potenciales (con actores autoritarios e influyentes en el sector). También podría identificar fácilmente a las organizaciones que parecen importantes y ponerlas bajo vigilancia para conocer sus direcciones estratégicas.

En resumen, la cartografía es un activo real para una organización. Ahora estamos dando rienda suelta a la imaginación de todos para implementar los pasos adaptados a las necesidades específicas de su estructura utilizando el grafo como soporte.

Fuentes :

jueves, 22 de noviembre de 2018

Bots difunden noticias falsas pero pueden ser combatidos

Los bots difundieron muchas falsificaciones durante las elecciones de 2016. Pero también pueden desacreditarlo.

Por Daniel Funke · Poynter





Desde las elecciones estadounidenses de 2016, ha habido mucha especulación sobre el papel que desempeñaron los robots en la difusión de información errónea en línea. Y ahora, ese papel ha sido cuantificado.

Según un estudio publicado hoy en la revista Nature Communications, las cuentas automáticas de Twitter amplían de manera desproporcionada la información errónea durante las últimas elecciones en los Estados Unidos. Descubrió que, si bien los bots solo representaban alrededor del 6 por ciento de los usuarios de Twitter en el estudio, eran responsables del 34 por ciento de todas las acciones de artículos de fuentes de "baja credibilidad" en la plataforma.

"Este estudio encuentra que los bots contribuyen significativamente a la diseminación de información errónea en línea, y también muestra la rapidez con la que se pueden propagar estos mensajes", dijo Filippo Menczer, profesor de informática y ciencias de la computación en la Universidad de Indiana, y el director del estudio, en un comunicado de prensa. enviado a Poynter.

Los investigadores analizaron 14 millones de tweets y 400,000 artículos compartidos en Twitter entre mayo de 2016 y marzo de 2017. Para determinar si algo era una fuente de baja credibilidad, se basaron en recursos de sitios como PolitiFact (propiedad de Poynter), que ha compilado una lista de sitios web conocidos por difundir información falsa o engañosa en línea.

Esas fuentes abarcan desde sitios satíricos como The Onion hasta sitios de noticias falsas como USAToday.com.co. Esa es una gran brecha, pero en las plataformas sociales como Twitter, la línea entre la desinformación y la sátira es notoriamente borrosa, y los usuarios se dividen cuando uno se convierte en el otro.

Para rastrear cómo los bots amplificaban la información errónea de estas fuentes, los autores del estudio utilizaron dos herramientas de IU: Hoaxy y Botometer. La primera es una plataforma que rastrea la propagación de reclamaciones en línea, mientras que la segunda es un algoritmo de aprendizaje automático que detecta bots en las redes sociales.

El estudio compara principalmente las distribuciones de puntajes de bot de Botometer, que identifican bots basados ​​en miles de otros ejemplos. Los autores mitigaron los falsos positivos y negativos al establecer un umbral de 2.5 / 5, una puntuación que, según Menczer, tenía el mayor grado de precisión en su algoritmo.

Aparte de su papel en la amplificación del alcance de la desinformación, los bots también desempeñan un papel crítico en su despegue en primer lugar. Según el estudio, es probable que los bots amplifiquen los tweets falsos justo después de su publicación, antes de que se vuelvan virales. Luego los usuarios los compartieron porque parecía que mucha gente ya los tenía.

"Las personas tienden a confiar más en los mensajes que parecen provenir de muchas personas", dijo el coautor Giovanni Luca Ciampaglia, profesor asistente de ciencias de la computación en la Universidad del Sur de la Florida, en el comunicado de prensa. "Los bots se aprovechan de esta confianza al hacer que los mensajes parezcan tan populares que se engaña a personas reales para que difundan sus mensajes por ellos".

El estudio sugiere que Twitter reduzca el número de cuentas automatizadas en las redes sociales para reducir la amplificación de la desinformación. La compañía ha logrado algunos avances hacia este fin, suspendiendo más de 70 millones de cuentas solo en mayo y junio. Más recientemente, la compañía derribó una red de bots que impulsó puntos de vista pro saudíes sobre la desaparición de Jamal Khashoggi y comenzó a permitir que los usuarios informen sobre posibles cuentas falsas.

No obstante, los bots siguen causando estragos en Twitter, y algunos no se utilizan para difundir información errónea en absoluto. Entonces, ¿qué deberían hacer los verificadores de datos para combatir su papel en la difusión de información errónea?

Tai Nalon ha pasado la mayor parte del año pasado tratando de responder esa pregunta, y su respuesta es vencer a los robots en su propio juego.

"Creo que la inteligencia artificial es la única forma de abordar la desinformación, y tenemos que crear bots para abordar la desinformación", dijo el director de Aos Fatos, un proyecto brasileño de verificación de hechos. “(Los periodistas) tienen que llegar a las personas donde están leyendo las noticias. Ahora en Brasil, están leyendo en las redes sociales y en WhatsApp. Entonces, ¿por qué no estar allí y automatizar los procesos utilizando las mismas herramientas que usan los malos? "

En el período previo a las elecciones del mes pasado en Brasil, Aos Fatos creó un bot de Twitter que corrige automáticamente a las personas que comparten noticias falsas. Llamada Fátima, la cuenta automatizada aprovecha AI para escanear Twitter en busca de URL que coincidan con las comprobaciones de hechos en la base de datos de artículos de Aos Fatos. Luego, el bot responde al usuario de Twitter con un enlace a la verificación de hechos. (Divulgación: Fátima ganó la donación instantánea de International Fact Checking Network para Brasil).



Desde el lanzamiento de Fátima durante el verano, Nalon le dijo a Poynter que el bot ha escaneado más de 12,000 enlaces y tuiteado casi 2,500 respuestas a una variedad de usuarios. Nalon dijo que eso es importante porque no todos los tweeters que comparten información errónea van a seguir a los verificadores de datos o incluso a las organizaciones de medios verificadas. Bots como Fátima aseguran que todos los usuarios tengan acceso a la información verificada, independientemente de sus propios silos de información.

“Creo que la tecnología puede escalar nuestro trabajo. Nuestro mayor desafío es llegar a las personas que no tienen acceso a la verificación de datos ", dijo Nalon. "Con Fátima, por ejemplo ... cada vez que tuitea un enlace con una respuesta a alguien, mucha gente va allí y le gusta y le dice cosas a las personas que compartieron la información errónea".

Aos Fatos es uno de los pocos medios de verificación de datos para construir un bot de Twitter que corrige automáticamente la información errónea. Y Nalon dijo que uno de sus objetivos para 2019 es extender la herramienta a más verificadores de hechos, comenzando con Chequeado en Argentina.

“Lo que los periodistas necesitan es construir formas de meditar, y no estaremos mediando solo usando las herramientas que Facebook y Twitter nos dan. Tenemos que construir herramientas dentro de Facebook, Twitter y WhatsApp ”, dijo Nalon. "Creo que, si estamos creando conciencia, también podemos aumentar la confiabilidad - y en realidad hackear la forma en que la gente ve a los robots".


sábado, 17 de noviembre de 2018

Redes de obesidad en niños

Un enfoque de red para entender los ambientes obesogénicos para niños en Pennsylvania


Emily A. Knapp * / Usama Bilal / Bridget T. Burke / Geoff B. Dougherty / Thomas A. Glass


Información de la cita: Connections. VOLUME 38 , ISSUE 1 , ISSN (Online) , DOI: 10.21307/connections-2018-001, July 2018 © 2018.© 2018 Authors

Las redes están en todas partes (Barabasi, 2007, 2012, 2009, 2013). Sin embargo, en materia de salud pública, la ciencia de la red solo ha comenzado a tener importantes avances en las carreteras. Hasta la fecha, la ciencia de la red ha hecho contribuciones en diversas áreas de la investigación biomédica, incluida la comunicación celular en el cáncer (Stites et al., 2007; Berger et al., 2012; Gill et al., 2014; Grupo de trabajo de Mutation Consequences and Pathway Analysis of the International Cancer Genome Consortium, 2015), interacciones proteína-proteína (Jeong et al., 2001) e interacciones complejas de la enfermedad (Barabasi, 2007; Goh et al., 2007; Hidalgo et al., 2009; Zhou et al., 2014). Las características comunes vinculan estas diversas aplicaciones, incluidos datos de alta dimensión y patrones emergentes que no son fácilmente visibles en el espacio bivariado. Las redes representan relaciones entre objetos en un sistema, y ​​los métodos de red ayudan a identificar estructuras que influyen en el comportamiento del sistema.

La obesidad es un desafío para la investigación de salud pública tradicional porque actualmente no tenemos una explicación sólida para los patrones temporales y espaciales de la epidemia de obesidad (Galea et al., 2010). Esto ha llevado a los investigadores de la obesidad a buscar métodos y enfoques alternativos orientados a la ciencia de sistemas (Burke y Heiland, 2007; Huang et al., 2009; Finegood, 2011). La ciencia de redes ha hecho importantes contribuciones en la investigación de la obesidad en varias dimensiones. Primero, los métodos de red se han utilizado para identificar vínculos complejos entre genes relacionados con la obesidad en modelos animales (Chen y Zhang, 2013). En segundo lugar, los investigadores han conceptualizado la "red de respuesta al estrés" para comprender cómo la retroalimentación dentro de los sistemas biológicos conduce a la exacerbación y la habituación que resulta en un crecimiento obesogénico (Dallman et al., 2003, 2006). Los enfoques de red se han utilizado para estudiar las interacciones entre las organizaciones y los componentes de las intervenciones de obesidad (Leroux et al., 2013; Marks et al., 2013), y se han aplicado a diagramas de bucle causal para identificar los puntos de influencia para la intervención (McGlashan et al., 2016 ). Varios estudios se han centrado en cómo la obesidad y la actividad física se propagan a través de poblaciones como la infección (Crandall, 1988; Christakis y Fowler, 2007; Blanchflower et al., 2009; Hammond, 2010; Hill et al., 2010; Ali et al., 2012 ; El-Sayed et al., 2012; Gesell et al., 2012; Simpkins et al., 2013; Hammond and Ornstein, 2014). Otros han examinado cómo la obesidad afecta las relaciones sociales (Brewis et al., 2011; de la Haye et al., 2011; Ali et al., 2012). A pesar de estos avances, la mayoría de los estudios de redes sobre la obesidad se han centrado en la estructura de los vínculos entre individuos conectados a través de vínculos sociales. No tenemos conocimiento de ningún estudio hasta la fecha que se centre en la estructura de los vínculos entre las características del entorno, que se cree que son los principales impulsores de la epidemia de obesidad.

El concepto de "entorno obesogénico" se propuso por primera vez en la década de 1990 como un modelo para evaluar la contribución de los factores ambientales a la obesidad (Hill y Peters, 1998; Swinburn et al., 1999). El entorno obesogénico asume un patrón de características coexistentes espacialmente que influyen conjuntamente en el riesgo de obesidad. Hay pocas dudas de que los aspectos del entorno de los alimentos y la actividad física son importantes, pero la pregunta sobre cómo identificar los patrones de características dentro del entorno de la obesidad sigue sin respuesta. Se necesitan herramientas para examinar las conexiones entre las características del entorno obesogénico. El análisis de red se puede usar para describir las relaciones (enlaces) entre objetos (nodos), lo que permite la caracterización de las características de nivel de red que de otra manera están ocultas. Los métodos de red también nos permiten visualizar estas conexiones, facilitando la comprensión de una epidemia muy compleja y potencialmente priorizando áreas de intervención. En este estudio, caracterizamos el entorno obesogénico con características de la comunidad como nodos y correlaciones entre esas características como enlaces. Una versión de esta metodología se ha utilizado en la investigación neurológica y genética y se conoce comúnmente como "Análisis de red de correlación ponderada" (Fox et al., 2005; Zhang y Horvath, 2005). Nuestro enfoque examina la estructura de las relaciones entre múltiples características de la comunidad, en lugar de examinar cada característica de la comunidad como una causa independiente de obesidad.

La literatura demuestra una fuerte relación entre las características ambientales que afectan la dieta y la actividad física. Sin embargo, los estudios existentes se han centrado en las características individuales relacionadas con la obesidad de forma aislada, la mayoría de las veces se evalúa por sus asociaciones lineales con la obesidad. Ha habido poca atención a la interdependencia de estas características ambientales y cómo se estructuran las relaciones entre las características obesógenas del entorno y pueden crear entornos de riesgo cualitativamente diferentes para la obesidad. Tomamos herramientas de análisis de red para estudiar estas interrelaciones entre las características del entorno y explorar cómo se relacionan con los patrones espaciales de prevalencia de obesidad. Nos guiamos por la visión de que los sistemas de transporte, la variación cultural, los mercados y otras dinámicas del sistema crean grupos de características relacionadas con la obesidad que pueden tener efectos sinérgicos y agregativos en el comportamiento de la población. Las fuerzas del mercado conducen a grupos de restaurantes, tiendas y espacios de actividad en el entorno construido (Hidalgo y Castañer, 2015). Este agrupamiento puede potenciar el efecto de cualquier instalación al aumentar el efecto conjunto de un entorno construido y social diseñado para entregar el exceso de calorías con la máxima eficiencia. Por lo tanto, la agrupación de características y la existencia de nodos de enlace centrales que unen grupos dispares pueden apuntar hacia nuevos objetivos para la investigación y la intervención.

Nuestro objetivo principal es explorar la utilidad de los métodos de análisis de redes para caracterizar los vínculos entre un conjunto de 32 características espacialmente estructuradas del entorno obesogénico. Creamos una red ponderada de características comunitarias de 1,288 comunidades en Pennsylvania, y examinamos la relación entre las medidas de centralidad y agrupamiento y una métrica comúnmente usada de sobrepeso y obesidad infantil (porcentaje de niños con índice de masa corporal (IMC) percentil ≥ 85).

Métodos

Nuestro objetivo fue modelar la red de características hipotéticas relacionadas con la obesidad de los entornos locales para comprender mejor cómo la centralidad de la red y los nodos y la agrupación proporcionan información sobre el papel de los entornos en la obesidad infantil y adolescente.
Datos

Nuestro estudio se basó en datos de un estudio de niños de 1,288 comunidades en el centro y noreste de Pennsylvania atendidos por Geisinger Health System. Desde el sistema de registros médicos electrónicos (EMR) del sistema, recibimos datos de todos los pacientes entre 3 y 18 años que visitaron a un médico de atención primaria de Geisinger entre 2001 y 2012. La muestra incluyó 163,473 niños y 523,674 visitas. La muestra es representativa de la población juvenil en la región (Schwartz et al., 2011). Este estudio fue aprobado por las juntas de revisión institucional de Geisinger Health System y la Escuela de Salud Pública Johns Hopkins.

Los niños fueron asignados previamente a una de las 1.288 comunidades según su domicilio geocodificado. Las comunidades consistían en secciones censales dentro de las ciudades y divisiones civiles menores (municipios y barrios) fuera de las ciudades (Schwartz et al., 2011). De Geisinger EMR obtuvimos medidas longitudinales de altura y peso para niños. Se asumió que los valores de IMC no plausibles, definidos como cinco desviaciones estándar por encima y por debajo de la mediana, eran errores de medición o de entrada de datos y se eliminaron utilizando el programa estándar CDC SAS (Schwartz et al., 2011). Calculamos las puntuaciones z para el IMC individual, la puntuación z estimada media de la comunidad estimada y el porcentaje de niños con sobrepeso u obesos (IMC mayor o igual al percentil 85 por edad y sexo). Luego clasificamos las comunidades según los cuartiles del porcentaje de niños con IMC en o por encima del percentil 85.

Para caracterizar las características del entorno relacionadas con la obesidad, reunimos un corpus de 32 variables con la hipótesis de estar relacionadas con la obesidad según la investigación existente. Estas variables incluyen información demográfica, económica y geográfica de conjuntos de datos disponibles públicamente, incluidos los publicados por el Censo de los EE. UU., La Oficina Federal de Investigaciones, y dos proveedores de datos comerciales, Info USA y Dun & Bradstreet, que proporcionaron registros de alimentos comerciales y físicos. Establecimientos de actividades categorizados utilizando códigos estándares de la industria. La tabla 1 describe las características de la comunidad que estudiamos. Esta lista se seleccionó en función de los atributos que están bien aceptados en la literatura, tienen propiedades de medición aceptables y abarcan una amplia gama de dominios de contenido y relaciones, algunos de ellos relacionados con la actividad física y otros relacionados con la dieta. Este conjunto de variables se ha utilizado en nuestra investigación anterior para caracterizar diversos aspectos del entorno relacionado con la obesidad en las comunidades (Nau et al., 2015). Clasificamos todas las variables en puntajes de quintil o cuartil para preservar la posición de rango de las variables que a menudo están mal distribuidas. Después de revisar las distribuciones de variables y las matrices de correlación de Spearman, Pearson y Phi, elegimos las correlaciones de Spearman como la mejor representación de las distribuciones de variables y la fuerza de las conexiones.


Tabla 1. Características de la comunidad relacionadas con la obesidad incluidas en el análisis de redes.



Métodos de red

Dada la naturaleza compleja de los ambientes obesogénicos, buscamos la manera de caracterizar mejor las relaciones entre las 32 características de la comunidad. Necesitamos respetar tanto las correlaciones por pares (bivariadas) entre las variables como las estructuras que emergen de estas correlaciones por pares. Utilizamos un método análogo al análisis de red de correlación ponderada (Zhang y Horvath, 2005). Generamos una matriz de datos de covariables (32 características de la comunidad relacionadas con la obesidad) que tratamos como nodos en una red de atributos ambientales interconectados. Los enlaces se operacionalizaron como la fuerza de la correlación bivariada entre cada par de atributos. Las correlaciones bivariadas se estimaron utilizando los coeficientes de correlación de Spearman por pares entre las variables de la comunidad. Debido a que estábamos interesados ​​principalmente en la fuerza de los vínculos entre los nodos y existe controversia sobre la dirección de las relaciones entre algunas de estas variables y la obesidad, optamos por utilizar el valor absoluto de la correlación entre las variables.

Todas las 992 correlaciones de pares se convirtieron luego en una matriz de adyacencia no dirigida ponderada donde cada celda era la correlación entre dos variables. Creamos un grafo ponderado a partir de esta matriz de adyacencia utilizando el paquete R iGraph (versión 1.0.1) (Csardi y Nepusz, 2006), especificando las correlaciones de pares como los ponderadores de enlaces. De esta gráfica, obtuvimos cinco conjuntos de resultados.

Primero, trazamos un grafo de red general usando las 1,288 comunidades. Las coordenadas de cada nodo se calcularon utilizando un algoritmo basado en la fuerza, el algoritmo de Fruchterman-Reingold (Fruchterman y Reingold, 1991), donde la atracción entre nodos es proporcional a la fuerza de la correlación entre las características ambientales (nodos). Implementamos la versión del algoritmo en el paquete R qgraph (versión 1.3.2) (Epskamp et al., 2012). El segundo conjunto de resultados representa el mismo grafo estratificado por la carga de obesidad de la comunidad (cuartiles). Para facilitar la interpretación, mostramos grafos correspondientes a los cuartiles 1 y 4 (las comunidades más delgadas y más pesadas, respectivamente (ver Fig. 1 (red general) y Fig. 2 (red estratificada)).

En tercer lugar, con el fin de comprender mejor las relaciones entre los componentes del entorno obesogénico, se buscó obtener una medida de agrupación y estructura de la comunidad que nos permitiera evaluar si la estructura de la red era diferente en las comunidades clasificadas según la prevalencia de la obesidad infantil. Llevamos a cabo un análisis de detección de módulos utilizando el método walktrap (Pons y Latapy, 2005) que realiza una serie de "caminatas aleatorias" entre los nodos. La probabilidad de "caminar" de un nodo a otro es proporcional al peso del enlace entre los nodos, lo que significa que es más probable que ocurra una caminata entre dos nodos altamente correlacionados. Cada nodo está restringido a la membresía en un módulo. Esto crea módulos de variables que están altamente conectados entre sí. Luego calculamos la puntuación de modularidad de red normalizada (Newman, 2006), que cuantifica la fuerza de las conexiones dentro y entre los módulos. Una mayor puntuación de modularidad indica una red con alta conectividad dentro del módulo y baja conectividad entre módulos. Calculamos la puntuación de modularidad para el grafo de red general y cada uno de los cuatro grafos en función de los estratos comunitarios de carga de la obesidad infantil (consulte la Tabla 2). Utilizamos la correlación de pares entre variables (nodos) como un peso en el cálculo de la modularidad. Cuarto, calculamos una medida general de la centralidad de la red al calcular el grado promedio de la red (Barrat et al., 2004). En una red no dirigida ponderada como la nuestra, el grado promedio de red es la media de todas las correlaciones por pares (Barrat et al., 2004). Un grado de red promedio alto representa una red que tiene una correlación general más estrecha entre todos los nodos. Calculamos el grado de red promedio para el grafo de red general y cada uno de los cuatro grafos de red según la prevalencia de obesidad (consulte la Tabla 2).

Tabla 2. Modularidad de la red y grado de red promedio en la red general y por cuartil de prevalencia de obesidad infantil.



En quinto lugar, examinamos la asociación entre la centralidad de un nodo y su correlación con la prevalencia de la obesidad infantil. Para esto, trazamos el grado de centralidad de cada nodo en relación con la correlación de ese nodo con la prevalencia de obesidad infantil (Fig. 3).

Figura 1. Grafo de red para 1,288 comunidades en Pennsylvania. Esto muestra un grafo de la red de conexiones entre atributos de comunidades en 1,288 comunidades en Pennsylvania. Cada nodo en la red representa una característica de las comunidades, y los enlaces en la red son valores absolutos de los coeficientes de correlación de Spearman. La correlación bivariada entre cada variable y la puntuación z promedio del índice de masa corporal (IMC) se muestra mediante el sombreado de cada nodo, con colores más oscuros que representan una correlación absoluta más fuerte con la puntuación z media del IMC de la comunidad. La fuerza de la correlación absoluta entre dos nodos se representa por la oscuridad y el grosor de las líneas que conectan las variables. Una línea gruesa y oscura puede representar una fuerte correlación positiva o negativa. Los módulos de variables altamente conectadas se crearon usando el método walktrap.


Figura 2. Grafos de red para 1288 comunidades en Pennsylvania, por cuartil de porcentaje de niños en o por encima del percentil 85 de BMIz. En las comunidades en el cuartil más bajo del porcentaje de niños con sobrepeso u obesidad (A: izquierda), las características de la comunidad parecen estar menos agrupadas, es decir, ocurren con más frecuencia que en las comunidades en el cuartil más alto de la comunidad BMIz (B : derecho).

 

Figura 3. Asociación de grados de centralidad de cada característica de la comunidad con la prevalencia de sobrepeso y obesidad entre los niños. La correlación entre las características de la comunidad y el índice de masa corporal es más fuerte para las variables más centrales de las características de la red relacionadas con la obesidad (R = 0.51).



Resultados

El propósito de este análisis fue aplicar la metodología de red para caracterizar los patrones de vínculos e interacciones entre las características ambientales relacionadas con la obesidad entre las comunidades en Pennsylvania. La Figura 1 es un grafo de la red de conexiones (correlaciones por pares) entre nodos (características relacionadas con la obesidad) en 1,288 comunidades de Pennsylvania.

El grafo ilustra tres características importantes de la red. Primero, se identificaron tres grupos de variables estrechamente conectadas utilizando el método de la trampa. Se puede ver un conjunto de las tres variables relacionadas con el delito (tasas por 100,000 personas de delitos contra la propiedad, delitos contra personas y todos los delitos de la Parte I) (sombreado verde), y está débilmente vinculado a la red principal. Esto sugiere que las comunidades con altos índices de delitos violentos (es decir, asalto) también tienen altos índices de delitos contra la propiedad (es decir, incendio premeditado). Las tasas de delincuencia parecen estar moderadamente correlacionadas con las tasas de obesidad, como lo indica el color oscuro de los nodos relacionados con la delincuencia. Se identifica un segundo grupo que consta de características que representan patrones de uso de la tierra, transporte y densidad de establecimiento de alimentos (sombreado amarillo). Creemos que esto representa el agrupamiento espacial que se produce en el contexto de la expansión suburbana con la ubicación conjunta de establecimientos en corredores de transporte de gran volumen. Los nodos en el corazón de este grupo incluyen la densidad de hogares (por milla cuadrada) y todos los establecimientos de alimentos por milla cuadrada. Este segundo grupo parece ser el más ajustado. Once de los 14 nodos tienen una correlación absoluta superior a la media con la obesidad. El modelo identificó un tercer grupo (sombreado azul claro) que consiste principalmente en características que describen el entorno de actividad física. Estos incluyen diversidad de establecimientos de actividad física, instalaciones recreativas al aire libre por milla cuadrada, tiendas de bocadillos (p. Ej., Donas, pretzels, helados) por milla cuadrada, centros de recreación interiores por milla cuadrada, todos los establecimientos de actividad física por milla cuadrada, gimnasio interior y recreacional instalaciones por milla de la calle, y clubes recreativos interiores e instalaciones por milla cuadrada.

Tanto en el segundo como en el tercer clúster, los nodos que están más altamente correlacionados con la obesidad (indicado por el color del nudo más oscuro), son más centrales en la red en general, así como dentro de cada clúster. No todos los nodos de alimentos o actividad física están agrupados. En el enlace del grafo vemos varios nodos de actividad física o de alimentos que no están tan estrechamente acoplados (incluidos parques y grandes almacenes). Finalmente, la estructura general de la red sugiere que los elementos de estas comunidades están agrupados geográficamente y no están dispersos aleatoriamente entre las comunidades, especialmente las características de los entornos físicos, de alimentos y de uso de la tierra.

A continuación, nos interesaba saber si la estructura de esta red de características variaba en los estratos de la carga de obesidad de la comunidad. La Figura 2 muestra el resultado de ejecutar un modelo de red similar por separado por cuartil de porcentaje de niños en o por encima del percentil 85 en BMI-z, un umbral ampliamente considerado como indicativo de sobrepeso y carga de obesidad. Entre las comunidades en el cuartil más bajo de prevalencia de obesidad (Fig. 2A), las características de la comunidad parecen estar menos conectadas que en las comunidades en el cuartil más alto de prevalencia de obesidad (Fig. 2B). Esto también se describe por la mayor modularidad en la Tabla 2. Por ejemplo, entre las comunidades con menor prevalencia de obesidad, el crimen está débilmente vinculado al conjunto de uso de la tierra, alimentos y actividad física; pero en las comunidades con mayor prevalencia de obesidad, el crimen está más estrechamente vinculado a este grupo. No solo las cantidades de estas características son mayores en las comunidades más pesadas, sino que las conexiones entre las características también se modifican: las comunidades que dan lugar a tasas más altas de obesidad infantil están estructuradas de manera diferente a aquellas con menos obesidad infantil.
La Tabla 2 muestra los resultados del análisis de la estructura de la red, global y estratificado por cuartil de obesidad. La red general tiene una modularidad positiva de 0,15, lo que indica que los nodos (características ambientales) muestran un grado de agrupamiento (en comparación con una distribución aleatoria de nodos sin agrupamiento). En el análisis estratificado por la prevalencia de obesidad infantil, las comunidades en el primer y segundo cuartil (comunidades más delgadas) muestran una mayor modularidad en comparación con las comunidades en el tercer y cuarto cuartil (comunidades más pesadas) (modularidad de 0,19 y 0,27 frente a 0,12 y 0,09, respectivamente). Esto significa que los módulos de variables en comunidades más delgadas están más agrupados dentro de cada módulo o tienen conexiones más débiles a las variables en otros módulos, y que en las comunidades más pesadas las variables (nodos) exhiben un menor grado de agrupamiento en módulos (como se puede ver en la figura 2). Por ejemplo, una comparación de los dos paneles en la Figura 2 demuestra que el grupo relacionado con el crimen que se muestra en verde tiene menos vínculos fuertes (mostrados por líneas más oscuras) con el centro de la red en las comunidades más delgadas en el panel izquierdo en comparación con las más pesadas Comunidades en el panel derecho. De manera similar, el grado promedio de la red es mayor en las comunidades más pesadas (grado = 0.362) en comparación con las comunidades más delgadas (grado = 0.332), lo que representa una correlación promedio más alta (es decir, conexiones más fuertes), entre las variables en comunidades con mayor prevalencia de obesidad infantil.

La Figura 3 muestra la relación entre el grado de centralidad de cada característica de la comunidad (nodo) con la correlación bivariada de esa característica con el sobrepeso infantil y la prevalencia de obesidad (porcentaje de niños por encima del percentil 85 del IMC). Cada punto representa una de las 32 características de la comunidad. La correlación entre el grado de cada característica y su correlación con la prevalencia de la obesidad infantil es positiva (r = 0.51), lo que indica que las variables más "centrales" tienen una asociación más fuerte con el resultado. Por ejemplo, los puestos de frutas y hortalizas frescas por milla cuadrada tienen una baja correlación con la obesidad de la comunidad, y pueden verse en la Figura 1 como una variable lejos del centro de la red y con solo unos pocos vínculos débiles con el resto de la red.

Discusión

Aplicamos la metodología de red para describir los vínculos entre las características de la comunidad asociadas con la obesidad. Utilizamos el análisis de redes para caracterizar el entorno obesogénico: en lugar de tratar las características individuales de las comunidades de forma aislada, este método respeta las interacciones y la coexistencia espacial que conforman este panorama de riesgo de obesidad.

Este trabajo sugiere que (i) existen grupos identificables de características ambientales; (ii) que el nivel de conectividad y la estructura de las características en la red pueden ser informativos; y (iii) es más probable que las características más asociadas con la obesidad sean centrales en la red de características comunitarias. Se identificaron tres grupos en la red general: un grupo de variables relacionadas con la delincuencia que estaba débilmente vinculada a la red principal, y grupos de actividad física y de uso de la tierra y los alimentos, respectivamente. En las comunidades estratificadas por la prevalencia de la obesidad infantil, la estructura y la conectividad general de la red parecían diferir según el nivel de obesidad. No solo los valores de estos atributos son diferentes en las comunidades más pesadas y más delgadas, sino que también los patrones de conexiones son diferentes. También encontramos que la centralidad sola, medida en grado, está correlacionada con la obesidad. Por lo tanto, las características relacionadas con la obesidad están agrupadas geográficamente de manera más estrecha. Esto puede ser evidencia de la sinergia entre las características del entorno obesogénico, las características no independientes de las comunidades que unen sus fuerzas para determinar el riesgo de obesidad.

Comprender e intervenir sobre los impulsores de la epidemia de obesidad es un desafío para los investigadores y responsables políticos de la obesidad. La obesidad es compleja y tiene múltiples impulsores a nivel individual, comunitario, estatal y nacional (Huang et al., 2009). Los métodos tradicionales, como los modelos de regresión, no tienen en cuenta la interacción entre múltiples factores en múltiples escalas, la complejidad e importancia de los factores contextuales y los ciclos de retroalimentación y otros procesos dinámicos (Hammond, 2009). Aunque nuestro trabajo es preliminar, sugiere que los enfoques de sistemas para la obesidad pueden ser útiles para caracterizar los vínculos entre las características del entorno. A pesar del reconocimiento de que las características ambientales de las comunidades desempeñan un papel importante en la epidemia de obesidad, los métodos de red para caracterizar los vínculos entre los atributos de las comunidades se han subutilizado. La estructura y la fortaleza de estos vínculos pueden proporcionar evidencia de áreas geográficas o tipos de grupos de características que serían más eficientes para la intervención.
Los métodos de red, especialmente los métodos gráficos, podrían usarse para ayudar a establecer prioridades para las intervenciones relacionadas con la obesidad en las comunidades. Por ejemplo, los establecimientos de alimentos mostraron una alta centralidad (medida por grado) en nuestra red y una alta correlación con la obesidad infantil (Fig. 3). Usando estos grafos de red (por ejemplo, Fig. 2), podemos limitarnos a características como estas que pueden tener efectos de gran alcance, si se interviene. Esto es consistente con la literatura sobre "pantanos de alimentos" y "desiertos de alimentos", pero ayuda a priorizar las intervenciones en esta área porque estas características son más centrales. Esto podría apuntar a la efectividad de intervenir en tales variables que son altamente centrales en la red y, por lo tanto, pueden tener efectos de mayor alcance que la intervención en variables menos centrales. Los métodos de red pueden ayudar a identificar a los actores sinérgicos que podrían tener grandes efectos sobre la obesidad debido a sus conexiones con otras variables.

En particular, nuestro trabajo apunta hacia posibles intervenciones con respecto a las políticas de zonificación de la comunidad. Los grafos de nuestra red muestran grupos estrechos de características relacionadas con los alimentos (por ejemplo, tiendas de comestibles y de conveniencia, restaurantes de comida rápida y de servicio completo) y uso del suelo (por ejemplo, longitud de bloque de carreteras, densidad del hogar) que están fuertemente correlacionadas con la obesidad. La reestructuración del entorno comunitario puede ser una vía prometedora para la prevención de la obesidad. Al considerar que las comunidades son sistemas complejos donde múltiples fenómenos interrelacionados actúan juntos para crear un entorno obesogénico, estos métodos también nos empujan a considerar la intervención no solo en las características ambientales en sí mismas, sino también en los vínculos entre las características. Esta es una nueva forma de abordar la epidemia de obesidad: buscando factores que puedan estar relacionados con las características o que puedan manipularse para interrumpir conexiones dañinas. Por ejemplo, el grupo relacionado con la delincuencia está más estrechamente vinculado a la red entre las comunidades con más obesidad infantil. Investigaciones adicionales sobre las causas subyacentes de este vínculo (y por qué difiere en las comunidades estratificadas por la prevalencia de obesidad infantil) pueden iluminar importantes impulsores de la epidemia de obesidad.

Este trabajo también tiene implicaciones metodológicas para la investigación de la obesidad. El trabajo futuro debería explorar los mecanismos de cómo estos grupos se asocian con una mayor prevalencia de obesidad y si las intervenciones en las características de esta red cambian la estructura de la red en sí. Esta investigación futura debe considerar las relaciones, o agrupación, de estas características. La evaluación de asociaciones independientes entre cualquier característica única y las tasas de obesidad ignoraría las complejas interrelaciones que este trabajo ha destacado. Otros métodos que reconocen estos grupos de características, como los métodos de variables latentes (Nau et al., 2015), pueden ser más apropiados para respetar la forma en que se agrupan las características ambientales y descubrir fuentes no observadas de la correlación observada en esta red.

Tenemos datos de un área geográfica grande y diversa que incluye comunidades urbanas, rurales y suburbanas. Sin embargo, este análisis es exploratorio. No podemos descartar la posibilidad de que la densidad de la población y el desarrollo puedan ser una causa común de muchas de las variables que seleccionamos. Esto es potencialmente una fuente de sesgo o una posible explicación para el agrupamiento de características del entorno en el que se basa nuestro estudio. Se reconoce ampliamente que las características de las comunidades relacionadas con la obesidad están geográficamente correlacionadas. Las razones de esas correlaciones no se entienden bien. Creemos que nuestros resultados respaldan la utilidad de los métodos de red para el estudio de entornos que no se forman de forma aleatoria, pero que están moldeados por diversas fuerzas demográficas y de mercado que pueden ser importantes para impulsar la variación espacial en las tasas de obesidad.

Conclusión

El análisis de redes puede ser una herramienta útil para evaluar entornos obesogénicos y otras cuestiones de interés en epidemiología. Este análisis preliminar sugiere que los patrones de agrupamiento y las conexiones entre las características del entorno son importantes. El uso de la tierra y las características de los alimentos están fuertemente vinculados (especialmente en las comunidades más "pesadas"), y las características están más agrupadas en comunidades con un IMC promedio más alto. Los métodos de red pueden iluminar patrones de vínculos y factores clave en entornos obesogénicos. La posición de la red (centralidad) se correlaciona con el IMC promedio. En última instancia, el objetivo de este tipo de análisis sería identificar características de la comunidad altamente conectadas que se pueden usar como palancas de intervención para reducir las tasas de obesidad en la población.


Referencias

  1. Ali, M.M., Amialchuk, A. and Rizzo, J.A. 2012. The influence of body weight on social network ties among adolescents. Economics and Human Biology 10 1: 20-34.
  2. Ali, M.M., Amialchuk, A., Gao, S. and Heiland, F. 2012. Adolescent weight gain and social networks: Is there a contagion effect?. Applied Economics 44 23: 2969-83.
    [CROSSREF]
  3. Barabasi, A.L. 2007. Network medicine – from obesity to the ‘diseasome’. The New England Journal of Medicine 357 4: 404-7, doi: 10.1056/NEJMe078114.
    [CROSSREF] [URL]
  4. Barabasi, A.L. 2009. Scale-free networks: A decade and beyond. Science 325 5939: 412-3.
    [CROSSREF]
  5. Barabasi, A.L. 2012. Network science: Luck or reason. Nature 489 7417: 507-8.
    [CROSSREF]
  6. Barabasi, A.L. 2013. Network science. Philosophical Transactions of the Royal Society A Mathematical Physicla and Engineering Science 371 1987: 20120375.
    [CROSSREF]
  7. Barrat, A., Barthélemy, M., Pastor-Satorras, R. and Vespignani, A. 2004. The architecture of complex weighted networks. Proceedings of the National Academy of Sciences of the United States of America 101 11: 3747-52, doi: 10.1073/pnas.0400087101.
    [CROSSREF] [URL]
  8. Berger, E., Vega, N., Vidal, H. and Geloen, A. 2012. Gene network analysis leads to functional validation of pathways linked to cancer cell growth and survival. Biotechnology Journal 7 11: 1395-404.
    [CROSSREF]
  9. Blanchflower, D.G., Landeghem, B. and Oswald, A.J. 2009. Imitative obesity and relative utility. Journal of the European Economic Association 7 2–3: 528-38.
    [CROSSREF]
  10. Brewis, A.A., Hruschka, D.J. and Wutich, A. 2011. Vulnerability to fat-stigma in women’s everyday relationships. Social Science and Medicine 73 4: 491-7.
    [CROSSREF]
  11. Burke, M.A. and Heiland, F. 2007. Social dynamics of obesity. Economic Inquiry 45 3: 571-91.
    [CROSSREF]
  12. Chen, Z. and Zhang, W. 2013. Integrative analysis using module-guided random forests reveals correlated genetic factors related to mouse weight. PLOS Computational Biology 9 3: e1002956.
    [CROSSREF]
  13. Christakis, N.A. and Fowler, J.H. 2007. The spread of obesity in a large social network over 32 years. The New England Journal of Medicine 357 4: 370-9.
    [CROSSREF]
  14. Crandall, C.S. 1988. Social contagion of binge eating. Journal of Personality and Social Psychology 55 4: 588-98.
    [CROSSREF]
  15. Csardi, G. and Nepusz, T. 2006. The igraph software package for complex network research. InterJournal Complex Systems 1695: 1-9.
  16. Dallman, M.F., Pecoraro, N., Akana, S.F., La Fleur, S.E., Gomez, F., Houshyar, H., Bell, M.E., Bhatnagar, S., Laugero, K.D. and Manalo, S. 2003. Chronic stress and obesity: A new view of ‘comfort food’. Proceedings of Natlional Academy of Science of the United States of America 100 20: 11696-701.
    [CROSSREF]
  17. Dallman, M.F., Pecoraro, N.C., La Fleur, S.E., Warne, J.P., Ginsberg, A.B., Akana, S.F., Laugero, K.C., Houshyar, H., Strack, A.M., Bhatnagar, S. and Bell, M.E. 2006. Glucocorticoids, chronic stress, and obesity. Progress in Brain Research 153: 75-105.
    [CROSSREF]
  18. de la Haye, K., Robins, G., Mohr, P. and Wilson, C. 2011. Homophily and contagion as explanations for weight similarities among adolescent friends. Journal of Adolescent Health 49 4: 421-7.
    [CROSSREF]
  19. El-Sayed, A.M., Scarborough, P., Seemann, L. and Galea, S. 2012. Social network analysis and agent-based modeling in social epidemiology. Epidemiologic Perspectives and Innovations 9 1: 1.
    [CROSSREF]
  20. Epskamp, S., Cramer, A.O.J., Waldorp, L.J., Schmittmann, V.D. and Borsboom, D. 2012. qgraph: Network visualizations of relationships in psychometric data. Journal of Statistical Software 48 4: 1-8.
    [CROSSREF]
  21. Finegood, D.T. 2011. The complex systems science of obesity. in Cawley, J. (Ed.), The Oxford Handbook of Social Science of Obesity, Oxford University Press, New York: 208-36.
  22. Fox, M.D., Snyder, A.Z., Vincent, J.L., Corbetta, M., Van Essen, D.C. and Raichle, M.E. 2005. The human brain is intrinsically organized into dynamic, anticorrelated functional networks. Proceedings of the National Academy of Sciences of the United States of America 102 27: 9673-78, doi: 10.1073/pnas.0504136102.
    [CROSSREF] [URL]
  23. Fruchterman, T.M.J. and Reingold, E.M. 1991. Graph drawing by force-directed placement. Software: Practice and Experience 21 11: 1129-64, doi: 10.1002/spe.4380211102.
    [CROSSREF] [URL]
  24. Galea, S., Riddle, M. and Kaplan, G.A. 2010. Causal thinking and complex system approaches in epidemiology. International Journal of Epidemiology 39 1: 97-106.
    [CROSSREF]
  25. Gesell, S.B., Tesdahl, E. and Ruchman, E. 2012. The distribution of physical activity in an after-school friendship network. Pediatrics 129 6: 1064-71, doi: 10.1542/peds.2011-2567.
    [CROSSREF] [URL]
  26. Gill, R., Datta, S. and Datta, S. 2014. Differential network analysis in human cancer research. Current Pharmaceutical Design 20 1: 4-10.
    [CROSSREF]
  27. Goh, K.I., Cusick, M.E., Valle, D., Childs, B., Vidal, M. and Barabasi, A.L. 2007. The human disease network. Proceedings of Natlional Academy of Science of the United States of America 104 21: 8685-90, doi: 10.1073/pnas.0701361104.
    [CROSSREF] [URL]
  28. Hammond, R. 2009. Complex systems modeling for obesity research. Preventing Chronic Disease 6 3: 1-10.
  29. Hammond, R.A. 2010. Social influence and obesity. Current Opinion in Endocrinology, Diabetes and Obesity 17 5: 467-71.
    [CROSSREF]
  30. Hammond, R.A. and Ornstein, J.T. 2014. A model of social influence on body mass index. Annals of the New York Academy of Science 1331: 34-42.
    [CROSSREF]
  31. Hidalgo, C.A. and Castañer, E.E. 2015. The amenity space and the evolution of neighborhoods. arXiv:1509.02868 [physics.soc-ph].
  32. Hidalgo, C.A., Blumm, N., Barabasi, A.L. and Christakis, N.A. 2009. A dynamic network approach for the study of human phenotypes. PLOS Computational Biology 5 4: e1000353, doi: 10.1371/journal.pcbi.1000353.
    [CROSSREF] [URL]
  33. Hill, A.L., Rand, D.G., Nowak, M.A. and Christakis, N.A. 2010. Infectious disease modeling of social contagion in networks. PLOS Computational Biology 6 11: e1000968.
    [CROSSREF]
  34. Hill, J.O. and Peters, J.C. 1998. Environmental contributions to the obesity epidemic. Science 280 5368: 1371-4.
    [CROSSREF]
  35. Huang, T.T., Drewnosksi, A., Kumanyika, S. and Glass, T.A. 2009. A systems-oriented multilevel framework for addressing obesity in the 21st century. Preventing Chronic Disease 6 3: A82.
  36. Jeong, H., Mason, S.P., Barabasi, A.L. and Oltvai, Z.N. 2001. Lethality and centrality in protein networks. Nature 411 6833: 41-2, doi: 10.1038/35075138.
    [CROSSREF] [URL]
  37. Leroux, J.S., Moore, S. and Dubé, L. 2013. Beyond the ‘I’ in the obesity epidemic: A review of social relational and network interventions on obesity. Journal of Obesity 2013: 348249.
    [CROSSREF]
  38. McGlashan, J., Johnstone, M., Creighton, D., de la Haye, K. and Allender, S. 2016. Quantifying a systems map: Network analysis of a childhood obesity causal loop diagram. PLOS ONE 11 10: e0165459, doi: 10.1371/journal.pone.0165459.
    [CROSSREF] [URL]
  39. Marks, J., Barnett, L.M., Foulkes, C., Hawe, P. and Allender, S. 2013. Using social network analysis to identify key child care center staff for obesity prevention interventions: A pilot study. J Obes 2013: 919287.
    [CROSSREF]
  40. Mutation Consequences and Pathway Analysis working group of the International Cancer Genome Consortium 2015. Pathway and network analysis of cancer genomes. Nature Methods 12 7: 615-21.
    [CROSSREF]
  41. Nau, C., Ellis, H., Huang, H., Schwartz, B.S., Hirsch, A., Bailey-Davis, L., Kress, A.M., Pollak, J. and Glass, T.A. 2015. Exploring the forest instead of the trees: An innovative method for defining obesogenic and obesoprotective environments. Health Place 35: 136-46, doi: 10.1016/j.healthplace.2015.08.002.
    [CROSSREF] [URL]
  42. Newman, M.E.J. 2006. Modularity and community structure in networks. Proceedings of the National Academy of Sciences of the United States of America 103 23: 8577-82, doi: 10.1073/pnas.0601602103.
    [CROSSREF] [URL]
  43. Pons, P. and Latapy, M. 2005. Computing communities in large networks using random walks. in Yolum, P., Güngör, T., Gürgen, F. and Özturan, C. (Eds), Computer and Information Sciences – ISCIS 2005: Proceedings of the 20th International Symposium, Istanbul, Turkey, October 26–28, 2005, Springer, Berlin, Heidelberg: 284-93.
  44. Schwartz, B.S., Stewart, W.F., Godby, S., Pollak, J., Dewalle, J., Larson, S., Mercer, D.G. and Glass, T.A. 2011. Body mass index and the built and social environments in children and adolescents using electronic health records. American Journal of Preventive Medicine 41 4: e17-e28, doi: 10.1016/j.amepre.2011.06.038.
    [CROSSREF] [URL]
  45. Simpkins, S.D., Schaefer, D.R., Price, C.D. and Vest, A.E. 2013. Adolescent friendships, BMI, and physical activity: Untangling selection and influence through longitudinal social network analysis. Journal of Research Adolescence 23 3, doi: 10.1111/j.1532-7795.2012.00836.x.
    [CROSSREF] [URL]
  46. Stites, E.C., Trampont, P.C., Ma, Z. and Ravichandran, K.S. 2007. Network analysis of oncogenic Ras activation in cancer. Science 318 5849: 463-7.
    [CROSSREF]
  47. Swinburn, B., Egger, G. and Raza, F. 1999. Dissecting obesogenic environments: The development and application of a framework for identifying and prioritizing environmental interventions for obesity. Preventive Medicine 29 6 Pt 1: 563-70, doi: 10.1006/pmed.1999.0585.
    [CROSSREF] [URL]
  48. Zhang, B. and Horvath, S. 2005. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology, Epub 2005.
  49. Zhou, X., Menche, J., Barabasi, A.L. and Sharma, A. 2014. Human symptoms-disease network. Nature Communication 5: 4212, doi: 10.1038/ncomms5212.
    [CROSSREF] [URL]

jueves, 15 de noviembre de 2018

Barabási y colegas cuantifican y predicen el éxito en el arte

Cuantificando la reputación y el éxito en el arte

Samuel P. Fraiberger 1,2; , Roberta Sinatra 3,1,4,5; Magnus Resch 6,7; Christoph Riedl 1,2*, Albert -László Barabási 1,3,8,9* 
1. Instituto de Ciencias de la Red, Northeastern University, Boston, MA, EE. UU.2. Instituto Harvard de Ciencias Sociales Cuantitativas, Cambridge, MA, EE. UU.3. Departamento de Matemáticas y sus aplicaciones y Centro de Ciencia de Redes, Universidad de Europa Central, Budapest, Hungría.4. Complexity Science Hub, Viena, Austria.5. ISI Fundación, Turín, Italia.6. Universidad de St Gallen, St. Gallen, Suiza.7. Zagreb Escuela de Economía y Gestión, Zagreb, Croacia.8. División de Medicina de la Red, Departamento de Medicina, Harvard Medical School, Boston, MA, EE. UU.9. Departamento de Redes y Ciencia de Datos, Universidad de Europa Central, Budapest, Hungría. 
En áreas de actividad humana donde el rendimiento es difícil de cuantificar de manera objetiva, la reputación y las redes de influencia desempeñan un papel clave en la determinación del acceso a los recursos y las recompensas. Para comprender el papel de estos factores, reconstruimos la historia de la exposición de medio millón de artistas, trazando un mapa de la red de coexposición que captura el movimiento del arte entre instituciones. La centralidad dentro de esta red capturó el prestigio institucional, lo que nos permite explorar la trayectoria profesional de artistas individuales en términos de acceso a instituciones codiciadas. El acceso temprano a instituciones centrales de prestigio ofreció acceso de por vida a lugares de alto prestigio y una tasa de deserción reducida. Por el contrario, al comenzar en la periferia de la red se produjo una alta tasa de abandono, lo que limita el acceso a las instituciones centrales. Un modelo de Markov predice la trayectoria profesional de artistas individuales y documenta el sólido camino y la dependencia de la historia de la valoración en el arte.



   

martes, 13 de noviembre de 2018

ERGM: Definición


Modelos de grafos aleatorios exponenciales (ERGM)




Los modelos de grafos aleatorios exponenciales (ERGM) son una familia de modelos estadísticos para analizar datos sobre redes sociales y otras redes.

Introducción

Existen muchas métricas para describir las características estructurales de una red observada, como la densidad, la centralidad o la asortatividad. [1] [2] Sin embargo, estas métricas describen la red observada, que es solo una instancia de un gran número de redes alternativas posibles. Este conjunto de redes alternativas puede tener características estructurales similares o diferentes. Para respaldar la inferencia estadística sobre los procesos que influyen en la formación de la estructura de la red, un modelo estadístico debe considerar el conjunto de todas las redes alternativas posibles ponderadas por su similitud con una red observada. Sin embargo, como los datos de la red son inherentemente relacionales, violan los supuestos de independencia y la distribución idéntica de modelos estadísticos estándar como la regresión lineal. [3] Modelos estadísticos alternativos deben reflejar la incertidumbre asociada con una observación dada, permitir la inferencia sobre la frecuencia relativa de las subestructuras de red de interés teórico, desambiguar la influencia de los procesos relacionados, representan estructuras complejas y vinculan los procesos de nivel local con las propiedades de nivel global. [4] La aleatorización que preserva el grado, por ejemplo, es una forma específica en la cual una red observada podría considerarse en términos de múltiples redes alternativas.


Definición

La familia Exponential es una amplia familia de modelos para cubrir muchos tipos de datos, no solo redes. Un ERGM es un modelo de esta familia que describe redes.

Formalmente, un grafo aleatorio  consiste de un conjunto de  nodos y díadas (enlaces) donde si los nodos se encuentran conectadosy de lo contrario.

El supuesto básico de estos modelos es que la estructura en un grafo observado y puede explicarse por cualquier estadística  dependiendo de la red observada y atributos nodales. De esta manera, es posible describir cualquier tipo de dependencia entre las variables no díadicas:



donde es un vector de parámetros de modelo asociados con  y es una constante de normalización.

Estos modelos representan una distribución de probabilidad en cada red posible en n nodos. Sin embargo, el tamaño del conjunto de redes posibles para una red no dirigida (grafo simple) de tamaño is . Debido a que el número de redes posibles en el conjunto supera ampliamente al número de parámetros que pueden restringir el modelo, la distribución de probabilidad ideal es la que maximiza la entropía de Gibbs. [5]


Referencias

  1. Wasserman, Stanley; Faust, Katherine (1994). Social Network Analysis: Methods and Applications. ISBN 978-0-521-38707-1.
  2. Newman, M.E.J. "The Structure and Function of Complex Networks". SIAM Review. 45 (2): 167–256. arXiv:cond-mat/0303516. Bibcode:2003SIAMR..45..167N. doi:10.1137/S003614450342480
  3. Contractor, Noshir; Wasserman, Stanley; Faust, Katherine. "Testing Multitheoretical, Multilevel Hypotheses About Organizational Networks: An Analytic Framework and Empirical Example". Academy of Management Review. 31 (3): 681–703. doi:10.5465/AMR.2006.21318925
  4. Robins, G.; Pattison, P.; Kalish, Y.; Lusher, D. (2007). "An introduction to exponential random graph models for social networks". Social Networks. 29: 173–191. doi:10.1016/j.socnet.2006.08.002.
  5. Newman, M.E.J. "Other Network Models". Networks. pp. 565–585. ISBN 978-0-19-920665-0.

 Wikipedia