Mostrando entradas con la etiqueta investigación científica. Mostrar todas las entradas
Mostrando entradas con la etiqueta investigación científica. Mostrar todas las entradas

lunes, 13 de enero de 2020

11 consejos de cómo lidiar con grandes conjuntos de datos

Once consejos para trabajar con grandes conjuntos de datos

Los grandes datos son difíciles de manejar. Estos consejos y trucos pueden allanar el camino.
Anna Nowogrodzki



Ilustración de The Project Twins
Versión PDF
Nature


Los grandes datos están en todas partes en la investigación, y los conjuntos de datos son cada vez más grandes y más difíciles de trabajar. Desafortunadamente, dice Tracy Teal, es un tipo de trabajo que con demasiada frecuencia queda fuera de la capacitación científica.

"Es una mentalidad", dice Teal, "tratando los datos como un ciudadano de primera clase". Ella debe saber: Teal fue hasta el mes pasado el director ejecutivo de The Carpentries, una organización en Oakland, California, que enseña habilidades de codificación y datos a investigadores a nivel mundial. Ella dice que existe una tendencia en la comunidad de investigación a descartar el tiempo y el esfuerzo necesarios para administrar y compartir datos, y no considerarlos como una parte real de la ciencia. Pero, sugiere, "podemos cambiar nuestra mentalidad para valorar ese trabajo como parte del proceso de investigación", en lugar de tratarlo como una ocurrencia tardía.

Aquí hay 11 consejos para aprovechar al máximo sus grandes conjuntos de datos.

Aprecia tus datos


"Mantenga sus datos en bruto sin procesar: no los manipule sin tener una copia", dice Teal. Recomienda almacenar sus datos en algún lugar que cree copias de seguridad automáticas y que otros miembros del laboratorio puedan acceder, respetando las normas de su institución sobre consentimiento y privacidad de datos.

Debido a que no necesitará acceder a estos datos con frecuencia, dice Teal, "puede usar las opciones de almacenamiento donde puede costar más dinero acceder a los datos, pero los costos de almacenamiento son bajos", por ejemplo, el servicio Glacier de Amazon. Incluso podría almacenar los datos en bruto en discos duros duplicados guardados en diferentes ubicaciones. Los costos de almacenamiento para archivos de datos grandes pueden acumularse, por lo que debe presupuestar en consecuencia.

Visualiza la información

A medida que los conjuntos de datos se hacen más grandes, surgen nuevas arrugas, dice Titus Brown, un bioinformático de la Universidad de California, Davis. "En cada etapa, te encontrarás con un nuevo y emocionante comportamiento desordenado". Su consejo: "Haz muchos gráficos y busca valores atípicos". En abril pasado, uno de los estudiantes de Brown analizó los transcriptomes: el conjunto completo de Moléculas de ARN producidas por una célula u organismo: a partir de 678 microorganismos marinos como el plancton (LK Johnson et al. GigaScience 8, giy158; 2019). Cuando Brown y su alumno registraron los valores promedio de la duración de la transcripción, la cobertura y el contenido genético, notaron que algunos valores eran cero, lo que indica dónde había fallado el flujo de trabajo computacional y había que volver a ejecutarlo.

Muestra tu flujo de trabajo

Cuando el físico de partículas Peter Elmer ayuda a su hijo de 11 años con su tarea de matemáticas, tiene que recordarle que documente sus pasos. "Él solo quiere escribir la respuesta", dice Elmer, quien es director ejecutivo del Instituto de Investigación e Innovación en Software para Física de Alta Energía en la Universidad de Princeton en Nueva Jersey. Los investigadores que trabajan con grandes conjuntos de datos pueden beneficiarse del mismo consejo que Elmer le dio a su hijo: "Mostrar su trabajo es tan importante como llegar al final".

Esto significa registrar todo su flujo de trabajo de datos, qué versión de los datos que utilizó, los pasos de limpieza y control de calidad y cualquier código de procesamiento que ejecutó. Dicha información es invaluable para documentar y reproducir sus métodos. Eric Lyons, biólogo computacional de la Universidad de Arizona en Tucson, utiliza la herramienta de captura de video asciinema para registrar lo que escribe en la línea de comando, pero las soluciones de baja tecnología también pueden funcionar. Un grupo de sus colegas, recuerda, tomó fotos de la pantalla de su computadora y las publicó en el grupo del laboratorio en Slack, una plataforma de mensajería instantánea.

Usar control de versiones

Los sistemas de control de versiones permiten a los investigadores comprender con precisión cómo ha cambiado un archivo con el tiempo y quién realizó los cambios. Pero algunos sistemas limitan el tamaño de los archivos que puede usar. Harvard Dataverse (que está abierto a todos los investigadores) y Zenodo se pueden usar para el control de versiones de archivos grandes, dice Alyssa Goodman, astrofísica y especialista en visualización de datos en la Universidad de Harvard en Cambridge, Massachusetts. Otra opción es Dat, una red gratuita de igual a igual para compartir y versionar archivos de cualquier tamaño. El sistema mantiene un registro a prueba de manipulaciones que registra todas las operaciones que realiza en su archivo, dice Andrew Osheroff, desarrollador principal de software en Dat en Copenhague. Y los usuarios pueden ordenar al sistema que archive una copia de cada versión de un archivo, dice la gerente de producto de Dat, Karissa McKelvey, con sede en Oakland, California. Dat es actualmente una utilidad de línea de comandos, pero "hemos estado actualizando activamente", dice McKelvey; El equipo espera lanzar un front end más fácil de usar a finales de este año.

Grabar metadatos

"Sus datos no son útiles a menos que las personas, y" el futuro ", sepan cuáles son", dice Teal. Ese es el trabajo de los metadatos, que describen cómo se recopilaron, formatearon y organizaron las observaciones. Considere qué metadatos registrar antes de comenzar a recopilar, Lyons aconseja, y almacene esa información junto con los datos, ya sea en la herramienta de software utilizada para recopilar las observaciones o en un archivo README u otro archivo dedicado. El Proyecto Open Connectome, dirigido por Joshua Vogelstein, un neuroestadístico de la Universidad Johns Hopkins en Baltimore, Maryland, registra sus metadatos en un formato de texto plano estructurado llamado JSON. Cualquiera que sea su estrategia, trate de pensar a largo plazo, dice Lyons: algún día querrá integrar sus datos con los de otros laboratorios. Si eres proactivo con tus metadatos, esa integración será más fácil en el futuro.

Automatizar, automatizar, automatizar

Los grandes conjuntos de datos son demasiado grandes para peinarlos manualmente, por lo que la automatización es clave, dice Shoaib Mufti, director senior de datos y tecnología del Instituto Allen para la Ciencia del Cerebro en Seattle, Washington. El equipo de neuroinformática del instituto, por ejemplo, utiliza una plantilla para los datos de las células cerebrales y la genética que acepta información solo en el formato y tipo correctos, dice Mufti. Cuando llega el momento de integrar esos datos en una base de datos o colección más grande, los pasos de garantía de calidad de datos se automatizan usando Apache Spark y Apache Hbase, dos herramientas de código abierto, para validar y reparar datos en tiempo real. "Nuestro conjunto completo de herramientas de software para validar e ingerir datos se ejecuta en la nube, lo que nos permite escalar fácilmente", dice. El Proyecto Open Connectome también proporciona garantía de calidad automatizada, dice Vogelstein: esto genera visualizaciones de estadísticas resumidas que los usuarios pueden inspeccionar antes de continuar con sus análisis.

Haga que el tiempo de computación cuente

Grandes conjuntos de datos requieren informática de alto rendimiento (HPC), y muchos institutos de investigación ahora tienen sus propias instalaciones de HPC. La Fundación Nacional de Ciencias de EE. UU. mantiene la red nacional HPC XSEDE, que incluye la red de computación basada en la nube Jetstream y los centros HPC en todo el país. Los investigadores pueden solicitar asignaciones de recursos en xsede.org y crear cuentas de prueba en go.nature.com/36ufhgh. Otras opciones incluyen la red ACI-REF con sede en EE. UU., NCI Australia, la Asociación para la Computación Avanzada en Europa y las redes ELIXIR, así como proveedores comerciales como Amazon, Google y Microsoft.

Pero cuando se trata de computación, el tiempo es dinero. Para aprovechar al máximo su tiempo de computación en los clústeres GenomeDK y Computerome en Dinamarca, Guojie Zhang, investigador de genómica de la Universidad de Copenhague, dice que su grupo generalmente realiza pruebas a pequeña escala antes de migrar sus análisis a la red HPC. Zhang es miembro del Proyecto de Genomas de Vertebrados, que busca ensamblar los genomas de unas 70,000 especies de vertebrados. "Necesitamos millones o incluso miles de millones de horas informáticas", dice.

Captura tu entorno

Para replicar un análisis más tarde, no necesitará la misma versión de la herramienta que utilizó, dice Benjamin Haibe-Kains, farmacogenómico computacional en el Centro de Cáncer Princess Margaret en Toronto, Canadá. También necesitará el mismo sistema operativo y las mismas bibliotecas de software que requiere la herramienta. Por esta razón, recomienda trabajar en un entorno informático autónomo, un contenedor Docker, que se puede ensamblar en cualquier lugar. Haibe-Kains y su equipo utilizan la plataforma en línea Code Ocean (que se basa en Docker) para capturar y compartir sus entornos virtuales; Otras opciones incluyen Binder, Gigantum y Nextjournal. "Diez años a partir de ahora, aún podría ejecutar esa tubería exactamente de la misma manera si lo necesita", dice Haibe-Kains.

No descargue los datos.

Descargar y almacenar grandes conjuntos de datos no es práctico. Los investigadores deben ejecutar análisis de forma remota, cerca de donde se almacenan los datos, dice Brown. Muchos proyectos de big data usan Jupyter Notebook, que crea documentos que combinan código de software, texto y figuras. Los investigadores pueden "girar" dichos documentos en o cerca de los servidores de datos para realizar análisis remotos, explorar los datos y más, dice Brown. Brown dice que Jupyter Notebook no es particularmente accesible para los investigadores que podrían sentirse incómodos usando una línea de comando, pero hay plataformas más fáciles de usar que pueden cerrar la brecha, incluidas Terra y Seven Bridges Genomics.

Empezar temprano

La gestión de datos es crucial incluso para los investigadores jóvenes, así que comience su entrenamiento temprano. "Las personas sienten que nunca tienen tiempo para invertir", dice Elmer, pero "a la larga se ahorra tiempo". Comience con los conceptos básicos de la línea de comandos, más un lenguaje de programación como Python o R, lo que sea más importante para su campo, dice. Lyons está de acuerdo: "Paso uno: familiarizarse con los datos de la línea de comandos". En noviembre, algunos de sus colaboradores que no dominaban el uso de la línea de comandos tuvieron problemas con los datos genómicos porque los nombres de los cromosomas no coincidían en todos sus archivos, Dice Lyons. "Tener algunas habilidades básicas de línea de comandos y programación me permite corregir rápidamente los nombres de los cromosomas".

Consigue ayuda


La ayuda está disponible, en línea y fuera de ella. Comience con el foro en línea Stack Overflow. Consulte a los bibliotecarios de su institución sobre las habilidades que necesita y los recursos que tiene disponibles, aconseja Teal. Y no descarte la capacitación en el sitio, Lyons dice: "The Carpentries es un excelente lugar para comenzar".

domingo, 6 de enero de 2019

Investigaciones de redes: Mensaje a los interesados

Puente hacia los lectores e investigadores del blog


Hola a los lectores del blog.

Me gustaría compartir en esta entrada del blog las áreas de investigación en redes en las cuales estoy abocado. La idea es, si a los lectores les parece, iniciar un intercambio entre todos quienes se hallen iniciando o ya estén abocados a una investigación en análisis de redes sociales o ciencia de redes para que podamos compartir experiencias.

Creo fervientemente que es una buena idea posibilitar un intercambio entre quienes les interese esta temática para, precisamente, crear enlaces y mantenerlos de manera que esta área del conocimiento se sigan nutriendo de nuestros aportes, dudas, intereses y motivaciones.

En ese sentido, también invito a quiénes estén investigando que publiquen en el blog los avances, las propuestas de investigación, las dudas respecto al qué, cómo, cuando, por qué de su investigación de modo que podamos crear una comunidad de intercambio. Creo que es un momento interesante para implementar lo que se lee en el blog, discutirlo y comenzar entre los interesados a crear redes de investigación de redes, por más que suene recursivo.

Primero una breve historia personal. Básicamente, todas mis tesis han sido sobre redes. Mi primera tesis de master en administración fue sobre un trabajo de campo que lamentablemente no se pudo realizar por falta de financiamiento pero que derivó en un survey de literatura que se publicó en 2006 en la tan amada revista Redes. El tema de investigación era el uso de capital humano y capital social en la efectividad de la profesión de abogado. En paralelo perseguía mi tesis doctoral en economía, la cual se abocó a la implementación de teoría de juegos a la formación de redes, desde un punto de vista muy teórico (ergo, ecuaciones y deducciones sobre teoría de grafos y equilibrios de Nash... algo muy poco atrayente para el público aunque sumamente interesante). Finalmente, implementé estos modelos teóricos en una tesis de master en computación científica unos cinco años más tarde utilizando un algoritmo evolutivo para que "jugara" con los equilibrios teóricos deducidos en mi tesis doctoral.

Redes de páginas de Facebook de discos de Bahía Blanca, 2015

Para todo estos trabajos no utilicé mucho el análisis de redes sociales (ARS) tradicional en sí mismo. El material de la tesis doctoral y de la tesis de master en computación no era uno que atrayera a estudiantes de posgrado por su complejidad y dificultad así que empecé a armar un curso de posgrado en ARS en el departamento de Economía de la Universidad Nacional del Sur. Es un curso tradicional inspirado en su composición de temas en un curso que dictaba el gran Jose Luis Molina en la Autónoma de Barcelona, junto con material de otro curso de redes en economía de Mark Mobius de Harvard y el también genial curso que dictó Lada Adamic en Coursera, con una introducción magnífica que propone el libro de los franceses Degenne y Forsé. Ese fue siempre el marco del curso que dicté en la UNS el cual espero ponerlo online durante 2019.

Los trabajos de investigación míos en redes actualmente son todos aplicados con datos de Argentina. Debo retomar en algún momento los modelos teóricos pero será al final de este año.
  • Actualmente nos hallamos abocados con la doctora Laura del Valle (UNS) a la investigación de las redes sociales de las familias capitulares del Cabildo de Buenos Aires durante el período del Virreinato del Río de la Plata (1776-1810). Las familias capitulares comprenden los grupos familiares (con actores consanguíneos y rituales) de miembros integrantes del Cabildo (de allí el adjetivo capitular). Actualmente contamos con 3 publicaciones indexadas de nuestras investigaciones y hemos ampliado la base de datos de 550 miembros a 1990 miembros por lo que esperamos en 2019 ampliar los resultados obtenidos hasta ahora. Investigamos que rol ha desempeñado la posición al red de cada individuo y de cada grupo familiar en la posibilidad de incluir un miembro dentro la composición del Cabildo, los cuales eran cargos "electivos". Encontramos que los individuos con mayor grado y menor autovector y las familias con mayor grado alcanzaron las posiciones más altas del Cabildo aunque desempeñando menos períodos en el cargo. Ello se enmarca en una institución que valoraba mucho el status social de sus miembros (muchos enlaces) y donde la experiencia en el trabajo era menos meritoria (menor tiempo en el cargo). Nuestro sendero de investigación comprende este año:
    • Evaluar el rol de las mujeres de la red en términos de determinar la posibilidad de elección de un miembro en el concejo
    • Evaluar el rol de la posición en la red en la posibilidad de aprobar o no ciertas regulaciones específicas sujetas a votación del Cabildo.
    • Corroborar si el uso de centralidades combinadas ayuda a detectar actores más influyentes en diversos políticos específicos del Cabildo.


  •  La segunda vía de investigación comprende el análisis de una gran base de datos de páginas de Facebook capturadas a lo largo de todo un año en la ciudad de Bahía Blanca. La misma comprende 325 páginas-redes, con más de 90 mil nodos y 4 millones de enlaces. Este trabajo lo estamos iniciando con Emiliano Gutiérrez como parte de su tesis doctoral. Esperamos obtener métricas estructurales, métricas individuales y la detección de actores principales, en primer lugar.  Una vez avanzado en este paso, esperamos realizar un análisis de sentimiento y lingüistico según género y sector económico e institucional de la página. Una tercera vía es una vez pasadas las fases anteriores, comprende detectar específicamente por geografía urbana los actores y sectores más vulnerables socioeconómicamente de la red y enfocarnos en un análisis diferencial de esta categoría de actores respecto al resto (¿de qué hablan? ¿cómo se expresan? ¿qué buscan en la red?, entre otras)
  • Una tercera vía han sido redes de coautoría y temáticas. Una maneran natural ha sido para mi descargar la información del principal congreso de economía de Argentina del sitio de la Asociación Argentina de Economía Política (AAEP). Actualmente ya hay una publicación del mismo y representa una forma muy natural de crear redes a través de eventos (redes bipartitas).
  • Finalmente por ahora, tengo en agenda modelos teóricos de juegos de formación de redes y modelos macroeconómicos con redes así como el uso de redes de correlación como herramienta de trabajo para reducir la dimensionalidad de bases de datos con muchas variables. Estos trabajos están en fase de inicio de working paper. Asimismo trabajo en procesos de difusión en redes sociales en línea aplicadas al marketing (una publicación indexada).
Bien hasta aquí lo mío. Me gustaría a los que les interese compartir en qué están trabajando, qué dudas tienen, qué temas les gustaría investigar, cómo llegaron al enfoque de redes en su vida académica, que compartan el material, que compartan sus experiencias académicas y sus dudas.
  • Les propongo contactarse conmigo vía email: jlarrosa@uns.edu.ar
  • A los interesados en presentar sus proyectos de investigación puedo habilitarlos como coautores del blog para que suban y armen sus propias entradas, en colaboración conmigo sobre todo en el tema de subir los gráficos y tablas y el etiquetado de los trabajos.
  • Proponer otras formas de conectarnos y discutir tópicos de redes... La redes sociales en línea facilitan mucho estos desafíos.

Bien, por ahora un gusto contactarme directamente con ustedes y que sea para bien de todos y, sobre todo, para mejorar nuestro entendimiento de cómo las redes modelan nuestras vidas.
 

Juan MC Larrosa

lunes, 2 de julio de 2018

Cómo fue la difusión científica de la hipótesis de la fortaleza de los lazos débiles


Cómo las comunidades median la difusión de nuevas ideas: el caso de la hipótesis de los lazos débiles de Granovetter


Anna Keuchenius, Petter Tornberg y Justus Uitermark

Universidad de Amsterdam




Resumen

Una gran cantidad de estudios empíricos examinan la difusión de nuevas ideas científicas. Si bien esos estudios generalmente se enfocan en el bajo nivel de adopción individual o en el nivel superior de patrones agregados, examinamos cómo las comunidades en el nivel intermedio median la difusión. Como estudio de caso, analizamos la difusión de una idea científica específica, a saber, la hipótesis de la "Fortaleza de los lazos débiles", presentada por Granovetter en su artículo de 1973. Usando datos de Web of Science, construimos una red de académicos que hicieron referencia al artículo de Granovetter. Al combinar el modelado de temas, el análisis de redes y la lectura cercana, mostramos que la red de difusión presenta comunidades de académicos que interpretan y usan la hipótesis de Granovetter de distintas maneras. Tales comunidades colaborativamente interpretan la hipótesis de Granovetter para enmendarla a sus perspectivas e intereses específicos. Nuestro análisis muestra además que las comunidades están agrupadas alrededor de testaferros, es decir, académicos que son centrales dentro de sus comunidades y desempeñan un papel fundamental en la traducción de la hipótesis general en su campo específico. La mayor implicación de nuestro estudio es que las ideas científicas cambian a medida que se expanden. Argumentamos que la metodología presentada en este documento tiene un potencial más allá del dominio científico, particularmente en el estudio de la difusión de opiniones, símbolos e ideas.


domingo, 14 de enero de 2018

Base de datos de redes online Colorado Index of Complex Networks

Base de datos online Colorado Index of Complex Networks


Si necesitan conjuntos de redes para testeos, experimentación o enseñanza se puede recurrir a la Colorado Index of Complex Networks. Se puede buscar por domino, propiedades de los grafos, tamaño, y muchas condiciones más. Gracias a la Universidad de Colorado!


domingo, 26 de junio de 2016

Brexit afectará las redes de investigación del Reino Unido

La ciencia de las redes revela el impacto del Brexit en el ecosistema de investigación del Reino Unido


Brexit es un hecho ahora y se espera que tenga un impacto significativo en las economías del Reino Unido y sus socios comerciales claves. Una de las áreas de impacto se refiere a los fondos de investigación de la Unión Europea en la forma de su Programa Marco Horizon 2020 para la Investigación y la Innovación. Un número importante de universidades, institutos de conocimiento y empresas del Reino Unido actualmente participan en este programa. Exactamente que organizaciones y proyectos están potencialmente afectados, y cómo están conectados? La ciencia de las redes ofrece una visión inicial.
Escrito por André Vermeij, Kenedict Innovation Analytic



Un extracto de la red completa que muestra las universidades e instituciones con el mayor número de proyectos asociados

Los datos sobre todos los proyectos y organizaciones de Horizon 2020 está fácilmente disponible como Open Data de CORDIS, el repositorio público de la Comisión Europea para obtener información sobre los proyectos de investigación financiados por la UE. Los principios de la ciencia de las redes nos permiten convertir estos datos en mapas de la actividad de las organizaciones del Reino Unido. Las redes se componen de nodos (entidades) y los bordes (las conexiones entre entidades) y permiten un análisis profundo y visualización de las estructuras subyacentes de la investigación y la colaboración.
A continuación, vamos a las organizaciones que se basan en el Reino Unido a todos los proyectos de Horizonte 2020 que actualmente participan. En la sala de red se conecta, este es un ejemplo de un modo de dos o red bipartita, en el que dos tipos de nodos son distintas conectan cada vez que co-aparecen en el conjunto de datos subyacente. Nos centraremos en el mayor grupo interconectado de la actividad aquí - se omiten los proyectos y organizaciones desconectados.

La exploración de red en sí mismo: Visualización interactiva

La visualización interactivo le permite explorar la red de proyectos y organizaciones de usted mismo. Puede buscar temas y organizaciones que utilizan el cuadro de búsqueda en la parte superior izquierda. Al hacer clic en un nodo muestra sus propiedades a la derecha y le permite ver sus conexiones directas también. los nodos del proyecto incluyen un enlace a la página del proyecto en el sitio web de CORDIS para leer sobre toda la información asociada a ese proyecto.
Los nodos están dimensionados en función de su número total de conexiones, lo que nos permite ver rápidamente que las universidades y las organizaciones son potencialmente los más afectados. colores de nodos se asignan en base a un algoritmo de detección de comunidades, que agrupa a los nodos con conexiones sólidas entre ellos. Esto nos ayuda a obtener una vista visual en los grupos de organizaciones y proyectos que rodean los actores clave. Una versión de pantalla completa de lo visual se puede encontrar aquí.


Detalles



Un primer vistazo a lo visual muestra inmediatamente que la Universidad de Cambridge, la Universidad de Oxford y la University College de Londres son potencialmente los más afectados en términos del número de proyectos de Horizonte 2020 que actualmente participan en. Respectivamente, estas universidades participan en los proyectos 183, 167 y 165. Un buen número de proyectos se caracterizan por la participación de múltiples universidades y organizaciones del Reino Unido. Por ejemplo, Oxford y Cambridge ambos participan en el proyecto 'Bridging the gap: from Individual Behaviour to the Socio-tEchnical MaN'.



El núcleo de la red se compone de una amplia variedad de proyectos y organizaciones que están conectados a varias otras partes de la red. Un buen ejemplo es el proyecto ‘Graphene-based disruptive technologies': muchas de las principales universidades del Reino Unido participan aquí, con la parte de ser proyecto de programa Graphene Flagship de 1 mil millones € de la UE.



La exploración de las estructuras exteriores de la red proporciona una visión interesante sobre los proyectos y organizaciones minoritarias conectado. Te encontrarás con más organizaciones de negocios aquí, incluyendo Rolls Royce y TWI en la parte inferior derecha de la red. Esto demuestra que las organizaciones con fines de lucro son también potencialmente afectados por el Brexit desde una perspectiva de ecosistema investigación, aunque menos que las universidades o institutos de investigación.
Siéntase libre de explorar la red y comparta cualquier idea adicionales usando los comentarios!

domingo, 11 de octubre de 2015

Redes de crowfunding científico

Análisis de redes del crowdfunding científico

Por Samuel Arbesman - Wired



Los lectores recordarán cuando anuncié el plan de Ethan Perlstein de hacer crowdfunding para su investigación científica. Pues bien, desde entonces, Ethan ha estado combinando dos de mis intereses: formas alternativas de financiación ciencia y la ciencia de la red. En su intento de lograr su meta de recaudar $ 25.000, Ethan ha estado tratando de entender qué condiciones y conexiones producen la mayor cantidad de dinero. Y el análisis de redes es uno de los componentes de este.

Algunos de sus análisis han estudiado las propiedades estadísticas de las donaciones hasta el momento, lo que confirma que las donaciones no llegan a una velocidad constante (a menudo hay una explosión en el comienzo y el final, con un poco de estancamiento en el centro). Además, Ethan me escribió recientemente un análisis sobre la base de sus amigos de Facebook, y que donó y que no lo hicieron:



El amarillo indica un donante, mientras que el azul significa un no donante, y el tamaño nodo corresponde al grado-el número de conexiones a otros en los datos de la red. Como se puede ver, es un poco desordenado. No hay grupos de donación por lo que es difícil determinar el patrón de influencia, en su caso. Sin embargo, es gratificante observar que existe un alto nivel general de la donación (alrededor del 10%).

Cuando se trata de la donación cantidad, que no parece ser mucho en la forma de una relación entre la donación y el grado de red, aunque sí parece que sólo los que tienen muchas conexiones donan grandes cantidades (por supuesto, muchas otras grandes donaciones provienen de los que están fuera de la red de Facebook):



Sea o no hay resultados claros en todos estos análisis, necesitamos más de esto. Aquellos que están tratando de crowdfund proyectos debe seguir siendo abierto acerca de cómo funciona este proceso y cómo no lo hace. Este es un gran primer paso para tratar de entender mejor cómo financiar la investigación científica en una forma de base amplia.