Mostrando entradas con la etiqueta ciencias sociales computacionales. Mostrar todas las entradas
Mostrando entradas con la etiqueta ciencias sociales computacionales. Mostrar todas las entradas

sábado, 1 de diciembre de 2018

El cambio de escala en el ARS cuando arribó la digitalización

Ciencias sociales computacionales: haciendo los enlaces.


Desde los correos electrónicos hasta las redes sociales, los rastros digitales que deja la vida en el mundo moderno están transformando las ciencias sociales.

Jim Giles  | Nature
Nature 488, 448–450 (23 August 2012)
doi:10.1038/488448a




El trabajo inicial de Jon Kleinberg no fue para los matemáticamente débiles de corazón. Su primera publicación[1], en 1992, fue un artículo de informática con contenidos tan densos como su título: 'En diagramas dinámicos de Voronoi y la distancia mínima de Hausdorff para conjuntos de puntos bajo movimiento euclidiano en el plano'.

Eso fue antes de que la World Wide Web explotara en todo el planeta, impulsada por millones de usuarios individuales que toman decisiones independientes sobre a quién y con qué vincularse. Y fue antes de que Kleinberg comenzara a estudiar la amplia gama de subproductos digitales generados por la vida en el mundo moderno, desde correos electrónicos, llamadas desde teléfonos móviles y compras con tarjeta de crédito hasta búsquedas en Internet y redes sociales. Hoy en día, como científico informático en la Universidad de Cornell en Ithaca, Nueva York, Kleinberg usa estos datos para escribir artículos como "¿Qué tan malo está formando tu propia opinión?" [2] y "Me tuviste a mi lado: cómo el fraseo afecta la memorización" [3] Títulos que estarían en casa en una revista de ciencias sociales.

"Me di cuenta de que la informática no se trata solo de tecnología", explica. "También es un tema humano".

Kleinberg no está solo. El campo emergente de la ciencia social computacional está atrayendo a científicos inclinados matemáticamente en números cada vez mayores. Esto, a su vez, está estimulando la creación de departamentos académicos e impulsando a compañías como el gigante de la red social Facebook, con sede en Menlo Park, California, a establecer equipos de investigación para comprender la estructura de sus redes y cómo se propaga la información a través de ellos.

"Ha sido realmente transformador", dice Michael Macy, científico social de Cornell y uno de los 15 coautores de un manifiesto de 2009 que busca elevar el perfil de la nueva disciplina. "Antes estábamos limitados a las encuestas, que son retrospectivas, y los experimentos de laboratorio, que casi siempre se realizan en pequeñas cantidades de estudiantes de segundo año universitarios". Ahora, dice, las corrientes de datos digitales prometen un retrato del comportamiento individual y grupal a escalas sin precedentes. y niveles de detalle. También ofrecen muchos desafíos, especialmente los problemas de privacidad, y el problema de que los conjuntos de datos pueden no reflejar realmente a la población en general.

No obstante, dice Macy, "comparo las oportunidades con los cambios en la física provocados por el acelerador de partículas, y en la neurociencia por imágenes de resonancia magnética funcional".

Llamadas sociales

Un ejemplo temprano de datos digitales a gran escala utilizados en un tema de ciencias sociales fue un estudio realizado en 2002 por Kleinberg y David Liben-Nowell, un científico informático del Carleton College en Northfield, Minnesota. Observaron un mecanismo que los científicos sociales creían que ayudaba a impulsar la formación de relaciones personales: las personas tienden a hacerse amigos de los amigos de sus amigos. Aunque bien establecida, la idea nunca se había probado en redes de más de unas pocas decenas o cientos de personas.

Kleinberg y Liben-Nowell estudiaron las relaciones formadas en las colaboraciones científicas. Observaron a los miles de físicos que cargaron documentos en el servidor de preimpresión arXiv durante 1994–96. Al escribir un software para extraer automáticamente los nombres de los documentos, el par creó una red digital de varios órdenes de magnitud más grande que cualquiera que se haya examinado anteriormente, y cada enlace representa a dos investigadores que habían colaborado. Al observar cómo la red cambió con el tiempo, los investigadores identificaron varias medidas de cercanía entre los investigadores que podrían usarse para pronosticar futuras colaboraciones[5].





Como se esperaba, los resultados mostraron que las nuevas colaboraciones tendían a surgir de investigadores cuyas esferas de colaboradores existentes se superponían: el análogo de la investigación de "amigos de amigos". Pero la sofisticación matemática de las predicciones ha permitido que se utilicen en redes aún más grandes. El antiguo estudiante de doctorado de Kleinberg, Lars Backstrom, también trabajó en el problema de la predicción de la conexión, experiencia que ha aprovechado ahora que trabaja en Facebook, donde diseñó el actual sistema de recomendaciones de amigos de la red social.

Otra idea de larga data de la ciencia social afirmada por los investigadores computacionales es la importancia de los "vínculos débiles", las relaciones con conocidos lejanos que se encuentran relativamente raramente. En 1973, Mark Granovetter, un científico social ahora en la Universidad de Stanford en Stanford, California, argumentó que los vínculos débiles forman puentes entre camarillas sociales y, por lo tanto, son importantes para la difusión de información y la movilidad económica6. En la era pre-digital era casi imposible verificar sus ideas a escala. Pero en 2007, un equipo dirigido por Jukka-Pekka Onnela, un científico de la red que actualmente trabaja en la Universidad de Harvard en Cambridge, Massachusetts, utilizó datos de 4 millones de usuarios de teléfonos móviles para confirmar que los lazos débiles actúan como puentes sociales[7] (ver 'El poder de lazos débiles ').

En 2010, un segundo grupo, que incluía a Macy, mostró que Granovetter también tenía razón sobre la conexión entre la movilidad económica y los lazos débiles. Utilizando datos de 65 millones de teléfonos fijos y teléfonos móviles en el Reino Unido, junto con datos del censo nacional, revelaron una poderosa correlación entre la diversidad de las relaciones de las personas y el desarrollo económico: cuanto más ricas y variadas son sus conexiones, más ricas son sus comunidades[8] (ver 'El vínculo económico'). "En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala", dice Granovetter.

Ideas infecciosas

En algunos casos, los grandes datos han demostrado que las ideas antiguas son erróneas. Este año, Kleinberg y sus colegas utilizaron datos de los aproximadamente 900 millones de usuarios de Facebook para estudiar el contagio en las redes sociales, un proceso que describe la difusión de ideas como modas, opiniones políticas, nuevas tecnologías y decisiones financieras. Casi todas las teorías habían asumido que el proceso refleja un contagio viral: la posibilidad de que una persona adopte una nueva idea aumenta con el número de creyentes a los que está expuesta.



El estudiante de Kleinberg, Johan Ugander, descubrió que hay más que eso: la decisión de la gente de unirse a Facebook no varía con el número total de amigos que ya están usando el sitio, sino con el número de grupos sociales distintos que ocupan esos amigos[9]. En otras palabras, descubrir que Facebook está siendo utilizado por personas de, digamos, su trabajo, su club deportivo y sus amigos cercanos da más impresión que encontrar que los amigos de un solo grupo lo usan. La conclusión de que la difusión de ideas depende de la variedad de personas que las sostienen puede ser importante para las campañas de marketing y de salud pública.

A medida que han proliferado los estudios computacionales de ciencias sociales, también lo han hecho las ideas sobre aplicaciones prácticas. En el Instituto de Tecnología de Massachusetts en Cambridge, el grupo del científico informático Alex Pentland utiliza aplicaciones de teléfonos inteligentes y dispositivos de grabación portátiles para recopilar datos detallados sobre los movimientos y las comunicaciones diarias de los sujetos. Al combinar los datos con encuestas de salud emocional y física, el equipo ha aprendido a detectar la aparición de problemas de salud como la depresión[10]. "Vemos grupos que nunca gritan", dice Pentland. "Poder ver el aislamiento es realmente importante cuando se trata de llegar a las personas que necesitan ser contactadas". Ginger.io, una compañía derivada en Cambridge, Massachusetts, dirigida por el ex alumno de Pentland, Anmol Madan, está desarrollando una aplicación para teléfonos inteligentes que notifica a los proveedores de atención médica cuando detecta un patrón en los datos que puede indicar un problema de salud.

Otras compañías están explotando los más de 400 millones de mensajes que se envían todos los días en Twitter. Varios grupos de investigación han desarrollado un software para analizar los sentimientos expresados ​​en tweets para predecir resultados del mundo real, como los ingresos de taquilla para películas o resultados de elecciones[11]. Aunque la precisión de tales predicciones aún es un tema de debate[12], Twitter comenzó en agosto a publicar un índice político diario para la elección presidencial de los Estados Unidos basada en estos métodos (election.twitter.com). Mientras tanto, en la Universidad de Indiana en Bloomington, Johan Bollen y sus colegas utilizaron un software similar para buscar correlaciones entre el estado de ánimo público, como se expresa en Twitter, y las fluctuaciones del mercado de valores[13]. Sus resultados han sido lo suficientemente poderosos para que Derwent Capital, una firma de inversiones con sede en Londres, pueda licenciar las técnicas de Bollen.

Cuando esas encuestas basadas en Twitter comenzaron a aparecer hace unos dos años, los críticos se preguntaban si la relativa popularidad del servicio entre grupos demográficos específicos, como los jóvenes, alteraría los resultados. Un debate similar gira en torno a todos los nuevos conjuntos de datos. Facebook, por ejemplo, ahora tiene cerca de mil millones de usuarios, sin embargo, los jóvenes todavía están excesivamente representados entre ellos. También hay diferencias entre la comunicación en línea y en el mundo real, y no está claro si los resultados de una esfera se aplicarán en la otra. "Con frecuencia, extrapolamos cómo un solo grupo utiliza una tecnología a cómo interactúan los humanos en general", señala Samuel Arbesman, científico de la red de la Universidad de Harvard. Pero eso, dice, "podría no ser necesariamente razonable".

Los defensores argumentan que estos no son problemas nuevos. Casi todos los datos de la encuesta contienen una cierta cantidad de sesgo demográfico, y los científicos sociales han desarrollado una variedad de métodos de ponderación para corregir el equilibrio. Si se entiende el sesgo en un conjunto de datos en particular, como un exceso de un grupo u otro en Facebook, los resultados se pueden ajustar para tenerlo en cuenta.

"En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala".

Los servicios como Facebook y Twitter también se están utilizando cada vez más, reduciendo el sesgo. E incluso si el sesgo se mantiene, podría decirse que es menos severo que en otros conjuntos de datos como el de la psicología y el comportamiento humano, donde la mayoría del trabajo se realiza en estudiantes universitarios de sociedades occidentales, educadas, industrializadas, ricas y democráticas (a menudo denominadas WEIRD ).
Granovetter tiene una reserva más filosófica sobre la afluencia de big data en su campo. Él dice que está "muy interesado" en los nuevos métodos, pero teme que el enfoque en los datos reste valor a la necesidad de obtener una mejor comprensión teórica de los sistemas sociales. "Incluso lo mejor de estos artículos computacionales se centra en gran medida en las teorías existentes", dice. "Eso es valioso, pero es solo una parte de lo que debe hacerse". El artículo6 de Granovetter sobre los vínculos débiles, por ejemplo, sigue siendo altamente citado casi 40 años después. Sin embargo, fue "más o menos libre de datos", dice. "No fue el resultado de los análisis de datos, fue el resultado de pensar en otros estudios. Esa es una actividad separada y necesitamos que haya gente haciendo eso ".

La nueva generación de científicos sociales también está luchando con el tema del acceso a los datos. "Muchos de los 'big data' emergentes provienen de fuentes privadas que son inaccesibles para otros investigadores", escribió Bernardo Huberman, científico informático de los laboratorios HP en Palo Alto, en febrero de 2014. "La fuente de datos puede estar oculta, lo que agrava los problemas de verificación, así como las preocupaciones sobre la generalidad de los resultados".

Un buen ejemplo es el equipo de investigación interno de Facebook, que utiliza de manera rutinaria datos sobre las interacciones entre los 900 millones de usuarios de la red para sus propios estudios, incluida una reevaluación de la famosa afirmación de que dos personas en la Tierra solo tienen seis presentaciones aparte. (Pone la cifra en cinco[15]). Pero el grupo solo publica las conclusiones, no los datos sin procesar, en parte debido a preocupaciones de privacidad. En julio, Facebook anunció que estaba explorando un plan que daría a los investigadores externos la oportunidad de verificar las conclusiones publicadas del grupo interno contra datos agregados y anónimos, pero solo por un tiempo limitado, y solo si los de fuera viajaban a la sede de Facebook[16].

A corto plazo, los científicos sociales de la computación están más preocupados por los problemas culturales en su disciplina. Varias instituciones, entre ellas Harvard, han creado programas en el nuevo campo, pero el poder de los límites académicos es tal que a menudo hay poco tráfico entre los diferentes departamentos. En la Universidad de Columbia en Nueva York, el científico social y teórico de redes Duncan Watts recuerda un reciente error de programación que lo obligó a combinar reuniones con estudiantes graduados en ciencias de la computación y sociología. "Quedó bastante claro que estos dos grupos realmente podrían usarse entre sí: los estudiantes de ciencias de la computación tenían mejores habilidades metodológicas que sus homólogos de la sociología, pero los sociólogos tenían preguntas mucho más interesantes", dice. "Y sin embargo, nunca se habían escuchado el uno del otro, ni se les había ocurrido a ninguno de ellos caminar hasta el departamento del otro".

Muchos investigadores desconocen el poder de los nuevos datos, está de acuerdo David Lazer, científico social de la Northeastern University en Boston, Massachusetts, y autor principal del manifiesto de 2009. El escaso trabajo basado en datos se está convirtiendo en las principales revistas de ciencias sociales. Y las conferencias de informática que se centran en temas sociales, como la Conferencia sobre weblogs y redes sociales, celebrada en Dublín en junio, atraen a pocos científicos sociales.

No obstante, dice Lazer, con artículos destacados que aparecen en revistas líderes y conjuntos de datos sobre comportamientos de toda la sociedad disponibles por primera vez, esas barreras se están rompiendo constantemente. "Los cambios están más delante de nosotros que detrás de nosotros", dice.

Ciertamente esa es la percepción de Kleinberg. "Me considero un científico informático interesado en cuestiones sociales", dice. "Pero estos límites se están volviendo difíciles de discernir".


Referencias

  1. Huttenlocher, D. P., Kedem, K. & Kleinberg, J. M. Proc. 8th Annu. Symp. on Computational Geometry 110119 (1992).
  2. Bindel, D., Kleinberg, J. & Oren, S. Proc. IEEE 52nd Annu. Symp. Foundations of Computer Science 5766 (2011).
  3. Danescu-Niculescu-Mizil, C., Cheng, J., Kleinberg, J. & Lee, L. Proc. 50th Annu. Meeting Assoc. Computational Linguistics (in the press); Preprint at http://arxiv.org/abs/1203.6360.
  4. Lazer, D. et al. Science 323, 721723 (2009).
  5. Liben-Nowell, D. & Kleinberg, J. J. Am. Soc. Inf. Sci. Technol. 58, 10191031 (2007).
  6. Granovetter, M. S. Am. J. Sociol. 78, 13601380 (1973).
  7. Onnela, J.-P. et al. Proc. Natl Acad. Sci. USA 104, 73327336 (2007).
  8. Eagle, N., Macy, M. & Claxton, R. Science 328, 10291031 (2010).
  9. Ugander, J., Backstrom, L., Marlow, C. & Kleinberg, J. Proc. Natl Acad. Sci. USA 109, 59625966 (2012).
  10. Madan, A., Cebrian, M., Moturu, S., Farrahi, K. & Pentland, S. IEEE Pervasive Computing http://dx.doi.org/10.1109/MPRV.2011.79 (2011).
  11. Asur, S. & Huberman, B. A. Proc. 2010 IEEE/WIC/ACM Int. Conf. Web Intelligence and Intelligent Agent Technology Vol. 1, 492499 (2010).
  12. Gayo-Avello, D., Metaxas, P. T. & Mustafaraj, E. Proc. Fifth Int. AAAI Conf. on Weblogs and Social Media 490493 (2011).
  13. Bollen, J. & Mao, H. IEEE Computer 44(10), 9194 (2011).
  14. Huberman, B. A. Nature 482, 308 (2012).
  15. Backstrom, L., Boldi, P., Rosa, M., Ugander, J. & Vigna S. Preprint at http://arxiv.org/abs/1111.4570 (2011).
  16. Corbyn, Z. Nature http://dx.doi.org/10.1038/nature.2012.11064 (2012).

viernes, 9 de marzo de 2018

Estructura de red y difusión anti-científica en un modelo de simulación

Los trucos que los propagandistas usan para vencer a la ciencia

Un modelo de la forma en que se difunden las opiniones revela cómo los propagandistas usan el proceso científico contra sí mismos para influir secretamente en los políticos.
por Emerging Technology del arXiv


En la década de 1950, los profesionales de la salud comenzaron a preocuparse de que el fumar causaba cáncer. Luego, en 1952, la popular revista Reader's Digest publicó "Cancer by the Carton", un artículo sobre el creciente cuerpo de evidencia que lo demostraba. El artículo causó una gran sorpresa y cobertura de los medios. Hoy los peligros para la salud del tabaquismo son claros e inequívocos.

Y, sin embargo, las prohibiciones de fumar han tardado en entrar en vigor, la mayoría aparecieron unos 40 años o más después del artículo de Reader's Digest.

La razón de esta lentitud es fácil de ver en retrospectiva y se describe en detalle por Naomi Oreskes y Erik Conway en su libro de 2010 Merchants of Doubt. Aquí los autores explican cómo la industria del tabaco contrató a una empresa de relaciones públicas para generar controversia en torno a la evidencia y arrojar dudas sobre su veracidad.

Juntos, las compañías tabacaleras y la firma de relaciones públicas crearon y financiaron una organización llamada Comité de Investigación de la Industria del Tabaco para producir resultados y opiniones que contradecían la opinión de que fumar mata. Esto condujo a una falsa sensación de incertidumbre y a cambios de política retrasados ​​que de otro modo tendrían ventas restringidas.



El enfoque fue enormemente exitoso para la industria tabacalera en ese momento. En el mismo libro, Oreskes y Conway muestran cómo un enfoque similar ha influido en el debate sobre el cambio climático. Una vez más, el consenso científico es claro e inequívoco, pero el debate público se ha enturbiado deliberadamente para crear una sensación de incertidumbre. De hecho, Oreskes y Conway dicen que algunas de las mismas personas que idearon la estrategia del tabaco también trabajaron para socavar el debate sobre el cambio climático.

Eso plantea una pregunta importante: ¿qué tan fácil es para los actores maliciosos distorsionar la percepción pública de la ciencia?

Hoy recibimos una respuesta gracias al trabajo de James Owen Weatherall, Cailin O'Connor en la Universidad de California, Irvine, y Justin Bruner en la Universidad Nacional de Australia en Canberra, que han creado un modelo informático de la forma en que se forman los consensos científicos y  cómo esto influye en la opinión de los políticos. El equipo estudió cuán fácilmente estos puntos de vista pueden distorsionarse y determinó que hoy en día es fácil distorsionar la percepción de la ciencia con técnicas que son aún más sutiles que las utilizadas por la industria del tabaco.

La estrategia original del tabaco implicó varias líneas de ataque. Una de ellas fue financiar investigaciones que respaldaron a la industria y luego publicar solo los resultados que se ajustan a la narrativa requerida. "Por ejemplo, en 1954, el TIRC distribuyó un panfleto titulado 'Una perspectiva científica sobre la controversia del cigarrillo' a casi 200,000 médicos, periodistas y legisladores, en el que enfatizaban la investigación favorable y cuestionaban los resultados que respaldaban la opinión contraria", dice Weatherall. y coautores, que llaman a esto enfoque de producción sesgada.

Un segundo enfoque promovió la investigación independiente que pasó a apoyar la narrativa de la industria tabacalera. Por ejemplo, apoyó la investigación sobre el vínculo entre el amianto y el cáncer de pulmón porque enlodaba las aguas al mostrar que otros factores pueden causar cáncer. Weatherall y su equipo llaman a este enfoque de difusión selectivo.

Weatherall y coautores investigaron cómo estas técnicas influyen en la opinión pública. Para ello utilizaron un modelo informático de la forma en que el proceso científico influye en la opinión de los responsables de las políticas.

Este modelo contiene tres tipos de actores. El primero son científicos que llegan a un consenso al llevar a cabo experimentos y permitir que los resultados, y los de sus pares, influyan en su punto de vista.

Cada científico comienza con el objetivo de decidir cuál de las dos teorías es mejor. Una de estas teorías se basa en la "acción A", que se entiende bien y se sabe que funciona el 50 por ciento de las veces. Esto corresponde a la teoría A.

Por el contrario, la teoría B se basa en una acción que no se comprende bien. Los científicos no están seguros de si es o no mejor que A. Sin embargo, el modelo está configurado de modo que la teoría B es en realidad mejor.

Los científicos pueden hacer observaciones utilizando su teoría y, lo que es más importante, tienen resultados probabilísticos. Entonces, incluso si la teoría B es la mejor de las dos, algunos resultados respaldarán la teoría A.

Al comienzo de la simulación, los científicos tienen una creencia aleatoria en la teoría A o B. Por ejemplo, un científico con un crédito de 0.7 cree que hay un 70 por ciento de posibilidades de que la teoría B sea correcta y, por lo tanto, aplica la teoría B en la siguiente ronda de experimentos.

Después de cada ronda de experimentos, los científicos actualizan sus puntos de vista en función de los resultados de su experimento y los resultados de los científicos a los que están vinculados en la red. En la siguiente ronda, repiten este proceso y actualizan sus creencias nuevamente, y así sucesivamente.

La simulación se detiene cuando todos los científicos creen una u otra teoría o cuando la creencia en una teoría alcanza cierto nivel de umbral. De esta manera, Weatherall y Co simulan la forma en que los científicos llegan a una visión consensuada.

Pero, ¿cómo influye este proceso en los responsables políticos? Para averiguarlo, Weatherall y su equipo introdujeron un segundo grupo de personas en el modelo, los responsables de la formulación de políticas, que están influenciados por los científicos (pero no influyen en los propios científicos). De manera crucial, los responsables de las políticas no escuchan a todos los científicos, solo un subconjunto de ellos.

Los formuladores de políticas comienzan con una vista y la actualizan después de cada ronda, usando las opiniones de los científicos que escuchan.

Pero el enfoque clave del trabajo del equipo es cómo un propagandista puede influir en las opiniones de los políticos. Entonces Weatherall y Co introducen un tercer actor en este modelo. Este propagandista observa a todos los científicos y se comunica con todos los legisladores con el objetivo de persuadirlos de que la peor teoría es correcta (en este caso, la teoría A). Lo hacen buscando solo puntos de vista que sugieran que la teoría A es correcta y la comparten con los legisladores.

El propagandista puede funcionar de dos formas que corresponden a la producción sesgada o al intercambio selectivo. En el primero, el propagandista usa un equipo interno de científicos para producir resultados que favorecen la teoría A. En el segundo, el propagandista simplemente escoge esos resultados de científicos independientes que favorecen la teoría A.

Ambos tipos de influencia pueden tener un gran impacto, dicen que Weatherall y el intercambio co-selectivo resultan ser tan buenos como la producción sesgada. "Encontramos que la presencia de un único propagandista que comunica solo los hallazgos reales de los científicos puede tener una influencia sorprendente en las creencias de los responsables de las políticas", explican. "Bajo muchos escenarios, encontramos que mientras la comunidad de científicos converge en creencias verdaderas sobre el mundo, los creadores de políticas alcanzan casi certeza en la falsa creencia".

Y eso sin ninguna ciencia fraudulenta o mala, simplemente seleccionando los resultados. De hecho, los propagandistas ni siquiera necesitan usar sus propios científicos internos para respaldar ideas específicas. Cuando hay una variación natural en los resultados de experimentos científicos imparciales, los propagandistas pueden tener una influencia significativa al seleccionar cuidadosamente aquellos que respaldan su propia agenda. Y se puede hacer a muy bajo riesgo porque todos los resultados que eligen son ciencia "real".

Ese hallazgo tiene implicaciones importantes. Significa que cualquiera que quiera manipular a la opinión pública e influir en los legisladores puede lograr un éxito extraordinario con trucos relativamente sutiles.

De hecho, no son solo los actores nefastos los que pueden terminar influenciando a los hacedores de políticas de maneras que no coinciden con el consenso científico. Weatherall y coautores señalan que los periodistas científicos también escogen los resultados. Los reporteros generalmente están bajo presión para encontrar las historias más interesantes o sexys o entretenidas, y esto sesga lo que los responsables políticos ven. Sin embargo, no está claro cuán significativo sea este efecto en el mundo real.

El hallazgo clave del equipo tendrá profundas consecuencias. "Uno podría haber esperado que producir ciencia sesgada realmente tendría una influencia más fuerte en la opinión pública que simplemente compartir los resultados de otros", dicen Weatherall y compañía. "Pero hay fuertes sentidos en los que la estrategia menos sutil y más sutil de compartir selectivamente es más efectiva que la producción sesgada".

El trabajo también tiene implicaciones para la naturaleza de la ciencia. Este tipo de intercambio selectivo es efectivo solo debido a la amplia variación en los resultados que surgen de ciertos tipos de experimentos, particularmente aquellos que son estudios pequeños de baja potencia.

Este es un problema bien conocido, y la solución es clara: estudios más grandes y de mayor potencia. "Dados algunos recursos financieros fijos, los organismos de financiación deberían asignar esos recursos a unos pocos estudios de gran potencia", argumentan Weatherall y compañía, quienes sugieren que los científicos deberían recibir incentivos para producir ese tipo de trabajo. "Por ejemplo, a los científicos se les debe otorgar más crédito por resultados estadísticamente más fuertes, incluso en casos en que resulten nulos".

Eso haría más difícil para los propagandistas encontrar resultados espurios que puedan usar para distorsionar las vistas.

Pero dado cuán poderoso parece ser el intercambio selectivo, la pregunta ahora es: ¿quién es más probable que haga un uso efectivo de las conclusiones de Weatherall y de la compañía en primer lugar: propagandistas o científicos / legisladores?

Ref: arxiv.org/abs/1801.01239: How to Beat Science and Influence People: Policy Makers and Propaganda in Epistemic Networks

martes, 2 de enero de 2018

Sesgo de selección al trabajar con datos de Facebook

Cómo Facebook estila las ciencias sociales

Cuando las empresas privadas tienen datos que necesitan los estudiosos, ¿qué sucede con la investigación académica?

Por Henry Farrell || The Chronicle of Higher Education

Brian Taylor para The Chronicle Review

¿Cuál fue exactamente el alcance de la intromisión rusa en la campaña electoral de 2016? ¿Qué tan extendida fue su infiltración de las redes sociales? ¿Y cuánta influencia tuvo su propaganda en la opinión pública y el comportamiento de los votantes?

Los académicos solo ahora están empezando a abordar esas preguntas. Pero para responderlas, los académicos necesitan datos, y obtener esos datos ha sido un problema.

Tomemos un ejemplo reciente: Jonathan Albright, un investigador de la Universidad de Columbia, investigó varias páginas compradas en Rusia que Facebook había anotado. Concluyó que habían acumulado potencialmente cientos de millones de visitas. David Karpf, profesor asociado de medios y asuntos públicos en la Universidad George Washington, no estaba convencido, argumentando que la mayoría de las "personas" a las que les habían gustado estas páginas eran muy probablemente bots rusos. (Divulgación completa: encargué y edité la publicación de Karpf en el blog Monkey Cage de The Washington Post).

Por lo general, tales desacuerdos se resuelven a través de los datos. El problema al que se enfrentan académicos como Albright y Karpf es que hay pocos datos públicamente disponibles en Facebook. Para su estudio, Albright tuvo que usar una herramienta poco convencional propiedad de Facebook llamada CrowdTangle para encontrar cualquier cosa. Después de haber publicado sus hallazgos iniciales, Facebook anunció rápidamente que había "corregido un error" en el software utilizado por Albright, lo que hacía imposible que otros investigadores replicaran lo que hizo. Albright y Karpf se quedan en una situación muy desdichada: los datos que necesitan para comprender lo que sucedió simplemente ya no están disponibles.

Las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores y menos accesibles que el gobierno. Esto está remodelando la investigación en ciencias sociales.

Ese es un ejemplo de un cambio extraordinario en la política y la práctica de las ciencias sociales. Las empresas como Facebook tienen información crucial sobre el comportamiento social y político de las personas. Pero son extremadamente reacios a proporcionar esa información a personas ajenas, a menos que esas personas externas firmen acuerdos de confidencialidad (NDA, por sus siglas en inglés) que otorguen a Facebook el poder de demandar si la información se utiliza de manera que la empresa considere objetable.

Esto marca un cambio significativo para los investigadores. Solía ​​ser que los estados eran la fuente más importante de datos sobre sus ciudadanos, la economía y la sociedad. Tuvieron que recopilar y agregar grandes cantidades de información, por ejemplo, censos de personas y empresas, para sus propios fines. Además, las agencias estatales ayudaron a financiar proyectos de ciencias sociales en la recopilación de datos, como el apoyo de la National Science Foundation a los American National Election Studies durante décadas.

En consecuencia, la política de acceso a los datos solía estar más centrada en el estado. Algunas veces, el estado era reacio a proporcionar información, ya sea para proteger la privacidad, ocultar sus errores o mantener el control de la información confidencial. Pero en su mayor parte, normalmente proporcionaba acceso, y los académicos podían presionarlo cuando se estancaba. En ese mundo, los académicos podían recurrir a fuentes comunes, y generalmente (aunque no siempre) tenían un acceso más o menos igualitario.

Hubo un inconveniente: las preguntas de los académicos se formaron por los datos que podían obtener. Pero lo bueno fue que la investigación generalmente era reproducible. Los desacuerdos como ese entre Albright y Karpf podrían llevarse a cabo en igualdad de condiciones.

Ahora estamos entrando en una nueva era para las ciencias sociales. Para muchos propósitos académicos, las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores que el gobierno, y esos datos son mucho menos accesibles. Este nuevo universo de datos privados está remodelando la investigación en ciencias sociales de maneras que se comprenden mal.

En este nuevo mundo valiente, el acceso a los datos es una jungla. No existen reglas universales: las empresas tienen sus propias políticas individuales sobre cuándo proporcionan a los científicos sociales acceso común a los datos, o pueden hacerlo de forma ad hoc, o pueden negarse por completo. Cuando estas firmas construyen relaciones, generalmente es con investigadores individuales o pequeños grupos de investigadores, cuyo trabajo puede ser valioso para la empresa. Y esas relaciones generalmente están cubiertas por NDA u otras reglas contractuales que restringen cómo los investigadores pueden usar los datos y resumirlos en investigaciones publicadas.

Eso puede tener grandes consecuencias para las carreras académicas. Algunos académicos, aquellos con conexiones con las firmas adecuadas, pueden prosperar. Aquellos sin conexiones tienen que ser creativos para hacer su trabajo. A veces es posible que obtengan acceso directo a datos agregados sin cadenas, a través de herramientas como Google Trends. A veces pueden reutilizar las herramientas que Facebook y otras compañías ponen a disposición de los anunciantes u otros clientes comerciales (CrowdTangle es un ejemplo). Sin embargo, los datos recopilados de esa manera pueden no ser adecuados para fines específicos de investigación.

Eso no quiere decir que los datos que provienen directamente de las empresas sean perfectos, ni nada por el estilo. Detrás de cada gran conjunto de datos existe un gran crimen. Casi todos los datos de las ciencias sociales están sesgados por las suposiciones y las metodologías (a veces problemáticas) que se utilizaron para recopilarlas. Los conjuntos de datos construidos por el Estado en su apogeo fueron defectuosos en muchos sentidos y continúan siéndolo. Sin embargo, a medida que los estándares profesionales mejoraron, los defectos se entendieron mejor y fueron más transparentes.

Las nuevas formas de datos de compañías privadas son más problemáticas. Se recolectan principalmente con fines comerciales en lugar de investigación. A menudo se recolectan mediante técnicas de aprendizaje automático, que producen clasificaciones que son oscuras incluso para sus creadores. Los hallazgos basados ​​en estos datos se retroalimentan para remodelar los algoritmos con miras a cambiar el comportamiento humano, por ejemplo, hacer que los individuos sean más propensos a hacer clic en los anuncios, para que los datos a menudo no sean comparables con el tiempo.

En combinación, esos factores pueden significar que es realmente difícil interpretar los datos. Por ejemplo, ¿hasta qué punto los cambios en el comportamiento en Facebook pueden ser impulsados ​​por cambios subyacentes en la sociedad, y en qué medida por los cambios a los algoritmos de Facebook? Excepto bajo ciertas circunstancias, digamos, cuando Facebook ejecuta experimentos controlados, puede ser difícil de decir.

Las restricciones de acceso presentan desafíos adicionales. Las NDA y otros acuerdos pueden no solo evitar que los investigadores compartan datos con sus colegas, sino que también pueden evitar que brinden información valiosa sobre cómo se recopilaron y procesaron los datos.

Juntos, esos factores significan que podemos estar a punto de presenciar una colisión entre el movimiento de reproducibilidad, que está ganando terreno en las ciencias sociales, y el nuevo mundo de datos patentados, que socava la reproducibilidad porque la información es inaccesible para otros y susceptible de ser destruido si no conserva el valor comercial.

Si los académicos comienzan a confiar en las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección.

 Aún más preocupante, el control corporativo de los datos puede conducir a dos tipos de sesgo de selección. Más obviamente, los hallazgos poco favorecedores probablemente no se publicarán si las corporaciones tienen algo que decir. Por ejemplo, Uber financió a científicos sociales para llevar a cabo investigaciones sobre si su servicio era más barato o más rápido que los taxis estándar. La investigación sugirió que Uber era de hecho más barato y más rápido, pero Uber insistió en mantener el control sobre si los resultados se publicaron o no. No se necesita una mente especialmente sospechosa para adivinar que Uber habría retenido el permiso para la publicación si los resultados hubieran sugerido que su servicio era peor que los taxis. Cuando las empresas utilizan el acceso propietario a los datos y los acuerdos legales para mantener el control sobre la publicación, tienen fuertes incentivos para permitir la publicación de solo material que los favorece. Con el tiempo, esto llevará a sesgar la investigación públicamente disponible.

De manera más insidiosa, si los académicos comienzan a depender de las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección. Ciertos temas y métodos de investigación serán favorecidos, mientras que otros se quedan en el camino. Facebook es muy sensible a la sugerencia de que su servicio puede tener consecuencias políticas, salvo las más inocuas. Sus investigadores y politólogos colaboraron en un importante experimento que muestra que los mensajes de Facebook podrían hacer que la gente tenga más probabilidades de votar, pero fue especialmente sensible a nuevas consultas sobre cómo la ubicación de noticias de Facebook influye en el comportamiento político, eliminando un video de YouTube en el que un investigador de Facebook había descrito lo que habían hecho con un poco de detalle. Facebook bien puede tener grandes efectos en la política, no solo en las elecciones de los EE. UU., Sino en otros contextos (como la Primavera Árabe). Pero no tiene ningún incentivo para permitir que los expertos utilicen sus datos para llevar a cabo investigaciones sobre la mayoría de esos efectos, por lo que líneas de investigación completas pueden terminar muertas.

Luego está el aspecto ético de realizar investigaciones utilizando datos de empresas privadas. Las empresas como Facebook, que no están sujetas a normas académicas, pueden verse tentadas a tomar decisiones éticas dudosas, cuando, por ejemplo, tratan los ecosistemas de medios de países enteros como ratones en un experimento de laboratorio. Sin embargo, los académicos no pueden lidiar mejor con la tentación. El personaje de los Simpson, el Dr. Marvin Monroe, tiene la ambición de construir una "caja Monroe", en la que mantendrá a un bebé hasta la edad de 30 años, sometiéndolo a momentos aleatorios a electrocución y duchas de agua helada para probar la hipótesis de que resentir a su captor. Todos los científicos sociales tienen un poco de Marvin Monroe en sus corazones, y muchos podrían verse tentados, si tan solo tuvieran los medios, de enviar multitudes de seres humanos corriendo como ratas a través de laberintos de información social sutilmente sesgada para ver qué caminos toman. En un mundo dominado por datos de empresas privadas, es más fácil para los académicos llevar a cabo el trabajo fuera de las restricciones éticas habituales. Los autores de un estudio de 2014 sobre las redes sociales y el "contagio emocional" no tuvieron que someterse a la aprobación del IRB para su trabajo, ya que el experimento ya había sido llevado a cabo por Facebook. Espere que esta tendencia continúe a medida que crezca el uso de datos privados.

Como muestra la historia de Albright-Karpf, estos problemas ya no son meramente académicos. Facebook está sometido a un intenso escrutinio político debido a su aparente ceguera ante las operaciones de influencia rusa. Los investigadores del Congreso son más propensos que los académicos externos a tener éxito en insistir en el acceso a los datos. La política de los datos está cambiando, tal vez de manera significativa. Muchos miembros del Congreso consideran que ya no es apropiado que gran parte de la conversación nacional tenga lugar dentro de una caja negra. Otros servicios que también están bajo un mayor escrutinio, como Twitter, han sido más abiertos, aunque también ha sido caprichoso en su disposición a permitir que otros obtengan acceso a sus datos.

Esto probablemente terminará en frustración y confrontación mutua. Los miembros del Congreso no son especialmente expertos técnicamente y, a lo largo de las décadas, han despojado a muchas de las instituciones (como la Oficina de Evaluación Tecnológica) que podrían haberles proporcionado una guía autorizada.

Sin embargo, hay otro camino posible hacia adelante. Facebook y los otros grandes jugadores en el mundo de los datos sociales podrían aliviar parte de la presión política sobre ellos al rehacer su relación con la academia. Va a ser difícil para estas empresas mantener la postura de "mantener las manos fuera" que han tenido sobre sus datos en el pasado. Si van a tener que ser más responsables públicamente, probablemente estén mejor construyendo relaciones con académicos, que tengan un conocimiento técnico, que con personas designadas por razones políticas, que normalmente no lo hacen.

Facebook, Google y Twitter podrían acordar proporcionar datos a un observatorio académico independiente. Este acuerdo funcionaría bajo reglas éticas explícitas y ampliamente acordadas. El observatorio llevaría a cabo y publicaría investigaciones sobre problemas derivados del abuso de los servicios de medios sociales por parte de terceros (como ocurrió con Rusia), acreditaría a investigadores confiables que podrían tener acceso a datos tanto para fines de investigación original como de replicación, y coordinaría con gobierno y otras partes con un interés claro y legítimo en combatir el comportamiento abusivo.
En términos más generales, este observatorio podría proporcionar un ancla real para el debate sobre las consecuencias reales de los medios sociales para la sociedad y la política. Si bien a las compañías de tecnología a veces no les gustarían sus hallazgos, estarían mejor si los debates políticos se basasen en hechos y datos en lugar de en especulaciones de segunda mano mal informadas, a veces alarmistas.

Tal acuerdo podría proporcionar supervisión sin requerir que las compañías sacrifiquen por completo sus modelos comerciales. También podría ayudar a resolver los problemas de seguridad transversales mejor de lo que cualquier empresa podría hacerlo. Las empresas comerciales tienen pocos incentivos para compartir datos con sus competidores, ya que estos datos suelen estar en el corazón de sus modelos comerciales. Esto lleva a una fragmentación general del conocimiento, en la que las empresas competidoras tienen diferentes tipos de datos que podrían ilustrar un problema desde múltiples perspectivas. Las operaciones de influencia rusa han involucrado acciones combinadas en Facebook, YouTube, Twitter y Google. Un centro independiente podría rastrear esas relaciones a través de diferentes servicios sin comprometer las necesidades comerciales de las empresas individuales.

Todo esto implicaría una gran creatividad e ingenio por parte de los propios negocios, así como de los investigadores con quienes podrían trabajar. Tendrían que crear un nuevo tipo de acuerdo para dicho observatorio, que sería similar a algunas organizaciones existentes, como los equipos de preparación para emergencias informáticas, o CERT, que ya desempeñan un papel clave en la ciberseguridad. Tal organización requeriría un financiamiento independiente sustancial, probablemente canalizado a través de una fundación u otro acuerdo sin fines de lucro. Eso no solo resolvería algunos de los problemas más complicados de la relación entre la erudición y el comercio electrónico, sino que también integraría la investigación académica y las capacidades de los grandes datos en la búsqueda de objetivos sociales y políticos importantes.

No está claro que este resultado sea políticamente factible en este momento. Es muy probable que Facebook, Twitter y Google piensen en su situación como un problema de relaciones públicas a corto plazo en lugar de una crisis existencial que amenaza con convertirse. Eso es miope. Las crisis y los escándalos tienden a escalar, especialmente cuando la falta de datos significa que incluso los investigadores más sofisticados se ven obligados a adivinar lo que realmente está sucediendo. Si las empresas de medios sociales no se despiertan a los problemas del mundo que están construyendo, en el que la información más crucial sobre cómo el trabajo de la política y la sociedad está escondido detrás de los muros de propiedad y los acuerdos de confidencialidad, es probable que encuentren su negocio básico modelos bajo ataque después del próximo gran escándalo, o el siguiente después.

viernes, 1 de julio de 2016

ARS aplicado al Medioevo y la nueva comprensión de la Historia

Cómo la nueva ciencia de la historia computacional está cambiando el estudio del pasado

La aplicación de la teoría de redes con los registros medievales sugiere que los acontecimientos históricos se rigen por "leyes de la historia", al igual que la naturaleza esté regida por las leyes de la física.
por Emerging Technology from the arXiv  23 de Junio de 2016

Una de las características curiosas de ciencia de las redes es que las mismas redes subyacen a los fenómenos completamente diferentes. Como resultado, estos fenómenos tienen similitudes profundas que están lejos de ser evidente a primera vista. Buenos ejemplos incluyen la propagación de la enfermedad, el tamaño de los incendios forestales, e incluso la distribución de la magnitud del sismo, que todos siguen un patrón similar. Este es un resultado directo de su compartiendo la misma estructura de la red.

Así que por lo general es de extrañar que las mismas "leyes" surgen cuando los físicos encuentran las mismas redes subyacentes otros fenómenos. Exactamente esto ha sucedido en varias ocasiones en las ciencias sociales. ciencia de las redes sociales ahora permite a los científicos para modelar las sociedades, para estudiar la forma en que las ideas, los chismes, las modas, y así sucesivamente flujo a través de la sociedad, e incluso para estudiar cómo esto influye en la opinión.

Para ello han utilizado las herramientas desarrolladas para estudiar otras disciplinas. Es por eso que el nuevo campo de la ciencia social computacional ha vuelto tan poderoso tan rápidamente.


Fig. 2: Modelo de red de lazos de parentesco entre los miembros principales de la élite Bizantina (número de nodos = 107) centrados en el Emperador Andronikos II Palaiologos en los años 1321 a 1328 DC; los nodos are coloreados de acuerdo al agrupamiento identificado con la ayuda del algoritmo de Newman (imagen: Johannes Preiser-Kapeller, 2015, creada con el software ORA*)

Pero hay otro campo de la actividad, que también se beneficia: el estudio de la historia. A lo largo de la historia, los seres humanos han formado redes que han jugado un papel profundo en la manera han desarrollado los hechos. Los historiadores han comenzado recientemente a la reconstrucción de estas redes que utilizan fuentes históricas, tales como la correspondencia y los registros de la época.

Hoy en día, Johannes Preiser-Kapeller en la Academia de Ciencias de Austria en Viena explica cómo este enfoque está proyectando una nueva luz sobre diversos acontecimientos históricos. De hecho, el trabajo ha descubierto patrones previamente desconocidos en la forma en la historia se desarrolla. De la misma manera que los patrones en la naturaleza revelan las leyes de la física, estos descubrimientos revelan las primeras leyes de la historia.

Preiser-Kapeller se ha centrado en los conflictos medievales y en particular las relativas al Imperio bizantino en el siglo 14, que se concentra en torno a Constantinopla, un enlace entre las redes comerciales de Europa y Asia. Este fue un período de conflicto significativo debido a los cambios fuerzas políticas, la peste, y el cambio climático causado por una pequeña edad de hielo durante la Edad Media.

Preiser-Kapeller ha reconstruido las redes políticas que existían en el momento usando sobrevivir a la correspondencia y otros registros históricos. En estas redes, cada persona influyente es un nodo, y los enlaces se dibujan entre los que comparten relaciones significativas. Para ser registrado en la red, estos enlaces tienen que ser registrados en correspondencia con frases tales como Mi noble tía o Mi primo imperial. También registra cómo éstos cambian con el tiempo.

Utilizando algoritmos estándar para estudiar diversas medidas de la estructura de la red, Preiser-Kapeller encontraron grupos dentro de la red, identifica los actores más importantes en una red, y se examina cómo los individuos agrupados en torno a otros que eran similares de alguna manera.

Cómo cambian con el tiempo estas medidas resulta tener un vínculo importante con los principales acontecimientos que se desarrollaron más tarde. Por ejemplo, Preiser-Kapeller dice, la fragmentación de la red política crea las condiciones para una guerra civil que debilitó de forma permanente el Imperio bizantino. En última instancia, se derrumbó en 1453.

Estos cambios también siguieron algunos patrones interesantes. "La distribución de frecuencias del número de lazos de conflicto activados en un año tiende a seguir una ley de potencias," dice Preiser-Kapeller. Exactamente los mismos patrones de ley de potencia surgen cuando los científicos estudian la complejidad de la distribución del tamaño de las guerras, epidemias y religiones.

Una cuestión interesante es si los mismos patrones aparecen en otra parte de la historia. Para averiguarlo, se comparó la red de Bizancio con los de otros cinco períodos de conflicto medieval en Europa, África y Asia.

Y los resultados son una lectura interesante. "En promedio en los cinco unidades políticas, un cambio de regla en un año aumentó la probabilidad de que otro cambio en el siguiente triple año", dice Preiser-Kapeller. Así que mientras más cerca esté de una conmoción, más probabilidades hay de ser otro pronto. O en otras palabras, trastornos tienden a agruparse.

Esa es una regla que debe sonar familiar a los geofísicos. Existe un fenómeno similar en los registros del terremoto: la más reciente de un terremoto grande, mayor es la probabilidad de que otro grande pronto. Esto se conoce como la ley de Omori-que los terremotos tienden a agruparse.

No es de extrañar que surjan efectos similares en estos sistemas, ya que ambos están gobernados por la misma ciencia de las redes. Los historiadores estarían en todo su derecho a adoptar este y otros patrones como "leyes de la historia."

Estas leyes están maduras para su posterior estudio. Aunque la complejidad que surge de la teoría de redes en muchas áreas de la ciencia se ha estudiado durante décadas, ha habido casi ningún tipo de investigación en el campo de la historia. Eso sugiere que hay una fruta madura que se tenía por la primera generación de historiadores computacionales, como Preiser-Kapeller. Espere escuchar más sobre él un futuro próximo.



Ref: arxiv.org/abs/1606.03433 : Calculating the Middle Ages? The Project “Complexities and Networks in the Medieval Mediterranean and the Near East”

sábado, 28 de mayo de 2016

Inteligencia artificial: Cómo funcionan las redes neuronales

Revelando las capas ocultas de aprendizaje profundo
Una simulación de visualización de la red neuronal interactiva ofrece ideas sobre cómo aprenden las máquinas
Por Amanda Montañez - Scientific American



Crédito: Daniel Smilkov y Shan Carter

En un artículo reciente de la revista Scientific American titulado “Springtime for AI: The Rise of Deep Learning,”, el informático Yoshua Bengio explica por qué las redes neuronales complejas son la clave de la verdadera inteligencia artificial como la gente ha imaginado tiempo. Parece lógico que la manera de hacer que las computadoras tan inteligentes como los seres humanos es que programarlos para comportarse como los cerebros humanos. Sin embargo, teniendo en cuenta lo poco que sabemos de cómo funciona el cerebro, esta tarea parece más que un poco desalentador. Entonces, ¿cómo el aprendizaje profundo trabajo?
Esta visualización por Jen Christiansen explica la estructura básica y la función de las redes neuronales.


Gráfico de Jen Christiansen; PunchStock 

Evidentemente, estos llamados "capas ocultas" juegan un papel clave en la descomposición de componentes visuales para decodificar la imagen en su conjunto. Y sabemos que hay una orden de cómo actúan las capas: desde la entrada hasta la salida, cada capa se encarga de información cada vez más compleja. Pero más allá de eso, las capas ocultas, como su nombre indica, son todo un misterio.
Como parte de un proyecto de colaboración reciente llamado tensor de flujo, Daniel Smilkov y Shan Carter crearon una zona de juegos de redes neuronales, que tiene como objetivo desmitificar las capas ocultas, pues permite a los usuarios interactuar y experimentar con ellos.


Visualizaciòn por Daniel Smilkov y Shan Carter
Clic en la imagen para iniciar la INTERACTIVA

Hay mucho que hacer en esta visualización, y yo estaba recientemente la suerte de escuchar Fernanda Viégas y Martin Wattenberg rompen algunos de los que en su charla de apertura en OpenVisConf. (Fernanda y Martin fueron parte del equipo detrás de Tensor de flujo, que es una herramienta mucho más complejo, de código abierto para el uso de redes neuronales en aplicaciones del mundo real.)
En lugar de algo tan complicado como caras, el patio de recreo red neuronal utiliza puntos de color azul y naranja dispersas dentro de un campo de "enseñar" a la máquina cómo encontrar y patrones de eco. El usuario puede seleccionar diferentes empresas punto-arreglos de diferentes grados de complejidad, y manipular el sistema de aprendizaje mediante la adición de nuevas capas ocultas, así como nuevas neuronas en cada capa. Entonces, cada vez que el usuario pulsa el botón "play", se puede ver como los cambios de fondo degradado de color para aproximarse a la disposición de los puntos de color azul y naranja. A medida que el patrón se hace más compleja, las neuronas y las capas adicionales ayudan a la máquina para completar la tarea con más éxito.


La máquina, resuelve esta disposición directa de la estrategia puntos, utilizando sólo una capa oculta con dos neuronas.

La máquina lucha por decodificar esta forma de espiral más complejo.

Además de las capas de neuronas, la máquina tiene otras características significativas, tales como las conexiones entre las neuronas. Las conexiones aparecen, bien como líneas de color azul o naranja, azul ser positivo, es decir, la salida de cada neurona es el mismo que su contenido y naranja de ser negativo, lo que significa que la salida es lo contrario de los valores de cada neurona. Además, el grosor y la opacidad de las líneas de conexión indican la confianza de la predicción de cada neurona está haciendo, al igual que las conexiones en nuestro cerebro se fortalecen a medida que avanzamos a través de un proceso de aprendizaje.
Curiosamente, a medida que vaya mejor en la construcción de redes neuronales para las máquinas, podemos terminar revelando nueva información sobre el funcionamiento de nuestro propio cerebro. Visualizar y jugar con las capas ocultas parece una gran manera de facilitar este proceso al mismo tiempo hacer el concepto de aprendizaje profundo accesible a un público más amplio.

domingo, 3 de agosto de 2014

Hacia una antropología cultural computacional

Sobre cómo Yahoo Research Labs estudia la cultura como un concepto computacional formal 
El objetivo final: una comprensión verdaderamente computacional de la sociedad humana, dicen los antropólogos computacionales de Yahoo. 




El estudio de las redes sociales en Internet ha revolucionado la forma en que los científicos sociales a entender la interacción humana a gran escala. Se basa en la suposición de que la unidad fundamental de interacción es el lazo social que existe entre dos individuos. Este lazo puede ser un mensaje de que una persona ha enviado a otros, para que una persona sigue a otra, que una persona le gusta 'otro y así sucesivamente.

Estos lazos sociales son los átomos de la estructura de red social. Y gran parte de la investigación sobre las redes sociales se ha centrado en cómo estos átomos se unen para crear complejas redes de interacción.

Mucho menos se ha pensado que los átomos mismos, ya sea que se dividen en categorías a sí mismos, si los diferentes átomos tienen diferentes propiedades sociales y cómo la combinación de átomos de diferentes tipos pueden ser indicativos de relaciones totalmente diferentes.

Hoy en día, Luca Maria Aiello en Yahoo Labs en Barcelona, ​​España, y un par de amigos, cambian eso. Ellos toman aparte de la naturaleza de los vínculos que se forman en las redes sociales y dicen que estos átomos se dividen en tres categorías diferentes. También muestran cómo extraer esta información automáticamente y, a continuación caracterizan las relaciones de acuerdo a la combinación de átomos que existen entre individuos. Su objetivo final: convertir a la antropología en una sub-disciplina de pura sangre de la informática.

Aiello y colegas utilizan dos conjuntos de datos a partir de un par de grandes redes sociales. La primera consta de más de 1 millón de mensajes enviados entre 500.000 pares de los usuarios de la red social aNobii, que usa la gente para hablar de libros que han leído. El segundo es un conjunto de 100.000 pares de usuarios anónimos que hicieron comentarios sobre las fotos del otro en Flickr, el envío de alrededor de 2 millones de mensajes en total.

El equipo de análisis de estos mensajes en función del tipo de información que transmiten, que se dividen en tres grupos. El primer tipo de información está relacionada con el estatus social; mensajes de mostrar aprecio o el anuncio de la creación del vínculo social, tales como seguimiento o desea. Por ejemplo, un usuario podría decir una fotografía es "una excelente oportunidad", o dicen que han seguido a alguien o la atención que tienen dándoles las gracias por visitar un sitio reconocido.

La segunda categoría de información implica el apoyo social de algún tipo. El objetivo principal de un mensaje que entra en esta categoría es para saludar y dar la bienvenida a alguien a un sitio web, para expresar de manera explícita el afecto o para transmitir deseos, bromas y risas.

La última categoría de información es un intercambio de conocimientos. Los mensajes que entran en esta categoría de acciones de información y de experiencia personal, o piden opiniones y sugerencias, o pantalla conocimiento de un campo en particular.

Aiello y colegas a continuación, desarrollan un algoritmo que clasifica automáticamente los mensajes enviados entre los individuos de acuerdo con el contenido que contienen y su similitud con los mensajes del mismo tipo.

Por último, se evalúan los resultados del algoritmo preguntando editores humanos para evaluar una muestra de 1.000 mensajes seleccionados al azar de cada sitio web y etiquetarlos de acuerdo a las tres categorías. Luego compararon las decisiones humanas con el algoritmo de y encontró buen acuerdo.

Los resultados de este análisis que les permita trabajar con qué frecuencia las personas usan los diferentes medios de comunicación y también la forma en que la transición de uno a otro durante una conversación.

Ellos encuentran que en aNobii, las interacciones más comunes están relacionados con las donaciones de estado donde el mensaje arquetípico es "buena biblioteca", en referencia a la colección del usuario de los libros.

Por el contrario, los usuarios de Flickr se comunican de una manera diferente. "En Flickr la proporción es muy equilibrado en su lugar, con ser ningún dominio predominante en promedio", dicen Aiello y colegas.

Más interesante es la forma en que las relaciones sociales evolucionan con el tiempo. Aiello y sus colegas dicen que el intercambio de estado es particularmente común en conversaciones breves y al comienzo de las más largas. Sin embargo, las conversaciones se desarrollan rápidamente en una mezcla de los intercambios de conocimientos y el apoyo social. "Por tanto, parece que el intercambio de estado sirve para establecer las bases para la futura relación, alimentando a un segundo plano interactivo después de la etapa tie-formación", dicen Aiello y colegas.

Eso es un estudio fascinante que ofrece una nueva forma de ver las relaciones sociales como cadenas de interacciones. En cierto modo, cambia la teoría atómica de los lazos sociales en una especie de teoría de cuerdas.

Aiello y colegas pensar con claridad esto debería dar lugar a un montón de nuevos conocimientos y que son optimistas sobre el futuro. "El objetivo final de este tipo de análisis es el desembalaje de la" cultura "como un concepto formal, computacional", dicen. Y que piensan de los patrones de secuencias de interacción como una especie de gramática de la sociedad. "Esperamos que nuestro trabajo proporciona un paso más hacia una comprensión verdaderamente computacional de las sociedades humanas."

Esa es una meta, un ambicioso comprensión verdaderamente computacional de la sociedad humana. Ambos fantástico y un poco de miedo al mismo tiempo.

domingo, 28 de julio de 2013

vom Lehn: Respuesta a Christakis

christakis vs. dirk vom lehn


Dirk vom Lehn is a lecturer in the Department of Management at King’s College London. His research focuses on ethnomethodology in organizational settings. He asked if I could post this response to Christakis’ NY Times article on the need to update the social sciences.
Stagnating the Social Sciences? A response to Nicholas Christakis?
In his recent piece “Let’s Shake Up the Social Sciences” published in the New York Times on July 19th, Nicholas Christakis calls for interdisciplinary research that creatively links the social sciences to other disciplines, in particular the natural sciences. I very much welcome his efforts to open a debate about the future of the social sciences. All too often scientists create separate enclaves of knowledge that, if joint up with others, could lead to important new academic, technological and political developments. There however are a few problems with Christakis’ argument. I wish to briefly address three of these problems here:
I am surprised Christakis puts forward the argument that “the social sciences have stagnated” over the past years. He gives no empirical evidence for such a stagnation of the social scientific disciplines and I wonder what the basis for this argument is. If he was to attend the Annual Conference of the American Sociological Association (ASA) in New York in August he will see how sociology has changed over the past few decades, and he will be able to identify specific areas where sociologists have impacted developments in policy, technology, medicine, the sciences, the arts and elsewhere.
His argument ignores also the long-standing cooperation between social scientists, technology developers, computer scientists, medics and health services providers, policy makers, etc. etc. etc. For example, for several decades social scientists, computer scientists and engineers have collaborated at research labs of PARCs,  Microsoft and elsewhere, jointly working to develop new products and services.
Christakis refers to the development of new fields like neuroscience, behavioral economics and others that “lie at the intersection of natural and social sciences”. Because “behavioral economics” is popular also with policy makers let us take this new field as an example: one of the key findings of this new field is the importance of “non-rational action” for people’s decision making. I very much enjoy the creative research undertaken by scholars in this field, but it is quite surprising that it gets away with by-and-large disregarding 100 years of social scientific research. Critique of arguments that prioritize rational action over other types of action has been key to Max Weber’s famous work in the early 1900s, Talcott Parsons’ discussion of the utilitarian dilemma, Harold Garfinkel’s breaching experiments and many other sociologists’ research and teaching.
Speaking of Garfinkel and his breaching experiments: Christakis suggests that social scientists do not use lab experiments in their teaching. He might be pointed to Garfinkel who used experiments or “tutorial exercises”, as he called them, on a regular basis to have students discover how people organize their action and interaction that bring about society. Experimental research has been conducted also by Carl Couch and the Iowa School since the 1960s with the aim to identify the key elements of social relationships. And, there are a considerable number of more social scientists who have used lab experiments to understand social action and interaction.
However, it has been noticed since that time that society does not happen in the lab. Therefore, in many social scientific disciplines lab experiments are rarely seen as the best way forward to find out about the organization of society. Garfinkel, for example, has continued to use tutorial demonstrations in his teaching but increasingly looked into the organization of the everyday world as it manifested itself in waiting queues, traffic jams and elsewhere. And the Iowa School and its experimental approach has largely vanished whereby its methods and findings can be found in symbolic interactionism and other areas. While the influence of experimental approaches has diminished, naturalistic, ethnographic and video-based research has come to the fore, most notably in workplace studies, in studies of interaction in urban environments and public places as well as in online environments. This body of studies builds on a history of more than 100 years of sociological ethnography, going back, for example, to Robert Park, Everett Hughes and the Chicago School of Sociology. Here, sending students into the field, i.e. into workplaces and schools, onto city streets, on street-markets, into museums, into parks, into Second Life and other virtual worlds, etc. has been at the center of education, training and research as it allows students to discover first-hand how society works. Scholars also increasingly use video-based research to explore the practical organization of work in complex organizations, such as operating theaters in hospitals, control rooms of rapid urban transport systems, museums and galleries, etc.
Christakis’ article is an unfortunate case of a contribution to a debate that means well in steering up discussion about the future of the social sciences, that however ends up playing into the hands of those who have launched an “attack on the social sciences”, as Sally Hillman, Executive Officer at the American Sociological Society, has called it in the association’s newsletter ‘footnote’ in June. Senators and members of the House Science Committee have suggested to “defund” Political Science at the NSF and proposed bills that “would […] prevent NSF from funding any social science research” (Hillman June 2013).
Articles like Christakis’ imply that current social sciences have little impact on society, policy makers and knowledge development more generally, whilst research in the natural sciences, in their view, has more “impact”. They, however, overlook and disregard social scientific research that has been forgotten because scholars and policy makers follow the latest fads and fashions, such as so-called Big Data research and the opportunities of brain-scans, rather than using and further developing the existing theoretical, methodological and empirical basis of the social sciences. Moreover, they pretend that the social sciences and the natural sciences basically could achieve the same impact, if only the social sciences would make appropriate use of scientific methods. Thereby, however, they ignore what social scientists have shown over and over again over the past 100 years or so, i.e. that the social is fundamentally different from nature; it always is already interpreted when the social scientist arrives. The ‘social’ requires interpretation of a different kind than nature as encountered and then interpreted by natural scientists. Furthermore, people often change their behavior in response to the research process and in response to social scientific findings. Nature remains nature. Apples keep falling down from trees.
I am all in favor of interdisciplinary research and benefit enormously from my cooperation with scholars and practitioners in the computer and health sciences as well as in the arts and humanities. I also find Christiakis’ research interesting and important. However, to use the need for interdisciplinarity as an argument for the defunding of established social science disciplines would be like throwing the baby out with the bath water. The social scientific knowledge base developed over the past 100 or more years is too precious to sacrifice just for instrumental reasons; i.e. to satisfy policy makers interested in saving money or to show “impact” however that is defined.
While the social sciences rely on and advance their knowledge base they have not been stagnating. On the contrary, they have prospered and further developed by virtue of discussions at discipline-specific conferences and in their journals as well as by cooperating with a wide range of other disciplines.
Dr Dirk vom Lehn
Lecturer in Marketing, Interaction & Technology
Department of Management
King’s College London
Franklin-Wilkins Building, 150 Stamford Street
London SE1 9NH
Tel. +44 20 78484314
dirk.vom_lehn@kcl.ac.uk

Christakis: Un sacudón hacia la complejidad en las ciencias sociales

Let’s Shake Up the Social Sciences




TWENTY-FIVE years ago, when I was a graduate student, there were departments of natural science that no longer exist today. Departments of anatomy, histology, biochemistry and physiology have disappeared, replaced by innovative departments of stem-cell biology, systems biology, neurobiology and molecular biophysics. Taking a page from Darwin, the natural sciences are evolving with the times. The perfection of cloning techniques gave rise to stem-cell biology; advances in computer science contributed to systems biology. Whole new fields of inquiry, as well as university departments and majors, owe their existence to fresh discoveries and novel tools.

In contrast, the social sciences have stagnated. They offer essentially the same set of academic departments and disciplines that they have for nearly 100 years: sociology, economics, anthropology, psychology and political science. This is not only boring but also counterproductive, constraining engagement with the scientific cutting edge and stifling the creation of new and useful knowledge. Such inertia reflects an unnecessary insecurity and conservatism, and helps explain why the social sciences don’t enjoy the same prestige as the natural sciences.
One reason citizens, politicians and university donors sometimes lack confidence in the social sciences is that social scientists too often miss the chance to declare victory and move on to new frontiers. Like natural scientists, they should be able to say, “We have figured this topic out to a reasonable degree of certainty, and we are now moving our attention to more exciting areas.” But they do not.
I’m not suggesting that social scientists stop teaching and investigating classic topics like monopoly power, racial profiling and health inequality. But everyone knows that monopoly power is bad for markets, that people are racially biased and that illness is unequally distributed by social class. There are diminishing returns from the continuing study of many such topics. And repeatedly observing these phenomena does not help us fix them.
So social scientists should devote a small palace guard to settled subjects and redeploy most of their forces to new fields like social neuroscience, behavioral economics, evolutionary psychology and social epigenetics, most of which, not coincidentally, lie at the intersection of the natural and social sciences. Behavioral economics, for example, has used psychology to radically reshape classical economics.
Such interdisciplinary efforts are also generating practical insights about fundamental problems like chronic illness, energy conservation, pandemic disease, intergenerational poverty and market panics. For example, a better understanding of the structure and function of human social networks is helping us understand which individuals within social systems have an outsize impact when it comes to the spread of germs or the spread of ideas. As a result, we now have at our disposal new ways to accelerate the adoption of desirable practices as diverse as vaccination in rural villages and seat-belt use among urban schoolchildren.
It is time to create new social science departments that reflect the breadth and complexity of the problems we face as well as the novelty of 21st-century science. These would include departments of biosocial science, network science, neuroeconomics, behavioral genetics and computational social science. Eventually, these departments would themselves be dismantled or transmuted as science continues to advance.
Some recent examples offer a glimpse of the potential. At Yale, the Jackson Institute for Global Affairs applies diverse social sciences to the study of international issues and offers a new major. At Harvard, the sub-discipline of physical anthropology, which increasingly relies on modern genetics, was hived off the anthropology department to make the department of human evolutionary biology. Still, such efforts are generally more like herds splitting up than like new species emerging. We have not yet changed the basic DNA of the social sciences. Failure to do so might even result in having the natural sciences co-opt topics rightly and beneficially in the purview of the social sciences.
New social science departments could also help to better train students by engaging in new types of pedagogy. For example, in the natural sciences, even college freshmen do laboratory experiments. Why is this rare in the social sciences? When students learn about social phenomena, why don’t they go to the lab to examine them — how markets reach equilibrium, how people cooperate, how social ties are formed? Newly invented tools make this feasible. It is now possible to use the Internet to enlist thousands of people to participate in randomized experiments. This seems radical only because our current social science departments weren’t organized to teach this way.
For the past century, people have looked to the physical and biological sciences to solve important problems. The social sciences offer equal promise for improving human welfare; our lives can be greatly improved through a deeper understanding of individual and collective behavior. But to realize this promise, the social sciences, like the natural sciences, need to match their institutional structures to today’s intellectual challenges.


Nicholas A. Christakis, a physician and sociologist at Yale University, is a co-director of the Yale Institute for Network Science.