Mostrando entradas con la etiqueta ciencias sociales. Mostrar todas las entradas
Mostrando entradas con la etiqueta ciencias sociales. Mostrar todas las entradas

jueves, 31 de diciembre de 2020

Visualización de interacciones en blogs científicos

¡Feliz Navidad! Con datos - Blog de ciencia Red social


¡Feliz Navidad!

¿Qué mejor regalo de Navidad que datos frescos? (dice el nerd de doctorado en ciencia y comunicación).





En las últimas semanas, he estado recopilando respuestas a encuestas de blogueros científicos sobre sus decisiones de contenido y otras prácticas de blogs. Cerré la encuesta #MySciBlog la semana pasada, después de recopilar más de 600 respuestas válidas a encuestas de blogueros científicos. ¡Ahora comienza el análisis de datos!

En una sección particularmente exploratoria de mi encuesta, se pidió a los participantes que enumeraran hasta los tres blogs de ciencia principales, además del suyo, que leían con regularidad. Con estos datos, estoy buscando explorar posibles comunidades de práctica y relaciones entre blogueros científicos que puedan llevar a reglas de decisión de contenido compartido o enfoques de blogs.

Después de extraer los datos en Excel y limpiarlos bastante tediosamente (buscando blogs enumerados en nombres alternativos o incorrectos, etc.), mapeé el conjunto de datos resultante en Gephi, un software de mapeo de redes sociales abierto y gratuito. Luego diseñé la red (que consta de nodos de blogs de participantes de la encuesta conectados a través de hasta tres bordes para apuntar a blogs de ciencia 'leídos regularmente') según un algoritmo ForceAtlas 2.

"ForceAtlas2 es un diseño dirigido por fuerzas: simula un sistema físico para espacializar una red. Los nodos se repelen entre sí como partículas cargadas, mientras que los bordes atraen sus nodos, como resortes. Estas fuerzas crean un movimiento que converge a un estado equilibrado. Esto Se espera que la configuración final ayude a la interpretación de los datos ". - Plos One

Cada nodo de la red representa un blog de ciencia, ya sea el blog de un participante de la encuesta o un blog enumerado por un participante. Las comunidades (representadas por nodos codificados por colores) se detectaron automáticamente en Gephi (función de clase de modularidad) con una resolución de 3.0. Los nodos y las etiquetas de los nodos tienen un tamaño de acuerdo con el grado, o cuántas veces el blog (nodo) fue incluido por otros blogueros como leído regularmente.

Full resolution figure (PDF) available at Figshare.com. Cite as Brown, Paige (2014): MySciBlog Survey - Top Read SciBlogs by SciBloggers. figshare. http://dx.doi.org/10.6084/m9.figshare.1278974

Puede consultar un PDF de resolución completa de estos datos aquí. Mientras lo hace, avíseme si ve algún blog representado como más de un nodo, por ejemplo, con nombres mal escritos. Sus comentarios pueden ayudarme a consolidar los datos redundantes. Además, me encantaría conocer su opinión sobre cualquier tendencia o relación que pueda ver surgir de estos datos. Será muy interesante si los resultados de mi encuesta revelan prácticas de blogs comunes entre blogueros que comparten vecinos en esta red. Mis entrevistas en profundidad con blogueros de ciencia revelan que los blogueros a menudo obtienen lecciones sobre enfoques, estilos, "hacer" y "no hacer" de blogs de otros blogs de ciencia que suelen leer.

¡Feliz exploración de datos!

sábado, 17 de marzo de 2018

Facebook debiera empezar a facilitar más datos a los investigadores sociales

Es hora de que Facebook comparta más información con los investigadores


Catherine F. Brooks | Wired



Si Mark Zuckerberg quiere hacer que la red social sea buena para el bienestar de las personas, debería dejar que los académicos estudien el comportamiento de sus usuarios. HOTLITTLEPOTATO


El fervor mediático que siguió a la acusación del abogado especial Robert Mueller contra una organización rusa de Internet para sembrar discordias intencionalmente en el sistema político estadounidense ha pasado por alto una implicación crucial: todavía sabemos muy poco sobre el impacto potencial de las redes sociales en las personas y la sociedad.

Irónicamente, este problema podría abordarse fácilmente. Si Facebook realmente adopta la visión, expresada en enero por el cofundador y CEO Mark Zuckerberg, de crear productos que sean "buenos para el bienestar de las personas", la compañía necesita proporcionar a los investigadores académicos un acceso mucho más amplio a sus datos.

Zuckerberg ha expresado su preocupación por los recientes hallazgos de que las redes sociales causan daño social. Anunció que Facebook pretende modificar su algoritmo de búsqueda nuevamente, esta vez para que los usuarios experimenten la mayor cantidad de "interacciones significativas" con amigos y familiares, en lugar de ver el "contenido más significativo", es decir, noticias (ya veces noticias falsas) .

Facebook, sin embargo, continúa resistiendo lo que puede ser la mejor manera de aprender más sobre interacciones significativas, propaganda digital y aspectos de las redes sociales que podrían ser buenas para las personas: compartir su gran cantidad de datos anónimos con un amplio conjunto de investigadores académicos.

Actualmente, la compañía comparte datos con unos pocos seleccionados, lo que limita la capacidad de la sociedad para analizar y comprender los comportamientos en línea relacionados con las elecciones, las manifestaciones masivas, las actitudes políticas, el acoso cibernético, el robo de identidad y mucho más. Tal como está, los académicos deben depender de soluciones a veces incómodas (encuestas de usuarios y auditorías de algoritmos, por ejemplo) para estudiar el impacto social de Facebook.

Los científicos sociales quieren saber por qué las historias se vuelven virales, quiénes tienen influencia política, qué forma las actitudes políticas y sociales, y si las redes sociales pueden cambiar esas actitudes. Queremos comprender las cámaras de eco y las noticias falsas, y por qué los usuarios se unen a grupos como ISIS o las organizaciones nacionales de supremacía blanca en línea. El acceso a los enormes conjuntos de datos de la empresa con fines de investigación ofrecería oportunidades sin precedentes para comprender más acerca de la interacción y el comportamiento humano en línea.

Tal acceso ampliado para académicos ampliaría enormemente el conocimiento público y la comprensión sobre nuestro propio comportamiento (por ejemplo, los mecanismos en línea para la polarización política, impedimentos al discurso civil, actividades masivas de intimidación cibernética dirigidas a jóvenes vulnerables y tipos de propaganda que a veces conducen a información falsa que se vuelve viral ) en esta sociedad cada vez más digital.

Para ser justos, Facebook comparte datos con unos pocos académicos seleccionados. Por ejemplo, Facebook proporciona datos al economista de Stanford Raj Chetty, un conocedor de Silicon Valley y "uno de los favoritos entre las élites tecnológicas". Aunque la investigación de Chetty sobre la desigualdad es valiosa, quienes trabajamos en campus públicos en todo Estados Unidos y en todo el mundo preguntas eruditas tal como lo hace Chetty. Limitar la investigación a unos pocos, y dentro del círculo de Silicon Valley, restringe severamente el tipo de preguntas y análisis que podrían informar.

Es comprensible que Facebook dude en compartir los datos de las personas. La privacidad y la seguridad son preocupaciones serias y crecientes para los usuarios y las compañías tecnológicas por igual. Los defensores de la privacidad tienen razón al permanecer enfocados en proteger los datos de los usuarios en plataformas como Facebook. Pero los datos se pueden anonimizar para proteger a distintos usuarios; esas identidades no son necesarias para el estudio de tendencias y comportamientos.

Algunas empresas de medios sociales ya están encontrando formas creativas y seguras de compartir datos. LinkedIn, por ejemplo, lanzó el programa Economic Graph Research en 2014. Este programa en curso invita a los expertos a enviar propuestas para el uso de datos de LinkedIn para generar nuevos conocimientos. Aunque programas como estos también pueden ser una preocupación para los expertos en privacidad, los datos compartidos son despojados de las identidades de los usuarios antes de entregarlos a los investigadores y pueden iluminar las tendencias de contratación, las brechas de habilidades, las diferencias de género en el avance organizacional y los impactos de las redes profesionales para los empleados.

La sociedad está cambiando rápidamente, en línea y fuera de línea. Facebook tiene el poder de ayudarnos a entender esos cambios y tomar mejores decisiones para el bien común. Los accionistas, los legisladores, los académicos y los usuarios de Facebook deben apoyarse en la empresa y solicitar un acceso más amplio a lo que probablemente sea la mayor recopilación de datos de redes sociales en el mundo.

martes, 16 de enero de 2018

Facebook y las ciencias sociales: Buen maridaje

Facebook es bueno para la ciencia

Clifford Lampe es profesor asociado de información en la Universidad de Michigan en Ann Arbor.
The Chronicle of Higher Education




En las últimas dos semanas, se ha producido un debate importante sobre la ética de un estudio publicado en las Actas de la Academia Nacional de Ciencias por investigadores de Facebook Data Science y la Universidad de Cornell. En el estudio, los investigadores manipularon algunos parámetros en las noticias para evaluar cómo los cambios influyeron en los estados de ánimo de los lectores según lo definido en sus publicaciones posteriores. Si bien es fácil perderse en las malezas de este debate, la controversia ha planteado preguntas significativas sobre el papel de las empresas como Facebook en la producción de ciencia pública.

Para el registro, soy partidario de Facebook. He escrito artículos con personas del equipo de Data Science, tengo dos Ph.D. estudiantes que realizan pasantías en Facebook este verano, y creen que Facebook brinda un servicio valioso a las personas. Eso no quiere decir que nunca cometa errores, o que no debemos cuestionar el poder de Facebook para construir la arquitectura de tanta comunicación humana.

Entre muchas inquietudes específicas, algunos comentaristas se preocupan por la consolidación de tantos datos de las ciencias sociales en manos de una sola corporación. Otros han pedido a Facebook y a otros que realicen su investigación de acuerdo con técnicas comunes en el mundo académico.

Sin embargo, me preocupa más que Facebook, quemado por los medios sensacionalistas y las apresuradas condenas de algunos académicos, decida dejar de hacer investigaciones públicas. Eso sería un verdadero golpe para la ciencia.

¿Por qué las compañías como Facebook participan en la producción de ciencia pública? ¿No es la ruta segura para realizar pruebas internas y no participar en publicaciones académicas? Probablemente, pero aquí está la cosa: los investigadores corporativos provienen de los mismos programas universitarios que los académicos. La publicación está integrada en su código genético, y las compañías como Facebook saben que para atraer doctores realmente inteligentes, ayuda a brindar la oportunidad de publicar en medios científicos.

Además, las empresas ven la publicación académica como una forma de retribuir. Sé que puede parecer totalmente ingenuo, pero en las conversaciones que tuve con personas en Facebook y en otros lugares, los investigadores hablan de compartir ideas como una forma de ser buenos ciudadanos. Estoy seguro de que las facciones legales y de relaciones públicas en dichas corporaciones sienten una punzada en el riesgo-recompensa, pero muchos en la ciencia respecto del sector privado como algo bueno y creo que ayuda a contribuir a que el mundo. Este punto se ha perdido casi por completo en la cobertura sobre el estudio de contagio emocional de Facebook. Mucha gente asume que cualquier ciencia hecha por Facebook debe tener una motivación egoísta.

En pocas palabras, la participación corporativa en la ciencia pública es muy valiosa. ¿Cómo es eso?
  1. Las corporaciones nos permiten probar la validez de nuestras teorías. No hay corolario de Facebook en el mundo académico. Ya sea en nuestros laboratorios o en los sistemas limitados que hemos sido capaces de crear para poner a prueba las personas en el campo, no podemos abordar ya sea la diversidad o la validez de las interacciones entre las personas en sitios como Facebook.
  2. La ciencia pública aumenta la comprensión pública de las redes sociales. Parte de la razón por la que algunas personas se molestaron por este estudio de Facebook fue que no estaban al tanto de los algoritmos ya incorporados en las noticias. Una comprensión más pública sobre el poder de los algoritmos es algo bueno.
  3. Las corporaciones brindan la oportunidad de poner en práctica las ciencias sociales. Los primeros científicos sociales creían que comprender a los humanos podría ayudar a crear un mundo mejor. Ahora, a excepción de algunos de nuestros amigos en economía, los académicos a menudo evitan los resultados prácticos de la investigación en ciencias sociales. Facebook y empresas similares -mediante el uso directo de la investigación en ciencias sociales para crear sistemas que median y complementan la comunicación- brindan oportunidades para aquellos académicos que ven el valor de mezclar ciencia pura y efectos prácticos.
  4. Las corporaciones brindan apoyo a las ciencias sociales cuando el financiamiento público está disminuyendo. Las empresas como Facebook no solo están invirtiendo en ciencias sociales, sino que también ofrecen trabajos valiosos y significativos para investigadores formados en la universidad. (Lo cual no quiere decir que debamos renunciar a la financiación pública de las ciencias sociales).
Por esas razones, creo que Facebook debería ser elogiado por participar en la ciencia pública. Pero, ¿resuelve esa resolución los ataques en su contra?

De cualquier manera, hay varias cosas que debemos hacer para aclarar la ética de la investigación en los medios sociales. Además de los paneles optativos que permiten a los participantes aceptar el estudio, lo que sin duda funcionaría en muchos casos, las empresas podrían emplear paneles de revisión externos, lo que algunos ya hacen. Podemos abogar por cambios en revistas y actas de hacer algo más profundo que las declaraciones pro forma que los autores han cumplido los criterios de revisión del IRB, y podemos trabajar con nuestros propios IRB a reconsiderar la forma en que utilizamos los datos secundarios.

Algunas empresas están experimentando con paneles de derechos de usuario, compuestos por personas que no son empleados y que usan sus servicios. Facebook ya ha introducido muchos cambios en los últimos años para proporcionar una mayor supervisión de la investigación que se realiza allí. En mi propia investigación, varias personas de diferentes partes de Facebook revisan nuevos protocolos de investigación y brindan retroalimentación, independientemente de los procesos IRB de mi propia universidad. A menudo, los abogados y expertos en códigos de la industria pueden proporcionar revisiones más expertas que IRBscan de la universidad.

Dicho esto, creo que la última controversia tendrá un efecto escalofriante no solo en Facebook, sino también en otras compañías que ven esta saga desarrollarse. Eso ha sucedido en el pasado. En 2006, AOL tuvo una violación de privacidad relacionada con los datos compartidos con los investigadores. La brecha fue utilizada como una razón por la cual varias compañías dejaron de compartir datos con investigadores académicos.

Desde la perspectiva de Facebook, los ataques de algunos académicos han sido particularmente inquietantes. Parte de eso es choque de cultura. Los académicos prosperan y están orientados a la crítica. Somos operadores independientes que profundizamos en el conflicto como una forma de arrojar luz sobre los problemas. Los entornos corporativos se basan mucho más en el consenso y la colaboración; algunos grupos en las empresas pueden ver la cultura de la crítica como destructiva más que constructiva.

Espero que Facebook responda a esta controversia al continuar reflexionando sobre sus prácticas de investigación y al continuar su compromiso con la ciencia pública. Si Facebook y otras compañías abandonan la publicación académica, habremos perdido una oportunidad notable para avanzar en las ciencias sociales. En lugar de mover el debate sobre la ética hacia adelante, lo habremos cerrado.

martes, 2 de enero de 2018

Sesgo de selección al trabajar con datos de Facebook

Cómo Facebook estila las ciencias sociales

Cuando las empresas privadas tienen datos que necesitan los estudiosos, ¿qué sucede con la investigación académica?

Por Henry Farrell || The Chronicle of Higher Education

Brian Taylor para The Chronicle Review

¿Cuál fue exactamente el alcance de la intromisión rusa en la campaña electoral de 2016? ¿Qué tan extendida fue su infiltración de las redes sociales? ¿Y cuánta influencia tuvo su propaganda en la opinión pública y el comportamiento de los votantes?

Los académicos solo ahora están empezando a abordar esas preguntas. Pero para responderlas, los académicos necesitan datos, y obtener esos datos ha sido un problema.

Tomemos un ejemplo reciente: Jonathan Albright, un investigador de la Universidad de Columbia, investigó varias páginas compradas en Rusia que Facebook había anotado. Concluyó que habían acumulado potencialmente cientos de millones de visitas. David Karpf, profesor asociado de medios y asuntos públicos en la Universidad George Washington, no estaba convencido, argumentando que la mayoría de las "personas" a las que les habían gustado estas páginas eran muy probablemente bots rusos. (Divulgación completa: encargué y edité la publicación de Karpf en el blog Monkey Cage de The Washington Post).

Por lo general, tales desacuerdos se resuelven a través de los datos. El problema al que se enfrentan académicos como Albright y Karpf es que hay pocos datos públicamente disponibles en Facebook. Para su estudio, Albright tuvo que usar una herramienta poco convencional propiedad de Facebook llamada CrowdTangle para encontrar cualquier cosa. Después de haber publicado sus hallazgos iniciales, Facebook anunció rápidamente que había "corregido un error" en el software utilizado por Albright, lo que hacía imposible que otros investigadores replicaran lo que hizo. Albright y Karpf se quedan en una situación muy desdichada: los datos que necesitan para comprender lo que sucedió simplemente ya no están disponibles.

Las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores y menos accesibles que el gobierno. Esto está remodelando la investigación en ciencias sociales.

Ese es un ejemplo de un cambio extraordinario en la política y la práctica de las ciencias sociales. Las empresas como Facebook tienen información crucial sobre el comportamiento social y político de las personas. Pero son extremadamente reacios a proporcionar esa información a personas ajenas, a menos que esas personas externas firmen acuerdos de confidencialidad (NDA, por sus siglas en inglés) que otorguen a Facebook el poder de demandar si la información se utiliza de manera que la empresa considere objetable.

Esto marca un cambio significativo para los investigadores. Solía ​​ser que los estados eran la fuente más importante de datos sobre sus ciudadanos, la economía y la sociedad. Tuvieron que recopilar y agregar grandes cantidades de información, por ejemplo, censos de personas y empresas, para sus propios fines. Además, las agencias estatales ayudaron a financiar proyectos de ciencias sociales en la recopilación de datos, como el apoyo de la National Science Foundation a los American National Election Studies durante décadas.

En consecuencia, la política de acceso a los datos solía estar más centrada en el estado. Algunas veces, el estado era reacio a proporcionar información, ya sea para proteger la privacidad, ocultar sus errores o mantener el control de la información confidencial. Pero en su mayor parte, normalmente proporcionaba acceso, y los académicos podían presionarlo cuando se estancaba. En ese mundo, los académicos podían recurrir a fuentes comunes, y generalmente (aunque no siempre) tenían un acceso más o menos igualitario.

Hubo un inconveniente: las preguntas de los académicos se formaron por los datos que podían obtener. Pero lo bueno fue que la investigación generalmente era reproducible. Los desacuerdos como ese entre Albright y Karpf podrían llevarse a cabo en igualdad de condiciones.

Ahora estamos entrando en una nueva era para las ciencias sociales. Para muchos propósitos académicos, las grandes empresas como Google, Facebook y Apple tienen datos mucho mejores que el gobierno, y esos datos son mucho menos accesibles. Este nuevo universo de datos privados está remodelando la investigación en ciencias sociales de maneras que se comprenden mal.

En este nuevo mundo valiente, el acceso a los datos es una jungla. No existen reglas universales: las empresas tienen sus propias políticas individuales sobre cuándo proporcionan a los científicos sociales acceso común a los datos, o pueden hacerlo de forma ad hoc, o pueden negarse por completo. Cuando estas firmas construyen relaciones, generalmente es con investigadores individuales o pequeños grupos de investigadores, cuyo trabajo puede ser valioso para la empresa. Y esas relaciones generalmente están cubiertas por NDA u otras reglas contractuales que restringen cómo los investigadores pueden usar los datos y resumirlos en investigaciones publicadas.

Eso puede tener grandes consecuencias para las carreras académicas. Algunos académicos, aquellos con conexiones con las firmas adecuadas, pueden prosperar. Aquellos sin conexiones tienen que ser creativos para hacer su trabajo. A veces es posible que obtengan acceso directo a datos agregados sin cadenas, a través de herramientas como Google Trends. A veces pueden reutilizar las herramientas que Facebook y otras compañías ponen a disposición de los anunciantes u otros clientes comerciales (CrowdTangle es un ejemplo). Sin embargo, los datos recopilados de esa manera pueden no ser adecuados para fines específicos de investigación.

Eso no quiere decir que los datos que provienen directamente de las empresas sean perfectos, ni nada por el estilo. Detrás de cada gran conjunto de datos existe un gran crimen. Casi todos los datos de las ciencias sociales están sesgados por las suposiciones y las metodologías (a veces problemáticas) que se utilizaron para recopilarlas. Los conjuntos de datos construidos por el Estado en su apogeo fueron defectuosos en muchos sentidos y continúan siéndolo. Sin embargo, a medida que los estándares profesionales mejoraron, los defectos se entendieron mejor y fueron más transparentes.

Las nuevas formas de datos de compañías privadas son más problemáticas. Se recolectan principalmente con fines comerciales en lugar de investigación. A menudo se recolectan mediante técnicas de aprendizaje automático, que producen clasificaciones que son oscuras incluso para sus creadores. Los hallazgos basados ​​en estos datos se retroalimentan para remodelar los algoritmos con miras a cambiar el comportamiento humano, por ejemplo, hacer que los individuos sean más propensos a hacer clic en los anuncios, para que los datos a menudo no sean comparables con el tiempo.

En combinación, esos factores pueden significar que es realmente difícil interpretar los datos. Por ejemplo, ¿hasta qué punto los cambios en el comportamiento en Facebook pueden ser impulsados ​​por cambios subyacentes en la sociedad, y en qué medida por los cambios a los algoritmos de Facebook? Excepto bajo ciertas circunstancias, digamos, cuando Facebook ejecuta experimentos controlados, puede ser difícil de decir.

Las restricciones de acceso presentan desafíos adicionales. Las NDA y otros acuerdos pueden no solo evitar que los investigadores compartan datos con sus colegas, sino que también pueden evitar que brinden información valiosa sobre cómo se recopilaron y procesaron los datos.

Juntos, esos factores significan que podemos estar a punto de presenciar una colisión entre el movimiento de reproducibilidad, que está ganando terreno en las ciencias sociales, y el nuevo mundo de datos patentados, que socava la reproducibilidad porque la información es inaccesible para otros y susceptible de ser destruido si no conserva el valor comercial.

Si los académicos comienzan a confiar en las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección.

 Aún más preocupante, el control corporativo de los datos puede conducir a dos tipos de sesgo de selección. Más obviamente, los hallazgos poco favorecedores probablemente no se publicarán si las corporaciones tienen algo que decir. Por ejemplo, Uber financió a científicos sociales para llevar a cabo investigaciones sobre si su servicio era más barato o más rápido que los taxis estándar. La investigación sugirió que Uber era de hecho más barato y más rápido, pero Uber insistió en mantener el control sobre si los resultados se publicaron o no. No se necesita una mente especialmente sospechosa para adivinar que Uber habría retenido el permiso para la publicación si los resultados hubieran sugerido que su servicio era peor que los taxis. Cuando las empresas utilizan el acceso propietario a los datos y los acuerdos legales para mantener el control sobre la publicación, tienen fuertes incentivos para permitir la publicación de solo material que los favorece. Con el tiempo, esto llevará a sesgar la investigación públicamente disponible.

De manera más insidiosa, si los académicos comienzan a depender de las empresas privadas para obtener datos, los contornos de campos académicos completos pueden estar sujetos a formas generalizadas de sesgo de selección. Ciertos temas y métodos de investigación serán favorecidos, mientras que otros se quedan en el camino. Facebook es muy sensible a la sugerencia de que su servicio puede tener consecuencias políticas, salvo las más inocuas. Sus investigadores y politólogos colaboraron en un importante experimento que muestra que los mensajes de Facebook podrían hacer que la gente tenga más probabilidades de votar, pero fue especialmente sensible a nuevas consultas sobre cómo la ubicación de noticias de Facebook influye en el comportamiento político, eliminando un video de YouTube en el que un investigador de Facebook había descrito lo que habían hecho con un poco de detalle. Facebook bien puede tener grandes efectos en la política, no solo en las elecciones de los EE. UU., Sino en otros contextos (como la Primavera Árabe). Pero no tiene ningún incentivo para permitir que los expertos utilicen sus datos para llevar a cabo investigaciones sobre la mayoría de esos efectos, por lo que líneas de investigación completas pueden terminar muertas.

Luego está el aspecto ético de realizar investigaciones utilizando datos de empresas privadas. Las empresas como Facebook, que no están sujetas a normas académicas, pueden verse tentadas a tomar decisiones éticas dudosas, cuando, por ejemplo, tratan los ecosistemas de medios de países enteros como ratones en un experimento de laboratorio. Sin embargo, los académicos no pueden lidiar mejor con la tentación. El personaje de los Simpson, el Dr. Marvin Monroe, tiene la ambición de construir una "caja Monroe", en la que mantendrá a un bebé hasta la edad de 30 años, sometiéndolo a momentos aleatorios a electrocución y duchas de agua helada para probar la hipótesis de que resentir a su captor. Todos los científicos sociales tienen un poco de Marvin Monroe en sus corazones, y muchos podrían verse tentados, si tan solo tuvieran los medios, de enviar multitudes de seres humanos corriendo como ratas a través de laberintos de información social sutilmente sesgada para ver qué caminos toman. En un mundo dominado por datos de empresas privadas, es más fácil para los académicos llevar a cabo el trabajo fuera de las restricciones éticas habituales. Los autores de un estudio de 2014 sobre las redes sociales y el "contagio emocional" no tuvieron que someterse a la aprobación del IRB para su trabajo, ya que el experimento ya había sido llevado a cabo por Facebook. Espere que esta tendencia continúe a medida que crezca el uso de datos privados.

Como muestra la historia de Albright-Karpf, estos problemas ya no son meramente académicos. Facebook está sometido a un intenso escrutinio político debido a su aparente ceguera ante las operaciones de influencia rusa. Los investigadores del Congreso son más propensos que los académicos externos a tener éxito en insistir en el acceso a los datos. La política de los datos está cambiando, tal vez de manera significativa. Muchos miembros del Congreso consideran que ya no es apropiado que gran parte de la conversación nacional tenga lugar dentro de una caja negra. Otros servicios que también están bajo un mayor escrutinio, como Twitter, han sido más abiertos, aunque también ha sido caprichoso en su disposición a permitir que otros obtengan acceso a sus datos.

Esto probablemente terminará en frustración y confrontación mutua. Los miembros del Congreso no son especialmente expertos técnicamente y, a lo largo de las décadas, han despojado a muchas de las instituciones (como la Oficina de Evaluación Tecnológica) que podrían haberles proporcionado una guía autorizada.

Sin embargo, hay otro camino posible hacia adelante. Facebook y los otros grandes jugadores en el mundo de los datos sociales podrían aliviar parte de la presión política sobre ellos al rehacer su relación con la academia. Va a ser difícil para estas empresas mantener la postura de "mantener las manos fuera" que han tenido sobre sus datos en el pasado. Si van a tener que ser más responsables públicamente, probablemente estén mejor construyendo relaciones con académicos, que tengan un conocimiento técnico, que con personas designadas por razones políticas, que normalmente no lo hacen.

Facebook, Google y Twitter podrían acordar proporcionar datos a un observatorio académico independiente. Este acuerdo funcionaría bajo reglas éticas explícitas y ampliamente acordadas. El observatorio llevaría a cabo y publicaría investigaciones sobre problemas derivados del abuso de los servicios de medios sociales por parte de terceros (como ocurrió con Rusia), acreditaría a investigadores confiables que podrían tener acceso a datos tanto para fines de investigación original como de replicación, y coordinaría con gobierno y otras partes con un interés claro y legítimo en combatir el comportamiento abusivo.
En términos más generales, este observatorio podría proporcionar un ancla real para el debate sobre las consecuencias reales de los medios sociales para la sociedad y la política. Si bien a las compañías de tecnología a veces no les gustarían sus hallazgos, estarían mejor si los debates políticos se basasen en hechos y datos en lugar de en especulaciones de segunda mano mal informadas, a veces alarmistas.

Tal acuerdo podría proporcionar supervisión sin requerir que las compañías sacrifiquen por completo sus modelos comerciales. También podría ayudar a resolver los problemas de seguridad transversales mejor de lo que cualquier empresa podría hacerlo. Las empresas comerciales tienen pocos incentivos para compartir datos con sus competidores, ya que estos datos suelen estar en el corazón de sus modelos comerciales. Esto lleva a una fragmentación general del conocimiento, en la que las empresas competidoras tienen diferentes tipos de datos que podrían ilustrar un problema desde múltiples perspectivas. Las operaciones de influencia rusa han involucrado acciones combinadas en Facebook, YouTube, Twitter y Google. Un centro independiente podría rastrear esas relaciones a través de diferentes servicios sin comprometer las necesidades comerciales de las empresas individuales.

Todo esto implicaría una gran creatividad e ingenio por parte de los propios negocios, así como de los investigadores con quienes podrían trabajar. Tendrían que crear un nuevo tipo de acuerdo para dicho observatorio, que sería similar a algunas organizaciones existentes, como los equipos de preparación para emergencias informáticas, o CERT, que ya desempeñan un papel clave en la ciberseguridad. Tal organización requeriría un financiamiento independiente sustancial, probablemente canalizado a través de una fundación u otro acuerdo sin fines de lucro. Eso no solo resolvería algunos de los problemas más complicados de la relación entre la erudición y el comercio electrónico, sino que también integraría la investigación académica y las capacidades de los grandes datos en la búsqueda de objetivos sociales y políticos importantes.

No está claro que este resultado sea políticamente factible en este momento. Es muy probable que Facebook, Twitter y Google piensen en su situación como un problema de relaciones públicas a corto plazo en lugar de una crisis existencial que amenaza con convertirse. Eso es miope. Las crisis y los escándalos tienden a escalar, especialmente cuando la falta de datos significa que incluso los investigadores más sofisticados se ven obligados a adivinar lo que realmente está sucediendo. Si las empresas de medios sociales no se despiertan a los problemas del mundo que están construyendo, en el que la información más crucial sobre cómo el trabajo de la política y la sociedad está escondido detrás de los muros de propiedad y los acuerdos de confidencialidad, es probable que encuentren su negocio básico modelos bajo ataque después del próximo gran escándalo, o el siguiente después.