Ciencias sociales computacionales: haciendo los enlaces.
Desde los correos electrónicos hasta las redes sociales, los rastros digitales que deja la vida en el mundo moderno están transformando las ciencias sociales.
Jim Giles |
Nature
Nature 488, 448–450 (23 August 2012)
doi:10.1038/488448a
El trabajo inicial de Jon Kleinberg no fue para los matemáticamente débiles de corazón. Su primera publicación[1], en 1992, fue un artículo de informática con contenidos tan densos como su título: 'En diagramas dinámicos de Voronoi y la distancia mínima de Hausdorff para conjuntos de puntos bajo movimiento euclidiano en el plano'.
Eso fue antes de que la World Wide Web explotara en todo el planeta, impulsada por millones de usuarios individuales que toman decisiones independientes sobre a quién y con qué vincularse. Y fue antes de que Kleinberg comenzara a estudiar la amplia gama de subproductos digitales generados por la vida en el mundo moderno, desde correos electrónicos, llamadas desde teléfonos móviles y compras con tarjeta de crédito hasta búsquedas en Internet y redes sociales. Hoy en día, como científico informático en la Universidad de Cornell en Ithaca, Nueva York, Kleinberg usa estos datos para escribir artículos como "¿Qué tan malo está formando tu propia opinión?" [2] y "Me tuviste a mi lado: cómo el fraseo afecta la memorización" [3] Títulos que estarían en casa en una revista de ciencias sociales.
"Me di cuenta de que la informática no se trata solo de tecnología", explica. "También es un tema humano".
Kleinberg no está solo. El campo emergente de la ciencia social computacional está atrayendo a científicos inclinados matemáticamente en números cada vez mayores. Esto, a su vez, está estimulando la creación de departamentos académicos e impulsando a compañías como el gigante de la red social Facebook, con sede en Menlo Park, California, a establecer equipos de investigación para comprender la estructura de sus redes y cómo se propaga la información a través de ellos.
"Ha sido realmente transformador", dice Michael Macy, científico social de Cornell y uno de los 15 coautores de un manifiesto de 2009 que busca elevar el perfil de la nueva disciplina. "Antes estábamos limitados a las encuestas, que son retrospectivas, y los experimentos de laboratorio, que casi siempre se realizan en pequeñas cantidades de estudiantes de segundo año universitarios". Ahora, dice, las corrientes de datos digitales prometen un retrato del comportamiento individual y grupal a escalas sin precedentes. y niveles de detalle. También ofrecen muchos desafíos, especialmente los problemas de privacidad, y el problema de que los conjuntos de datos pueden no reflejar realmente a la población en general.
No obstante, dice Macy, "comparo las oportunidades con los cambios en la física provocados por el acelerador de partículas, y en la neurociencia por imágenes de resonancia magnética funcional".
Llamadas sociales
Un ejemplo temprano de datos digitales a gran escala utilizados en un tema de ciencias sociales fue un estudio realizado en 2002 por Kleinberg y David Liben-Nowell, un científico informático del Carleton College en Northfield, Minnesota. Observaron un mecanismo que los científicos sociales creían que ayudaba a impulsar la formación de relaciones personales: las personas tienden a hacerse amigos de los amigos de sus amigos. Aunque bien establecida, la idea nunca se había probado en redes de más de unas pocas decenas o cientos de personas.
Kleinberg y Liben-Nowell estudiaron las relaciones formadas en las colaboraciones científicas. Observaron a los miles de físicos que cargaron documentos en el servidor de preimpresión arXiv durante 1994–96. Al escribir un software para extraer automáticamente los nombres de los documentos, el par creó una red digital de varios órdenes de magnitud más grande que cualquiera que se haya examinado anteriormente, y cada enlace representa a dos investigadores que habían colaborado. Al observar cómo la red cambió con el tiempo, los investigadores identificaron varias medidas de cercanía entre los investigadores que podrían usarse para pronosticar futuras colaboraciones[5].
Como se esperaba, los resultados mostraron que las nuevas colaboraciones tendían a surgir de investigadores cuyas esferas de colaboradores existentes se superponían: el análogo de la investigación de "amigos de amigos". Pero la sofisticación matemática de las predicciones ha permitido que se utilicen en redes aún más grandes. El antiguo estudiante de doctorado de Kleinberg, Lars Backstrom, también trabajó en el problema de la predicción de la conexión, experiencia que ha aprovechado ahora que trabaja en Facebook, donde diseñó el actual sistema de recomendaciones de amigos de la red social.
Otra idea de larga data de la ciencia social afirmada por los investigadores computacionales es la importancia de los "vínculos débiles", las relaciones con conocidos lejanos que se encuentran relativamente raramente. En 1973, Mark Granovetter, un científico social ahora en la Universidad de Stanford en Stanford, California, argumentó que los vínculos débiles forman puentes entre camarillas sociales y, por lo tanto, son importantes para la difusión de información y la movilidad económica6. En la era pre-digital era casi imposible verificar sus ideas a escala. Pero en 2007, un equipo dirigido por Jukka-Pekka Onnela, un científico de la red que actualmente trabaja en la Universidad de Harvard en Cambridge, Massachusetts, utilizó datos de 4 millones de usuarios de teléfonos móviles para confirmar que los lazos débiles actúan como puentes sociales[7] (ver 'El poder de lazos débiles ').
En 2010, un segundo grupo, que incluía a Macy, mostró que Granovetter también tenía razón sobre la conexión entre la movilidad económica y los lazos débiles. Utilizando datos de 65 millones de teléfonos fijos y teléfonos móviles en el Reino Unido, junto con datos del censo nacional, revelaron una poderosa correlación entre la diversidad de las relaciones de las personas y el desarrollo económico: cuanto más ricas y variadas son sus conexiones, más ricas son sus comunidades[8] (ver 'El vínculo económico'). "En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala", dice Granovetter.
Ideas infecciosas
En algunos casos, los grandes datos han demostrado que las ideas antiguas son erróneas. Este año, Kleinberg y sus colegas utilizaron datos de los aproximadamente 900 millones de usuarios de Facebook para estudiar el contagio en las redes sociales, un proceso que describe la difusión de ideas como modas, opiniones políticas, nuevas tecnologías y decisiones financieras. Casi todas las teorías habían asumido que el proceso refleja un contagio viral: la posibilidad de que una persona adopte una nueva idea aumenta con el número de creyentes a los que está expuesta.
El estudiante de Kleinberg, Johan Ugander, descubrió que hay más que eso: la decisión de la gente de unirse a Facebook no varía con el número total de amigos que ya están usando el sitio, sino con el número de grupos sociales distintos que ocupan esos amigos[9]. En otras palabras, descubrir que Facebook está siendo utilizado por personas de, digamos, su trabajo, su club deportivo y sus amigos cercanos da más impresión que encontrar que los amigos de un solo grupo lo usan. La conclusión de que la difusión de ideas depende de la variedad de personas que las sostienen puede ser importante para las campañas de marketing y de salud pública.
A medida que han proliferado los estudios computacionales de ciencias sociales, también lo han hecho las ideas sobre aplicaciones prácticas. En el Instituto de Tecnología de Massachusetts en Cambridge, el grupo del científico informático Alex Pentland utiliza aplicaciones de teléfonos inteligentes y dispositivos de grabación portátiles para recopilar datos detallados sobre los movimientos y las comunicaciones diarias de los sujetos. Al combinar los datos con encuestas de salud emocional y física, el equipo ha aprendido a detectar la aparición de problemas de salud como la depresión[10]. "Vemos grupos que nunca gritan", dice Pentland. "Poder ver el aislamiento es realmente importante cuando se trata de llegar a las personas que necesitan ser contactadas". Ginger.io, una compañía derivada en Cambridge, Massachusetts, dirigida por el ex alumno de Pentland, Anmol Madan, está desarrollando una aplicación para teléfonos inteligentes que notifica a los proveedores de atención médica cuando detecta un patrón en los datos que puede indicar un problema de salud.
Otras compañías están explotando los más de 400 millones de mensajes que se envían todos los días en Twitter. Varios grupos de investigación han desarrollado un software para analizar los sentimientos expresados en tweets para predecir resultados del mundo real, como los ingresos de taquilla para películas o resultados de elecciones[11]. Aunque la precisión de tales predicciones aún es un tema de debate[12], Twitter comenzó en agosto a publicar un índice político diario para la elección presidencial de los Estados Unidos basada en estos métodos (election.twitter.com). Mientras tanto, en la Universidad de Indiana en Bloomington, Johan Bollen y sus colegas utilizaron un software similar para buscar correlaciones entre el estado de ánimo público, como se expresa en Twitter, y las fluctuaciones del mercado de valores[13]. Sus resultados han sido lo suficientemente poderosos para que Derwent Capital, una firma de inversiones con sede en Londres, pueda licenciar las técnicas de Bollen.
Cuando esas encuestas basadas en Twitter comenzaron a aparecer hace unos dos años, los críticos se preguntaban si la relativa popularidad del servicio entre grupos demográficos específicos, como los jóvenes, alteraría los resultados. Un debate similar gira en torno a todos los nuevos conjuntos de datos. Facebook, por ejemplo, ahora tiene cerca de mil millones de usuarios, sin embargo, los jóvenes todavía están excesivamente representados entre ellos. También hay diferencias entre la comunicación en línea y en el mundo real, y no está claro si los resultados de una esfera se aplicarán en la otra. "Con frecuencia, extrapolamos cómo un solo grupo utiliza una tecnología a cómo interactúan los humanos en general", señala Samuel Arbesman, científico de la red de la Universidad de Harvard. Pero eso, dice, "podría no ser necesariamente razonable".
Los defensores argumentan que estos no son problemas nuevos. Casi todos los datos de la encuesta contienen una cierta cantidad de sesgo demográfico, y los científicos sociales han desarrollado una variedad de métodos de ponderación para corregir el equilibrio. Si se entiende el sesgo en un conjunto de datos en particular, como un exceso de un grupo u otro en Facebook, los resultados se pueden ajustar para tenerlo en cuenta.
"En la década de 1970 no imaginábamos que podríamos trabajar con datos de esta escala".
Los servicios como Facebook y Twitter también se están utilizando cada vez más, reduciendo el sesgo. E incluso si el sesgo se mantiene, podría decirse que es menos severo que en otros conjuntos de datos como el de la psicología y el comportamiento humano, donde la mayoría del trabajo se realiza en estudiantes universitarios de sociedades occidentales, educadas, industrializadas, ricas y democráticas (a menudo denominadas WEIRD ).
Granovetter tiene una reserva más filosófica sobre la afluencia de big data en su campo. Él dice que está "muy interesado" en los nuevos métodos, pero teme que el enfoque en los datos reste valor a la necesidad de obtener una mejor comprensión teórica de los sistemas sociales. "Incluso lo mejor de estos artículos computacionales se centra en gran medida en las teorías existentes", dice. "Eso es valioso, pero es solo una parte de lo que debe hacerse". El artículo6 de Granovetter sobre los vínculos débiles, por ejemplo, sigue siendo altamente citado casi 40 años después. Sin embargo, fue "más o menos libre de datos", dice. "No fue el resultado de los análisis de datos, fue el resultado de pensar en otros estudios. Esa es una actividad separada y necesitamos que haya gente haciendo eso ".
La nueva generación de científicos sociales también está luchando con el tema del acceso a los datos. "Muchos de los 'big data' emergentes provienen de fuentes privadas que son inaccesibles para otros investigadores", escribió Bernardo Huberman, científico informático de los laboratorios HP en Palo Alto, en febrero de 2014. "La fuente de datos puede estar oculta, lo que agrava los problemas de verificación, así como las preocupaciones sobre la generalidad de los resultados".
Un buen ejemplo es el equipo de investigación interno de Facebook, que utiliza de manera rutinaria datos sobre las interacciones entre los 900 millones de usuarios de la red para sus propios estudios, incluida una reevaluación de la famosa afirmación de que dos personas en la Tierra solo tienen seis presentaciones aparte. (Pone la cifra en cinco[15]). Pero el grupo solo publica las conclusiones, no los datos sin procesar, en parte debido a preocupaciones de privacidad. En julio, Facebook anunció que estaba explorando un plan que daría a los investigadores externos la oportunidad de verificar las conclusiones publicadas del grupo interno contra datos agregados y anónimos, pero solo por un tiempo limitado, y solo si los de fuera viajaban a la sede de Facebook[16].
A corto plazo, los científicos sociales de la computación están más preocupados por los problemas culturales en su disciplina. Varias instituciones, entre ellas Harvard, han creado programas en el nuevo campo, pero el poder de los límites académicos es tal que a menudo hay poco tráfico entre los diferentes departamentos. En la Universidad de Columbia en Nueva York, el científico social y teórico de redes Duncan Watts recuerda un reciente error de programación que lo obligó a combinar reuniones con estudiantes graduados en ciencias de la computación y sociología. "Quedó bastante claro que estos dos grupos realmente podrían usarse entre sí: los estudiantes de ciencias de la computación tenían mejores habilidades metodológicas que sus homólogos de la sociología, pero los sociólogos tenían preguntas mucho más interesantes", dice. "Y sin embargo, nunca se habían escuchado el uno del otro, ni se les había ocurrido a ninguno de ellos caminar hasta el departamento del otro".
Muchos investigadores desconocen el poder de los nuevos datos, está de acuerdo David Lazer, científico social de la Northeastern University en Boston, Massachusetts, y autor principal del manifiesto de 2009. El escaso trabajo basado en datos se está convirtiendo en las principales revistas de ciencias sociales. Y las conferencias de informática que se centran en temas sociales, como la Conferencia sobre weblogs y redes sociales, celebrada en Dublín en junio, atraen a pocos científicos sociales.
No obstante, dice Lazer, con artículos destacados que aparecen en revistas líderes y conjuntos de datos sobre comportamientos de toda la sociedad disponibles por primera vez, esas barreras se están rompiendo constantemente. "Los cambios están más delante de nosotros que detrás de nosotros", dice.
Ciertamente esa es la percepción de Kleinberg. "Me considero un científico informático interesado en cuestiones sociales", dice. "Pero estos límites se están volviendo difíciles de discernir".
Referencias
-
Huttenlocher, D. P., Kedem, K. & Kleinberg, J. M. Proc. 8th Annu. Symp. on Computational Geometry 110–119 (1992).
-
Bindel, D., Kleinberg, J. & Oren, S. Proc. IEEE 52nd Annu. Symp. Foundations of Computer Science 57–66 (2011).
-
Danescu-Niculescu-Mizil, C., Cheng, J., Kleinberg, J. & Lee, L. Proc. 50th Annu. Meeting Assoc. Computational Linguistics (in the press); Preprint at http://arxiv.org/abs/1203.6360.
-
Lazer, D. et al. Science 323, 721–723 (2009).
-
Liben-Nowell, D. & Kleinberg, J. J. Am. Soc. Inf. Sci. Technol. 58, 1019–1031 (2007).
-
Granovetter, M. S. Am. J. Sociol. 78, 1360–1380 (1973).
-
Onnela, J.-P. et al. Proc. Natl Acad. Sci. USA 104, 7332–7336 (2007).
-
Eagle, N., Macy, M. & Claxton, R. Science 328, 1029–1031 (2010).
-
Ugander, J., Backstrom, L., Marlow, C. & Kleinberg, J. Proc. Natl Acad. Sci. USA 109, 5962–5966 (2012).
-
Madan, A., Cebrian, M., Moturu, S., Farrahi, K. & Pentland, S. IEEE Pervasive Computing http://dx.doi.org/10.1109/MPRV.2011.79 (2011).
-
Asur, S. & Huberman, B. A. Proc. 2010 IEEE/WIC/ACM Int. Conf. Web Intelligence and Intelligent Agent Technology Vol. 1, 492–499 (2010).
-
Gayo-Avello, D., Metaxas, P. T. & Mustafaraj, E. Proc. Fifth Int. AAAI Conf. on Weblogs and Social Media 490–493 (2011).
-
Bollen, J. & Mao, H. IEEE Computer 44(10), 91–94 (2011).
-
Huberman, B. A. Nature 482, 308 (2012).
-
Backstrom, L., Boldi, P., Rosa, M., Ugander, J. & Vigna S. Preprint at http://arxiv.org/abs/1111.4570 (2011).
-
Corbyn, Z. Nature http://dx.doi.org/10.1038/nature.2012.11064 (2012).