jueves, 29 de marzo de 2018

Redes de sabores y principios de maridaje

La red de sabores y los principios del maridaje de alimentos

Yong-Yeol Ahn, Sebastian E. Ahnert, James P. Bagrow y Albert-László Barabási
Scientific Reports volume 1, Article number: 196 (2011)
doi: 10.1038/srep00196
Nature

Resumen

La diversidad cultural de la práctica culinaria, ilustrada por la variedad de cocinas regionales, plantea la cuestión de si existen patrones generales que determinen las combinaciones de ingredientes utilizadas en la comida de hoy o los principios que trascienden los gustos y las recetas individuales. Presentamos una red de sabores que captura los compuestos de sabor compartidos por ingredientes culinarios. Las cocinas occidentales muestran una tendencia a utilizar pares de ingredientes que comparten muchos compuestos de sabor, apoyando la llamada hipótesis de emparejamiento de alimentos. Por el contrario, las cocinas del este de Asia tienden a evitar el uso compartido de ingredientes. Dada la disponibilidad cada vez mayor de información sobre la preparación de alimentos, nuestra investigación impulsada por datos abre nuevos caminos hacia una comprensión sistemática de la práctica culinaria.

Introducción

Como omnívoros, los seres humanos históricamente hemos enfrentado la difícil tarea de identificar y recolectar alimentos que satisfagan las necesidades nutricionales mientras se evitan las enfermedades transmitidas por los alimentos1. Este proceso ha contribuido a la dieta actual de los seres humanos, que está influenciada por factores que van desde una preferencia evolucionada por el azúcar y la grasa hasta la palatabilidad, el valor nutricional, la cultura, la facilidad de producción y el clima1,2,3,4,5,6, 7,8,9. El número relativamente pequeño de recetas en uso (~106, por ejemplo, http://cookpad.com) en comparación con el enorme número de recetas posibles (> 1015, ver Información complementaria Sec S1.2), junto con la recurrencia frecuente de combinaciones particulares en varias cocinas regionales, indica que estamos explotando, pero una pequeña fracción de las posibles combinaciones. Aunque este patrón en sí mismo puede explicarse por un modelo evolutivo simple10 o por enfoques basados ​​en datos11, aún queda una pregunta fundamental: ¿existen principios cuantificables y reproducibles detrás de nuestra elección de ciertas combinaciones de ingredientes y evitación de otros?

Aunque muchos factores como los colores, la textura, la temperatura y el sonido desempeñan un papel importante en la sensación alimenticia12,13,14,15, la palatabilidad está determinada en gran medida por el sabor, que representa un grupo de sensaciones que incluyen olores (debido a moléculas que pueden unirse a receptores olfatorios) ), sabores (debido a las moléculas que estimulan las papilas gustativas) y frescura o pungencia (sentidos del trigémino) 16. Por lo tanto, el perfil del compuesto de sabor (químico) de los ingredientes culinarios es un punto de partida natural para una búsqueda sistemática de los principios que podrían subyacer a nuestra elección de combinaciones de ingredientes aceptables.

Una hipótesis, que en la última década ha recibido atención entre algunos chefs y científicos de alimentos, afirma que los ingredientes que comparten compuestos de sabor tienen más probabilidades de probar bien juntos que los ingredientes que no lo hacen17 (también consulte http://www.foodpairing.com). Esta hipótesis de emparejamiento de alimentos se ha utilizado para buscar nuevas combinaciones de ingredientes y ha provocado, por ejemplo, que algunos restaurantes contemporáneos combinen chocolate blanco y caviar, ya que comparten trimetilamina y otros compuestos de sabor, o chocolate y queso azul que comparten al menos 73 sabores. compuestos. A medida que buscamos pruebas que respalden (o refuten) cualquier 'regla' que pueda ser la base de nuestras recetas, debemos tener en cuenta que es poco probable que el análisis científico de cualquier arte, incluido el arte de cocinar, sea capaz de explicar todos los aspectos del creatividad artística involucrada. Además, hay muchos ingredientes cuyo papel principal en una receta puede no ser solo saborizante sino también algo más (por ejemplo, el papel de los huevos para garantizar la estabilidad mecánica o el papel del páprika para agregar colores vivos). Finalmente, el sabor de un plato debe tanto al modo de preparación como a la elección de ingredientes particulares12,18,19. Sin embargo, nuestra hipótesis es que, dada la gran cantidad de recetas que utilizamos en nuestro análisis (56,498), dichos factores se pueden filtrar sistemáticamente, lo que permite descubrir patrones que pueden trascender determinados platos o ingredientes.

Aquí presentamos un enfoque basado en la red para explorar el impacto de los compuestos de sabor en las combinaciones de ingredientes. Los esfuerzos de los químicos de alimentos para identificar los compuestos de sabor contenidos en la mayoría de los ingredientes culinarios nos permiten vincular cada ingrediente a 51 compuestos de sabor en promedio201. Construimos una red bipartita21,22,23,24,25,26 que consta de dos tipos diferentes de nodos: (i) 381 ingredientes utilizados en recetas en todo el mundo, y (ii) 1,021 compuestos de sabor que contribuyen al sabor. de cada uno de estos ingredientes (Fig. 1A). Una proyección de esta red bipartita es la red de sabores en la que dos nodos (ingredientes) están conectados si comparten al menos un compuesto de sabor (figura 1B). El peso de cada enlace representa el número de compuestos de sabor compartidos, convirtiendo la red de sabores en una red ponderada27,22,23. Si bien la concentración de compuestos en cada ingrediente y el umbral de detección de cada compuesto idealmente deben tenerse en cuenta, la falta de datos sistemáticos nos impide explorar su impacto (véase la sección S1.1.2 sobre limitaciones de datos).

Figura 1: red de sabores.


(A) Los ingredientes contenidos en dos recetas (columna izquierda), junto con los compuestos de sabor que se sabe están presentes en los ingredientes (columna derecha). Cada compuesto de sabor está vinculado a los ingredientes que lo contienen, formando una red bipartita. Algunos compuestos (que se muestran en negrita) son compartidos por múltiples ingredientes. (B) Si proyectamos la red bipartita compuesto-ingrediente en el espacio de ingredientes, obtenemos la red de sabores, cuyos nodos son ingredientes, vinculados si comparten al menos un compuesto de sabor. El grosor de los enlaces representa el número de compuestos de sabor que comparten dos ingredientes y el tamaño de cada círculo corresponde a la prevalencia de los ingredientes en las recetas. (C) La distribución del tamaño de la receta, capturando el número de ingredientes por receta, a través de las cinco cocinas exploradas en nuestro estudio. (D) El gráfico de rango de frecuencia de los ingredientes de las cinco cocinas muestra una distribución aproximadamente invariante en las cocinas.


Dado que varios compuestos de sabor son compartidos por una gran cantidad de ingredientes, la red de sabor resultante es demasiado densa para la visualización directa (grado promedio). Por lo tanto, utilizamos un método de extracción de la red troncal28,29 para identificar los enlaces estadísticamente significativos para cada ingrediente dada la suma de los pesos que caracterizan el nodo particular (Fig. 2), ver SI para más detalles). No es sorprendente que cada módulo en la red corresponda a una clase de alimentos distinta, como las carnes (rojas) o las frutas (amarillas). Los enlaces entre los módulos nos informan de los compuestos de sabor que mantienen juntas diferentes clases de alimentos. Por ejemplo, las frutas y los productos lácteos son similares a las bebidas alcohólicas, y los hongos aparecen aislados, ya que comparten una cantidad estadísticamente significativa de compuestos de sabor solo con otros hongos.

Figura 2: La columna vertebral de la red de sabores.

Cada nodo denota un ingrediente, el color del nodo indica la categoría de alimento, y el tamaño del nodo refleja la prevalencia de ingredientes en las recetas. Dos ingredientes están conectados si comparten un número significativo de compuestos de sabor, el espesor del enlace representa la cantidad de compuestos compartidos entre los dos ingredientes. Los enlaces adyacentes se incluyen para reducir el desorden. Tenga en cuenta que el mapa muestra solo los enlaces estadísticamente significativos, identificados por el algoritmo de Refs.28,29 para el valor de p 0.04. Un dibujo de la red completa es demasiado denso para ser informativo. Sin embargo, utilizamos la red completa en nuestras mediciones posteriores.

La red de sabores nos permite reformular la hipótesis del emparejamiento de alimentos como una propiedad topológica: ¿usamos con mayor frecuencia los pares de ingredientes que están fuertemente vinculados en la red de sabores o los evitamos? Para probar esta hipótesis, necesitamos datos sobre combinaciones de ingredientes preferidos por los humanos, información disponible en el cuerpo actual de recetas. Para la generalidad, utilizamos 56.498 recetas proporcionadas por dos repositorios estadounidenses (epicurious.com y allrecipes.com) y para evitar una interpretación claramente occidental de la cocina del mundo, también utilizamos un repositorio coreano (menupan.com). Las recetas se agrupan en cocinas geográficamente distintas (América del Norte, Europa Occidental, Europa del Sur, América Latina y Asia Oriental, ver Fig. 1 y Tabla S2). El número promedio de ingredientes utilizados en una receta es de alrededor de ocho, y la distribución general está limitada (Fig. 1C), lo que indica que las recetas con un número muy grande o muy pequeño de ingredientes son raros. Por el contrario, la popularidad de los ingredientes específicos varía en más de cuatro órdenes de magnitud, documentando enormes diferencias en la frecuencia con que se usan varios ingredientes en las recetas (figura 1D), como se observa en 10. Por ejemplo, el té de jazmín, el ron de Jamaica y otros 14 ingredientes se encuentran en una sola receta (ver SI S1.2), pero el huevo aparece en hasta 20,951, más de un tercio de todas las recetas.

Resultados

La Figura 3D indica que las cocinas de Norteamérica y Europa Occidental exhiben una tendencia estadísticamente significativa hacia las recetas cuyos ingredientes comparten compuestos de sabor. Por el contrario, las cocinas de Asia oriental y del sur de Europa evitan las recetas cuyos ingredientes comparten compuestos de sabor (ver la Fig. 3D para el puntaje Z, que captura la significación estadística de ΔN). La diferencia sistemática entre las recetas de Asia oriental y América del Norte es particularmente clara si inspeccionamos la distribución del conjunto de datos de recetas aleatorizadas, en comparación con el número observado de compunds compartidos que caracterizan las dos cocinas, Ns. Esta distribución revela que los platos de América del Norte usan mucho más pares de distribución de compuestos de lo esperado por azar (figura 3E), y los platos de Asia oriental son mucho menos numerosos (figura 3F). Finalmente, generalizamos la hipótesis del emparejamiento de alimentos al explorar si los pares de ingredientes que comparten más compuestos tienen más probabilidades de ser utilizados en cocinas específicas. Los resultados se correlacionan en gran medida con nuestras observaciones anteriores: en las recetas de América del Norte, cuanto más compuestos son compartidos por dos ingredientes, es más probable que aparezcan en las recetas. Por el contrario, en la cocina del este de Asia, cuanto más compuestos de sabor comparten dos ingredientes, es menos probable que se utilicen juntos (Fig. 3G y 3H, ver SI para más detalles y resultados en otras cocinas).

Figura 3: prueba de la hipótesis de emparejamiento de alimentos.

Ilustración esquemática de dos pares de ingredientes, el primero compartiendo muchos más (A) y el segundo mucho menos (B) compuestos de lo esperado si los compuestos de sabor se distribuyeron al azar. (C, D) Para probar la validez de la hipótesis de emparejamiento de alimentos, construimos 10.000 recetas aleatorias y calculamos ΔN. Encontramos que los pares de ingredientes en las cocinas de América del Norte tienden a compartir más compuestos, mientras que las cocinas de Asia oriental tienden a compartir menos compuestos de lo esperado en un conjunto de datos de recetas al azar. (E, F) Las distribuciones P (Ns) para 10.000 conjuntos de datos de recetas aleatorizadas en comparación con los valores reales de la cocina de Asia oriental y América del Norte. Ambas cocinas exhiben valores de p significativos, según se estima utilizando una prueba z. (G, H) Enumeramos cada posible par de ingredientes en cada cocina y mostramos la fracción de pares en las recetas en función de la cantidad de compuestos compartidos. Para reducir el ruido, solo utilizamos puntos de datos calculados a partir de más de 5 pares. Los valores de p se calculan usando una prueba t. La cocina norteamericana está sesgada hacia pares con más compuestos compartidos, mientras que Asia oriental muestra la tendencia opuesta (ver SI para detalles y resultados para otras cocinas). Tenga en cuenta que utilizamos la red completa, no la red troncal que se muestra en la Fig. 2 para obtener estos resultados. (I, J) La contribución y la frecuencia de uso de cada ingrediente en la cocina de América del Norte y Asia Oriental. El tamaño de los círculos representa la prevalencia relativa. La cocina de Norteamérica y Asia del Este muestra las tendencias opuestas. (K, L) Si eliminamos secuencialmente los ingredientes altamente contribuyentes (de la mayor contribución en la cocina norteamericana y de la contribución más pequeña en la cocina de Asia oriental), el efecto de los compuestos compartidos se desvanece rápidamente cuando quitamos cinco (este asiático) a quince ( Ingredientes de América del Norte).


¿Cuál es el mecanismo responsable de estas diferencias? Es decir, ¿las Fig. 3C a H implican que todas las recetas apuntan a emparejar los ingredientes que comparten (América del Norte) o no comparten (este de Asia) los compuestos de sabor, o podríamos identificar algunos compuestos responsables de la mayor parte del efecto observado? Por lo tanto, medimos la contribución χi (ver Métodos) de cada ingrediente al efecto compuesto compartido en una cocina dada c, cuantificando hasta qué punto su presencia afecta la magnitud de ΔN.

En la Fig. 3I, J mostramos como una gráfica de dispersión χi (eje horizontal) y la frecuencia fi para cada ingrediente en las cocinas de Norteamérica y Asia del Este. La gran mayoría de los ingredientes se encuentran en el eje χi = 0, lo que indica que su contribución a ΔNs es insignificante. Sin embargo, observamos algunos valores atípicos frecuentemente utilizados, que tienden a estar en la región positiva de fori para la cocina norteamericana, y se encuentran predominantemente en la región negativa para la cocina del este de Asia. Esto sugiere que el efecto de emparejamiento de alimentos se debe a unos pocos valores atípicos que se utilizan con frecuencia en una cocina en particular, p. leche, mantequilla, cacao, vainilla, crema y huevo en América del Norte, y carne de res, jengibre, cerdo, cayena, pollo y cebolla en el este de Asia. El soporte para el papel definitivo de estos ingredientes se proporciona en la Fig. 3K, L donde eliminamos los ingredientes en orden de sus contribuciones positivas (o negativas) a ΔN en la cocina norteamericana (o asiática oriental), encontrando que el puntaje z , que mide el significado de la hipótesis del compuesto compartido, cae por debajo de dos después de la eliminación de solo 13 (5) ingredientes de la cocina de América del Norte (o Asia oriental) (ver SI S2.2.2). Tenga en cuenta, sin embargo, que estos ingredientes desempeñan un papel desproporcionado en la cocina en cuestión, por ejemplo, los 13 ingredientes clave que contribuyen al efecto compuesto compartido en la cocina norteamericana aparecen en el 74.4% de todas las recetas.

Según una visión empírica conocida como "el principio del sabor" 30, las diferencias entre las cocinas regionales pueden reducirse a unos pocos ingredientes clave con sabores específicos: agregar salsa de soja a un plato casi automáticamente le da un sabor oriental porque los asiáticos usan la salsa de soja ampliamente en su comida y otros grupos étnicos no; en contraste, el pimentón, la cebolla y la manteca de cerdo son una firma de la cocina húngara. ¿Podemos identificar sistemáticamente las combinaciones de ingredientes responsables de la paleta de sabores de una cocina regional? Para responder a esta pregunta, medimos la autenticidad de cada ingrediente (), par de ingredientes () y triplete de ingrediente () (ver Métodos). En la Fig. 4, organizamos los seis ingredientes únicos más auténticos, pares de ingredientes y trillizos para las cocinas de América del Norte y del Este de Asia en una pirámide de sabores. Las clases de ingredientes más bien diferentes (como se refleja por su color) en las dos pirámides capturan las diferencias entre las dos cocinas: la comida norteamericana depende en gran medida de productos lácteos, huevos y trigo; por el contrario, la cocina del este de Asia está dominada por derivados de plantas como la salsa de soja, el aceite de sésamo y el arroz y el jengibre. Finalmente, las dos pirámides también ilustran las diferentes afinidades de las dos cocinas regionales hacia parejas de alimentos con compuestos compartidos. Los pares de ingredientes y trillizos más auténticos de la cocina norteamericana comparten múltiples compuestos de sabor, indicados por enlaces negros, pero tales enlaces de intercambio de compuestos son raros entre las combinaciones más auténticas de la cocina de Asia oriental.

Figura 4: Principios de sabor.

(A, B) pirámides de sabor para cocinas de América del Norte y Asia Oriental. Cada pirámide de sabores muestra los seis ingredientes más auténticos (es decir, los que tienen los más grandes), los pares de ingredientes (los más grandes) y los trillizos de ingrediente (los más grandes). El tamaño de los nodos refleja la abundancia del ingrediente en las recetas de la cocina en particular. Cada color representa la categoría del ingrediente (ver Fig. 2 para el color) y el grosor del enlace indica el número de compuestos compartidos. (C) Los seis ingredientes más auténticos y los pares de ingredientes utilizados en la cocina regional específica. El color del nodo representa la cocina y el peso del enlace refleja la prevalencia relativa del par de ingredientes.

La dependencia de las cocinas regionales en algunas combinaciones de ingredientes auténticos nos permite explorar la relación basada en ingredientes (similitud o disimilitud) entre varias cocinas regionales. Para esto, seleccionamos los seis ingredientes más auténticos y los pares de ingredientes en cada cocina regional (es decir, los que se muestran en la Fig. 4A, B), generando un diagrama que ilustra los ingredientes compartidos por varias cocinas, así como destacando aquellos que son únicos una región particular (Fig. 4C). Una vez más, encontramos una estrecha relación entre las cocinas de América del Norte y Europa occidental y observamos que, en lo que se refiere a sus combinaciones de ingredientes, la cocina del sur de Europa está mucho más cerca de la cocina latinoamericana que de Europa occidental (figura 4C).

Discusión

Nuestro trabajo resalta las limitaciones de los conjuntos de datos de receta actualmente disponibles y, en general, del análisis sistemático de los datos de preparación de alimentos. Al comparar dos ediciones del mismo conjunto de datos con una cobertura significativamente diferente, podemos demostrar que nuestros resultados son robustos frente a la incompletitud de los datos (ver SI S1.1.2). Sin embargo, mejores bases de datos compuestas, que mitiguen el carácter incompleto y los posibles sesgos de los datos actuales, podrían mejorar significativamente nuestra comprensión de los alimentos. Existe una ambigüedad inherente en la definición de una cocina regional o étnica particular. Sin embargo, como se discutió en SI S1.2, la correlación entre diferentes conjuntos de datos, que representan dos perspectivas distintas de los alimentos (estadounidense y coreano), indica que los humanos con diferentes antecedentes étnicos tienen una visión bastante consistente sobre la composición de las diversas cocinas regionales.

Un trabajo reciente de Kinouchi et al.10 observó que los gráficos de frecuencia de rango de los ingredientes son invariantes en cuatro cocinas diferentes, exhibiendo una forma que puede ser bien descrita por una curva de Zipf-Mandelbrot. Con base en esta observación, modelan la evolución de las recetas al asumir un proceso de copia-mutación, lo que lleva a una curva de frecuencia-rango muy similar. El modelo de copia-mutación proporciona una explicación de cómo un ingrediente se convierte en un ingrediente básico de una cocina: a saber, tener un alto valor o ser un ingrediente fundador. El modelo asigna a cada ingrediente un valor de aptitud aleatorio, que representa el valor nutricional, la disponibilidad, el sabor, etc. del ingrediente. Por ejemplo, se ha sugerido que se seleccionen algunos ingredientes debido a sus propiedades antimicrobianas6,7. La fase de mutación del modelo reemplaza los ingredientes menos adecuados con los más ajustados. Mientras tanto, el mecanismo de copia sigue copiando los ingredientes-ingredientes del fundador en las primeras recetas, y los hace abundantes en las recetas independientemente de su valor de aptitud.

Vale la pena discutir las similitudes y diferencias entre las cantidades que medimos y los conceptos de aptitud y fundadores. En primer lugar, la prevalencia () y la autenticidad () son valores medidos empíricamente mientras que la aptitud física es una variable oculta intrínseca. Entre la lista de ingredientes de alta prevalencia, encontramos ingredientes antiguos, fundadores, que se han usado en la misma región geográfica durante miles de años. Al mismo tiempo, hay ingredientes relativamente nuevos como tomates, patatas y pimientos que se introdujeron en Europa y Asia hace unos cientos de años. Se puede considerar que estos ingredientes nuevos pero prevalentes tienen valores de aptitud física elevados. Si un ingrediente tiene un alto nivel de autenticidad, entonces prevalece en una cocina mientras que no es tan frecuente en todas las otras cocinas.

De hecho, cada cultura ha desarrollado sus propios ingredientes auténticos. Puede indicar que la condición física puede variar mucho entre las cocinas o que la estocasticidad de la evolución de la receta hace que las recetas en diferentes regiones se dividan en conjuntos completamente diferentes. Una investigación más histórica nos ayudará a estimar la aptitud de los ingredientes y evaluar por qué usamos los ingredientes particulares que actualmente hacemos. El valor de aptitud de orden superior sugerido en Kinouchi et al. está muy cerca de nuestro concepto de afinidad de apareamiento de comida.

Otra diferencia en nuestros resultados es la cantidad de ingredientes en las recetas. Kinouchi et al. informó que el número promedio de ingredientes por receta varía entre los diferentes libros de cocina. Si bien también observamos variación en el número de ingredientes por receta, los patrones que encontramos no fueron consistentes con los encontrados por Kinouchi et al. Por ejemplo, el libro de cocina francés tiene más ingredientes por receta que uno brasileño, pero en nuestro conjunto de datos encontramos el resultado contrario. Creemos que un libro de cocina no puede representar una cocina completa, y que los libros de cocina con recetas más sofisticadas tienden a tener más ingredientes por receta que los libros de cocina con recetas diarias. A medida que se disponga de conjuntos de datos más completos, se pueden extraer conclusiones más precisas sobre la variación de tamaño entre las cocinas.

Nuestra contribución en este contexto es un estudio del papel que desempeñan los compuestos de sabor en la determinación de estos valores de aptitud física. Una posible interpretación de nuestros resultados es que los compuestos de sabor compartidos representan una de varias contribuciones al valor de la aptitud, y que, si bien los compuestos compartidos claramente juegan un papel importante en algunas cocinas, otras contribuciones pueden desempeñar un papel más dominante en otras cocinas. El hecho de que las recetas se basen en ingredientes no solo para el sabor sino también para proporcionar las texturas finales y la estructura general de un plato dado respalda la idea de que los valores de aptitud dependen de una multitud de características de los ingredientes además de su perfil de sabor.

En resumen, nuestra investigación basada en la red identifica una serie de patrones estadísticamente significativos que caracterizan la forma en que los humanos eligen los ingredientes que combinan en sus alimentos. Estos patrones se manifiestan en mayor o menor grado en diferentes regiones geográficas: mientras que los platos de Norteamérica y Europa occidental tienden a combinar ingredientes que comparten compuestos de sabor, la cocina de Asia oriental los evita. En términos más generales, este trabajo proporciona un ejemplo de cómo los métodos de análisis de red basados ​​en datos que han transformado la biología y las ciencias sociales en los últimos años pueden arrojar nuevos conocimientos en otras áreas, como la ciencia de los alimentos

Métodos

Compuestos compartidos

Para probar la hipótesis de que la elección de los ingredientes es impulsada por una apreciación de los pares de ingredientes que comparten compuestos de sabor (es decir, los vinculados en la Fig. 2), medimos el número medio de compuestos compartidos en cada receta, Ns, comparándolo con  obtenido para un conjunto de datos de receta de referencia construido al azar. Para una receta R que contiene nR ingredientes diferentes, donde cada ingrediente i tiene un conjunto de compuestos de sabor Ci, el número medio de compuestos compartidos es cero


si ninguno de los pares de ingredientes (i, j) en la receta comparte ningún compuesto de sabor. Por ejemplo, la receta de "salsa de sartén con crema de mostaza" contiene caldo de pollo, mostaza y crema, ninguno de los cuales comparte ningún compuesto de sabor (Ns(R) = 0) en nuestro conjunto de datos. Sin embargo, Ns(R) puede alcanzar hasta 60 para "chuletas de cerdo dulces y simples", una receta que contiene manzana, cerdo y queso cheddar (ver Fig. 3A). Para verificar si las recetas con Ns (R) alta son estadísticamente preferidas (implicando la validez de la hipótesis compuesta compartida) en una cocina c con recetas Nc, calculamos , donde 'real' y 'rand' indican recetas reales y recetas construidas al azar respectivamente y Ns = ΣR Ns (R) / Nc (ver SI para detalles del proceso de aleatorización). Esta referencia aleatoria (modelo nulo) controla la frecuencia de un ingrediente particular en una cocina regional dada, por lo tanto, nuestros resultados no se ven afectados por factores históricos, geográficos y climáticos que determinan la disponibilidad de ingredientes (ver SI S1.1.2).

Contribución

La contribución χi de cada ingrediente al efecto compuesto compartido en una cocina dada c, cuantificando en qué grado su presencia afecta la magnitud de ΔNs, se define por



donde fi representa el número de ocurrencia del ingrediente i. La contribución de un ingrediente es positiva (negativa) si aumenta (disminuye) ΔNs.


Autenticidad

definimos la prevalencia  de cada ingrediente i en una cocina c como  , donde  es el número de recetas que contienen el ingrediente particular i en la cocina y Nc es el número total de recetas en la cocina. La prevalencia relativa  mide la autenticidad -la diferencia entre la prevalencia de i en la cocina c y la prevalencia promedio de i en todas las demás cocinas. También podemos identificar pares de ingredientes o trillizos que están sobrerrepresentados en una cocina particular en relación con otras cocinas definiendo las prevalencias  de par relativas  y las prevalencias de triplete , con  y .

Referencias

1. Rozin, P. The selection of foods by rats, humans, and other animals. Advances in the Study of Behavior 7, 21–76 (1976).
2. Pfaffman, C. Olfaction and taste V, chap. Phylogenetic origins of sweet sensitivity (Academic Press, New York, 1975).
3. Garcia, J. & Hankins, W. G. Olfaction and taste V, chap. The evolution of bitter and the acquisition of toxiphobia (Academic Press, New York, 1975).
4. Drewnowski, A. & Greenwood, M. R. C. Cream and sugar: human preferences for highfat foods. Physiology & Behavior 30, 629–633 (1983).
5. Diamond, J. M. Guns, germs, and steel: The fates of human societies (W.W. Norton, New York, 1997).
6. Billing, J. & Sherman, P. W. Antimicrobial functions of spices: why some like it hot. The Quarterly Review of Biology 73, 3–49 (1998).
7. Sherman, P. W. & Hash, G. A. Why vegetable recipes are not very spicy. Evolution and Human Behavior 22, 147–163 (2001).
8. Harris, M. Good to eat: riddles of food and culture (Waveland Press, 1998).
9. Counihan, C. & van Esterik, P. (eds.) Food and culture (Routledge, 2007).
10. Kinouchi, O., Diez-Garcia, R. W., Holanda, A. J., Zambianchi, P. & Roque, A. C. The non-equilibrium nature of culinary evolution. New Journal of Physics 10, 073020 (2008).
11. Teng, C.-Y., Lin, Y.-R. & Adamic, L. A. Recipe recommendation using ingredient networks. (2011). ArXiv:1111.3919 [cs.SI].
12. This, H. Molecular gastronomy: exploring the science of flavor (Columbia University Press, 2005).
13. Johnson, J. & Clydesdale, F. Perceived sweetness and redness in colored sucrose solutions. Journal of Food Science 47, 747–752 (1982).
14. Shankaer, M. U. & Levitan, C. A. Grape expectations: the role of cognitive influences in color-flavor interactions. Conscious Cogn. 19, 380–390 (2010).
15. Zampini, M. & Spence, C. The role of auditory cues in modulating the perceived crispness and staleness of potato chips. Journal of Sensory Studies 19, 347–363 (2005).
16. Breslin, P. A. S. & Beauchamp, G. K. Suppression of bitterness by sodium: variation among bitter taste stimuli. Chem. Senses 20, 609–623 (1995).
17. Blumenthal, H. The big fat duck cookbook (Bloomsbury, London, 2008).
18. This, H. Molecular gastronomy, a scientific look at cooking. Accounts of Chemical Research 42, 575–583 (2009).
19. McGee, H. On food and cooking: the science and lore of the kitchen (Scribner, 2004).
20. Burdock, G. A. Fenaroli's handbook of flavor ingredients (CRC Press, 2004), 5th edn.
21. Newman, M. E. J., Barabási, A.-L. & Watts, D. J. The structure and dynamics of networks (Princeton University Press, 2006).
22. Caldarelli, G. Scale-free networks: complex webs in nature and technology (Oxford University Press, USA, 2007).
23. Dorogovtsev, S. N. & Mendes, J. F. F. Evolution of networks: from biological nets to the internet and WWW (Oxford University Press, USA, 2003).
24. Albert, R. & Barabási, A.-L. Statistical mechanics of complex networks. Rev. Mod. Phys. 74, 47 (2002).
25. Newman, M. E. J. The structure and function of complex networks. SIAM Review 45, 167–256 (2003).
26. Dorogovtsev, S. N., Goltsev, A. V. & Mendes, J. F. F. Critical phenomena in complex networks. Reviews of Modern Physics 80, 1275–61 (2008).
27. Barrat, A., Barthélemy, M., Pastor-Satorras, R. & Vespignani, A. The architecture of complex weighted networks. Proc. Nat. Acad. Sci. 111, 3747 (2004).
28. Serrano, M. A., Boguñá, M. & Vespignani, A. Extracting the multiscale backbone of complex weighted networks. Proceedings of the National Academy of Sciences 106, 6483–6488 (2009).
29. Lee, S. H., Kim, P.-J., Ahn, Y.-Y. & Jeong, H. Googling social interactions: web search engine based social network construction. PLoS One 5, e11233 (2010).
30. Rozin, E. The flavor-principle cookbook (Hawthorn Books, Book Club Ed. edition, 1973).





martes, 27 de marzo de 2018

Pasajeros vs cobertura en redes de tráfico urbano

Número de pasajeros vs cobertura: el dilema del planificador de transporte

Por Jarrett Walker y Christopher Yuen | City Metric




¿Su agencia estatal de planificación de tránsito tiene éxito? Depende de lo que esté tratando de hacer, y la mayoría de las agencias de tránsito no han recibido instrucciones claras sobre lo que deberían tratar de hacer. Peor aún, les dicen que hagan cosas contradictorias. Es como si le dijera a su taxista que giró a la izquierda y derecha al mismo tiempo, y luego los criticó por haber tomado la dirección equivocada.

Por un lado, esperamos que las agencias de tránsito persigan un objetivo de usuarios. Sin embargo, también exigimos que proporcione un pequeño servicio para todos, lo que se llama un objetivo de cobertura. El objetivo de cobertura requiere que una agencia ejecute servicios de baja audiencia predecibles, por motivos que no sean de pasajeros, por lo que es lo contrario de un objetivo de usuarios

En la ciudad de ficción a continuación, los pequeños puntos indican viviendas y edificios comerciales y otros usos de la tierra. Las líneas indican carreteras, y los 18 autobuses indican los recursos que la ciudad tiene para ejecutar el tránsito. La mayor parte de la actividad en la ciudad se concentra en unos pocos caminos, como en la mayoría de las ciudades.



Una agencia de tránsito que persigue solo un objetivo de pasajeros enfocaría el servicio en las calles donde hay un gran número de personas, donde caminar hasta las paradas de tránsito es fácil y las rutas directas se sienten directas y rápidas para los clientes. Debido a que el servicio se concentra en menos rutas, la frecuencia es alta y un autobús siempre llegará pronto.

Esto daría como resultado una red como la siguiente.




Los 18 autobuses se concentran en las áreas más concurridas. Las esperas por el servicio son cortas, pero las caminatas al servicio son más largas para las personas en áreas menos pobladas. La frecuencia y el número de usuarios son altos, pero algunos lugares no tienen servicio.

¿Por qué es esta la alternativa máxima de pasajeros? Tiene que ver con el pago no lineal tanto de alta densidad como de alta frecuencia, como se explica más detalladamente aquí.

Si la ciudad persigue solo un objetivo de cobertura, por otro lado, la agencia de tránsito extenderá los servicios para que cada calle tenga una ruta de autobús, como en la red de abajo. Difundirlo suena genial, pero también significa diseminarlo.

Los 18 autobuses están repartidos de manera que haya una ruta en cada calle. Todo el mundo vive cerca de una parada, pero cada ruta es poco frecuente, incluso en las carreteras principales, y el servicio es largo. Solo unas pocas personas pueden esperar tanto tiempo, por lo que el número de pasajeros es bajo.



En estos dos escenarios, la ciudad usa la misma cantidad de autobuses. Estas dos redes cuestan la misma cantidad para operar, pero ofrecen resultados muy diferentes.

Las redes orientadas a los pasajeros sirven varios objetivos populares para el tránsito, que incluyen:

  • Reducir el impacto ambiental a través de menores millas recorridas por vehículos;
  • Lograr un bajo subsidio público por jinete, a través de servir a más jinetes con los mismos recursos, y a través de tarifas recogidas de más pasajeros;
  • Apoyar el desarrollo urbano continuo, a densidades más altas, sin verse limitado por la congestión del tráfico;
  • Reducir el costo de las ciudades para construir y mantener carreteras y puentes al reemplazar viajes de automóviles con viajes de tránsito, y al permitir la vida sin automóviles para algunas personas que viven cerca de corredores de tránsito densos y transitables.

Por otro lado, las redes orientadas a la cobertura cumplen un conjunto diferente de objetivos, que incluyen:

  • Asegurar que todos tengan acceso a algún servicio de tránsito, sin importar dónde vivan;
  • Proporcionar acceso vital a servicios críticos para aquellos que no pueden conducir;
  • Proporcionar acceso a personas con necesidades severas;
  • Proporcionar un sentido de equidad política, proporcionando servicio a cada municipio o distrito electoral.

Las metas de viaje y cobertura son loables, pero nos llevan en direcciones opuestas. Dentro de un presupuesto fijo, si una agencia de tránsito quiere hacer más de una, debe hacer menos de la otra.

Debido a eso, las ciudades y las agencias de tránsito deben tomar una decisión clara con respecto a la compensación de Jubilación-Cobertura. De hecho, alentamos a las ciudades a desarrollar un consenso sobre una Política de asignación de servicios, que toma la forma de un porcentaje de división de recursos entre los diferentes objetivos.

Por ejemplo, una agencia puede decidir asignar el 60 por ciento de su servicio hacia la Meta de Nro. de Pasajeros y el 40 por ciento hacia la Meta de Cobertura.

Los principales rediseños de red a menudo cambian este equilibrio, intencionalmente y conscientemente. Cuando dirigimos un rediseño de la red de autobuses en Houston, dirigimos una discusión con los líderes elegidos sobre sus prioridades, y decidieron cambiar el enfoque de su red del 80 por ciento de cobertura al 5 por ciento de cobertura. Sabían de antemano cuál sería el resultado: una red más útil, con el potencial de aumentar la cantidad de pasajeros, pero también muchas personas enojadas en áreas que ya no se prestaban.

¿Qué hay de tu ciudad? ¿Cuál crees que debería ser la división entre el número de usuarios y la cobertura? La respuesta dependerá de tus preferencias y valores. Para las ciudades, debería ser decisión de los funcionarios electos, informados por el público.

domingo, 25 de marzo de 2018

Redes de actores en la base de datos IMDB


Dataset de IMDB: Análisis de red de actores


Katie Truong

Después de explorar y limpiar los datos aquí, podemos recopilar un conjunto de datos que consta de 640 colaboraciones en películas altamente calificadas, y 653 colaboraciones en películas de baja calificación.

Ahora lo que tenemos que hacer es importar los archivos csv a Gephi. Hay algunas otras herramientas para mapeo de red, como igraph en R o networkx en Python. Sin embargo, en este proyecto, elijo usar Gephi debido a su usabilidad y diseño diversos.

Red de actores en películas altamente calificadas:

La red de actores en películas altamente calificadas tiene forma de celda, con colaboraciones de actores no tan famosos en los bordes, y una red de colaboraciones entre los nombres familiares de Hollywood en el centro.



Hay 178 clases de modularidad (subcomunidades) en el conjunto de datos. La mayoría de las subcomunidades tienen menos de 5 nodos, sin embargo, podemos ver un puñado de subcomunidades con más de 15 nodos, que giran en torno a grandes nombres de la casa como Tom Hanks, Leonardo DiCaprio, Robert De Niro, etc. o tipos de películas (superhéroes, Western, etc.).



Red de las principales estrellas de Hollywood. ¿Puedes nombrar las películas que colaboran entre sí?



La red de superhéroes Batman, Black Widow y Wolverine probablemente estén vinculados por The Prestige, una película sobre magos. Tiene sentido, porque no son superhéroes mágicos?

Los tamaños de los nodos representan sus influencias en la red (centralidad eigenvector). El líder es Tom Hanks (EC = 1), seguido de cerca por Leonardo DiCaprio y Robert De Niro en el rango de 0.9. Brad Pitt, Johnny Depp, Christian Bale y Morgan Freeman también se encuentran entre los nodos más grandes de la red.

Sin embargo, eso lleva a la pregunta: ¿Dónde están las mujeres?

La actriz que tiene la mayor influencia en la red es Kate Winslet con un EC de 0.45079, que es menos de la mitad de Tom Hanks. Meryl Streep, la actriz favorita de los Oscar, es segunda con un EC de 0.376124. Jennifer Lawrence, a pesar de su impresionante trayectoria ganadora de premios a temprana edad, tiene un mero EC de 0.291412.

Aquí hay una foto del nodo de Kate junto a otras actrices (¡y actores!) Igualmente influyentes:



Y aquí está el nodo de Kate en comparación con los nodos más grandes de actores (masculinos).



¿El CE bajo general de las actrices solo existe en las películas altamente calificadas? ¿Qué hay de los humildes? ¡Nos encontraremos pronto!

Red de actores en películas de baja calificación:

Al igual que en la red de las películas mejor calificadas, la red de películas de baja calificación también tiene forma de celda.



Aquí hay una vista general de la red.



Muy disperso, lo sé. Aquí hay una mirada más cercana para capturar los nodos más grandes:



Podemos notar algunos puntos interesantes.

En primer lugar, algunos actores que aparecen en las listas de películas altamente calificadas también aparecen aquí. Tenemos a Johnny Depp, Matthew McConaughey, Brad Pitt, Morgan Freeman, Anthony Hopkins y, por supuesto, a Robert De Niro, por nombrar algunos. Robert De Niro con un CE de 1 también es el actor con mayor influencia en la lista de películas de baja calificación.

En segundo lugar, la aparición de las actrices con grandes nodos en la lista.



Angelina Jolie Pitt tiene un EC de 0.59355, lo que hace que su nodo sea el tercero más grande en la lista (después de Robert De Niro y Dwayne Johnson). Mila Jovovich sigue con un EC de 0.5738. Ambos son más altos en comparación con el EC de Kate Winslet en la lista de películas altamente calificadas.

Conclusión:


  • Podemos decir que Tom Hanks y Leo DiCaprio tienen muy buen gusto en las películas. Si bien son los nodos más grandes en la lista de películas altamente calificadas, no existen o tienen una influencia muy baja en la lista de bajas calificaciones.
  • Johnny Depp, Matthew McConaughey, Brad Pitt, Morgan Freeman, Anthony Hopkins, etc. tienen un buen gusto al elegir películas. Algunas de sus elecciones son realmente buenas; algunos son muy malos También podrían estar en esas malas películas por el bien de ganar dinero, quién sabe.
  • Robert De Niro tiene un gusto extremo al elegir películas. Sin embargo, todavía me gusta él.
  • Las actrices tienden a tener menos influencia en películas altamente calificadas, y más influencia en las de baja calificación. ¿Por qué? Todavía no me he enterado.
  • Solo cuando comencé a escribir la conclusión me di cuenta de que no pesaba en la posición de las películas en las listas ni en las puntuaciones reales de IMDB de las películas mientras mapeaba la red. Una mejora de este análisis debe pesar esas características en el algoritmo.
  • Los Premios de la Academia 2017 se anunciarán mañana (26/02/2017). ¿Están el ganador del Oscar y el puntaje de IMDB correlacionado? Tal vez tal vez no.

¡Gracias por leer hasta el final!

viernes, 23 de marzo de 2018

Las matemáticas (redes) revolucionan el estudio de la historia

Las matemáticas están revolucionando el estudio de la historia: así es como

Matteo Valleriani
Senior Research Fellow, Max Planck Institute for the History of Science
The conversation


El estudio de la historia tradicionalmente trae a la mente imágenes de archivos oscuros y sinuosos y el olor a polvo; visiones de académicos examinando montones de documentos para descubrir secretos y encontrar la pieza faltante, montones que invariablemente son demasiado pequeños para cubrir el tema y demasiado altos para ser tratados.

Pero gracias a internet, una cantidad casi inconcebible de fuentes está ahora disponible para el historiador. La base de la investigación histórica (manuscritos, libros raros, imágenes y documentos de naturaleza privada y administrativa, como cartas y planes financieros) ahora se puede acceder desde casi cualquier lugar. Y esta mayor cantidad de fuentes históricas disponibles no solo significa que ahora lo sabemos mejor. Significa que ahora, podemos conocerlo de otra manera. Esta cantidad ha afectado la naturaleza de nuestra investigación. No solo ha cambiado los tipos de respuestas que el estudio histórico puede proporcionar, sino también qué preguntas formulamos.

La historia viene en dos sabores. Existe lo que yo llamo microhistoria, y luego está la reconstrucción histórica a largo plazo. El primero se caracteriza por estudios de caso detallados pero espacialmente limitados en el tiempo; el segundo es más bien una reflexión de segundo orden orientada por una hipótesis histórica. Este tipo abarca un largo lapso espacial y temporal, pero está informado por un número limitado de casos de estudio seleccionados.

Esto ha restringido por mucho tiempo el tipo de historia que se puede estudiar. Pero mediante el análisis matemático de grandes conjuntos de datos históricos, es posible integrar los dos enfoques, realizando un análisis profundo de fuentes de forma sistemática y cubriendo largas distancias espaciales y temporales. En el campo de la historia de la ciencia, en el que trabajo, esto nos permite investigar cómo se formaron los sistemas de conocimiento científico que ahora dictan nuestras vidas.

¿Por qué es esto posible? Primero, porque la selección de fuentes contra las cuales se prueban, modifican y, a veces se rechazan, las hipótesis históricas ha aumentado. Pero también porque un número tan grande de fuentes permite la consideración de más perspectivas simultáneamente.


Estos nuevos métodos permiten a los historiadores analizar datos mucho más variados de lo que era posible anteriormente. Pakula Piotr / Shutterstock.com

Una nueva historia

Por ejemplo, los historiadores del conocimiento ahora no solo pueden considerar un corpus de fuentes mucho más grande, como una gran cantidad de tratados científicos del pasado, sino también las fuentes relacionadas con el contexto institucional, económico y social en el que se produjeron tales tratados. Los historiadores han pedido durante mucho tiempo una historia de conocimiento contextualizada, pero hasta ahora, las reconstrucciones históricas a largo plazo solo podían conectar unos pocos ejemplos bien estudiados por medio de hipótesis específicas de naturaleza económica o conceptual.

Pero si un corpus de fuentes mucho más grande puede ser considerado y analizado en detalle, podemos reflexionar más ampliamente sobre los mecanismos de evolución del conocimiento. Esto nos permite avanzar hacia una comprensión más abstracta de nuestro pasado. Podemos hablar sobre los mecanismos de la historia, y otras humanidades, de una manera totalmente nueva e informada.

Una nueva disciplina, las humanidades digitales, surgió para permitir a los académicos administrar esta gran cantidad de información. Las fuentes históricas, sus copias electrónicas y los metadatos bibliográficos están cada vez más inmersos en un marco de anotaciones, ideas y relaciones electrónicamente producidas por los historiadores mientras estudian nuestro patrimonio material e intelectual. Se han creado repositorios apropiados para todos estos datos y se está desarrollando un formato estándar para su preservación y reutilización independientemente de estas plataformas y herramientas.

El acceso abierto a los datos, incluso más que a las publicaciones, se está convirtiendo en un imperativo. La escritura de la historia está llevando a las humanidades a contribuir a esa nueva frontera de la ciencia llamada Big Data.

Historiador-matemáticos

Entonces los historiadores ahora también tienen que entender sus propias matemáticas. Si bien una base de datos nunca es mucho más que una expresión de álgebra aritmética o lineal, la creciente cantidad de datos disponibles exige un enfoque más sofisticado. Al unir fuerzas con la sociología, la escritura de historia está ahora entrando en una nueva fase, caracterizada por la aplicación de algoritmos y flujos de trabajo tomados del campo del análisis de redes sociales.


Un ejemplo de visualización de una red social. Grandjean Martin, CC BY-SA

Los datos históricos están siendo explorados por medio de visualizaciones de gráficos y parámetros de red. En particular, algunos modelos y paquetes permiten a los historiadores simular cómo las redes cambian según las decisiones de los involucrados. Estas simulaciones se basan en hipótesis formuladas por los historiadores y codificadas en los guiones. Un ejemplo de hipótesis podría ser "las diferencias religiosas no representan ningún obstáculo para la comunicación en la sociedad científica".

Por ejemplo, el historiador Ingeborg van Vugt ha utilizado este enfoque de varias capas para explorar las diferentes formas en que circuló la información en la República de las Letras, la comunidad intelectual de larga distancia de finales del siglo XVII y XVIII en Europa y América. Tal investigación nos permite visualizar mejor cómo se desarrolló la Era de la Ilustración, impulsada por estos intelectuales. El siguiente paso podría ser estadísticamente modelar esta red, y así poder continuar con su pregunta de investigación integrando una cantidad de datos aún más amplia.

Un modelo de red para estudios en historia del conocimiento debe considerar un conjunto de datos inusualmente variado. Están los datos de naturaleza social relacionados con personas y organizaciones; relacionado con aspectos materiales de la historia, como la vida de conservación de un libro; y los datos que representan el conocimiento real, el contenido de las fuentes. Estos son tres niveles diferentes de una y la misma red en evolución para los cuales los modelos matemáticos explicativos han sido concebidos raramente y aún menos realizados. Desde esta perspectiva, la escritura de la historia está a punto de desafiar las estadísticas aplicadas.

Aunque el modelado matemático en el marco de la historia está claramente en sus primeros pasos, su introducción ya parece imparable. Esto está creando las condiciones para el surgimiento de una nueva visión, según la cual podríamos desarrollar modelos matemáticos generales para explicar cómo las ideas y el conocimiento cambiaron desde una perspectiva social e histórica. Quizás podríamos incluso utilizar estos modelos en diferentes áreas de investigación científica dedicadas al presente y al futuro. Y en un futuro así, las humanidades y la ciencia exacta comenzarán a usar el mismo lenguaje matemático.

miércoles, 21 de marzo de 2018

Los rusos usaron cuentas chavistas durante la crisis catalana

La trama rusa empleó redes chavistas para agravar la crisis catalana

Un análisis de más de cinco millones de mensajes de la Universidad George Washington revela que RT y Sputnik usaron miles de cuentas para propagar una imagen negativa de España antes y después del 1-O

La trama rusa empleó redes chavistas para agravar la crisis catalana

David Alandete || El País




Dos medios del Kremlin, RT y Sputnik, se valieron de un elevadísimo número de cuentas en redes sociales en el entorno del chavismo y Venezuela para propagar una imagen negativa de España en las jornadas anteriores y posteriores al referéndum del 1 de octubre, según un pormenorizado análisis de más de cinco millones de mensajes de la universidad George Washington, en EE UU. El informe advierte de la “grave crisis de reputación, política y económica en España y en la UE”.

La principal conclusión del estudio es que los líderes políticos y las instituciones tradicionales han perdido peso a la hora de influir en la opinión pública. Su lugar lo han ocupado otros actores, mucho más difíciles de seguir y controlar, y que ya no se circunscriben al ámbito político y mediático de un solo país. En el caso del pulso soberanista catalán, la narrativa de los partidos constitucionalistas en el Gobierno y en la oposición quedó reducida por una compleja red de mensajes originados en medios prorrusos y amplificados en parte por el chavismo.



Para el estudio se ha utilizado un software avanzado de medición y análisis de big data que utiliza tecnología española. Su autor, Javier Lesaca, es investigador visitante en la Escuela de Medios y Asuntos Públicos de la George Washington University. Ha analizado en total 5.029.877 mensajes en Twitter, Facebook y otras redes sociales que emplearon los términos Cataluña, Catalunya y Catalonia entre el 29 de septiembre y el 5 de octubre.

“Lo más sorprendente de la investigación ha sido descubrir todo un ejército de cuentas zombis perfectamente coordinadas que se dedican a compartir contenidos generados por RT y Sputnik en diversas conversaciones digitales, que van desde Siria y Estados Unidos hasta Cataluña”, asegura Lesaca. “Hay indicios para pensar que el patrón de disrupción digital que se ha detectado en debates digitales sobre las elecciones de Estados Unidos o el Brexit se ha producido también en Cataluña y que los actores de esta disrupción son los mismos”.

La trama rusa empleó redes chavistas para agravar la crisis catalana La red de injerencia rusa sitúa Cataluña entre sus prioridades para debilitar Europa
Desde la mesa del Consejo de Ministros se reconoció este viernes que el Gobierno tiene información contrastada de que en la crisis catalana ha habido mensajes disruptivos procedentes de “territorio ruso” y se añadió que había “de otros lugares”, informa Anabel Díez. Fuentes gubernamentales reconocieron posteriormente que con esos “otros lugares” se referían a Venezuela.

Un claro ejemplo: RT publicó múltiples noticias sobre Cataluña. Estas se difundieron luego en redes sociales, provocando una conversación con mensajes y respuestas en las que uno de los términos más empleados fue #VenezuelaSaludaACataluña, por encima de menciones a la OTAN, la UE o Julian Assange. En lo que respecta a Sputnik, la segunda noticia más compartida fue: “Maduro: Rajoy debe responder al mundo por lo que ha hecho en Cataluña”.

La mitad de las noticias compartidas por RT en las jornadas inmediatamente anteriores y posteriores al referéndum del 1 de octubre fueron sobre la supuesta violencia policial, con titulares como: “Fuertes vídeos: la brutal represión de la policía contra los votantes del referéndum catalán” o “Cataluña elige su destino entre porras y balas de goma”.

El análisis de los mensajes en redes sobre la crisis catalana revela que los dos medios rusos, financiados ambos por el Kremlin, lograron que sus enlaces se compartieran más que los de los medios públicos españoles EFE y RTVE, o que cabeceras privadas internacionales como The Guardian o CNN. Según concluye el informe, “los conglomerados mediáticos rusos RT y Sputnik han participado en una estrategia deliberada de disrupción en la conversación digital global sobre Cataluña”.


Es significativa la plataforma que emplearon para propagar y viralizar esos mensajes, según el análisis de Lesaca: la mayoría, un 32%, fueron cuentas chavistas o de Venezuela, seguidas por perfiles falsos o automatizados (25%), cuentas anónimas con coberturas reales que sólo se dedican a difundir contenido de RT y Sputnik (30%) y canales oficiales de estos dos medios (10%). Solo un 3% de la conversación obedeció a perfiles reales fuera de esos grupos de interés. Una de las cuentas más activas fue @MarinoEscalante en Twitter, que ha compartido enlaces de RT con mensajes como “Rajoy y el Rey franquista de #España ven la paja en el ojo de Maduro, pero no en #Cataluña”.

Esta procedencia queda confirmada por el análisis de las cuentas que a la hora de publicar mensajes en Twitter, Facebook y otras redes sociales hacen pública su geolocalización. Venezuela es su ubicación más común por detrás de España. De entre los que compartieron el contenido de RT sobre la crisis catalana, un 13,18% están en Venezuela.En el caso de Sputnik, son un 10,46%.

Como afirma el informe, la mayoría de perfiles digitales anónimos analizados “están asociados a cuentas o nodos que se originan en Venezuela y que claramente muestran su simpatía hacia el régimen de Nicolás Maduro, el Partido Socialista Unido de Venezuela o su líder [difunto] Hugo Chávez”. El estudio añade que “en algunos casos, se detecta que esas cuentas publican el mismo contenido al mismo tiempo, reforzando la hipótesis del empleo de robots”.

El empleo de los bots es crucial en este tipo de estrategias de disrupción: se crean noticias inventadas o con enfoques partidistas o manipulados. Luego se publican en algún foro, por oscuro que sea. Después, se difunden los mensajes en redes sociales y una verdadera legión de cuentas falsas procede a compartirlos de forma automática, haciendo que los algoritmos digitales les dediquen un lugar destacado.

Según Lesaca, “los sistemas democráticos tienen la obligación de investigar estos indicios e implementar métodos sistemáticos de monitoreo y respuesta frente a presuntas disrupciones de agentes extranjeros. Las guerras y conflictos internacionales se están librando ya en la opinión pública”.

UNA RED EN CUYO CENTRO ESTÁ VENEZUELA
El gran entramado de cuentas en redes sociales que controlan tanto Rusia como el chavismo logró que una determinada interpretación de la crisis catalana dominara la conversación global en foros como Twitter. Lo demuestra el gráfico que encabeza esta información, que identifica visualmente las cuentas más activas y las conexiones entre estas.
Esas informaciones, que habitualmente describen una supuesta brutalidad policial en el referéndum del 1 de octubre y que en ocasiones restaban importancia a que el referéndum hubiera sido ilegalizado por la justicia, fueron compartidas con mayor intensidad —los puntos rojos— por cuentas chavistas, que ocuparon el lugar central de la conversación social sobre la crisis en Cataluña.
Los vídeos más compartidos en esas redes, por ejemplo, fueron los que mostraban cargas policiales durante el referéndum, con mensajes alarmistas y en ocasiones con opiniones que referían a una supuesta carencia democrática del Estado español en esta crisis.
Es decir: hubo un esfuerzo consciente y coordinado por parte de esas cuentas en la órbita venezolana por amplificar al máximo las informaciones procedentes de los medios estatales rusos RT y Sputnik, algo que también hicieron activistas en la órbita rusa como Edward Snowden.
El estudio apunta la conclusión clara de esta estrategia: “La narrativa que generaron los grupos pro-independentistas, contraria al Gobierno de España, dominó la conversación de forma hegemónica en inglés, español y catalán”.

domingo, 18 de marzo de 2018

Informante revela uso de 50 millones de perfiles de Facebook para campaña electoral en USA


El CEO de Cambridge Analytica Alexander Nix habla en la Cumbre Concordia 2016 - Día 1 en Grand Hyatt New York el 19 de septiembre de 2016 en la ciudad de Nueva York. Bryan Bedder vía Getty Images

Revelado: 50 millones de perfiles de Facebook cosechados para Cambridge Analytica en violación de datos importantes

Delator describe cómo la empresa vinculada al ex asesor de Trump, Steve Bannon compiló los datos de los usuarios para apuntar a los votantes estadounidenses

• Cómo los algoritmos de Cambridge Analytica convirtieron los "me gusta" en una herramienta política

Carole Cadwalladr y Emma Graham-Harrison | The Guardian



Denunciante de Cambridge Analytica: 'Gastamos $ 1m recolectando millones de perfiles de Facebook' - video

La firma analítica de datos que trabajó con el equipo electoral de Donald Trump y la ganadora campaña Brexit recolectó millones de perfiles de Facebook de votantes estadounidenses, en una de las infracciones de datos más grandes del gigante tecnológico, y los usó para construir un poderoso programa de software para predecir e influir en las elecciones en las urnas.

Un denunciante ha revelado al observador cómo Cambridge Analytica - una empresa propiedad del multimillonario de fondos de cobertura Robert Mercer, y encabezada en ese momento por el asesor clave de Trump, Steve Bannon - usó información personal tomada sin autorización a principios de 2014 para construir un sistema que pudiera perfilarse votantes estadounidenses individuales, con el fin de dirigirlos a ellos con publicidades políticas personalizadas.


Christopher Wylie, el alcahuete de Cambridge Analytica

Christopher Wylie, que trabajó con un académico de la Universidad de Cambridge para obtener los datos, le dijo al observador: "Aprovechamos Facebook para recolectar millones de perfiles de personas. Y construyó modelos para explotar lo que sabíamos acerca de ellos y apuntar a sus demonios internos. Esa fue la base sobre la que se basó toda la compañía ".

Los documentos vistos por el Observer, y confirmados por una declaración de Facebook, muestran que a fines de 2015 la compañía había descubierto que la información se había recolectado a una escala sin precedentes. Sin embargo, en ese momento no alertó a los usuarios y tomó solo medidas limitadas para recuperar y proteger la información privada de más de 50 millones de personas.

Perfiles
Cambridge Analytica: los jugadores clave

Alexander Nix, CEO
Antiguo Etoniano de la Universidad de Manchester, Nix, de 42 años, trabajó como analista financiero en México y el Reino Unido antes de unirse a SCL, una empresa de comunicaciones estratégicas, en 2003. Desde 2007 asumió la división de elecciones de la compañía, y afirma tener trabajó en 260 campañas a nivel mundial. Estableció Cambridge Analytica para trabajar en Estados Unidos, con la inversión de Robert Mercer.
Aleksandr Kogan, minero de datos
Aleksandr Kogan nació en Moldavia y vivió en Moscú hasta la edad de siete años, luego se mudó con su familia a los Estados Unidos, donde se convirtió en ciudadano naturalizado. Estudió en la Universidad de California, Berkeley, y obtuvo su doctorado en la Universidad de Hong Kong antes de unirse a Cambridge como profesor de psicología y experto en psicometría de redes sociales. Estableció Global Science Research (GSR) para llevar a cabo la investigación de datos de CA. Mientras estuvo en Cambridge, aceptó un puesto en la Universidad Estatal de San Petersburgo y también recibió becas del gobierno ruso para investigación. Cambió su nombre a Spectre cuando se casó, pero luego volvió a Kogan.
Steve Bannon, ex miembro de la junta
Un ex banquero de inversión convertido en un svengali de medios "alt-right", Steve Bannon era el jefe del sitio web Breitbart cuando conoció a Christopher Wylie y Nix y aconsejó a Robert Mercer que invierta en investigación de datos políticos estableciendo CA. En agosto de 2016 se convirtió en el CEO de campaña de Donald Trump. Bannon alentó a la estrella de televisión a adoptar la agenda "populista, nacionalista económico" que lo llevaría a la Casa Blanca. Eso le valió a Bannon el puesto de estratega jefe del presidente y durante un tiempo fue posiblemente el segundo hombre más poderoso de Estados Unidos. Para agosto de 2017, su relación con Trump se había agriado y él estaba fuera.
Robert Mercer, inversor
Robert Mercer, de 71 años, es un informático y multimillonario de fondos de cobertura, que usó su fortuna para convertirse en uno de los hombres más influyentes en la política estadounidense como uno de los principales donantes republicanos. Un experto en inteligencia artificial, hizo una fortuna con los pioneros en comercio cuantitativo Renaissance Technologies, y luego construyó un cofre de guerra de 60 millones de dólares para respaldar causas conservadoras mediante el uso de un vehículo de inversión offshore para evitar los impuestos estadounidenses.
Rebekah Mercer, inversionista
Rebekah Mercer es matemática de Stanford y trabajó como comerciante, pero su influencia proviene principalmente de los miles de millones de su padre. El cuarenta y tantos, la segunda de las tres hijas de Mercer, encabeza la fundación familiar que canaliza el dinero a los grupos de derecha. Los mega-donantes conservadores respaldaron a Breitbart, Bannon y, más influyente, invirtieron millones en la campaña presidencial de Trump.

The New York Times informa que todavía se pueden encontrar copias de los datos recopilados para Cambridge Analytica en línea; su equipo de informes había visto algunos de los datos sin procesar.

Los datos fueron recolectados a través de una aplicación llamada thisisyourdigitallife, construida por el académico Aleksandr Kogan, separada de su trabajo en la Universidad de Cambridge. A través de su empresa Global Science Research (GSR), en colaboración con Cambridge Analytica, se les pagó a cientos de miles de usuarios para que realicen una prueba de personalidad y acordaron que se recopilaran sus datos para uso académico.

Sin embargo, la aplicación también recopiló la información de los amigos de Facebook de los candidatos, lo que llevó a la acumulación de un grupo de datos de decenas de millones de personas. La "política de plataforma" de Facebook permitió solo la recopilación de datos de amigos para mejorar la experiencia del usuario en la aplicación y prohibió su venta o uso para publicidad. El descubrimiento de la recolección de datos sin precedentes, y el uso que se le dio, plantea nuevas preguntas urgentes sobre el papel de Facebook en la selección de votantes en las elecciones presidenciales de Estados Unidos. Se produce solo semanas después de las acusaciones de 13 rusos formuladas por el asesor especial Robert Mueller, que afirmaba que habían utilizado la plataforma para perpetrar una "guerra de información" contra los EE. UU.

Cambridge Analytica y Facebook son un foco de una investigación sobre datos y política realizada por la Oficina del Comisionado de Información británico. Por otro lado, la Comisión Electoral también está investigando qué papel desempeñó Cambridge Analytica en el referéndum de la UE.

"Estamos investigando las circunstancias en que los datos de Facebook pueden haber sido adquiridos y utilizados ilegalmente", dijo la comisionada de información Elizabeth Denham. "Es parte de nuestra investigación en curso sobre el uso de análisis de datos para fines políticos que se inició para considerar cómo los partidos políticos y las campañas, las empresas de análisis de datos y las plataformas de redes sociales en el Reino Unido están utilizando y analizando información personal de las personas para micro-segmentar a los votantes. "

El viernes, cuatro días después, The Observer buscó comentarios para esta historia, pero más de dos años después de que se informara la violación de datos, Facebook anunció que suspendería Cambridge Analytica y Kogan de la plataforma, a la espera de más información sobre el uso indebido de datos. Por otra parte, los abogados externos de Facebook advirtieron al observador que estaba haciendo acusaciones "falsas y difamatorias", y se reservaron la posición legal de Facebook.



Consejero clave de Trump Steve Bannon 

Las revelaciones provocaron una indignación generalizada. La fiscal general de Massachusetts, Maura Healey, anunció que el estado lanzaría una investigación. "Los residentes merecen respuestas inmediatamente de Facebook y Cambridge Analytica", dijo en Twitter.

El senador demócrata Mark Warner dijo que la recolección de datos en una escala tan amplia para la focalización política subrayó la necesidad de que el Congreso mejore los controles. Ha propuesto una Ley de anuncios honestos para regular la publicidad política en línea de la misma manera que la televisión, la radio y la prensa. "Esta historia es más evidencia de que el mercado de publicidad política en línea es esencialmente el Salvaje Oeste. Ya sea que les permita a los rusos comprar avisos políticos, o una amplia microtelevisión basada en datos de usuarios mal comprados, está claro que, si no se regula, este mercado seguirá siendo propenso al engaño y carente de transparencia ", dijo.

El mes pasado, tanto Facebook como el CEO de Cambridge Analytica, Alexander Nix, dijeron en una investigación parlamentaria sobre noticias falsas: que la compañía no tenía ni usaba datos privados de Facebook.

Simon Milner, director de políticas del Reino Unido de Facebook, cuando se le preguntó si Cambridge Analytica tenía datos de Facebook, le dijo a los parlamentarios: "Pueden tener muchos datos, pero no serán datos de usuarios de Facebook". Pueden ser datos sobre personas que están en Facebook que se han reunido, pero no son datos que hemos proporcionado ".

El director ejecutivo de Cambridge Analytica, Alexander Nix, dijo a la consulta: "No trabajamos con datos de Facebook y no tenemos datos de Facebook".

Wylie, un experto en análisis de datos canadiense que trabajó con Cambridge Analytica y Kogan para diseñar e implementar el esquema, mostró un dosier de pruebas sobre el uso indebido de datos para el Observer que parece suscitar preguntas sobre su testimonio. Lo ha pasado a la unidad de ciberdelincuencia de la Agencia Nacional de Crimen y a la Oficina del Comisionado de Información. Incluye correos electrónicos, facturas, contratos y transferencias bancarias que revelan que más de 50 millones de perfiles, en su mayoría pertenecientes a votantes estadounidenses registrados, se obtuvieron del sitio en una de las mayores violaciones de datos de Facebook. Facebook el viernes dijo que también estaba suspendiendo a Wylie de acceder a la plataforma mientras llevaba a cabo su investigación, a pesar de su papel como delator.

En el momento de la violación de los datos, Wylie era un empleado de Cambridge Analytica, pero Facebook lo describió como que trabajaba para Eunoia Technologies, una empresa que creó por su cuenta después de dejar a su antiguo empleador a finales de 2014.

La evidencia que Wylie suministró a las autoridades del Reino Unido y los EE. UU. Incluye una carta de los propios abogados de Facebook que le enviaron en agosto de 2016, pidiéndole que destruya todos los datos que tenía recogidos por GSR, la empresa creada por Kogan para recolectar los perfiles.

¿Qué son los archivos de Cambridge Analytica?
Al trabajar con un informante que ayudó a configurar Cambridge Analytica, el Observer y Guardian han visto documentos y recopilado informes de testigos que levantan la tapa de la empresa de análisis de datos que ayudó a Donald Trump a la victoria. La compañía está siendo investigada en ambos lados del Atlántico. Es un tema clave en dos investigaciones en el Reino Unido - por la Comisión Electoral, sobre el posible papel de la empresa en el referéndum de la UE y la Oficina del Comisionado de Información, en análisis de datos con fines políticos - y uno en los EE. UU., Como parte de un abogado especial La investigación de Robert Mueller sobre la colusión entre Trump y Rusia.

Esa carta legal fue enviada varios meses después de que The Guardian informara por primera vez de la violación y días antes de que se anunciara oficialmente que Bannon estaba asumiendo el control como jefe de campaña de Trump y trayendo Cambridge Analytica con él.

"Debido a que estos datos se obtuvieron y usaron sin permiso, y debido a que GSR no estaba autorizado a compartirlos o venderlos, no se pueden usar legítimamente en el futuro y deben eliminarse inmediatamente", decía la carta.

Facebook no solicitó una respuesta cuando la carta inicialmente no recibió respuesta durante semanas porque Wylie estaba de viaje, y tampoco siguió con controles forenses en sus computadoras o almacenamiento, dijo.

"Eso para mí fue lo más sorprendente". Esperaron dos años y no hicieron absolutamente nada para verificar que los datos se borraron. Todo lo que me pidieron que hiciera fue marcar una casilla en un formulario y publicarlo nuevamente ".

Paul-Olivier Dehaye, especialista en protección de datos, quien encabezó los esfuerzos de investigación en el gigante tecnológico, dijo: "Facebook ha negado, negado y negado esto. Ha engañado a los parlamentarios y a los investigadores del Congreso y ha fallado en sus deberes de respetar la ley.

"Tiene la obligación legal de informar a reguladores e individuos sobre esta violación de datos, y no es así. Una y otra vez ha fallado ser abierto y transparente ".

Aprovechamos Facebook para cosechar millones de perfiles. Y construir modelos para explotar eso y apuntar a sus demonios internos
Christopher Wylie
La mayoría de los estados estadounidenses tienen leyes que requieren notificación en algunos casos de violación de datos, incluyendo California, donde se basa Facebook.

Facebook niega que la recolección de decenas de millones de perfiles por parte de GSR y Cambridge Analytica haya sido una violación de datos. Dijo en un comunicado que Kogan "obtuvo acceso a esta información de manera legítima y a través de los canales adecuados", pero "no acató nuestras reglas" porque transmitió la información a terceros.

Facebook dijo que retiró la aplicación en 2015 y exigió la certificación de todos los que tenían copias de que los datos habían sido destruidos, aunque la carta a Wylie no llegó hasta la segunda mitad de 2016. "Nos comprometemos a aplicar enérgicamente nuestras políticas para proteger la información de las personas . Tomaremos todos los pasos necesarios para garantizar que esto ocurra ", dijo en un comunicado Paul Grewal, vicepresidente de Facebook. La compañía ahora está investigando informes de que no se han eliminado todos los datos.

Kogan, que anteriormente no informó enlaces a una universidad rusa y tomó subvenciones rusas para investigación, tenía una licencia de Facebook para recopilar datos de perfil, pero solo para fines de investigación. Entonces cuando buscó información para la empresa comercial, estaba violando los términos de la compañía. Kogan sostiene que todo lo que hizo era legal, y dice que tenía una "relación de trabajo cercana" con Facebook, que le había otorgado permiso para sus aplicaciones.

Cómo se desarrolló la historia

The Observer ha visto un contrato con fecha del 4 de junio de 2014, que confirma que SCL, una filial de Cambridge Analytica, celebró un acuerdo comercial con GSR, totalmente basado en la recolección y el procesamiento de datos de Facebook. Cambridge Analytica gastó casi $ 1 millón en la recopilación de datos, lo que arrojó más de 50 millones de perfiles individuales que podrían combinarse con las listas electorales. A continuación, utilizó los resultados de las pruebas y los datos de Facebook para construir un algoritmo que podría analizar perfiles de Facebook individuales y determinar los rasgos de personalidad relacionados con el comportamiento electoral.

El algoritmo y la base de datos juntos constituyeron una poderosa herramienta política. Permitió una campaña para identificar posibles votantes indecisos y crear mensajes con más probabilidades de resonar.

"El producto final del conjunto de capacitación es la creación de un 'estándar de oro' para comprender la personalidad desde la información de perfil de Facebook", especifica el contrato. Promete crear una base de datos de 2 millones de perfiles "coincidentes", identificables y vinculados a los registros electorales, en 11 estados, pero con espacio para expandirse mucho más.