viernes, 6 de julio de 2018

Desinformación, sesgos y complejidad de la viralidad



La desinformación y los sesgos infectan las redes sociales, tanto intencionalmente como accidentalmente


Las personas que comparten una posible información errónea en Twitter (en morado) rara vez llegan a ver correcciones o verificación de datos (en naranja). Shao et al., CC BY-ND

Giovanni Luca Ciampaglia y Filippo Menczer | The Conversation


Las redes sociales se encuentran entre las principales fuentes de noticias en los EE. UU. Y en todo el mundo. Sin embargo, los usuarios están expuestos a contenido de precisión cuestionable, que incluye teorías de conspiración, clickbait, contenido hiperpartidista, pseudociencia e incluso informes inventados de "noticias falsas".

No es de extrañar que haya tanta desinformación publicada: el spam y el fraude en línea son lucrativos para los delincuentes, y la propaganda gubernamental y política produce beneficios tanto partidarios como financieros. Pero el hecho de que el contenido de baja credibilidad se propague tan rápida y fácilmente sugiere que las personas y los algoritmos detrás de las plataformas de medios sociales son vulnerables a la manipulación.



Explicando las herramientas desarrolladas en el Observatorio de Redes Sociales.

Nuestra investigación ha identificado tres tipos de prejuicios que hacen que el ecosistema de las redes sociales sea vulnerable a la desinformación intencional y accidental. Es por eso que nuestro Observatorio de Redes Sociales de la Universidad de Indiana está creando herramientas para ayudar a las personas a tomar conciencia de estos prejuicios y protegerse de las influencias externas diseñadas para explotarlas.

Sesgo en el cerebro

Los sesgos cognitivos se originan en la forma en que el cerebro procesa la información que cada persona encuentra todos los días. El cerebro puede manejar solo una cantidad finita de información, y demasiados estímulos entrantes pueden causar sobrecarga de información. Eso en sí mismo tiene serias implicaciones para la calidad de la información en las redes sociales. Hemos descubierto que la fuerte competencia por la atención limitada de los usuarios significa que algunas ideas se vuelven virales a pesar de su baja calidad, incluso cuando las personas prefieren compartir contenido de alta calidad.

Para evitar sentirse abrumado, el cerebro usa una serie de trucos. Estos métodos generalmente son efectivos, pero también pueden convertirse en sesgos cuando se aplican en contextos incorrectos.

Un acceso directo cognitivo ocurre cuando una persona decide si comparte una historia que aparece en su feed de redes sociales. Las personas se ven muy afectadas por las connotaciones emocionales de un titular, a pesar de que no es un buen indicador de la precisión de un artículo. Mucho más importante es quién escribió la pieza.

Para contrarrestar este sesgo y ayudar a las personas a prestar más atención a la fuente de un reclamo antes de compartirlo, desarrollamos Fakey, un juego de alfabetización móvil de noticias (gratuito para Android e iOS) que simula un medio de noticias típico de las redes sociales, con una mezcla de noticias artículos de fuentes principales y de poca credibilidad. Los jugadores obtienen más puntos por compartir noticias de fuentes confiables y marcar contenido sospechoso para verificar los hechos. En el proceso, aprenden a reconocer señales de credibilidad de la fuente, como reclamos hiperpartidistas y titulares con carga emocional.






Screenshots del Fakey game. Mihai Avram and Filippo Menczer

Sesgo en la sociedad

Otra fuente de sesgo proviene de la sociedad. Cuando las personas se conectan directamente con sus pares, los sesgos sociales que guían su selección de amigos influyen en la información que ven.

De hecho, en nuestra investigación hemos descubierto que es posible determinar las tendencias políticas de un usuario de Twitter simplemente observando las preferencias partidistas de sus amigos. Nuestro análisis de la estructura de estas redes de comunicación partidistas encontró que las redes sociales son particularmente eficientes en la diseminación de información, precisa o no, cuando están estrechamente vinculadas y desconectadas de otras partes de la sociedad.

La tendencia a evaluar la información de forma más favorable si proviene de sus propios círculos sociales crea "cámaras de eco" que están maduras para la manipulación, ya sea consciente o involuntariamente. Esto ayuda a explicar por qué tantas conversaciones en línea se convierten en confrontaciones de "nosotros contra ellos".

Para estudiar cómo la estructura de las redes sociales en línea hace que los usuarios sean vulnerables a la desinformación, creamos Hoaxy, un sistema que rastrea y visualiza la propagación del contenido desde fuentes de baja credibilidad, y cómo compite con el contenido de verificación de datos. Nuestro análisis de los datos recopilados por Hoaxy durante las elecciones presidenciales de EE. UU. En 2016 muestra que las cuentas de Twitter que compartieron información falsa quedaron casi completamente aisladas de las correcciones hechas por los inspectores de hechos.

Cuando profundizamos en las cuentas que difunden información errónea, encontramos un grupo central de cuentas muy denso retwitteándose casi exclusivamente, incluidos varios bots. Las únicas veces que los usuarios del grupo desinformado citaron o mencionaron organizaciones de verificación de hechos fueron cuando cuestionaron su legitimidad o afirmaron lo contrario de lo que escribieron.



Una captura de pantalla de una búsqueda de Hoaxy muestra cómo los bots comunes, en rojo y rosa oscuro, están difundiendo una historia falsa en Twitter. Hoaxy


Sesgo en la máquina


El tercer grupo de sesgos surge directamente de los algoritmos utilizados para determinar lo que las personas ven en línea. Tanto las plataformas de redes sociales como los motores de búsqueda los emplean. Estas tecnologías de personalización están diseñadas para seleccionar solo el contenido más atractivo y relevante para cada usuario individual. Pero al hacerlo, puede terminar reforzando los sesgos cognitivos y sociales de los usuarios, lo que los hace aún más vulnerables a la manipulación.
Por ejemplo, las herramientas de publicidad detalladas integradas en muchas plataformas de redes sociales permiten a los activistas de la desinformación explotar el sesgo de confirmación adaptando los mensajes a las personas que ya están inclinadas a creer en ellos.
Además, si un usuario a menudo hace clic en los enlaces de Facebook desde una fuente de noticias en particular, Facebook tenderá a mostrar a esa persona más del contenido de ese sitio. Este efecto llamado "burbuja de filtro" puede aislar a las personas desde perspectivas diversas, lo que fortalece el sesgo de confirmación.

Nuestra propia investigación muestra que las plataformas de redes sociales exponen a los usuarios a un conjunto de fuentes menos diversas que los sitios de medios no sociales como Wikipedia. Debido a que esto está al nivel de una plataforma completa, no de un solo usuario, llamamos a esto el sesgo de homogeneidad.

Otro ingrediente importante de las redes sociales es la información que está en tendencia en la plataforma, de acuerdo con lo que obtiene la mayor cantidad de clics. Llamamos a este sesgo de popularidad, porque hemos descubierto que un algoritmo diseñado para promover contenido popular puede afectar negativamente la calidad general de la información en la plataforma. Esto también alimenta el sesgo cognitivo existente, reforzando lo que parece ser popular independientemente de su calidad.

Todos estos sesgos algorítmicos pueden ser manipulados por bots sociales, programas informáticos que interactúan con los humanos a través de cuentas de redes sociales. La mayoría de los bots sociales, como el Big Ben de Twitter, son inofensivos. Sin embargo, algunos ocultan su naturaleza real y se utilizan con fines maliciosos, como aumentar la desinformación o crear falsamente la apariencia de un movimiento de base, también llamado "astroturfing". Encontramos pruebas de este tipo de manipulación en el período previo al 2010 Elecciones de medio término en los EE. UU.



Para estudiar estas estrategias de manipulación, desarrollamos una herramienta para detectar bots sociales llamada Botometer. Botometer utiliza el aprendizaje automático para detectar cuentas de bots, mediante la inspección de miles de características diferentes de las cuentas de Twitter, como los tiempos de sus publicaciones, la frecuencia de los tweets y las cuentas que sigue y los retweets. No es perfecto, pero reveló que hasta el 15 por ciento de las cuentas de Twitter muestran signos de ser bots.

Usando Botometer junto con Hoaxy, analizamos el núcleo de la red de desinformación durante la campaña presidencial 2016 en Estados Unidos. Encontramos muchos bots explotando los sesgos cognitivos, de confirmación y de popularidad de sus víctimas y los sesgos algorítmicos de Twitter.

Estos robots pueden construir burbujas de filtro alrededor de usuarios vulnerables, proporcionándoles falsas afirmaciones y desinformación. En primer lugar, pueden atraer la atención de los usuarios humanos que apoyan a un candidato en particular al tuitear los hashtags de ese candidato o al mencionar y retuitear a la persona. Luego, los bots pueden amplificar las afirmaciones falsas que manchan a los oponentes retwitteando artículos de fuentes de poca credibilidad que coinciden con ciertas palabras clave. Esta actividad también hace que el algoritmo destaque para otros usuarios historias falsas que se comparten ampliamente.

Comprender vulnerabilidades complejas

A pesar de que nuestra investigación, y la de otros, muestra cómo las personas, las instituciones e incluso sociedades enteras pueden ser manipuladas en las redes sociales, quedan muchas preguntas por responder. Es especialmente importante descubrir cómo estos diferentes sesgos interactúan entre sí, creando potencialmente vulnerabilidades más complejas.

Herramientas como la nuestra ofrecen a los usuarios de Internet más información sobre desinformación y, por lo tanto, cierto grado de protección contra sus daños. Las soluciones probablemente no sean solo tecnológicas, aunque probablemente haya algunos aspectos técnicos para ellas. Pero deben tener en cuenta los aspectos cognitivos y sociales del problema.

miércoles, 4 de julio de 2018

Otra introducción al ARS

Análisis de redes sociales: estado del arte


Contribuido por: Bart Baesens | datamining apps


Introducción

En las últimas décadas, el uso de sitios web de redes sociales en la vida cotidiana de todos está en auge. Las personas pueden continuar sus conversaciones en sitios de redes sociales como Facebook, Twitter, LinkedIn, Google+, Instagram, etc., y compartir sus experiencias con sus conocidos, amigos, familiares, etc. Solo hace falta un clic para actualizar su ubicación al resto de el mundo. Hay muchas opciones para transmitir sus actividades actuales: por una imagen, video, ubicación geográfica, enlaces o simplemente texto sin formato.

Los usuarios de los sitios de redes sociales en línea revelan explícitamente sus relaciones con otras personas. En consecuencia, los sitios de redes sociales son un mapeo casi perfecto de las relaciones que existen en el mundo real. Saben quién eres, cuáles son tus aficiones e intereses, con quién te casas, cuántos hijos tienes, tus amigos con los que trabajas todas las semanas, tus amigos del club del vino, etc. Esta red interconectada de gente que sabe el uno al otro de alguna manera es una fuente de información y conocimiento extremadamente interesante. Los gerentes de marketing ya no necesitan adivinar quién podría influir en quién crear la campaña adecuada. Está todo allí ... cuál es el problema. Los sitios de redes sociales reconocen la riqueza de las fuentes de datos que tienen y no están dispuestos a compartirlos sin costo. Esos datos a menudo se privatizan y regulan, y están bien ocultos para uso comercial. Por otro lado, los sitios de redes sociales ofrecen muchas facilidades incorporadas a los gerentes y otras partes interesadas para lanzar y administrar sus campañas de mercadotecnia explotando la red social, sin publicar la representación exacta de la red.

Sin embargo, las empresas a menudo se olvidan de que pueden reconstruir una parte de la red social utilizando datos internos. Los proveedores de telecomunicaciones, por ejemplo, tienen una base de datos transaccional masiva donde registran el comportamiento de llamadas de sus clientes. Bajo el supuesto de que los buenos amigos se llaman entre sí más a menudo, podemos recrear la red e indicar la fuerza de enlace entre las personas en función de la frecuencia y / o duración de las llamadas. Los proveedores de infraestructura de Internet pueden mapear las relaciones entre las personas que usan las direcciones IP de sus clientes. Las direcciones IP que se comunican frecuentemente están representadas por una relación más fuerte. Al final, la red de IP contemplará la estructura relacional entre las personas desde otro punto de vista, pero hasta cierto punto, como se observa en la realidad. Se pueden encontrar muchos más ejemplos en las industrias de banca, venta minorista y juegos en línea. En este artículo, discutimos cómo se pueden aprovechar las redes sociales para el análisis.

Definiciones de redes sociales

Una red social se compone de nodos (vértices) y enlaces. Ambos deben estar claramente definidos al comienzo del análisis. Un nodo (vértice) podría definirse como un cliente (privado / profesional), hogar / familia, paciente, médico, papel, autor, terrorista, página web ... Un enlace puede definirse como la relación de un amigo, una llamada, la transmisión de un enfermedad, una relación de "seguimiento", una referencia, etc. Tenga en cuenta que los enlaces también se pueden ponderar según la frecuencia de interacción, la importancia del intercambio de información, la intimidad, la intensidad emocional, etc. Por ejemplo: en una configuración de predicción de abandono, el enlace puede ponderarse de acuerdo con el tiempo (total) en que dos clientes se llamaron durante un período específico. Las redes sociales se pueden representar como un sociograma. Esto se ilustra en la figura siguiente por la cual el color de los nodos corresponde a un estado específico (por ejemplo, revuelto o no revuelto).


Ejemplo de sociograma.

Los sociogramas son útiles para representar redes de pequeña escala. Para redes de gran escala, la red se representa típicamente como una matriz (ver a continuación). Estas matrices serán simétricas [1] y típicamente muy dispersas (con muchos ceros). La matriz también puede contener los pesos si se producen conexiones ponderadas.


C1 C2 C3 C4
C1 1 1 0
C2 1 0 1
C3 1 0 0
C4 0 1 0

Representación matricial de una red social.

En lo que sigue, discutimos cómo se pueden aprovechar las redes sociales para los análisis descriptivos y predictivos.


Análisis descriptivo: métricas de redes sociales y minería comunitaria


Recuerde, el objetivo del análisis descriptivo es describir un conjunto de datos utilizando un conjunto de estadísticas o métricas clave. Una red social se puede caracterizar por varias métricas de centralidad. Las medidas de centralidad más importantes se muestran en la siguiente tabla.


Geodésica Ruta más corta entre dos nodos en la red.
Grado Número de conexiones de un nodo (dentro versus fuera de grado si las conexiones están dirigidas).
Cercanía La distancia promedio de un nodo a todos los demás nodos de la red (recíproco de lejanía).
Intermediación Cuenta el número de veces que un nodo o enlace se encuentra en la ruta más corta entre dos nodos de la red.
Centro teórico de grafos El nodo con la distancia máxima más pequeña a todos los otros nodos de la red.



Medidas de centralidad de red común.

Estas métricas ahora se pueden ilustrar con el ejemplo de juguete de red Kite representado en la siguiente figura [2]:




La red barrilete.


Grado CercaníaIntermediación
6 Diane 0.64 Fernando 14 Heather
5 Fernando 0.64 Garth 8.33 Fernando
5 Garth 0.6 Diane 8.33 Garth
4 Andre 0.6 Heather 8 Ike
4 Beverly 0.53 Andre 3.67 Diane
3 Carol 0.53 Beverly 0.83 Andre
3 Ed 0.5 Carol 0.83 Beverly
3 Heather 0.5 Ed 0 Carol
2 Ike 0.43 Ike 0 Ed
1 Jane 0.31 Jane 0 Jane

Medidas de centralidad para la red Kite.

La tabla anterior informa las medidas de centralidad para la red Kite. Según el grado, Diane es la más importante ya que tiene la mayoría de las conexiones. Ella trabaja como un conector o concentrador. Sin embargo, tenga en cuenta que solo conecta a los que ya están conectados entre sí. Fernando y Garth son los más cercanos a todos los demás. Son los mejor posicionados para comunicar mensajes que deben fluir rápidamente a todos los demás nodos de la red. Heather tiene la mayor intersección. Ella se sienta entre dos comunidades importantes (Ike y Jane contra el resto). Ella juega un rol de intermediario entre ambas comunidades, pero también es un punto único de falla. Tenga en cuenta que la medida de intersección a menudo se utiliza para la minería comunitaria. Una técnica popular aquí es el algoritmo de Girvan-Newman que funciona de la siguiente manera [3]:
  • La intersección de todos los enlaces existentes en la red se calcula primero.
  • El enlace con la mayor intersección se elimina.
  • La interdependencia de todos los enlaces afectados por la eliminación se vuelve a calcular.
  • Los pasos 2 y 3 se repiten hasta que no quedan enlaces.
El resultado es esencialmente un dendrograma (similar a, por ejemplo, agrupamiento jerárquico), que luego se puede utilizar para decidir el número óptimo de comunidades. La minería comunitaria sirve para varios propósitos. Permite comprender el comportamiento de subconjuntos homogéneos en su red que pueden ser especialmente relevantes en análisis de marketing (por ejemplo, para recomendaciones específicas) o detección de fraude (para detectar, por ejemplo, anillos de fraude). Además, la información de la comunidad también puede aprovecharse para el análisis predictivo, utilizando, p. procedimientos de producción como explicamos a continuación.


Análisis predictivo: aprendizaje de redes sociales


En el análisis predictivo, el objetivo es medir una variable objetivo de interés. Los ejemplos podrían ser abandono, fraude, valor predeterminado o valor de vida del cliente (CLV). En el aprendizaje de redes sociales, el objetivo es calcular la probabilidad de membresía de clase (por ejemplo, probabilidad de abandono) de un nodo específico, dado el estado de los otros nodos de la red. Varios desafíos importantes surgen cuando se aprende en las redes sociales. Un desafío clave es que los datos no son independientes y están distribuidos de forma idéntica (IID), una suposición que a menudo se hace en modelos estadísticos clásicos (por ejemplo, regresión lineal y logística). El comportamiento de correlación entre los nodos implica que la pertenencia a la clase de un nodo puede influir en la pertenencia a la clase de un nodo relacionado. A continuación, no es fácil crear una división en un conjunto de capacitación para el desarrollo del modelo y un conjunto de prueba para la validación del modelo, ya que toda la red está interconectada y no se puede cortar en dos partes. Además, muchas redes son de gran escala (por ejemplo, un gráfico de llamadas de un proveedor de telecomunicaciones) y es necesario desarrollar procedimientos computacionales eficientes para hacer el aprendizaje. Finalmente, no se debe olvidar la forma tradicional de hacer análisis utilizando solo información específica de nodo (es decir, sin los aspectos de red) ya que esta información puede ser muy valiosa para la predicción también.

Una forma directa de aprovechar las redes sociales para el análisis predictivo es resumir la red en un conjunto de características que luego se pueden combinar con características que no sean de red (es decir, locales) para el modelado predictivo. Un ejemplo popular de esto es la regresión logística relacional según lo introducido por Lu y Getoor (2003) [4]. Este enfoque básicamente parte de un conjunto de datos con características locales específicas del nodo y le agrega características de red de la siguiente manera:
  • La clase de vecino más frecuente (modo-enlace);
  • Frecuencia de las clases de los vecinos (enlace de frecuencia);
  • Indicadores binarios que indican presencia de clase (enlace binario).

Esto se ilustra en la figura siguiente para el cliente Bart.


Regresión logística relacional.


Luego, se puede estimar un modelo de regresión logística o árbol de decisión utilizando el conjunto de datos con características locales y de red. Tenga en cuenta que existe una cierta correlación entre las características de red agregadas, que deben filtrarse durante un procedimiento de selección de entrada. La creación de características de red también se llama Featurization, ya que las características de la red se agregan básicamente como características especiales al conjunto de datos. Estas características pueden medir el comportamiento de los vecinos en términos de la variable objetivo (por ejemplo, abandono o no) o en términos de las características específicas del nodo local (por ejemplo, edad, promociones, etc.). La figura a continuación proporciona un ejemplo en el que se agrega una característica que describe la cantidad de contactos con churners. La columna final etiquetada 'Churn' es la variable objetivo.


Ejemplo de Caracterización con características que describen el comportamiento objetivo de los vecinos.

La figura a continuación proporciona un ejemplo donde se agregan características que describen el comportamiento del nodo local de los vecinos.


Ejemplo de Caracterización con características que describen el comportamiento del nodo local de los vecinos.

Privacidad

Obviamente, el uso de datos de redes sociales para fines analíticos también requiere una reflexión exhaustiva sobre la privacidad. Con frecuencia, los clientes desconocen sus rastreos de datos, tanto en línea como fuera de línea, y cómo pueden analizarse. Por lo tanto, especialmente bajo la regulación GDPR actual, es de vital importancia que las empresas siempre divulguen adecuadamente qué datos recopilan y cómo los usan. Al hacerlo, no solo deben enfocarse en posibles beneficios de privacidad sino también en los beneficios para el cliente, de modo que los clientes puedan tomar una decisión bien informada sobre si, cuándo y cómo se pueden usar sus datos.

Conclusión

En este artículo, nos acercamos al análisis de redes sociales. Comenzamos brindando definiciones clave de redes sociales. A continuación, ilustramos cómo se pueden aprovechar las redes sociales para el análisis descriptivo resumiéndolos mediante métricas de redes sociales como cercanía, interdependencia, etc. A continuación, desarrollamos el uso de redes sociales para el análisis predictivo utilizando varios procedimientos de presentación. Es importante señalar que aunque las redes sociales representan un nuevo tipo de información, definitivamente no se debe sobreestimar su poder. Más específicamente, uno no debería abandonar los datos tradicionales que no pertenecen a la red para hacer análisis. A lo largo de nuestra investigación, encontramos que los mejores modelos analíticos para, p. Predicción de abandono de pagos: la detección de fraudes generalmente se genera utilizando una combinación de datos de red y no de red. Finalmente, es importante tener en cuenta que siempre que se analicen datos de redes sociales, la privacidad siempre debe respetarse.


Referencias y notas

  • [1] Tenga en cuenta que este es solo el caso de las redes no dirigidas. Para redes dirigidas, que representan p. una relación 'siguiente' que no es necesariamente recíproca, la matriz no será simétrica.
  • [2] Krackhardt, D, Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, 35, pp. 342-369, 1990.
  • [3] Girvan M., Newman M. E. J., Community structure in social and biological networks, Proceedings of the National Academy of Sciences, USA 99, pp. 7821–7826, 2002.
  • [4] Lu Q., Getoor L., Link-based Classification, Proceeding of the Twentieth Conference on Machine Learning (ICML-2003), Washington DC, 2003.

lunes, 2 de julio de 2018

Cómo fue la difusión científica de la hipótesis de la fortaleza de los lazos débiles


Cómo las comunidades median la difusión de nuevas ideas: el caso de la hipótesis de los lazos débiles de Granovetter


Anna Keuchenius, Petter Tornberg y Justus Uitermark

Universidad de Amsterdam




Resumen

Una gran cantidad de estudios empíricos examinan la difusión de nuevas ideas científicas. Si bien esos estudios generalmente se enfocan en el bajo nivel de adopción individual o en el nivel superior de patrones agregados, examinamos cómo las comunidades en el nivel intermedio median la difusión. Como estudio de caso, analizamos la difusión de una idea científica específica, a saber, la hipótesis de la "Fortaleza de los lazos débiles", presentada por Granovetter en su artículo de 1973. Usando datos de Web of Science, construimos una red de académicos que hicieron referencia al artículo de Granovetter. Al combinar el modelado de temas, el análisis de redes y la lectura cercana, mostramos que la red de difusión presenta comunidades de académicos que interpretan y usan la hipótesis de Granovetter de distintas maneras. Tales comunidades colaborativamente interpretan la hipótesis de Granovetter para enmendarla a sus perspectivas e intereses específicos. Nuestro análisis muestra además que las comunidades están agrupadas alrededor de testaferros, es decir, académicos que son centrales dentro de sus comunidades y desempeñan un papel fundamental en la traducción de la hipótesis general en su campo específico. La mayor implicación de nuestro estudio es que las ideas científicas cambian a medida que se expanden. Argumentamos que la metodología presentada en este documento tiene un potencial más allá del dominio científico, particularmente en el estudio de la difusión de opiniones, símbolos e ideas.


sábado, 30 de junio de 2018

Análisis de hashtag italianos

#Censimento y #Salvinischedacitutti vistos con análisis de redes sociales

Dr Who


Ayer, Twitter ha introducido sus propios hashtags: #Censimento y, posteriormente, #Salvinischedacitutti. El tema es conocido. Analicé el fenómeno con el análisis de redes sociales, tomando datos en línea.
#Censimento y #Salvinischedacitutti: el patrón polarizado del análisis de redes sociales

La geografía relacional que emerge en el hashtag #Censimento se polariza: grupos de personas que discuten sobre el mismo tema, pero con diferentes puntos de vista.

Las discusiones polarizadas se caracterizan por dos grupos grandes y densos que tienen poca conexión entre ellos. Los temas que se discuten son a menudo altamente conflictivos y temas candentes o cuestiones políticas. En realidad, generalmente hay poca conversación entre estos grupos, a pesar del hecho de que están enfocados en el mismo tema. Esto significa que la gente no está discutiendo. Se ignoran mutuamente mientras apuntan a diferentes recursos web y usan diferentes hashtags.

#Census y #Salvinischedacitutti: datos y eventos

En el cuadro inmediatamente anterior, el grupo superior está formado por personas que están en contra del tema, y ​​viceversa, el grupo a continuación. Esta primera consulta de la red produjo 3652 nodos con 4662 informes.

En el transcurso del día, hacia la tarde, el hashtag #Salvinischedacitutti comienza a ser tendencia (probablemente para legitimar aún más una posición contraria al #Censimento). El patrón se repite. Preciso. El grupo en la parte superior está formado por personas que están en contra, y viceversa en el grupo a continuación. La consulta tomó 3198 nodos con 4012 informes.


La subida del hashtag #Salvinischedacitutti en detrimento del hashtag #Censimento no ha cambiado la sustancia de las conversaciones. Al analizar los datos que me permitieron construir al nuevo sociografista, surgieron algunos aspectos. En particular: el cluster inferior tiene dos muy grandes nodos: uno a la derecha tiene un valor de atractivo igual a 395, uno a la izquierda, un valor de 335. La salida "fuerza" está dada por su base seguidor potencial base: la primera tiene más de 49K y el segundo algo más de 11K. Pueden ser, por coherencia, considerados influyentes, pero no para acciones de segundo nivel por los conectores, de hecho, no vemos una viralidad porque la RT no generó el efecto de cadena. En el clúster superior, el nodo con la mayor fuerza potencial tiene poco más de 4K seguidor, extremadamente desequilibrado en términos potenciales y con una capacidad atractiva de solo 156.

#Salvinischedacitutti: la fuerza del hashtag

Durante la noche, el hashtag #Salvinischedacitutti mantuvo la tendencia principal de Twitter. I riscaricato datos y que tenía una confirmación del patrón polarizado, pero encontró que había una migración de conversaciones sobre: ​​la tasa de nudos presente nell'hashtag #Censimento superponen con los de #Salvinischedacitutti es igual a 62% . Esta migración ha fortalecido aún más las posiciones de las personas que se oponen a ella. La fecha al aplicar el algoritmo OpenOrd nos muestra perfectamente este refuerzo. La banda azul de la izquierda está formada por personas que se oponen al tema tiene diferentes interconexiones que van a las afueras de la gráfica, mientras que el otro grupo es "Castillo" sólo un par de probar el contenido, el hecho de no tener argumentos.



Al comparar a los sociólogos de los dos hashtags que estamos analizando, es claro que el patrón polarizado es una constante, y está claro que el grupo de personas opuesto al tema se fortalece en términos de interconexiones.

En la noche, alrededor de las 22:00, los volúmenes de las conversaciones han perdido fuerza, haciendo que el hashtag salga de la tendencia.

jueves, 28 de junio de 2018

Enfoque de 2 modos para análisis de redes socio-semánticas en Twitter


Análisis automatizado de redes de actores en Twitter: Nuevo enfoque para el análisis de redes socio-semánticas

Iina Hellsten, Loet Leydesdorff
ARXiv

Los datos de los medios sociales brindan oportunidades cada vez mayores para el análisis automatizado de grandes conjuntos de documentos textuales. Hasta ahora, se han desarrollado herramientas automatizadas para dar cuenta de las redes sociales entre los participantes de los debates, o para analizar el contenido de esos debates. Se ha prestado menos atención al mapeo de actores concurrentes (participantes) y temas (contenido) en debates en línea que forman redes socio-semánticas. Proponemos un nuevo enfoque automatizado que utiliza un enfoque de matriz completa de temas codirigidos y los actores. Mostramos las ventajas del nuevo enfoque con el análisis de un gran conjunto de mensajes de Twitter en inglés en la reunión de Río + 20, en junio de 2012 (72.077 tweets), y un conjunto de datos más pequeño de mensajes en Twitter en neerlandés sobre la gripe aviar relacionado con la avicultura en 2015-2017 (2,139 tweets). Discutimos las implicaciones teóricas, metodológicas y sustantivas de nuestro enfoque, también para el análisis de otros datos de redes sociales.


martes, 26 de junio de 2018

Curación de datos en Big Data


Cómo hacer curación de contenido con los datos

Dr. Who



El contenido es el rey: siempre lo escuchamos cuando hablamos de la cura del contenido. Producir contenido valioso es difícil, si no tenemos idea, es prácticamente imposible. El valor de un contenido puede tener múltiples significados. Una cosa es segura: además de su originalidad, debe reflejar la demanda del mercado; debe reflejar, es decir, lo que las personas buscan en la red. Los datos en la web pueden ayudarnos en este sentido y, una vez procesados, pueden brindarnos diferentes maneras de hacerlo.

Curación de contenido guiados por datos: Pasos operacionales

Comienza desde el tema: definido el tema es necesario para dibujar la arquitectura de análisis. La arquitectura de análisis no es más que un documento simple para registrar los principales elementos de nuestro análisis, como son: el lapso de tiempo a considerar, la identificación de los canales donde residen los contenidos, el análisis de la pregunta específica.

Estos cuatro elementos básicos se deben expandir de acuerdo con los hallazgos que proporciona el raspado de datos. Un elemento fundamental es tener un buen crowler para obtener los datos de partida sin procesar.

El tema que traigo como ejemplo, y cuyos datos se tomaron hace más de un año, es el de la salud digital. El período de tiempo considerado fue de 30 días. La elección de este tiempo ajustado se debe al hecho de que es necesario evitar la dispersión de la demanda: un tiempo ajustado asegura que los datos se recopilan de los eventos recientes.

El cuestionamiento de la red permitió extraer más de 1700 contenidos con un duopolio de canales en los que viajó este contenido. Los tweets y artículos en línea dividían, hace un año, los contenidos sobre el tema de salud digital.

A partir de esta información, es posible ampliar la estructura arquitectónica de nuestro análisis: extraer información de la web para realizar el análisis de extracción de texto y comprender la existencia de aspectos particulares; lleve a cabo el análisis de las conversaciones de twitter para comprender cómo se debatió el tema e identifique, si existieran, personas influyentes específicas.


Curación de contenido: análisis SERP


El análisis SERP nos permite identificar tanto la competencia existente sobre el tema, como los segmentos que lo componen. El enfoque es el del análisis de cola larga que muchos de ustedes conocen. El análisis de cola larga, sin embargo, no es el único tipo de actividad que se puede realizar en un SERP: una vez tomada, también se puede analizar a través del análisis de minería de texto, en particular en la dimensión de metadescripción. La metadescripción es uno de los elementos fundamentales que guían nuestra investigación al facilitar la elección de clikkare, o no, en uno de los diversos enlaces que nos devuelve una consulta en Google. Dado el tiempo y el tema, hace un año tomé unos 980 sitios (igual al 50% del SERP completo) con una opción aleatoria estratificada. La estratificación permite considerar diferentes grupos de agregaciones y tener una representación estadística.

Para evaluar la oportunidad de llevar a cabo el análisis minería de texto en profundidad, el primer indicador que vemos es el de la tabla Zipf: un gráfico denso nos muestra que los temas resumidos en la meta descripción se argumentan; hay algún material sobre el cual trabajar y avanzar con el análisis.

Curación de contenido: análisis de minería de texto


Las ideas que surgieron hace un año fueron muy interesantes: la mayor parte del contenido en línea se relacionó con artículos / publicaciones para personajes locales y esto ensucia la capacidad del análisis para resaltar el estado de ánimo subyacente.



Al eliminar estos aspectos, fue posible identificar dos macroconjuntos: uno relacionado con la identidad digital, el otro más específico sobre el tema de la innovación digital en el sector hospitalario (lado derecho del gráfico).

La lectura de los contenidos de los dos clusters identificados: 4 referencias web para el clúster de identidad digital y 10 referencias para el clúster de innovación digital.

Estos 14 sitios representan las fuentes relevantes para una primera identificación del estado de ánimo subyacente en un tema determinado. Al combinar estas instancias con la segmentación hecha con el análisis de la cola larga, tenemos excelentes indicaciones para identificar el área temática que queremos cubrir con nuestro contenido.

Curación de contenido: evaluación de tema con el SNA

Se recopilaron más de 728 conversaciones en Twitter y se encontró una red de 526 oradores que generaron más de 500 informes.

Al aplicar los indicadores estadísticos apropiados, se resaltaron algunos conglomerados de conversación. En particular:

  • Mercado de salud digital (clúster verde)
  • Innovación en asistencia sanitaria digital (racimo rojo)
  • Dossier electrónico (clúster negro)
  • Observatorio PoLIMI (grupo naranja)
  • Convención del observatorio digital (clúster central)



Los principales contenidos fueron extraídos de cada grupo individual.

Ambos análisis, aunque con matices obvios, confirman los conocimientos que se pueden utilizar en términos de datos de curación de contenido impulsados, lo que respalda tanto la demanda del mercado como las conversaciones relacionadas con ella. No solo eso: el análisis de redes sociales también nos permite identificar cuáles de los actores analizados son los mejores para "contactar" para compartir el contenido que vamos a crear.

domingo, 24 de junio de 2018

Maravilloso trabajo de campo con redes sociales de tribus de cazadores-recolectores

Cazadores-recolectores de Hadza, redes sociales y modelos de cooperación


por Artem Kaznatcheev | Theory, Evolution and Games Groups


En el corazón de la región de los Grandes Lagos de África Oriental se encuentra Tanzania, una república compuesta por 30 mikoa o provincias. Su frontera está marcada por los lagos gigantes Victoria, Tanganyika y Malawi. Pero el lago que más me interesa es uno interno: a 200 km de la frontera con Kenia en el cruce de mikao Arusha, Manyara, Simiyu y Singed está el lago Eyasi. Es un lago temperamental que se puede secar casi por completo, que se puede cruzar a pie, en algunos años y en otros, como en los años de El Niño, inunda sus riberas lo suficiente como para atraer hipopótamos del Serengeti.

Para los Hadza, es su hogar.

El número de Hadza es de alrededor de mil personas, y alrededor de 300 viven como cazadores-recolectores nómadas tradicionales (Marlow, 2002; 2010). Un estilo de vida que se cree que es un modelo útil de sociedades en nuestra propia herencia evolutiva. Un modelo empírico de particular interés para la evolución de la cooperación. Pero un modelo que requiere mucho más esfuerzo para explorar que ejecutar algunas configuraciones de parámetros en su computadora. En el verano de 2010, Coren Apicella exploró este modelo viajando entre los campos de Hadza en toda la región del lago Eyasi para obtener información sobre su red social y su comportamiento cooperativo.

Aquí hay un video resumen donde Coren describe su trabajo:




Los datos que recopiló con sus colegas (Apicella et al., 2012) proporcionan nuestro mejor proxy para la organización social de los primeros humanos. En este post, quiero hablar sobre el Hadza, el conjunto de datos de su red social, y cómo puede informar a otros modelos de cooperación. En otras palabras, quiero freeride en Apicella et al. (2012) y me permito a mí mismo y a otros teóricos explorar modelos computacionales informados por el modelo empírico Hadza sin tener que caminar por el Lago Eyasi por nosotros mismos.






Los Hadza viven en pequeños campamentos temporales de unos 30 individuos, con un promedio de 11.7 \ pm 6.0 adultos por campamento para los 17 campamentos en Apicella et al. (2012). [1] Dentro de los campamentos de cazadores-recolectores, incluido el Hadza, hay un intercambio de alimentos en todo el campamento (Marlowe, 2004; Gurven, 2004), de la responsabilidad del cuidado infantil (Henry, et al., 2005; Crittenden & Marlowe, 2008; Hill & Hurtado, 2009), y de las tareas diarias como la adquisición de alimentos, la construcción y el mantenimiento de espacios habitables, y el transporte de niños y posesiones (Hill, 2002). En un metanálisis multicultural de 32 sociedades de alimentación actuales, incluyendo Hadza - Hill et al. (2011) mostraron que sus campamentos tienen bajos niveles de parentesco cercano (generalmente menos del 10%; en el Hadza específicamente varía en promedio del 4.1% para un macho focal al 5.5% para una hembra focal) y experimentan un flujo constante de individuos entre campamentos. Como destacó Coren en el video anterior, los campos de Hadza son muy dinámicos, se reubican cada 4 a 6 semanas y algunas veces se disuelven o se fusionan con otros campamentos.

Sin embargo, este flujo de individuos entre los campamentos no es aleatorio. Los individuos tienen preferencias para compañeros de campamento y Apicella et al. (2012) midieron estas preferencias pidiendo a cada adulto que nominara a algunas otras personas que preferirían tener como compañeros de campamento para su próximo campamento. [2] En este estudio, los hombres solo nominaron a otros hombres y mujeres como mujeres, lo que resultó en dos grafos disjuntos con un total de 205 individuos (nodos) y 1263 candidaturas futuras (enlaces dirigidos) y alrededor del 46% de los enlaces entre los campamentos. Apicella et al. (2012) presentaron estos grafos en la figura 1c (y las nominaciones dentro de los campamentos en la figura S4). Dado que un paso importante para trabajar con datos es tener esos datos, preferiblemente en un formato amigable para la máquina, me enfoqué en esta figura. Aunque conocí a Coren Apicella una vez, no me sentí cómodo al enviarle un correo electrónico con sus datos en bruto, especialmente porque no tenía un propósito específico en mente, así que Marcel Montrey y yo extrajimos la matriz de adyacencia de la figura 1c mano. [3]


Grafo de la futura preferencia de compañero de campamento de Hadza, basado en datos de Apicella et al. (2012) El grafo de la izquierda es de mujeres y el grafo de la derecha es de hombres. Los nodos se dimensionan en proporción a su grado.

Pero, ¿qué vamos a hacer con estos datos? El primer paso de Apicella et al. (2012) fue comparar con otras redes o modelos de redes que a menudo discutimos. En comparación con una red aleatoria con el mismo número de enlaces y nodos, encontraron:
  • que la distribución de grados tiene colas significativamente más gordas,
  • diferencias en su grado de reciprocidad, con un Hadza siendo 37.6 a 51.4 veces más propenso a nombrar como compañero de campamento deseado a alguien que los haya nombrado como un compañero de campamento deseado,
  • asociatividad más alta de lo esperado entre el grado de ingreso y el de salida: los agentes que nombran más agentes también tienen más probabilidades de ser nombrados más ellos mismos.
  • homofilia en rasgos como edad, altura, peso, grasa corporal, fuerza de agarre y nivel de contribución en un juego de bienes públicos. [4]
Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Para las comparaciones empíricas, consideraron 142 redes socioeconómicas de estudiantes estadounidenses del Estudio Longitudinal Nacional de Salud del Adolescente (para el diseño, ver: Harris et al., 2009), y dos redes de tamaño similar (N = 181, N = 251) de adultos Aldeanos agricultores de subsistencia en Honduras que fueron compartidos con ellos por Derek K. Stafford (de próxima publicación, también, ver Stafford et al., 2010). Aunque estas redes de comparación usaron diferentes preguntas (más o menos: "¿quiénes son tus amigos?") Para generar sus enlaces dirigidos, los parámetros de la red Hadza cayeron dentro de los rangos observados en estas redes de comparación. Pero eso nos interesa solo si esperamos que estos parámetros sean relevantes y determinantes para el tipo de preguntas que queremos formular. No siempre es claro para mí que este sea el caso.

Mi impulso de tener datos de redes sociales sobre cazadores-recolectores proviene de la aparente importancia y omnipresencia del estudio de la estructura espacial en los modelos matemáticos de la teoría de juegos evolutiva. La idea es eliminar al intermediario modelador de redes. En lugar de tratar de descubrir qué tipo de red son las familias como redes reales, y luego ejecutar juegos en esas familias, ¿por qué no ejecutar juegos directamente en redes observadas empíricamente? Lamentablemente, existe una tensión entre el tipo de redes que recolectan los antropólogos y los sociólogos, y el tipo de redes que modelan los teóricos de los juegos evolutivos. El enfoque típico de las redes en EGT es hacer que los enlaces del grafo determinen los pares de agentes que interactúan durante el juego y para la reproducción o la imitación. [5] Dado que generalmente consideramos juegos simétricos, generalmente también queremos grafos simétricos. [6] Entonces, un enfoque obvio es simétrizar la red Hadza diciendo que los agentes interactuarán simétricamente si cualquiera inicia, y que el "futuro compañero" es un sustituto de un amigo y la amistad es un sustituto de la interacción frecuente. Esto facilita la integración de la red Hadza en los modelos existentes, pero descarta nuestro conocimiento de cómo los Hadza realmente interactúan entre sí; que se encuentra principalmente en el nivel de un campamento.

En cambio, podríamos estructurar modelos usando los datos de Coren en términos de campamentos, y tener interacciones invisibles dentro de cada campamento. Desafortunadamente, si se permite que los campamentos crezcan o sobrevivan en proporción al rendimiento total (o promedio) de los campamentos, independientemente de las interacciones que elija para modelar, entonces habremos creado una selección de grupos en nuestros modelos. Si, en cambio, mantenemos fijos los campamentos, con migración única (sin pago) entre los campamentos, entonces estamos en un entorno similar a la teoría de conjuntos evolutivos de Tarnita et al. (2009). Este enfoque también puede promover la cooperación, pero de una manera más sutil que la selección directa en grupos. Luego, podemos usar el grafo de las nominaciones de compañeros de campamento futuros de campo cruzado de la figura suplementaria S4 como un grafo de migración. Imagine una dinámica en la que en cada paso del tiempo, se selecciona un ego al azar [7] y se le da la oportunidad de migrar al campamento, potencialmente el mismo campamento en el que ya están, de uno de los alteros que el ego nominó como preferida compañera de campamento futura. Además, periódicamente podemos disolver y luego reformar las redes de compañeros de campamento de acuerdo con las preferencias que Coren recopiló. Una manera podría ser (1) seleccionar egos al azar, (2) crear un nuevo campamento para ellos si aún no son parte de un campamento, y (3) dejarlos invitar a quienes deseen tener como compañeros de campamento a su campamento . Esto reflejaría que, aunque la migración o las visitas son muy comunes, los campamentos completos se mueven entre 6 y 12 veces al año; el número y tamaño de los campamentos también fluctúa a lo largo de la temporada, con menos campamentos más grandes formados durante la última estación seca y la estación húmeda cuando las bayas son comunes (Marlowe, 2002; 2010). Este enfoque nos permite usar la red social de Coren no como el grafo de interacción (y / o reproducción / imitación), sino como una meta-red que informa cómo actualizamos el grafo de interacción.

Los enfoques de los últimos dos párrafos difieren en la medida en que debe alejarse del conocimiento del dominio sobre los datos empíricos que se recopilaron y cuánto tiene que ajustar las herramientas de modelado existentes. El primero se integró mejor con el trabajo teórico sobre EGT, y el segundo con el trabajo empírico en antropología. Al final, la cantidad que ajuste sus herramientas o cuán lejos se aleja de los datos es una elección similar a encontrar su combinación preferida de herramienta-problema. Puedo verme a mí mismo utilizando la red simétrica como telón de fondo para proyectos existentes como la evolución de delirios útiles (Kaznatcheev, et al., 2014) y extendiendo la teoría de conjuntos evolutiva como base para un modelo más cercano al modelo empírico de Hadza. Te mantendré actualizado sobre ambos, querido lector.


Notas y referencias

  1. Aquí parece haber una variación significativa entre años o estaciones. Los datos utilizados por Hill et al. (2011), por ejemplo, informó 17 campamentos con un total de 406 adultos, por lo que alrededor de 23.9 adultos por campamento. No estoy seguro de qué hacer, si es que hay algo que hacer.
  2. Apicella et al. (2012) también construyó una red de regalos pidiendo a las personas que elijan recipientes para un total de 3 barras de miel. Los palos no se podían guardar, pero podría elegir enviar más de uno de sus palos a la misma persona, lo que da como resultado un gráfico dirigido ponderado. Muchas de las propiedades generales que analizo más adelante para la red campmate también fueron válidas para esta, pero la red en sí misma no se presentó explícitamente en el documento (o los materiales complementarios). Como no pude trabajar con él directamente, no lo discutí más en esta publicación.
  3. La representación abarrotada en la figura 1c y los errores en la transcripción introducen cierta discrepancia entre los números informados en Apicella et al. (2012) y los gráficos que recuperamos. En particular, nuestros gráficos tienen un total de 94 hombres y 97 mujeres, y 340 y 506 bordes en los gráficos masculino y femenino, respectivamente. Se trata de 14 personas y 417 candidaturas menos que las 205 personas y 1263 nominaciones que los autores informan. Por lo tanto, no use nuestro conteo como un conjunto de datos autorizado. Para mis propios fines, le pediré a Coren los datos brutos reales si encuentro una pregunta que creo que el modelado computacional puede responder.
  4. Mientras visitaba los campamentos, Coren contrató al Hadza en un juego de bienes públicos. Aunque los investigadores le han pedido al Hadza que juegue varios juegos económicos antes, generalmente el juego del ultimátum o dictador (por ejemplo, ver Henrich et al., 2001), esta era la primera vez que jugaban en el juego de bienes públicos. Las recompensas fueron en la miel, su comida más preferida (Marlowe y Berbesque, 2009), y se midió en barritas. Cada participante fue dotado con 4 palos de miel, y todos los que donaron para el bien público se multiplicaron por un factor de 3 y, después de que todos los compañeros de campamento adultos tomaran sus decisiones de contribución en privado, se distribuyeron entre todos los adultos en el campamento. Todos los campamentos tenían más de 4 residentes adultos.
  5. Por supuesto, también podemos seguir a Ohtsuki et al. (2007) y usa diferentes gráficos de interacción y reemplazo. Es más fácil justificar la red Hadza como un reemplazo por una red de imitación, diciendo que los bordes son vínculos de amistad; y usar la interacción de inviscid a nivel de campamento como lo analizo en el próximo párrafo. Por supuesto, si se adapta el enfoque completo de meta-red del siguiente párrafo, entonces la red Hadza se usa para actualizar los campamentos, pero la interacción y las redes de imitación pueden ser establecidas por la propia estructura del campamento invisible.
  6. Alternativamente, uno puede abrazar los bordes dirigidos modificando los modelos de la teoría del juego evolutivo y concentrándose en juegos no simétricos como el ultimátum o el dictador. Esto se conectaría con una gran literatura de economía conductual y antropología (como Henrich et al., 2001) y algunos estudios de modelado (como Nowak et al., 2000).
  7. Seleccionar egos al azar independientemente de su aptitud o estrategia es una simplificación potencialmente irracional. Cuando un Hadza deja su campamento, por alguna razón es como una disputa o escasez de recursos que puede estar estrechamente vinculada a la recompensa o estrategia de uno en las interacciones cooperativas. Afortunadamente, este tipo de estrategias de migración condicional ya están siendo exploradas por investigadores como C. Athena Aktipis (2004).

Aktipis, C.A. (2004). Know when to walk away: contingent movement and the evolution of cooperation. Journal of Theoretical Biology, 231(2): 249-260.

Apicella, C.L., Marlowe, F.W., Fowler, J.H., & Christakis, N.A. (2012). Social networks and cooperation in hunter-gatherers. Nature, 481 (7382), 497-501 PMID: 22281599

Crittenden, A. N., & Marlowe, F. W. (2008). Allomaternal care among the Hadza of Tanzania. Human Nature, 19(3): 249-262.

Gurven, M. (2004). To give and to give not: the behavioral ecology of human food transfers. Behavioral and Brain Sciences, 27(04), 543-559.

Harris, K.M., C.T. Halpern, E. Whitsel, J. Hussey, J. Tabor, P. Entzel, & Udry, J.R. (2009) The National Longitudinal Study of Adolescent to Adult Health: Research Design. [online].

Kaznatcheev, A., Montrey, M., & Shultz, T.R. (2014). Evolving useful delusions: Subjectively rational selfishness leads to objectively irrational cooperation. Proceedings of the 36th annual conference of the cognitive science society. arXiv: 1405.0041v1.

Marlowe, F. (2002). Why the Hadza are still hunter-gatherers. Ethnicity, huntergatherers, and the ‘Other’, ed. S. Kent, 247-81.

Marlowe, F.W. (2004). What explains Hadza food sharing? Research in Economic Anthropology, 23: 69-88.

Marlowe, F. W., & Berbesque, J. C. (2009). Tubers as fallback foods and their impact on Hadza hunter‐gatherers. American Journal of Physical Anthropology, 140(4): 751-758.

Marlowe, F.W. (2010). The Hadza: hunter-gatherers of Tanzania (Vol. 3). Univ. of California Press.

Nowak, M. A., Page, K. M., & Sigmund, K. (2000). Fairness versus reason in the ultimatum game. Science, 289(5485): 1773-1775.

Ohtsuki, H., Pacheco, J. M., & Nowak, M. A. (2007). Evolutionary graph theory: breaking the symmetry between interaction and replacement. Journal of Theoretical Biology, 246(4): 681-694.

Hill, K. (2002). Altruistic cooperation during foraging by the Ache, and the evolved human predisposition to cooperate. Human Nature, 13(1): 105-128.

Hill, K., & Hurtado, A. M. (2009). Cooperative breeding in South American hunter–gatherers. Proceedings of the Royal Society of London B: Biological Sciences, rspb20091061.