jueves, 9 de junio de 2016

Importando datos de Excel a Gephi

Datos de Excel y laboratorio de datos de Gephi
Bowdoin DCSI



Mi objetivo para esta entrada de blog es explicar la forma de organizar los datos en una hoja de cálculo de Excel (que se guarda como un archivo de valores separados por comas o CSV) para importar en Gephi para la visualización y análisis de nodos (elementos individuales representados como puntos) y bordes (relaciones representadas por las líneas conectivo) en una red. Mi explicación asume la familiaridad con los tutoriales basados ​​en archivos Gephi .gexf preparados (la extensión de los archivos legibles por Gephi) de los datos de Les Miserables o Facebook. Asumo que mi lector está pensando ahora en la aplicación de análisis de redes para su propia investigación.

Los nuevos usuarios de Gephi pueden no tener ninguna familiaridad con los archivos XML, .gexf mark-up, o cualquier otro código para organizar los datos, pero todavía pueden encontrar uso en Gephi. Excel es típicamente una aplicación más fácil de usar para este tipo de organización, y la mayoría de las bases de datos de Microsoft Access (por ejemplo) se puede convertir en un libro de Excel (.xls) o directamente a un archivo .csv. Las explicaciones se parte de una comprensión básica de almacenamiento, la copia y la ordenación de datos en Excel. Los principios de organización se describen a continuación se pueden aplicar a cualquier aplicación que utilice para generar la tabla .csv archivos que va a utilizar en Gephi. Otros formatos compatibles y su funcionalidad se pueden encontrar en el sitio de Gephi.

Estoy utilizando las capturas de mis propios datos de investigación sobre los libros en la biblioteca de Galileo Galilei para ayudar a demostrar los tipos de información cada columna debe contener. A continuación se muestra una captura de pantalla de una hoja de cálculo en el libro de Excel que he utilizado para organizar todas mis notas relacionadas con el proyecto:



Hay muchas hojas de cálculo que figuran en la barra de pestañas en la parte inferior de la pantalla para los diferentes tipos de información que tengo para el proyecto. Es importante destacar que un archivo .csv sólo conserva la información en la hoja de cálculo activa ( "Por autor" en este caso, la pestaña en blanco) y no va a salvar las otras hojas. Es importante copiar la información que desea utilizar en su libro principal (múltiples hojas) a un libro de una sola hoja de cálculo para los nodos y un libro de trabajo de una sola hoja de cálculo para bordes. Además, los títulos de las columnas en mi libro ( "Mi #", "# de Fav", "Autor. La cita de Favaro completa", "Año", etc.) son mi taquigrafía y no pueden ser interpretados por Gephi, otra razón por la que la copia de la información que desea utilizar para nuevos archivos de libro de una sola hoja de cálculo es muy recomendable.

  1. Usted tendrá que crear dos archivos .csv: una tabla de nodos y una tabla de borde. Yo uso Excel como mi solicitud de tabla, archivos de Excel y guardar por defecto para el formato .xlsx. Con el fin de obtener el .csv, tiene que elegir esa opción para el formato de archivo al guardar.
  2. La tabla de nodos dice Gephi todos los posibles nodos en una red y debe tener al menos las columnas ID y la etiqueta. Debe haber una línea por cada nodo que aparecerá en cualquier columna de la tabla irregular:
Esto parece bastante fácil, pero ¿qué tipo de información se encuentra en mejor posición en la columna Id, y cómo debe diferir de que la etiqueta? El ejemplo anterior es tomado de una hoja de cálculo que utilizo para organizar la información sobre la biblioteca de Galileo. Todos mis nodos en este ejemplo son los nombres propios que se encuentran en los títulos de la biblioteca y de los propios títulos (alrededor de 2.650 nodos en total). El ejemplo anterior es, en una palabra, torpe. Es redundante y, finalmente, hace que mi visualización de la red ilegible si trato de añadir etiquetas en los nodos. Considere el siguiente ejemplo en el que los títulos completos se convertirían en las etiquetas de más de aproximadamente 650 nodos (nodos y bordes oscureciendo en el proceso):



Tener un número de identificación único (ID que Gephi espera) me permite almacenar una gran cantidad de información acerca de ese nodo en una hoja de cálculo o base de datos que después puedo elegir acceder cuando sea necesario. Ya que mi sistema de organización se creó mucho antes de saber acerca Gephi, mi columna de etiqueta corresponde a la columna Título en mi hoja de cálculo (que en última instancia estorba mi visualización hasta el punto de ilegibilidad si agrego etiquetas). Para que esto sea más fácil de leer, tengo que cambiar los datos en la columna Etiqueta de los datos de una columna “Short Title".

3) Como se puede observar, hay otras columnas en la primera captura de pantalla de la tabla de nodos. La tabla de nodos también puede incluir atributos (en paréntesis en el ejemplo, ya que no son necesarios para una visualización básica de una red). Los atributos son una forma de clasificar los datos, tal vez por género, raza, edad, etc. Aunque no es necesario para explorar los datos con Gephi, que permiten una exploración más matizada de una red. Por ejemplo, voy a querer añadir columnas de atributos de la afiliación religiosa (Jesuita, Benedictino, protestante, católica, etc.) y el género para iniciar la visualización de los datos de una manera que me ayuda a responder a mis preguntas de investigación. Columnas de atributos también se pueden añadir en la sección "Laboratorio de Datos" de la interfaz Gephi incluso después de haber cargado los archivos .csv para los nodos y los bordes.

4) El intervalo de tiempo es otra columna opcional de información para incluir alrededor de sus datos, los cuales pueden o no ser aplicables o útil. Copio aquí una captura de pantalla parcial de la página Gephi.org como referencia:



El wiki Gephi también muestra el código detrás de este proceso.

Pensando en mi propio conjunto de datos, necesito una columna de intervalo de tiempo para cada título que muestra el año más temprano que un libro podría haber entrado en la biblioteca. Voy a dejar mis intervalos de tiempo con la muerte de Galileo en 1642. A partir de los ejemplos en la parte 3, el tiempo de intervalo de información se vería así en la versión .csv de la hoja de cálculo, con las columnas ID, hora de inicio, hora de finalización:

4,1640,1642

5,1628,1642

6,1637,1642

Una vez que haya subido el csv, en el Laboratorio de Datos, puede combinar las columnas de la hora de inicio y fin utilizando la estrategia de combinación "Crear Intervalo de tiempo." Esto va a concatenar y formato de lo que necesita con el fin de ser capaz de ver el cambio a lo largo tiempo de la red.

5) La tabla de enlaces (el segundo archivo .csv que necesita para crear) le dice a Gephi las conexiones que existen entre los nodos. Debe tener la columnas Source y Target:


Aquí es donde tener un identificador único para todos los nodos puede ser muy conveniente. Mi fuente de arriba es el título 299 en el que la Academia de Colonia se menciona como un contribuyente al libro que yo he dado a los títulos de libros identificador 299. puede incluir a personas o lugares (objetivos), pero las personas o lugares no puede incluir títulos (Fuentes), por lo mis bordes se dirigen, y la distinción entre los nodos de origen y los nodos de destino es crítica.

6) De manera similar a la tabla de nodos, hay muchas categorías opcionales que pueden añadir matices a un análisis de una red. La tabla irregular también puede incluir una columna Etiqueta para ayudar con la clasificación de los tipos de relaciones, un identificador único para la relación (generada por Gephi), atributos (por ejemplo: la familia, amigo, compañero de trabajo, compañero de clase, etc., para las redes sociales), e intervalo de tiempo.

7) La tabla irregular también puede incluir información que no se encuentra en la tabla de nodos. Tipo indica si la relación es dirigido o no dirigido. Esta columna puede ser auto-llenado de carga y es visible en el Laboratorio de Datos.

8) Otra opción para la tabla de borde es proporcionar weightedness para la relación. De peso es su oportunidad de dar más importancia a ciertas relaciones, dándoles un peso numérico.

No olvide guardar los archivos como .csv, luego cargarlos en Gephi, los nodos en primer lugar, mediante la opción "Importar CSV" en la barra de herramientas del Laboratorio de Datos. Asegúrese de indicar el tipo de archivo que está subiendo (tabla de nodos o tabla irregular), de lo contrario corre el riesgo de mensajes de error.

Los datos pueden ser simplemente la entrada directamente en el Laboratorio de Datos de Gephi, pero estoy más familiarizado con la funcionalidad de Excel, se han organizado mis datos de investigación utilizando hojas de cálculo, y prefieren hacer ajustes, filtrar los datos, y guardar mi información en un solo formato. Los lenguajes de programación tales como R parecen particularmente adeptos a crear la información tabular necesita aquí, sobre todo cuando se tira de forma automática datos de un gran corpus.

Mi enfoque puede no funcionar para todos o cada proyecto, pero es de esperar ver los datos reales en un formato crudo proporciona un contexto para su presentación en el laboratorio de datos:




A su vez, esto debería hacer el análisis de algo tan complejo como la visualización de las conexiones entre los nombres en la biblioteca de Galileo menos opaco:

lunes, 6 de junio de 2016

Redes animales: Aprendizaje difundido por centralidad


No es una monada - ¡No es lo que conoces, sino a quien conoces!
por Alaina | Living Links
Las redes sociales dan forma a la "cultura" de los monos

Un nuevo estudio, publicado en la revista Current Biology, demuestra que los monos ardilla que se encuentran en el corazón de su grupo social recogen las innovaciones en primer lugar, y son más propensos a adquirir nuevas variaciones culturales en el comportamiento como nuevas técnicas de forrajeo.

Los Dr. Nicolas Claidière, Ms Emily Messer y el profesor Andrew Whiten de la Universidad de St. Andrews, en colaboración con el Dr. Will Hoppitt de Anglia Ruskin University estudiaron nuestros dos monos ardilla del Este y del Oeste. Examinaron sus redes sociales, mediante el registro de que pasó un tiempo con el que cuando los monos estaban en las proximidades de un "frutas artificiales" que se podría utilizar para obtener recompensas de comida mediante el uso de dos técnicas diferentes, levantar o pivotar (Figura 1).



Sofisticados análisis estadístico de estos datos revelaron los detalles de las redes sociales de los monos que ayudó a los investigadores a visualizar lo que los monos estaban en el corazón de la red y a los que eran más periféricos (Figura 2). Cada mono fue evaluado en una medida de su 'centralidad' dentro del grupo. red social Rojo contra azul



Boa, el machos alfa en el grupo Este se separó y se entrenó cómo utilizar la técnica de elevación y su equivalente, Río en el grupo Oeste fue entrenado para usar la técnica de pivote brevemente, a continuación, se reunieron con sus respectivos grupos.

Los científicos descubrieron que los monos que estaban bien conectados eran los más propensos a entender con éxito la nueva técnica implantada en su grupo. También eran más propensos a adquirir la técnica de elevación en el grupo implantada con "levantar", en comparación con la técnica de pivote en el grupo sembró con 'pivote', por lo que los machos alfa eran verdaderamente los ejes de estos dos diferentes mono "culturas".

El Profesor Whiten, de la Universidad de St. Andrews, dijo: "Nuestro estudio muestra que las innovaciones no sólo se extienden al azar en grupos de primates, pero al igual que en los seres humanos, están conformadas por las redes sociales de los monos".

Dr. Claidiere dijo: "La investigación de interés en el aprendizaje social y análisis de redes sociales ha aumentado en los últimos años, y nuestros resultados son susceptibles de estimular la investigación sobre la difusión de las innovaciones en las redes sociales de los animales.

"Sospechamos que nuestro enfoque en una red social relevante para la difusión de las innovaciones de forrajeo puede explicar por qué encontramos un efecto de la centralidad de la red de los individuos sobre su aprendizaje.

"La investigación anterior se ha centrado en otras relaciones, como quien prepara los cuales, que puede no tener correlación con el aprendizaje por observación de los monos de la misma manera".

Emily Messer, señaló otro aspecto del estudio. "También encontramos que las relaciones maternas explican las partes de la red social, por lo que algunos de la difusión de los nuevos hábitos de forrajeo también probablemente está reflejando un énfasis en el aprendizaje dentro de las familias", dijo.

sábado, 4 de junio de 2016

Análisis del hashtag #NiUnaMenos en 2015

#NiUnaMenos: unidas y retuiteadas





Por Analía Gómez Vidal - Bastión Digital

Twitter es un micromundo. Las relaciones suelen parecerse a aquellas que vivimos en la escuela secundaria, donde las jerarquías se hacen sentir pero esta vez en favs y retuits. Sin embargo, dependiendo de qué evento miremos, podemos identificar distintas dinámicas. Algunas campañas polarizan, como Ernesto Calvo señala en su libro, “Anatomía política de Twitter en Argentina” (Capital Intelectual, 2015) al describir el caso #Nisman. Otras veces las corrientes tuiteras nos unen y despolarizan, ayudando a que distintos segmentos de la sociedad puedan hablar entre sí.

A cinco meses de la marcha Ni Una Menos, las redes sociales de esos días nos muestran evidencia de esta segunda dinámica, donde diferenciación no es polarización. En una muestra de 993.578 tuits publicados entre el 31 de Mayo y el 6 de junio de 2015, se puede ver cómo la tuitósfera acompaño a quienes se movilizaron por #NiUnaMenos, sumando fuerzas en lugar de dividiéndolas, integrando antes que confrontando narrativas. A la distancia, aún hoy, podemos pensar a las movilizaciones sociales de  #NiUnaMenos como un evento unificador.

La muestra de tuits utilizada cubre una semana, y la distribución de los tuits a través de ese período de tiempo indica cómo el evento fue cobrando relevancia online en los días previos, y decayendo posteriormente en forma casi simétrica. Tan sólo en el día de la marcha se publicaron 668.429 tuits, que representan aproximadamente el 67% de la muestra. El día anterior (02/6) y el día posterior (04/06) a la marcha, el total de tuits publicados sobre la marcha rondaron el 10% del total de esta muestra, y el resto de los días tuvieron un tráfico no superior al 5% del total.

A simple vista, estos datos parecieran indicar que si bien #NiUnaMenos fue un evento promovido principalmente a través de las redes sociales, y Twitter en particular, su relevancia en el contenido online en los días previos y posteriores fue relativamente baja respecto al día de la marcha. En otras palabras, las publicaciones generadas tuvieron como motor la marcha como evento en sí. Las consignas motivadoras, por otra parte, parecieran no haber tenido tanto éxito en el sostenimiento del tráfico de información posteriormente.

Twitter genera “geografías alternativas”, comunidades de usuarios en las cuales circulan distintos tipos de mensajes, como sugieren los trabajos de Barberá y Calvo. En el gráfico que acompaña esta nota, por ejemplo, vemos distintas comunidades que interactúan más intensamente entre sí: la comunidad oficialista, a la derecha de la visualización, incluye referentes como @RandazzoF, @RossiAgustinOK, y @Lubertino. Un poco más alejado del núcleo duro kirchnerista vemos a @danielscioli y su equipo. Hacia la izquierda del gráfico vemos a los massistas y, por encima de éste, la comunidad PRO. Esta distribución confirma lo que ya sospechábamos sobre Twitter: los diálogos son intracomunidades, reforzando códigos e ideas compartidas.

Sin embargo, incluso cuando se pueden identificar áreas políticas en la periferia de la red, los objetivos no partidarios de #NiUnaMenos se ven reflejados en los tuits de la marcha. A diferencia de las redes de la campaña electoral, elaborada por el Observatorio de Redes semanas antes, el centro de la red de #NiUnaMenos no está conformado por la política sino por figuras reconocidas del espectáculo, la cultura y los medios de comunicación, en conjunto con los usuarios no partidarios que lideraron la iniciativa. Personalidades de los medios como @Su_Gimenez o @SANTIAGODELMORO compartieron espacio con promotoras activas de la marcha como @SoleVallejos y @Marcelitaojeda. En el centro de la red vemos que aquellos tuiteros con mayor número de seguidores se convirtieron en voceros activos y predominantes de la marcha, compartiendo el espacio con los organizadores de la marcha.

Analizar el contenido de algunos de los tuits más retuiteados en esta muestra también nos lleva a entender más sobre la horizontalidad de Twitter, pero desde otro ángulo. No se trata sólo de quienes son aquellos que generan más contenido, sino también del tipo de contenido que reciben. En la política como en el espectáculo, Twitter ofrece la posibilidad de interactuar con personalidades que de otra manera no podrían ser contactadas. Incluso para las críticas.

Cuando filtramos la muestra para observar algunos de los tuits más destacados dirigidos particularmente a los candidatos presidenciales, el escrache está a la orden del día. Mientras @mauriciomacri tuvo un solo tuit con su foto apoyando la marcha el 2 de Junio, la mayor parte de las respuestas que recibió fueron críticas de usuarios sobre su propia gestión en la ciudad, o incluso algunas dirigidas a su mujer, Juliana Awada, por la denuncia contra Cheeky por explotación. Curiosamente, dichos tuits dirigidos hacia la esposa del candidato PRO, de cariz particularmente violento, proceden de cuentas que se encuentran actualmente suspendidas.

@danielscioli, por su parte, recibió reacciones tanto positivas como negativas. Si bien no participó activamente de la promoción de #NiUnaMenos a través del uso del hashtag, o incluso la publicación de su foto pronunciándose a favor de ella, si tuiteó sobre III Foro Internacional sobre los Derechos de las Mujeres, organizado el mismo día (y cuyo hashtag fue #ForoPoderConMujeres). Dicha participación logró que el candidato fuera asociado mayoritariamente con reacciones positivas. Sin embargo, también recibió reclamos por parte de otros usuarios, quienes le recriminaron su cercanía a figuras controversiales como José Ottavis –denunciado por su ex esposa por violencia de género-.

@SergioMassa fue el candidato que mejor pudo capitalizar su adhesión a la marcha, de la mano de su esposa, @MalenaMassa. Los tuits más populares de la pareja fueron relacionados con la convocatoria, y mayoritariamente replicados por su propio equipo, mediante cuentas como @JovenesenMassaL . Así, entre los tuits más populares de la muestra relacionados al candidato, sólo se encuentran aquellos que comparten noticias y fotos sobre Massa y su esposa pronunciándose a favor de #NiUnaMenos.

Twitter es un micromundo. Genera miles de gigabytes de información por minuto a nivel global. Su evolución es también nuestra evolución, y la velocidad que imprime en nuestra vida diaria nos obliga a desarrollar más y mejores técnicas para entender e incorporar toda esta información en nuestro estudio de la política argentina. En casos como #Nisman o #NiUnaMenos, podemos ver como se convierte en una herramienta prioritaria para expresarse, compartir, y hasta organizarse en comunidades. Vemos también cómo las distancias entre representantes y representados parecen, al menos virtualmente, volverse cuasi nulas. Sin embargo, eventos virtuales tan disimiles nos muestran inicialmente, su versatilidad como tal: a veces, para polarizar. A veces, para unificar.

jueves, 2 de junio de 2016

Redes animales: Redes muy monas


Familiarizarse
 por Alaina | Living Links
Estudio de una integración chimpancé y sus redes sociales



Desde mediados de 2012 Living Links y el Budongo Trail en el zoológico de Edimburgo se convirtieron oficialmente en un consorcio de investigación. La Dra. Katie Slocombe de SPRG es la directora científica del Centro de Investigación del Chimpancé Budongo y tiene un interés científico desde hace mucho tiempo en los chimpancés del zoológico de Edimburgo, así como los chimpancés en el bosque de Budongo en Uganda.

A través de los años, ella y sus colegas han tenido la oportunidad de realizar múltiples estudios con nuestros chimpancés y recientemente uno de estos proyectos ha sido publicado en la revista American Journal of Primatology.

Schel, M.A., Rawlings, B., Claidiere, N., Wilke, C, Wathan, J, Richardson, J, Pearson, S, Herrelko, E, Whiten,  A., and Slocombe, K (2012). Network Analysis of Social Changes in a Captive Chimpanzee Community Following the Successful Integration of Two Adult Groups. American Journal of Primatology 00:1-13.

En mayo de 2010, un nuevo grupo de chimpancés de Beekse Bergen Safari Park (Holanda) llegó al Budongo Trail, y estos chimpancés se fuera a introducir a la población que habita en este recinto existente. En el transcurso de 3 meses los recién llegados se integraron con éxito con la población original.

Para facilitar la introducción del Budongo Trail había sido diseñado de tal manera que los guardianes fueron capaces de introducir lentamente los chimpancés entre sí mediante el uso de un sistema multi-pod (Figura 1). Las presentaciones se llevaron a cabo al ritmo que fue dictado por el comportamiento de los chimpancés uno hacia el otro mientras estaban separados físicamente. Los encargados de la experiencia del conocimiento 'de los individuos y su comportamiento fue clave para el éxito de la integración. Tabla 1 muestra las características demográficas de los individuos están introduciendo y la Figura 2 muestra el proceso de la integración.

Budongo mapa de los senderos

Fig. 1 - Un mapa que representa la envolvente sistema multi-pod y la zona de recinto al aire libre.

Tabla 1 - Datos demográficos de los chimpancés.


La Fig 2. Ilustración del proceso de integración de los individuos en el grupo mixto tercera. Una célula sombreada naranja indica que los individuos abandonaron su grupo original y pasaron a formar parte del grupo mixto. Los machos dominantes de cada grupo (CL, PA, KD y Q) se introdujeron pasado.

En el documento de los autores discuten las complejidades de la integración de dos grupos de chimpancés en cautividad no relacionados y supervisan la dinámica del grupo en todo el proceso de integración con el uso de Análisis de Redes Sociales (ARS). El ARS utiliza asociaciones (por ejemplo. Vecino más cercano) y los datos de interacciones (por ejemplo, de la preparación.) Para crear una representación gráfica (sociograma) de las relaciones sociales dentro del grupo (Figura 3).



Figura 3 - Sociogramas que ilustran los patrones de asociación de los períodos temprana y tardía de la integración. Los machos se muestran como cuadrados azules y las hembras como los círculos de color rosa. nombres de chimpancés Edimburgo están resaltados en rojo y los chimpancés Beekse Bergen muestran en amarillo. El espesor de la relación representa la fuerza de la asociación entre dos individuos y el tamaño del nodo representa lo bien conectado ese individuo está dentro de toda la red.

Los sociogramas muestran que en los primeros tiempos de la integración Edith, una mujer de 13 años del grupo Beekse Bergen, tenía las asociaciones de grupos de cruz más fuertes, mientras que en el último período fue Kindia, un niño de 12 años de edad de sexo masculino de alto rango de Edimburgo.

Los datos del ARS que se ha recogido y se muestra para este grupo de chimpancés está en curso para que podamos seguir vigilando el lento proceso de integración social entre los dos nuevos grupos de chimpancés. Como se puede ver en el sociograma todavía hay una tendencia a que los chimpancés se asocien con sus miembros originales del grupo a pesar de que han estado viviendo en el mismo recinto grande para más de un año. Con el tiempo vamos a ver una mayor uniformidad de la mezcla de las dos subpoblaciones o van a seguir confiando en las viejas coaliciones?

Esta investigación no sólo nos permite un vistazo a la complejidad de los sistemas sociales de los chimpancés, pero también puede ser útil para hacer el bienestar enfocada opciones de manejo de los animales. Si conocemos la conectividad de cada individuo en el grupo entonces podemos hacer predicciones sobre cómo el traslado / adiciones a la población que pueden jugar a cabo, junto con la planificación de las cuales los individuos pueden necesitar otras personas de apoyo social en situaciones nuevas.

Para obtener información acerca de otro proyecto de chimpancé en el Camino de Budongo favor ver un vídeo de la entrevista con Katie sobre el estudio de la comunicación del chimpancé.

martes, 31 de mayo de 2016

Twitter político en Argentina: Un ejemplo

Campaña sucia y Twitter
LA GRIETA ES UN ALGORITMO
Por Ernesto Calvo - Revista Anfibia


Daniel Scioli acusó a Mauricio Macri de orquestar una campaña sucia en su contra a través de perfiles falsos y robots. Un análisis de los 280 mil tuits que se escribieron sobre las inundaciones en la Provincia de Buenos Aires demuestra que la campaña sucia existió, pero su efecto no alteró la manera en que circularon los mensajes en las redes sociales. En la Argentina 2015, Twitter no solo refleja la polarización sino que la crea a través de sus algoritmos: oficialistas y opositores viven en barrios separados y casi nunca se cruzan.


Ya lo dijo Von Clawsewitz en su clásico texto de 1832: “Twitter es la continuación de la política por otros medios”. Trascendidos, primicias y filtraciones de todo tipo coexisten con información dudosa o demostrablemente falsa; para la exasperación de políticos, periodistas y celebridades del deporte y el arte. Los agravios e insultos molestan por igual a las diez cuentas falsas de Messi y a las tres del Cuervo Tinelli, así como a los múltiples Sciolis, Lanatas y Larretas que compiten por las preferencias de los tuiteros Argentinos. Efectivamente, las redes sociales tienen sus personajes oscuros y sus barrios complicados. Regiones de la web por donde difícilmente se atrevan a salir a caminar los buenos ciudadanos que mantienen sus cuentas verificadas y sus computadoras en orden.

Este mundo de mensajes dudosos e identidades esquivas entró de lleno en la campaña electoral la semana pasada, cuando Daniel Scioli denunció al gurú electoral de Mauricio Macri, Jaime Durán Barba. Según la denuncia presentada ante la Dirección Electoral, el Frente Cambiemos orquestó una campaña sucia en Twitter para sacar rédito electoral de las inundaciones de la segunda semana de agosto y que afectaron con particular virulencia a la Provincia de Buenos Aires. Al parecer, según consta en la denuncia, alrededor de 50 mil cuentas fueron utilizadas para diseminar información injuriosa y/o falsa. Trolls, fakes y bots se ocuparon, respectivamente, de mentir, ironizar desde el anonimato y diseminar de forma compulsiva información que, se supone, atentaría contra las reglas de la competencia electoral.

Estas críticas, por supuesto, no son nuevas. La proliferación de trolls, fakes y bots tiene una larga tradición en Twitter, inundando las redes sociales a lo largo de conflictos tan diversos como fueron la Primavera Arabe, #Ferguson, #Baltimore, #Nisman y #Ayotzinapa. En mi libro “Anatomía política de Twitter en Argentina: Tuiteando #Nisman” (que saldrá en septiembre), transcribo la queja de un ex-directivo de Twitter, quien en un memo interno afirmaba: “Estoy francamente avergonzado de cuán pobremente hemos lidiado con este problema [trolls, fakes y bots] durante mi estadía como jefe de Operaciones [de Twitter]”.

En efecto, si bien las redes sociales democratizaron la diseminación y el acceso a la información, también crearon un universo de patologías informativas que son sistemáticamente utilizados para hacer negocios y para hacer política. Desde la venta de “seguidores” para aumentar la popularidad de usuarios hasta el bullying compulsivo y sistemático a través de identidades falsas o mercenarios informáticos.

A pesar de las críticas generalizadas a los trolls, fakes y bots, existe una pregunta central cuya respuesta no es tan sencilla de responder: ¿sirve hacer campaña negativa en Twitter para aumentar el apoyo entre los votantes? La respuesta, como muestro a continuación, pareciera ser un “no mucho”. Poco a poco la evidencia se va acumulando, mostrando que no todos los usuarios reciben la misma información, no muchos dan crédito a esta información y la mayoría de ellos son informáticamente “ciegos” a las operaciones twitteras.

Las inundaciones y la cámara de eco

Para evaluar el efecto de las redes sociales, y su uso electoral, lo primero que es necesario entender es que la magnitud de la información producida en la red es extraordinaria. Entre el 12 y el 15 de Agosto se publicaron más de 280 mil tuits sobre las inundaciones de la Provincia de Buenos Aires. Estos cientos de miles de tuits contaron con la participación de más de 100 mil cuentas de usuarios. Es decir, del evento mediático #inundados participaron alrededor del doble del número de cuentas denunciado ante la dirección electoral. Estas cuentas, todo indica, tuvieron más usuarios que fakes, más fakes que trolls y más trolls que bots. Todas patologías que tienen su propia “huella digital” en internet.

A su vez, si bien el número de tuits relativos a las inundaciones es significativo, representa tan sólo una pequeña fracción de los más de 500 millones de tuits que se publican cada día en todo el mundo. Puestos en contexto, tan sólo un 0.014% de los tuits producidos durante esos cuatro días se refirieron al tema de las inundaciones.

Si estamos interesados en leer uno de estos 280 mil tuits, entre los 500 millones producidos diariamente, ¿cuál deberíamos leer primero? Como muchos de los lectores seguramente saben, las redes sociales como Facebook, Instagram o Twitter, analizan nuestro comportamiento en la red así como la información de nuestras cuentas para decidir qué tipo de información ofrecernos. Esto es necesario cuando se producen millones de tuits por día. Si indicamos que nos gustó una publicación de Aníbal Fernandez, Twitter nos ofrece una publicación de Cristina Fernandez. Si retuiteamos una publicación de Gabriela Michetti, Twitter nos ofrece un tuit de Mauricio Macri. En la medida en que Twitter busca maximizar nuestro placer informativo, todas las actividades que depositamos en nuestros muros son utilizadas para definir qué tipo de publicaciones desearíamos ver. Es decir, la información que recibimos es un eco de aquello que depositamos en Twitter. Tanto favs como retuits son procesados por algoritmos que después ofrecen nuevas publicaciones (o nuevos productos) en nuestros muros.

El resultado de estos mecanismos informativos es que cada uno de nosotros recibe distintas publicaciones y ve distintos tipos de información en sus muros. En efecto, cada uno de nosotros vive en un mundo virtual en el cual todos somos mayoría. Quienes comulgan con la oposición viven en un mundo tuitero que se encuentra saturado de opositores. Quienes comulgan con el gobierno viven en un mundo oficialista.

¿Y dónde viven los trolls, los fakes y los bots? En los barrios que los reciben y que repiten sus mensajes. Es decir, en comunidades donde lo que ellos dijeron ha sido fav y ha sido retuit. Por tanto, la culpa no es del troll sino del que le da de comer. Pero como ocurre con los perros de la calle, los trolls vuelven a quienes los alimentaron, dado que Twitter considera estas actividades al decidir qué publicaciones pone en nuestro muro.

Cuando vayas a Twitter haz lo que Twitter hace

También nosotros podemos ver distintas realidades oficialistas y opositoras en Twitter, para entender el modo en que la polarización se propaga por las redes sociales. Es decir, podemos analizar cómo se diseminan distintos tipos de mensajes políticos entre comunidades de usuarios, utilizando las mismas herramientas que explican la formación de comunidades tuiteras.

Consideremos por ejemplo los 280 mil tuits relativos a la inundación, los cuales fueron capturados por Ailin Accinti de la Universidad de San Martín entre el 12 y el 15 de Agosto. Entre estos mensajes, existen 205.353 publicaciones que retuitean información producida por otros usuarios. Por ejemplo, el 13 de Agosto @elkaiser63 publicó este tuit:




Este tuit fue retuiteado por más de dos mil usuarios, los cuales también intercambiaron información con otros usuarios de la red. Desde fakes como @elkaiser63, pasando por medios de comunicación tradicionales como Télam o La Nación, hasta políticos como Aníbal Fernández, la comunidad de Twitter se ocupó de transmitir información y, al hacerlo, reveló sus afinidades políticas.



Mucho ruido y pocas nueces


El cuadro 1 sintetiza los retuiteos de los principales medios relativos a la inundación, 12 al 15 de agosto, y nos muestra porqué Daniel Scioli no debería estar preocupado respecto de la “campaña sucia” en Twitter. Para elaborar la red se incluyeron102.853 cuentas de usuarios y 280.590 tuits y 205,353 retuits. Las líneas describen retuits de los mensajes enviados desde las cuentas de @lanacioncom, @clarincom, @AgenciaTelam y @C5N, y los círculos describen usuarios de Twitter cuyo tamaño depende del número de retuits. A diferencia de las inundaciones, que cubrieron la totalidad de la provincia, los mensajes opositores en Twitter sólo circularon por barrios opositores. Los tuits producidos desde la cuenta @lanacioncom o @ElisaCarrioArg sólo fueron retuiteados por la comunidad opositora. A la vez, muy pocos tuits de Télam fueron retuiteados desde el campo opositor así como muy pocos tuits de La Nación y Clarín fueron retuiteados desde el oficialismo. En cada una de estas comunidades, distintos medios periodísticos “fueron mayoría”.



El cuadro 2 toma uno de los tuits más difundidos durante las inundaciones, publicado desde la cuenta @Lanataenel13, que afirmaba: “Que Scioli sea candidato, es un insulto al país. Debería ser destituido, como Aníbal Ibarra después de Cromañón”. En el gráfico, los círculos describen usuarios de Twitter cuyo tamaño depende del número de retuits, mientras que los óvalos son grupos de usuarios que siguen a las distintas cuentas.. Sobre un total de 1.539 retuits entre el 12 y el 15 de agosto, tan sólo una veintena fueron realizados por usuarios conectados a la comunidad oficialista. ¡Tan sólo alrededor de un 1,2%! Es decir, los mensajes “destituyentes” sólo circularon por barrios opositores, en donde la oposición es mayoría. Mientras tanto, los mensajes oficialistas sólo circularon por barrios oficialistas, en donde el oficialismo es mayoría.   Ni tanto troll, ni tanto efecto   Un análisis de los tuits relativos a la inundación muestra que tanto el gobierno como la oposición han construido sus narrativas sobre pilares poco sólidos. Si bien el sciolismo afirmó que alrededor de 50.000 cuentas usadas eran trolls, fakes o bots; en los días posteriores a la inundación la tuitosfera estuvo dominada informativamente por viejos conocidos de la política Argentina: @ElisaCarrioArg, @Lanataenel13, @lanacioncom, @clarincom. Estos usuarios han sido activos opositores al gobierno y, si bien los primeros dos son usuarios administrados, la actividad opositora de estas cuentas no opera como una cuenta troll (como ejemplo de una cuenta troll puede verse al falso Tinelli, @cuervotiinelli, con doble i). Otras cuentas como la de @elkaiser63, si bien son anónimas, se encuentran bien establecidas y en el pasado tomaron posiciones más cercanas al gobierno. Tampoco existe evidencia de que la diseminación de información fuese llevada adelante mediante bots, dado que de las 100 mil cuentas que tuitearon sobre las inundaciones la gran mayoría carece de los identificadores de repetición que caracterizan a las cuentas automatizadas.   Sin embargo, los tuits publicados durante el período de las inundaciones también muestran un alto grado de concentración de la información en unos pocos actores cercanos a la oposición. Alrededor de un 1% de los usuarios produjo más del 40% del contenido relativo a las inundaciones que circuló entre el 12 y el 15 de Agosto. Este contenido fue en su gran mayoría opositor, se difundió entre comunidades de usuarios opositores y no estuvo orientado a atender a las necesidades de los damnificados.   La estabilidad de las comunidades en Twitter   Los argentinos cambian muy gradualmente a sus amigos en Twitter y tienen núcleos de seguidores estables en las distintas redes sociales. Como consecuencia, las comunidades informativas que observamos al analizar los diálogos tuiteros de las inundaciones no son muy distintas a las comunidades que caracterizaron al caso #Nisman, a las comunidades de #eleccionesargentinas o de #niunamenos. Aun cuando la gente percibe a Twitter como un espacio democrático y desregulado, donde las ideas circulan libremente, la producción masiva de información y su diseminación personalizada ha formado comunidades estables. Cada uno de nosotros vive en estas comunidades, donde nuestros valores y preferencias son también los valores y preferencias de cuantos nos rodean. Los algoritmos que trabajan bajo el capot de Twitter son un mecanismo de formación de comunidades que ha probado ser muy exitoso pero que, al mismo tiempo, homogeneiza a grupos de usuarios que viven en distintos mundos informativos. La polarización avanza también en las redes sociales: aquí y ahora, en nuestra propia esquina de Twitter, todos somos mayoría.    

Agradezco la colaboración de Ailin Accinti en la recolección de tuits. Todo el procesamiento de retuits se realizó en R 3.0 utilizando el paquete igraph. El procedimiento es descripto en detalle en el libro que saldrá en septiembre: Calvo, Ernesto. 2015. “Anatomía política de Twitter en Argentina: Tuiteando #Nisman” (Capital Intelectual: Argentina).




sábado, 28 de mayo de 2016

Inteligencia artificial: Cómo funcionan las redes neuronales

Revelando las capas ocultas de aprendizaje profundo
Una simulación de visualización de la red neuronal interactiva ofrece ideas sobre cómo aprenden las máquinas
Por Amanda Montañez - Scientific American



Crédito: Daniel Smilkov y Shan Carter

En un artículo reciente de la revista Scientific American titulado “Springtime for AI: The Rise of Deep Learning,”, el informático Yoshua Bengio explica por qué las redes neuronales complejas son la clave de la verdadera inteligencia artificial como la gente ha imaginado tiempo. Parece lógico que la manera de hacer que las computadoras tan inteligentes como los seres humanos es que programarlos para comportarse como los cerebros humanos. Sin embargo, teniendo en cuenta lo poco que sabemos de cómo funciona el cerebro, esta tarea parece más que un poco desalentador. Entonces, ¿cómo el aprendizaje profundo trabajo?
Esta visualización por Jen Christiansen explica la estructura básica y la función de las redes neuronales.


Gráfico de Jen Christiansen; PunchStock 

Evidentemente, estos llamados "capas ocultas" juegan un papel clave en la descomposición de componentes visuales para decodificar la imagen en su conjunto. Y sabemos que hay una orden de cómo actúan las capas: desde la entrada hasta la salida, cada capa se encarga de información cada vez más compleja. Pero más allá de eso, las capas ocultas, como su nombre indica, son todo un misterio.
Como parte de un proyecto de colaboración reciente llamado tensor de flujo, Daniel Smilkov y Shan Carter crearon una zona de juegos de redes neuronales, que tiene como objetivo desmitificar las capas ocultas, pues permite a los usuarios interactuar y experimentar con ellos.


Visualizaciòn por Daniel Smilkov y Shan Carter
Clic en la imagen para iniciar la INTERACTIVA

Hay mucho que hacer en esta visualización, y yo estaba recientemente la suerte de escuchar Fernanda Viégas y Martin Wattenberg rompen algunos de los que en su charla de apertura en OpenVisConf. (Fernanda y Martin fueron parte del equipo detrás de Tensor de flujo, que es una herramienta mucho más complejo, de código abierto para el uso de redes neuronales en aplicaciones del mundo real.)
En lugar de algo tan complicado como caras, el patio de recreo red neuronal utiliza puntos de color azul y naranja dispersas dentro de un campo de "enseñar" a la máquina cómo encontrar y patrones de eco. El usuario puede seleccionar diferentes empresas punto-arreglos de diferentes grados de complejidad, y manipular el sistema de aprendizaje mediante la adición de nuevas capas ocultas, así como nuevas neuronas en cada capa. Entonces, cada vez que el usuario pulsa el botón "play", se puede ver como los cambios de fondo degradado de color para aproximarse a la disposición de los puntos de color azul y naranja. A medida que el patrón se hace más compleja, las neuronas y las capas adicionales ayudan a la máquina para completar la tarea con más éxito.


La máquina, resuelve esta disposición directa de la estrategia puntos, utilizando sólo una capa oculta con dos neuronas.

La máquina lucha por decodificar esta forma de espiral más complejo.

Además de las capas de neuronas, la máquina tiene otras características significativas, tales como las conexiones entre las neuronas. Las conexiones aparecen, bien como líneas de color azul o naranja, azul ser positivo, es decir, la salida de cada neurona es el mismo que su contenido y naranja de ser negativo, lo que significa que la salida es lo contrario de los valores de cada neurona. Además, el grosor y la opacidad de las líneas de conexión indican la confianza de la predicción de cada neurona está haciendo, al igual que las conexiones en nuestro cerebro se fortalecen a medida que avanzamos a través de un proceso de aprendizaje.
Curiosamente, a medida que vaya mejor en la construcción de redes neuronales para las máquinas, podemos terminar revelando nueva información sobre el funcionamiento de nuestro propio cerebro. Visualizar y jugar con las capas ocultas parece una gran manera de facilitar este proceso al mismo tiempo hacer el concepto de aprendizaje profundo accesible a un público más amplio.

jueves, 26 de mayo de 2016

Algoritmo de criticidad de enlace usando centralidad de intermediación

Un método mejorado para el descubrimiento de criticidad de enlace en las redes de transporte
Juan Segovia, Eusebi Calle, y Pere Vila`
Instituto de Informática y Aplicaciones (IIIA), Universidad de Girona,
Girona 17071, España
E-mail: {jsegovia, Eusebi, perev}@eia.udg.edu




Resumen - Evaluar cuantitativamente la importancia o criticidad de cada eslabón de una red es de valor práctico para los operadores, ya que esto puede ayudar a aumentar la resiliencia de la red, ofrecer servicios más eficientes, mejorar o algún otro aspecto del servicio. Intermediación es una medida gráfico-teórico de centralidad que se puede aplicar a redes de comunicación para evaluar enlace importancia. Sin embargo, como se ilustra en el presente documento, la definición básica de la centralidad de intermediación produce estimaciones inexactas, ya que no tiene en cuenta algunos aspectos relevantes para la creación de redes, tales como la heterogeneidad en la capacidad del enlace o la diferencia entre nodos pares en su contribución a la tráfico total. Un nuevo algoritmo para descubrir enlace de centralidad en las redes de transporte se propone en este trabajo. Requiere sólo atributos de red y topología estáticas o semi-estáticas, y sin embargo produce estimaciones de buena precisión, que se han verificado a través de extensas simulaciones. Su valor potencial se demuestra por una aplicación de ejemplo. En el ejemplo, el algoritmo de enrutamiento simple de camino más corto se mejora de una manera tal que supera a otros algoritmos más avanzados en términos de bloqueo de relación.



Índice de Términos-enrutamiento en redes GMPLS, enlaza la criticidad, la centralidad de intermediación.