Análisis de redes sociales

miércoles, 25 de marzo de 2015

La minería de datos de Twitter encuentran a los más fervientes seguidores de ISIS

La minería de datos de Twitter revela los orígenes del apoyo al Estado Islámico
El estudio de los tweets de personas del pre-Estado Islámico que terminaron respaldando a la organización presenta un panorama revelador de cómo surge el apoyo, dicen los científicos de la computación.

Ya en mayo de 2014, surgieron noticias de que un egipcio llamado Ahmed Al-Darawy había muerto en los campos de batalla de Irak, mientras que luchaba por el Estado Islámico de Irak y el Levante, también conocido como Estado Islámico o ISIS.

En la cara de él, su muerte parecía algo de un rompecabezas. Al-Darawy era un padre de 38 años de edad de tres años, un ex policía y gerente en una empresa multinacional en Egipto. Él también había sido un jugador clave en el movimiento no violento democracia que derrocó al presidente egipcio Hosni Mubarak en 2011 durante la Primavera Árabe. Incluso Al-Darawy había asociado siempre a cargos de elección popular después de los levantamientos.

Muchos observadores preguntaron qué había hecho de esta activista no violenta en un partidario endurecido del movimiento ISIS violento. Pero la historia de Al-Darawy no es tan inusual.

Los estudios de las personas que se han unido a este tipo de organizaciones sugieren que tienden a estar mejor educados, mejorar su situación financiera, más expuestos a la cultura occidental y, en general más logrado que el promedio. Tampoco estos individuos muestran evidencia de trastornos psicológicos. Por el contrario, parecen ser psicológicamente más robusta que la media.

Estas características son apenas inusual. Mucha gente en muchas sociedades comparten características similares. ¿Así que lo que distingue a los que eligen luchar por grupos violentos como ISIS de aquellos que no lo hacen?

Hoy en día, tenemos una idea de esta pregunta gracias al trabajo de Walid Magdy y amigos en el Instituto de Investigación Informática Qatar en Doha. Estos chicos han estudiado tweets en árabe generados por personas que apoyan ISIS y los que se oponen a ella para determinar cuáles son los factores de personas en cada grupo tienen en común.

Luego buscaron a través de la historia de cada individuo de tweets para ver si sus tweets pre-ISIS revelaron factores comunes que pueden predeterminar su apoyo fuera de plazo o de la oposición.

Magdy y coautores comienzan recogiendo unos 3,1 millones de tweets que mencionan árabes ISIS creado por más de 250.000 usuarios entre octubre y diciembre de 2014. De estos usuarios, 165.000 tenían cuentas activas que se remontaban a pre-ISIS veces.

Para determinar la diferencia entre los usuarios de favor o en contra de ISIS, pidieron un hablante nativo árabe para juzgar la polarización de una muestra aleatoria de 1.000 tweets.

Esto reveló una tendencia clara. Tweets que demuestran el apoyo a ISIS tienden a usar su nombre completo, el Estado Islámico en Irak y el Levante, o alguna variación de este. Tweets que se opusieron a ISIS tendían a utilizar la abreviatura.

Luego escogieron todos aquellos usuarios que habían escritos 10 o más tweets sobre ISIS, ya sea en favor o en contra. Esto produjo un total de 11.332 usuarios pro-ISIS y 45.628 usuarios de anti-ISIS.

A continuación, Magdy y coautores estudiaron la forma en que los tweets favor o en contra ISIS varía en el tiempo. "Tuits anti-ISIS generalmente alcanzaron su punto máximo cuando la noticia de ISIS violaciónes de derechos humanos surgió como el asesinato de rehenes, las cuentas de tortura, o informes de la esclavitud de las mujeres yazidi", dicen. "Por otro lado, los tweets pro-ISIS generalmente alcanzaron su punto máximo en conjunción con el lanzamiento de videos de propaganda y los principales logros militares".

También estudiaron los hashtags relacionados con estos tweets, encontrar vínculos con varios eventos de noticias que parecen desencadenar interés en ISIS. Como era de esperar, la mayoría de estos tweeters, parecía que se originan en el Medio Oriente

Por último, Magdy y coautores estudiaron la cronología histórica de los tweets de más de 7.000 usuarios pro-ISIS y un número igual de usuarios anti-ISIS. El objetivo era buscar características en común que podrían predecir su futuro apoyo o la oposición.

Magdy y colegas entrenaron un algoritmo de aprendizaje automático para detectar los usuarios de ambos tipos y dijo que era capaz de clasificar a otros usuarios de probabilidades de convertirse en pro- o anti-ISIS con gran precisión. "Formamos un clasificador que puede predecir el apoyo o la oposición de ISIS con 87 por ciento de precisión futuro", dicen.

Los hashtags estas personas usan dar una visión interesante sobre el origen de su apoyo u oposición. "En cuanto a los hashtags discriminatorios sugirió que una fuente importante de apoyo a ISIS surge de la frustración con los pasos en falso de la Primavera Árabe", dicen Magdy y colegas. "En cuanto a la oposición a ISIS, que está vinculada con el apoyo de otros grupos rebeldes, la mayoría en Siria, que han sido blanco de ISIS, el apoyo a los regímenes de Oriente Medio ya existente, y Shia sectarismo".

Eso es interesante investigación que revela la complejidad de las fuerzas que actúan en la determinación de apoyo u oposición a movimientos como ISIS- y de por qué la gente como Ahmed Al-Darawy terminan muriendo en el campo de batalla. Una mejor comprensión de estas fuerzas es sin duda un paso adelante en la búsqueda de soluciones a la enmarañada red que existe en esta parte del mundo.

Sin embargo, vale la pena que termina con una nota de precaución. La capacidad de clasificar las personas como potenciales partidarios de ISIS plantea la peligrosa perspectiva de una especie de policía del pensamiento, como la representada en películas como Minority Report. Es evidente que gran parte del pensamiento se debe dar forma en para que este tipo de información se debe utilizar.

Ref: arxiv.org/abs/1503.02401 : #FailedRevolutions: Using Twitter to Study the Antecedents of ISIS Support

1503 02401v1

Leer más publicaciones en Calaméo

domingo, 22 de marzo de 2015

Redes de viñetas para análisis de información

Mejora de la memoria: desde listas de viñetas a grafos de red

Nodus Labs

Consideremos un ejemplo sencillo: queremos hacer un seguimiento de los fondos de riesgo y la puesta en marcha aceleradores de semillas. ¿Cómo organizar esta información de una manera que siempre podemos recuperarlo y compartirlo con los demás?

El enfoque tradicional - ir a algún sitio, como TechCrunch, elegir los más interesantes, y hacer una lista de viñetas (guardarlo en Evernote después):

• Y Combinator

• Sequoia

• Founders Fund

• Andreessen Horowitz

• Google Ventures,

• Founders Fund

• Index Ventures

• TechStars

• AngelPad

• Primera Ronda de Capital

• Betaworks

• Atlas Ventures,

Esta es una buena lista, pero carece de contexto. Algo que carece de contexto carece de significado.

Por lo general, este problema se resuelve mediante la adición de las categorías, pero esto es una cosa muy difícil de hacer con la mayoría de las cosas hoy en día, especialmente con fondos, que funcionan a través de la diversificación (así, de hecho, un buen fondo debería ser inclasificable).

Otro enfoque - hacer un grafo de la red.

La sola observación de esta imagen ya nos da una buena idea de quién es quién en la industria y hace que sea mucho más fácil de recordar los principales jugadores. Tiene mucho que ver con los efectos de memoria, como cebado (es más fácil de recordar las cosas cuando están relacionados) y el reconocimiento de patrones incrustado en la percepción humana.

El grafo fue recuperado utilizando InfraNodus: encuentra las entidades que la gente busca juntos y los visualiza en el gráfico. Algunas conexiones se han añadido manualmente si los fondos de co-invertidos en la misma empresa.

Los nodos en el gráfico fueron alineados utilizando iterativo algoritmo de fuerza Atlas: los nodos más conectados son empujados el uno del otro, mientras que los nodos conectados a ellos se tiran más cerca. Cuantas más conexiones de los nodos tienen, cuanto más grandes son en el gráfico.

El grafo resultante muestra los fondos, y ofrece dos beneficios adicionales: contexto e importancia relevante de cada elemento.

El contexto se produce a través de las conexiones entre los nodos: podemos ver fácilmente que los fondos con mayor frecuencia se buscó (y mencionó) juntos, así que esto indicará algo acerca de su posición relevante en el mundo del capitalismo de riesgo.

La importancia relevante se produce a través del número de conexiones que cada fondo (nodo) tiene en la red. Cuantas más conexiones, más grande que es. Cuanto más el nodo está conectado a los nodos más conectados en la red, el más central que va a ser.

Por lo tanto, vemos que todos los fondos más conocidos, como Sequoia, Andreessen Horowitz, Google Ventures tienen una alta relevancia y tienen una ubicación céntrica, por lo que tipo de conformar el núcleo del mercado de capital de riesgo.

Entonces tenemos un montón de fondos que aún están en el centro, pero un poco en el lado, como Y Combinator, TechStars, AngelPad y Seedcamp. Quienes tienen una preferencia por las inversiones de semillas y son diferentes de los grandes como Sequoia. Sin embargo, Y Combinator, por ejemplo, a veces también hace inversiones más grandes, por lo que es más cerca del pelotón principal.

Por último, hay algunos fondos en la periferia, como Atomic, Atlas Ventures, Betaworks, Horizon Ventures, así como Yuuwa capitales y Sparkbox ventures. Esos fondos son menos conocidos pero pueden ser interesantes, ya sea debido a su posición geográfica única o una cartera más especializada.

Como podemos ver, una imagen vale sobre 480 palabras (hasta ahora), que ya es un buen resultado.

Una imagen interactiva puede ser aún más interesante. Haga clic en los nodos en el gráfico a continuación para ver cómo los fondos están relacionadas específicamente y que las empresas que financian. Haga clic en la esquina superior derecha para mostrar / ocultar el texto.

viernes, 20 de marzo de 2015

Teoría de redes y conciencia humana: Nuevos hallazgos

La teoría de redes arroja nueva luz sobre los orígenes de la conciencia
por Melanie Moran | Research News Vanderbilt

Los puntos negros corresponden a las 264 áreas de la corteza cerebral que los investigadores probaron, y las líneas corresponden a las conexiones funcionales que se reforzaron entre cada una de las áreas del cerebro de síntesis cuando los sujetos percibieron conscientemente el objetivo. Los colores "calientes" están asociados con conexiones más fuertes. Esta cifra se hizo para ilustrae la conciencia del objetivo corresponde al aumento generalizado de la fuerza de las conexiones funcionales (Marois / Godwin).

¿Dónde en el cerebro tu existes? Es el conocimiento del mundo que te rodea y de tú mismo un resultado de cambios específica y enfocados individuales,o vienen eso de una red amplia de conciencia de la actividad neural? ¿Cómo tu cerebro produce la conciencia?

Los investigadores de la Universidad de Vanderbilt dieron un importante paso hacia la respuesta a viejas preguntas de síntesis con un reciente estudio de imágenes cerebrales en los que descubrieron cambios globales en la forma en áreas del cerebro se comunican entre sí durante la conciencia. Sus hallazgos, publicado el 9 de marzo, en las Proceedings of the National Academy of Sciences, desafíando las teorías anteriores tenían la hipótesis mucho más restringido cambios fueron responsables de producir la conciencia.

René Marois (John Russell / Vanderbilt)

"La identificación de las huellas dactilares de la conciencia en el ser humano sería un avance significativo para la investigación básica y médica, por no hablar de sus implicaciones filosóficas sobre los fundamentos de la experiencia humana", dijo René Marois, profesor y catedrático de psicología en la Universidad de Vanderbilt y autor principal de la estudio. "Muchos de los déficits cognitivos observados en diversas enfermedades neurológicas se derivan de los cambios en última instancia, puede cómo se comunica la información en todo el cerebro."

El uso de la teoría de grafos, una rama de las matemáticas que se ocupan de explicar los vínculos interactivos entre los miembros de una red compleja, buscando como redes o rutas de vuelo sociales, el investigador con el fin de caracterizar cómo las conexiones entre las diversas partes del cerebro fueron relacionadas con la conciencia.

"Con la teoría de grafos, se puede hacer preguntas acerca de cómo de manera eficiente las redes de transporte en los Estados Unidos y Europa están conectados a través de los centros de transporte como el aeropuerto de La Guardia en Nueva York", dijo Douglass Godwin, estudiante graduado y autor principal de la investigación,. "Podemos hacer preguntas sobre esas mismas redes cerebrales y hubs de comunicación neuronal."

Las teorías modernas de las bases neurales de la conciencia caída de rally gen en dos campos: focal y global. Teorías focales sostienen que hay áreas específicas del cerebro son fundamentales para la generación de conciencia hizo, mientras que las teorías globales sostienen la conciencia surge de cambios a gran escala en la actividad cerebral. Este análisis la teoría de grafos estudio Aplicado a adjudicar entre las teorías de síntesis.

Los investigadores reclutaron a 24 miembros de la comunidad universitaria a participar en un experimento de imagen de resonancia magnética funcional (fMRI). Mientras que en el escáner fMRI, los participantes fueron preguntaron para que detecten un disco que era brevemente mostrado en una pantalla. En cada ensayo, los participantes a respondieron si fueron capaces de detectar el disco objetivo y la cantidad de confianza que tenían en su respuesta. Los experimentadores luego compararon los resultados de los ensayos de alta confianza durante los cuales el objetivo fue detectado en los ensayos cuando los participantes erraron. La tesis fue tratada como ensayos "inconscientes" y "consciente", respectivamente.

La comparación de los ensayos conscientes e inconscientes que utilizan análisis de fMRI convencional hizo evaluar la amplitud de la actividad cerebral mostró un patrón típico de los resultados de estudios similares, con sólo unas pocas áreas del cerebro que muestran una mayor actividad Durante la detección del objetivo que cuando los participantes perdieron verlo. El presente estudio, sin embargo, lo que interesa no sólo en qué regiones podría ser más activa con la conciencia, pero cómo se comunican entre sí.

A diferencia de los resultados observados utilizando métodos de análisis convencionales más focales, los resultados a través de este enfoque de red apuntaban a una conclusión diferente. Nadie área o red de áreas del cerebro se destacó como particularmente más conectados Durante la conciencia de la meta; todo el cerebro parecía convertirse conectada funcionalmente más raíz de los informes de la conciencia.

La conciencia aparece para romper la modularidad de las redes de síntesis "Sabemos que hay numerosas redes cerebrales controlaba las funciones cognitivas distintas: como la atención, el lenguaje y el control, con cada nodo de una red densamente interconectado con otros nodos de la misma red, pero no con otras redes ", dijo Marois. "La conciencia aparece para romper la tesis de la modularidad de las redes, como hemos observado, un amplio aumento de la conectividad funcional entre las redes de síntesis con la conciencia."

La investigación hizo Sugiere conciencia es probablemente un producto de esta comunicación generalizada, y lo hizo sólo podemos informar lo hicieron nos hemos visto una vez que estén representados en el cerebro de ser de esta manera. Ran tanto, no hay una parte del cerebro es verdaderamente el "asiento del alma", como René Descartes escribió una vez en una hipótesis sobre la glándula pineal, sino más bien, la conciencia parece estar en propiedad emergente de cómo la información hizo necesidades a efectos de su tramitación Durante todo el cerebro se propaga.

"Damos por sentado cómo unificó nuestra experiencia del mundo es. No experimentamos mundos separados visuales y auditivas, todo está integrado en una sola experiencia consciente ", dijo Godwin. "Esta comunicación entre redes generalizada tiene sentido como un mecanismo por el cual la conciencia se integra en singular mundo lo hizo."

jueves, 19 de marzo de 2015

Charla: Lazos que unen (en inglés)

Vídeo: Sandy Pentland en la exposición 'Lazos que unen: La bondad de las redes sociales' de las Community Lecture SFI

Entre otros puntos de vista sobre el comportamiento humano, los estudios recientes de las redes sociales han demostrado que estamos mucho más motivados por incentivos sociales como recompensa que otros pagos que incluyan el mero interés económico.

Durante una conferencia SFI Comunidad 11 de marzo en Santa Fe, Alex del MIT "Sandy" Pentland discutieron cómo el estudio de los patrones de intercambio de información en una red social - incluso sin ningún conocimiento del contenido real - puede ayudarnos a predecir con una precisión impresionante lo productivo y eficaz hizo red es, y cómo describió el análisis matemático de las redes sociales es un terreno fértil para la comprensión de la conducta humana.

Pentland es el profesor Toshiba de Medios de Comunicación, Artes y Ciencias en el MIT y lo nombró uno de los siete científicos de datos más poderosas del mundo por la revista Forbes en 2011. El último libro de Pentland es Física Social: Cómo Buenas Ideas Corra - Las Lecciones de una nueva ciencia.

domingo, 15 de marzo de 2015

Pagerank descubre el mejor equipo de fútbol de todos los tiempos

El algoritmo Pagerank revela el máximo equipo de fútbol de todos los tiempos
La red creada por los resultados de los equipos que juegan entre sí puede ser clasificado en la misma forma que los sitios web, dicen los científicos de la computación.
MIT Technology Review

El algoritmo PageRank de Google se ha convertido en uno de los más famosos de la informática. Fue diseñado originalmente para clasificar los sitios web de acuerdo a su importancia al suponer que un sitio es importante si se vincula a otros sitios importantes.

El algoritmo funciona contando los enlaces a un sitio web y la importancia de los sitios de estos vienen. A continuación, utiliza este para calcular la importancia del sitio original. A través de un proceso de iteración, el algoritmo se le ocurre un ranking.

Desde los fundadores de Google, Larry Page y Sergei Brin, desarrollaron el algoritmo a mediados de la década de 1990, los investigadores han comenzado a usarlo para clasificar nodos en otras redes. Una idea ha sido la de utilizarlo para clasificar documentos científicos que utilizan la red de enlaces en las referencias que contienen. Otra es la de usarla para las elecciones en las que todo el mundo es un candidato y pueden votar por nadie más.

Hoy en día, Verica Lazova y Lasko Basnarkov en la Universidad Cyril y Methodius de Macedonia han encontrado otro uso para el algoritmo de PageRank. Estos chicos lo han utilizado para crear un ranking de los equipos nacionales de fútbol del mundo de todos los tiempos utilizando los resultados de los 20 torneos de la Copa Mundial que se han producido desde 1930. Su hipótesis es que un equipo debe altamente clasificado si se ha golpeado a otros equipos altamente clasificados .

El método es sencillo. Se llevan a los resultados de más de 7.000 partidos jugados entre 210 países desde 1930. Durante estos juegos, los equipos anotaron más de 20.000 goles en un promedio de 4.3 por partido.

Lazova y Basnarkov van a crear una red en la que los equipos son nodos y existe un vínculo entre ellos si han jugado uno contra el otro. El peso y la polaridad de este enlace depende de los resultados, que ha vencido a quién y así sucesivamente.

Finalmente, se aplican el algoritmo Pagerank durante un número de iteraciones para determinar un ranking.

Los resultados serán una lectura interesante para cualquier aficionado al fútbol. El equipo mejor clasificado es Brasil, que no es de extrañar teniendo en cuenta que ha ganado el torneo un récord de 5 veces, más que cualquier otra nación. También ha jugado más partidos que cualquier otro equipo, ganado más partidos y marcado más goles.

Después de Brasil vienen de Italia, Alemania, Holanda, Argentina, Inglaterra, España, Francia y Checoslovaquia, en ese orden.

Lazova y Basnarkov luego comparar su clasificación a la lista de todos los tiempos creado por órgano rector internacional del fútbol, la FIFA. Esto tiene Brasil en la parte superior, seguido por Alemania y luego Italia. Argentina es el equipo clasificado cuarto con España quinto y sexto Inglaterra.

Eso es similar a la lista Pagerank pero hay algunas diferencias notables también. Los Países Bajos son el lugar número 8 en la lista de la FIFA, pero cuarto en la lista Pagerank. Dinamarca es el 17 en la lista de Pagerank pero sólo 25 de la FIFA de. Y Checoslovaquia no aparece en absoluto en la lista de la FIFA, después de haber dejado de existir como país en 1993.

Eso es un enfoque interesante que muestra la utilidad del Pagerank en ser capaz de clasificar los nodos en más o menos cualquier tipo de red. Es evidente que el mismo enfoque podría funcionar para el fútbol americano, béisbol, baloncesto, cricket y más o menos cualquier otro deporte. Si algún científico de la computación tiene algo de tiempo libre para realizar estos rankings, él o ella podría ganar los corazones y las mentes de innumerables fans que estarán esperando ansiosamente el resultado de la clasificación de Pagerank de sus equipos.

1503 01331v1

Leer más publicaciones en Calaméo

miércoles, 11 de marzo de 2015

Leyendo e interpretando redes

Aprender a leer e interpretar las visualizaciones de datos de grafos de red
Nodus Labs

Los grafos de red se utilizan a menudo en varios artículos de visualización de datos: desde análisis de redes sociales a los estudios de Twitter sentimiento. Las imágenes se ven muy bonitos y tienen una gran cantidad de ideas interesantes, pero rara vez es lo que incluyen explicaciones de cómo se hacían esas deducciones interesantes en el primer lugar.

A fin de aprovechar todo el potencial de los gráficos de la red, es importante conocer la metodología básica para leerlos. Como esto va a llegar mucho más allá del impacto visual inicial y también servirán como poderosas herramientas de creación de ideas. Aprender a pocos conceptos básicos acerca de los grafos puede ayudar a uno obtener rápidamente una visión general de toda la multiplicidad, obtener ideas sobre las comunidades, encontrar los nodos más influyentes, y detectar las lagunas en los datos existentes.

Paso 1: Bases de conectividad de un grafo

El primer paso es decidir la base es la conectividad. Una red es un gráfico de nodos y sus relaciones. Por eso es importante para decidir qué puede ser la base para esas relaciones. Por ejemplo, cuando la visualización de una red social se puede decidir que un nodo es un usuario y las relaciones entre ellos son los enlaces a "seguir" entre los usuarios. Sin embargo, también podría ser interacciones o el hecho de que visitaron el mismo evento.

Esta base será la perspectiva desde la cual se estudiará la multiplicidad, lo que es importante para decidir el uno (o varios más) que proporcionará información interesante. Está bien si es algo subjetivo, siempre y cuando está claro que es sólo una perspectiva de partida para un estudio adicional.

Para nuestro ejemplo vamos a utilizar un gráfico de la red de texto de los resultados de búsqueda de Google para la consulta "visualización de datos". En este gráfico los nodos son las palabras y sus conexiones son co-ocurrencias de las palabras cerca uno del otro. Si las palabras son uno junto al otro están conectados con un peso más fuerte. Si las palabras aparecen en el mismo fragmento de texto a partir de resultados de búsqueda, pero separados por una o dos palabras también serán conectados, pero la conexión es más débil. Si las palabras son más allá de 3 palabras de uno al otro, no están conectados. (Lea más sobre esta base la conectividad en nuestro trabajo en el análisis de redes de texto)

El gráfico de arriba es una captura de pantalla de los nodos y sus conexiones alineado al azar. Este tipo de visualización en realidad no ofrecen demasiada información útil. Así que el segundo paso consiste en aplicar un diseño que hará que los datos del gráfico legible.

Paso 2: Diseño de Grafo de Force Atlas y Comunidades

Con el fin de hacer que el gráfico legible, los nodos tienen que ser alineados en una forma ordenada. Lo que esta orden puede ser depende de los objetivos del estudio. Normalmente, nos interesa conocer la estructura de la multiplicidad - ya sea compuesta de muchos elementos inconexos o si todos los elementos están conectados entre sí (es decir, pertenezcan al componente gigante). Otra idea importante que el diseño gráfico proporcionará es la estructura de la comunidad de la gráfica: ¿cuáles son los nodos que están conectados más densamente entre sí que con el resto de la red. Estructura de la comunidad de Graph ofrecerá una buena idea de si la multiplicidad es homogénea o heterogénea (que consta de multiplicidades distintas que interactúan entre sí).

Hay muchos diferentes diseños para los gráficos: Yifan Hu, clockwise layout, Force Atlas. En este ejemplo se usará el Force Atlas layout algorithm utilizado en Gephi graph visualization suite y también implementado en Sigma.Js javascript graph visualization library.
El principio básico de diseño gráfico Fuerza Atlas es que empuja los nodos más conectados a la periferia de la gráfica, la alineación de los nodos conectados a ellos en torno a esos nodos más conectados.

Mirando este gráfico ya podemos ver la estructura básica de la comunidad. Los nodos que están más estrechamente conectados entre sí que con el resto de la red pertenecen a la misma "comunidad" y podemos ver que hay alrededor de 3 comunidades diferentes en el gráfico anterior.

Para interpretar estos datos: este gráfico de los resultados de búsqueda de Google para la petición de "visualización de datos" muestra que hay cerca de 3 diferentes grupos distintos de palabras que tienden a coexistir junto a la otra. Así que las personas que usan esta consulta de búsqueda se presentarán con 3 tipos diferentes de material en Google.

El siguiente paso es acercar y analizar los nodos reales en el gráfico.

Paso 3: Ranqueando los nodos en el grafo

En este momento todos los nodos en el gráfico son del mismo tamaño, así que todos tienen el mismo aspecto. Es posible ver que los nodos tienen más conexiones que otros, pero no es muy fácil de distinguir en el gráfico. Así que puede ser útil para variar el tamaño de los nodos por el número de conexiones que tiene: el más grande de los nodos, más conexiones que tienen. También vamos a fije etiquetas a los nodos, por lo que la imagen resultante es mucho más informativo.

Se puede observar que los nodos que van por el número de conexiones que tienen muestra los nodos más conectados en la gráfica, o - en este ejemplo - las palabras más importantes en los resultados de búsqueda. A diferencia de las nubes de etiquetas vemos esas palabras en su contexto - al lado de las otras palabras que se utilizan con, aumentando enormemente el valor informativo de la gráfica.

La comunidad más conectada en la parte superior se compone de esas palabras, que aparecen junto con más frecuencia que otros en los resultados de búsqueda de Google para "la visualización de datos":
información (también: formato, aprender)
técnica (también: método, visual)
interactivo (también: herramienta, crear)

Los nodos más conectados en la segunda comunidad son:
html (también: css, javascript)
comprensión (también: negocios)
visualizar

Y en la tercera comunidad:
visualización
competencia

Lo que esta información nos dice es que cuando la gente busca "visualización de datos" en Google lo más probable es encontrar artículos sobre diversas herramientas y técnicas para crear visualizaciones interactivas y aprender algo de la información que tienen.

Otro tema importante en los resultados de búsqueda de Google para "la visualización de datos" son las bibliotecas de javascript que trabajan con HTML y CSS para visualizar los datos.

Como se puede ver, se trata de un análisis muy útil de los resultados de búsqueda de Google que puede ser utilizado para fines de SEO o incluso para escribir este mismo artículo (a saber lo que la gente está buscando y lo que encuentran).

(Los términos de búsqueda reales, "datos" y "visualización" fueron excluidos de la gráfica, ya que se pueden conectar a casi todos los nodos que reduce el valor informativo de esta imagen. "Visualización", el deletreo británico de "visualización", hospedado en la periferia de la gráfica.)

Paso 4: Identificar las brechas

Ahora que los temas más destacados se identifican en el texto, también podemos ver lo que falta en los datos que hemos obtenido. Para hacer eso tenemos que buscar entre las comunidades y los nodos, en los huecos. Nos muestran lo que falta, en este caso - de los resultados de búsqueda de Google para "la visualización de datos".

Los vacíos estructurales son los espacios vacíos entre los grupos de nodos interconectados en la gráfica. Su interpretación depende de la conectividad de la base utilizada en el gráfico. Por ejemplo, en las redes sociales brechas estructurales indican áreas de potencial de arbitraje entre las diferentes comunidades. En esta red de texto de los resultados de búsqueda de Google de brechas estructurales indican que hay una falta de artículos que hablan tanto sobre técnicas de visualización, así como varias bibliotecas específicas que podrían usarse para hacer esas visualizaciones. Tratamos de cumplir con esta brecha mencionando Gephi y Sigma utilizada en este estudio de caso. Sin embargo, hay muchas buenas bibliotecas más, como D3.js biblioteca JavaScript para visualizar los documentos basados en datos y una suite Node.XL para la visualización de gráficos de redes.

Si estás interesado en trabajar con datos red social, puede utilizar la aplicación netvizz que importa Facebook gráfico social o Twecoll importar conexiones de Twitter.
Si usted está interesado en trabajar con visualizaciones de red de texto, puede utilizar InfraNodus (para importar fragmentos de datos como la búsqueda de Google o notas de Evernote) o Textexture (para textos largos) y entonces el resto de los datos exportados en Gephi o Node.XL .

domingo, 8 de marzo de 2015

El multiplicador de Preti y la conducta inapropiada

Un modelo matemático de la opresión: el multiplicador de Petrie
Un modelo matemático simplificado muestra por qué usted no necesita una mayoría mal tener una minoría oprimida

Jon Butterworth - The Guardian

Estoy oprimido. Tengo el tipo de mente que reproduce repetidamente cualquier menor, ligera insensibilidad o insulto que sufro y me distrae de mi trabajo y mina mi confianza. A medida que me he hecho mayor, he mejorado al limitar el daño, pero mi memoria todavía está llena de pequeñas minas terrestres desagradables que aparecen de vez en cuando, se activa por algún evento, lugar o asociación similar.

Por suerte para mí, este tipo de incidentes son raros, así que no importa lo mucho que me construyo en mi cabeza, puedo generalmente funcionan bastante bien en un departamento de física grande en una importante universidad. Así que no estoy muy oprimida, de verdad. Es sólo una parte de la vida, la forma en que las personas son.

La rareza de incidentes tiene mucho que ver con el hecho de que soy un miembro de la etnia y el género dominante en mi entorno de trabajo. Si usted está en una minoría, se dan de cabeza con estas cosas más a menudo, por una serie de razones, entre ellas: la mayoría tiende a establecer una norma de conducta que no es necesariamente lo más cómodo para usted como lo es para ellos; nadie es perfecto; y cuando se comporta menos-que-perfecta, la gente suele explotar características como el género, la etnia o la sexualidad. El punto es que, incluso si se supone que todas las personas son igualmente propensas a comportarse menos que perfectamente - o "ser un poco mierda", se podría decir - una población asimétrica conduce a la experiencia asimétrica.

Este efecto ha sido nombrado el "multiplicador de Petrie", que se muestra en el contexto del sexismo en un entorno dominado por los hombres (la industria de la tecnología, originalmente). Asumamos los hombres y mujeres tienen la misma probabilidad de ser sexistas, que obviamente es una forma de ser una mierda. Me gusta pensar en el promedio de personas "de porquería" en una población determinada de ser distribuidos simétricamente, tal vez en una curva de Gauss. Además, cada persona en esa población tiene su propia distribución de personal también, incluso con las personas mejor educadas siendo ocasionalmente basura, e incluso el individuo más mierdero suele comportarse bien. Por supuesto, todo el mundo puede cambiar con el tiempo, y cambiar su distribución de una manera u otra. Y mucho del comportamiento de mierda podría ser completamente sin intención.

Vamos a decir que tenemos 20% de mujeres y 80% hombres en el área de Tecnología. Y que el 20% de las personas hacen comentarios inapropiados u otros movimientos sexistas hacia las personas del sexo opuesto. Así que el 20% de los hombres hacen comentarios sexistas a las mujeres, y el 20% de las mujeres hacen comentarios sexistas a los hombres.
Vamos a empezar con 50 personas. Aquí hay una foto, donde las plazas más oscuras son las personas que hacen comentarios sexistas y los círculos más claros son las personas que no lo hacen. El rosa es para los hombres, y azul para las mujeres. Dadas las proporciones de 20%, tenemos 40 hombres y 10 mujeres, y 8 de los 40 hombres a veces hacen comentarios sexistas hacia las mujeres, mientras que 2 de los 10 la mujer, hacen comentarios sexistas a los hombres. No puedo enfatizar lo suficiente que no hay diferencia en el sexismo entre los géneros.

Mira el siguiente diagrama, de entrada en el blog original Ian Gent publicitar epónimo invención de Karen Petrie. Las flechas representan comentarios sexistas de una persona a otra. Las mujeres tienen las mismas probabilidades de hacer comentarios sexistas que los hombres, y los objetivos se distribuyen al azar entre el sexo opuesto:

Multiplicador de Petrie - Fotografía: Ian Gent / Wikimedia Commons

Así que el comportamiento es el mismo para ambos sexos. Los hombres no son más mierda en promedio que las mujeres. Pero mire la diferencia en la experiencia. Muchos hombres no reciben comentarios sexistas en absoluto. Todas las mujeres reciben algunos, y algunos reciben mucho. El blog de Gent tiene una versión animada y una exposición más detallada de la manifestación - Recomiendo darle una mirada abajo.

Dado que las mujeres constituyen alrededor del 20% de la población en los departamentos de física del Reino Unido, y las minorías étnicas una fracción aún menor, el multiplicador de Petrie se aplica claramente a mi lugar de trabajo, y aquellos de nosotros el privilegio de estar en la mayoría necesidad de esforzarse para suprimir las colas de mierda de nuestras distribuciones.

Esto no quiere decir que toda la opresión sea casual, justo abajo a la gente que son de vez en cuando y de forma aleatoria sean un poco mierda. Es evidente que hay misoginia abierta, racismo y el resto de conductas inapropiadas por ahí también. Pero, quizás especialmente en el Día Internacional de la Mujer, vale la pena ensayar la demostración matemática innegable de por qué, en cualquier sociedad u organización que se esfuerza por lograr la igualdad real de oportunidades, las minorías serán siempre necesitan una consideración especial.

Páginas