domingo, 1 de mayo de 2016

Importando y modelando conversaciones en Twitter con Gephi

Tutorial - Seguir y modelar una conversación en Twitter en tiempo real

Erwand Le Nagard



La supervisión de una conversación en tiempo real en las redes sociales es común en los departamentos de marketing y comunicación, para recabar opiniones de los consumidores, detectar tendencias o para registrar la marca en el habla momento. Este tutorial proporciona modelo de funcionamiento sencillo de entender la evolución de una conversación en Twitter, en tiempo real.

Para ello, vamos a tener acceso a la API de Transmisión de Twitter, lo que nos permite recuperar mensajes de su publicación (no hay datos históricos como en un motor de búsqueda). Y vamos a ver inmediatamente los datos en un software de modelado de la red. Vamos a identificar los temas más importantes que se mencionan en la conversación. Por último, vamos a exportar el gráfico en un formato de página web interactiva.

1 / Crear una aplicación de Twitter y la recuperación de los identificadores.

Para recoger tweets, tenemos que conseguir identificadores. Muchos tutoriales en línea explican cómo crear una aplicación; una búsqueda en Google proporcionará todas las respuestas necesarias si se producen problemas durante la configuración. Adjunto a mí mismo, para describir los pasos esenciales:
- Visita https://apps.twitter.com/
- Haga clic en "Crear nueva aplicación" para iniciar la configuración de una aplicación
- Introduzca un nombre para esta aplicación y rellene los campos esenciales
- Ve a la pestaña tercero, "Keys and access tokens"
- En la parte inferior de la página, haga clic en "Create my access token"
Ahora tiene cuatro parámetros esenciales presentados en este tablero de instrumentos: una clave de acceso a la API y un token de acceso. Estos campos, respectivamente clave de cliente / consumidor y el acceso secretas contador / secreto de acceso token.

2 / Instalar y configurar Gephi

Gephi es un software de código abierto que permite la visualización de gráficos de red (sociogramas) y, especialmente, para llevar a cabo diferentes tipos de modelos y cálculos estadísticos que se pueden aplicar a estas visualizaciones. Gephi tiene una gran comunidad de usuarios que producen y mantienen la funcionalidad extendida que puede ser fácilmente añadidos a la plataforma de software. Vamos a utilizar dos plugins: Twitter Transmisión de importación para recoger tweets, y SigmaExporter unos pocos clics para crear un sitio web interactivo.

Visita https://gephi.org/ para descargar e instalar la nueva versión del software. Luego, al abrir el software, vaya a "Herramientas"> "plugins".
  • En la primera pestaña "Actualizaciones" seleccionar todos los módulos disponibles y realizar la instalación para trabajar en una plataforma estable.
  • En la segunda pestaña "Módulo de expansión en" selecciona un módulos mínimos Twitter Transmisión de importación y SigmaExporter. Continuar con la instalación.



Para obtener más información sobre el software, puede comprobar los diferentes tutoriales que aparecen en el sitio de la comunidad o unirse al grupo de usuarios en Facebook.

3 / La recolección de Tweets 

Ahora vamos a configurar el módulo Twitter Transmisión de Importación y empezar una colección de tweets. Ir al menú "Archivo" para crear un nuevo proyecto y abrir el módulo desde el menú "Windows".



En primer lugar, vamos a copiar / pegar el ID de Twitter creado en el paso 1 en las "credenciales". En este caso, la clave del consumidor, el secreto de los consumidores, el token de acceso y el secreto de acceso token. Sin estos códigos Gephi puede conectarse a Twitter y recuperar mensajes.



A continuación, vamos a definir nuestra solicitud. La versión actual de este plugin no permite construir consultas complejas para filtrar el ruido o centrarse en un aspecto específico de la conversación, como la mayoría de los medios de comunicación social escuchando herramientas suelen permitir el uso de operadores booleanos (O, Y, NO, etc.). Sin embargo, el plugin le permite definir una consulta de palabras clave (o palabras, hashtags, urls, ...) o una lista de cuentas de usuario a seguir.

Ejemplo, si se desea observar la conversación en torno a los principales fabricantes de teléfonos móviles, podemos añadir las palabras clave "iPhone", "Samsung", "Sony", "Huawei", etc.



Y seguir las cuentas oficiales de Twitter de estas marcas, añadiéndolos a los "usuarios que sigan" ficha.



Es posible para salvar a su solicitud como un archivo .json o cargar una aplicación. Esto puede ser muy útil cuando se desea seguir una larga lista de cuentas de usuario o palabras clave. .json El archivo está en la forma de un par de claves -> valor. Utilizando el ejemplo anterior, el archivo se .json contenido:

{ "WordTracking" [ "iPhone", "Samsung", "Huawei", "HTC" "Sony"], "userTracking": { "samsungmobile": 297169759, "Huawei": 98047213, "Sony": 34442404, »HTC»: 15818391}}

La última etapa de configuración del plugin Twitter Transmisión de importación es elegir un modelo gráfico, que le permite ver:

  • Red completa inteligente [Full Smart Network]: la representación completa de los nodos incluidos los usuarios, tweets, hashtags, direcciones URL, los medios de comunicación (foto / vídeo), y los símbolos recogidos
  • Red de usuarios [User Network]: una red egocéntrica y ponderada con enlaces paralelos para RT y menciona entre los usuarios (usuario cómo la ciudad todos los otros usuarios?)
  • Red de Hashtag [Hashtag Network]: Una red de citas ponderados en base a los hashtags (? Hashtag cómo se asocia hashtag como otro)




Ya sólo queda iniciar la colección haciendo clic en Conectar. Por lo tanto, la representación de tweets estará en forma de gráfico en tiempo real. Si no aparece nada, o no hay comentarios han sido escritos desde que entró, en cuyo caso se tendrá que esperar; De cualquier manera, usted ha cometido un error al configurar la autenticación (marque su clave del consumidor, secreto, etc.).

4 / Modelado del grafo.

Una vez hecha la colección o conjunto de tweets enriquecer su base de datos, se puede elegir un modelado gráfico. Para ello, en primer lugar ir en el "espacial". Elige el diseño "Atlas Force 2", por lo general más adecuado para los gráficos que pueden contener muchos puntos. Jugar con los ajustes para obtener una primera representación:

  • comprobar "disuadir a los centros" para reventar los agregados nudos
  • seleccione "Prevent Recovery" para evitar que se superpongan dos nodos
  • Posiblemente puede disminuir o aumentar el valor de la influencia de los enlaces de peso para fortalecer o relajar la atracción entre los nodos del grafo.
  • Una vez que su gráfica espacial, marque "Modo LinLog" para ampliar el gráfico




Para dar formato a los nodos y enlaces, se apoyan en la ventana "Aspectos". Se le permite dar color a la nodos, enlaces, definir el tamaño, etc. Si ha elegido como modelo de visualización, "Red Inteligente completa". Elija atributo de color como "Tipo Twitter" para distinguir entidades mensajes de sus emisores.



Si ha elegido para ver una red de usuarios, es posible que tenga un interés en la identificación de grupos (comunidades). En cuyo caso, vaya a la ventana "Estadísticas" y seleccionar el tratamiento titulado "modularidad". Este algoritmo calcula la diferencia entre la proporción de enlaces en la comunidad a menos que el valor habría sido la misma proporción si los enlaces se colocaron de forma aleatoria entre los nodos del grafo de deducir los diferentes grupos. A continuación, aplicar los resultados de los cálculos de la ventana "Aspecto" a todos sus nodos mediante la selección de atributo como "clase modularidad."

Tenga en cuenta que a veces hay un error con la versión 0.9.1 de Gephi. Si el resultado del cálculo es 0. Exportar el gráfico, vaya a "Archivo"> ​​"Exportar"> "Gráfico de archivos". A continuación, abra un nuevo proyecto mediante la ejecución del archivo.





Por último, si se eligió la red de citas hashtags, puede ser relevante para identificar la mayor cantidad de hashtags "centrales" en la conversación. Es decir, aquellas que son más importantes para sus citas. Para ello, utilice las estadísticas de tratamiento "Centralidad del Vector Propio" para capturar los nodos más importantes. El gráfico no dirigido citas es (enlaces simétricos entre hashtags), seleccione esta opción.



En la ventana "Aspecto", aplicar el resultado de este procesamiento con el tamaño de los nodos. Los nodos más grandes serán las más significativas.



Se pueden realizar otros tratamientos "cosméticos" de la ventana "Apariencia" para cambiar la apariencia de nodos y enlaces. No es el propósito de este tutorial, pero aquí hay algunos consejos:

  • Va a recoger un gran volumen de datos, lo que potencialmente significa que tendrá una gama de colores muy variados. La herramienta de "I Want Hue" Media Lab Sciences Po será de gran utilidad.
  • Desde la ventana de "aspecto", la función spline le permitirá ajustar el tamaño de los nodos con mayor precisión.
  • Un gráfico comprensible contiene información consistente. No utilice demasiados parámetros diferentes en un mismo gráfico (malas prácticas: el color representa el número de grados, el tamaño de la centralidad del nodo, el color de la etiqueta de la modularidad, etc ...). Debe ser sencillo.
  • Del mismo modo, utilice la ventana "Filtro" para eliminar los nudos menos significativos. Por ejemplo, la aplicación de la tramitación "componente gigante" eliminará todos los nodos solitarios, y el procesamiento de "grados de rango" va a enmascarar los nodos conectados menos dentro de la red.




5 / Exportar Grafo 

SigmaJS exportación es un plugin que produce unos clics de una plantilla de página web con un gráfico de la red interactiva basada en la biblioteca JavaScript Sigma.js. El manejo es muy sencillo: una vez satisfecho con la preparación de su gráfico, siga su exportación desde "Archivo"> ​​"Exportar"> "plantilla de Sigma JS".



Elija un directorio de destino, finalmente rellenar los otros campos. Ejecutar Firefox desde el archivo index.html generado. Al hacer clic en los nodos, se abre un panel para mostrar lo que son los enlaces, también tiene un motor de búsqueda para encontrar un nodo específico. Muy práctico para compartir e interpretar su obra fuera Gephi! Aquí es lo que puede parecer las referencias co-grafo entre los diferentes miembros de la Asamblea Nacional presente en Twitter (leer el estudio completo sobre Barometre.Social)

Si el gráfico generado no le conviene, se puede configurar mediante la apertura de un editor el archivo config.json. Algunas configuraciones útiles para cambiar:

  • labelThreshold: reducir el valor para mostrar las etiquetas de los nodos
  • maxEdgeSize / minEdgeSize: para ajustar el tamaño de los enlaces
  • minNodeSize / maxNodeSize: para ajustar el tamaño de los nodos




Felicitaciones que han completado el tutorial! No dude en compartir sus consejos en los comentarios gratis!

sábado, 30 de abril de 2016

Mayor difusión de epidemias beneficiosas.. ¿Por qué?

¿Por qué las epidemias beneficiosos se diseminan más rápidamente que las perjudiciales?
Teóricos de la complejidad y los biólogos revelan cómo los beneficios se extienden súper exponencialmente a través de poblaciones.
MIT Technology Review


La propagación de la enfermedad es un problema bien estudiado. Este trabajo ha proporcionado numerosas ideas sobre la naturaleza de las epidemias nocivas y las estrategias para el control o prevención de ellos.


Las epidemias dañinas incluyen fiebre del dengue y la gripe en los seres humanos o la marchitez bacteriana en los granos. Sin embargo, las epidemias no siempre causan daño y algunos pueden ser beneficiosos. Los ejemplos incluyen los virus que protegen a sus anfitriones, y fenómeno social tales como las nuevas técnicas de alimentación entre las aves y la adopción de la nueva tecnología agrícola en los seres humanos y así sucesivamente. Sin embargo, poco se sabe sobre la forma en que las epidemias beneficiosas se extienden.

Hoy en día que cambia gracias a un grupo de investigadores del Instituto de Santa Fe en Nuevo México que han estudiado la naturaleza de las epidemias beneficiosos en detalle por primera vez. Su trabajo podría tener implicaciones significativas para los individuos y las organizaciones que tienen la esperanza de explotar las epidemias beneficiosas y, por supuesto, para aquellos que quieran prevenirlos.

El grupo Santa Fe comenzó mediante la definición de la unidad de transmisión de epidemias beneficiosos como el "bene" (pronunciado BEN-ay). Un beneficio puede ser un virus, un gen, una tecnología, un comportamiento, una idea y así sucesivamente, cualquier cosa que confiere una ventaja y se pueden propagar a través de una población.

"En la mayoría de los Benes a nivel básico tienen dos rasgos distintivos: 1. Se transmiten horizontalmente y 2. ofrecen algún beneficio a su generador", dice el grupo Santa Fe.

Claramente, algunos beneficios pueden ser transmitidas de una generación a la siguiente, tales como los genes. Este tipo de transmisión vertical se lleva a cabo en escalas de tiempo medidos a lo largo de muchas generaciones.

Sin embargo, el grupo de Santa Fe sólo está interesado en los beneficios que transmiten horizontalmente. Estos incluyen las ideas, los comportamientos, los virus, y así sucesivamente. Todas estas cosas se extienden en escalas de tiempo más cortos que una sola generación.

En particular, el grupo investiga la dinámica de epidemias que resultan de Benes que confieren beneficios sociales.

Estos beneficios pueden tener diversas consecuencias. Por ejemplo, un individuo emocionado por un nuevo beneficio podría comenzar a tratar de compartirlo y un virus beneficioso podría aumentar los niveles de energía o la felicidad de un individuo. Esto aumentaría el número de contactos sociales y la energía dedicada a estos contactos.



Fundamentalmente, en ambos casos, el beneficio aumenta con el número de contactos que el individuo tiene dentro de la comunidad. Esto tiene importantes implicaciones para la forma en que las epidemias surgen beneficiosos.

Para explorar estas implicaciones, el grupo creó un modelo de computadora de la forma en que un beneficio se extiende a través de una población hipotética de 1.000 personas que, o bien han sido infectados o son susceptibles a la infección. Este modelo examina específicamente el impacto de la conectividad en la propagación manera Benes.

Los resultados son una lectura interesante. El grupo dice que el modelo revela que las epidemias se extienden beneficiosos de tres maneras diferentes, dependiendo de la estructura social y las diversas ventajas y desventajas para las personas involucradas.

El primer patrón de propagación que ellos llaman "evangélica", y se produce cuando las personas intentan difundir el bene lo más ampliamente posible entre la población. Esto es análogo a la propagación de las religiones, que a veces puede extenderse de forma explosiva en todo el mundo.

Una característica clave de determinados trabajos religiosa es la conversión de individuos susceptibles de infectarse trabajo los de misioneros. Cuando esto sucede, los misioneros buscan activamente a las personas para convertir. Esto se conoce como el comportamiento disassortative, ya que las personas están buscando a otros que son diferentes a ellos.

Este comportamiento resulta tener un impacto importante. La difusión ordinaria de epidemias es bien conocido para seguir una trayectoria exponencial que conduce a un crecimiento explosivo.

Sin embargo, en la difusión de la evangélica crecimiento es aún más rápida. Y continúa hasta que toda la población está infectada. Esto se debe a que el número de personas susceptibles se hace más pequeño, el número de personas que tratan de infectar a ellos se hace mayor. El resultado es un crecimiento super-exponencial.

Pero no todos los Benes extienden de esta manera. El grupo de Santa Fe también identifica un patrón que ellos llaman "chicos cool" difundir, en el que todo el mundo intenta conectarse a la mayor cantidad de personas infectadas como sea posible y el menor número de individuos no infectados como sea posible. Este es un comportamiento selectivo en el que los individuos infectados buscar a otros como ellos. Sin embargo, los individuos susceptibles también buscan individuos infectados que tratar de evitarlos.

El resultado es bastante diferente en este caso. "El resultado es una red compuesta por dos bloques: uno incluye el susceptibles como simple desconectados, mientras que la otra incluye los individuos infectados que están interconectadas", dice el grupo Santa Fe. En otras palabras, este tipo de comportamiento conduce a camarillas que terminan excluyendo algunos individuos.

El último tipo de epidemia se extienda aún menos eficacia. En este caso, los individuos infectados nuevamente buscan a otras personas que están infectadas. Sin embargo, las personas susceptibles comportan de manera diferente, ya sea la búsqueda de individuos infectados o con otras personas susceptibles. "Esto también produce una propagación de la epidemia proceso incompleto que no puede seguir adelante", dicen.

El grupo llama a este escenario, el snobs. "El resultado de estas estrategias para cambios de alambrado es que la red se divide en dos comunidades completamente desconectados, y esto impide que la epidemia llegue a toda la población", dicen.

Todo esto tiene profundas implicaciones para la forma en que se propagan a través Benes sociedad. Algunos deberían extenderse superexponentially, infectando a todo el mundo en un abrir y cerrar de ojos. Otros están destinados sólo para propagarse a través de pequeños grupos o camarillas que actúan de una manera de prevenir la infección adicional.

Pero mientras que los modelos proporcionan apoyo interesante para esta idea, una pregunta importante es si esto realmente sucede en el mundo real. Para averiguarlo, el grupo Santa Fe estudió la propagación de nuevas palabras en el tiempo.

Neologismos pueden ser considerados como Benes porque crean una serie de ventajas para las personas que los utilizan. Hablantes usan neologismos para comunicar nuevos conceptos o viejos conceptos de una manera nueva. Pero también los usan para hacer valer sus declaraciones de la manera con la identidad, en este sentido, son palabras nuevas.

"Por ejemplo, el uso de la frase" computadora personal "podría reflejar que el hablante mantiene al día con los cambios tecnológicos, y también puede ser una señal intencional por el orador para mostrar una toma de conciencia de los cambios tecnológicos", dice el equipo de Santa Fe.

Es posible estudiar la aparición de nuevas palabras gracias al corpus Ngram de Google. Esto registra el número de veces que las palabras se han utilizado en los libros cada año de 1500 a 2008. Por lo que es fácil ver que la frase "computadora personal", por ejemplo, surgió a finales de la década de 1970, alcanzó su punto máximo en uso a finales de 1980 y tiene disminuido en popularidad desde entonces.

El equipo estudió la trayectoria del uso de las palabras, de 48 palabras y frases beneficiosos, como la aspirina, cervecería, presidente, la genómica, para una noche, y así sucesivamente. Y hallaron ejemplos de los tres tipos de propagación. Por ejemplo, la palabra "presidente" sigue la trayectoria evangélica difusión en toda la sociedad, mientras que la "genómica" ha seguido la trayectoria niños frescos y se limita a ciertas camarillas.

Eso demuestra cómo las palabras que se propagan ampliamente útil y popular más amplia y rápidamente que las palabras con uso limitado. "Este patrón puede proporcionar pistas sobre el proceso por el cual se produce la epidemia beneficioso de la nueva extensión de la palabra," que sugieren. Claramente, las palabras que tienen el potencial de ser más populares, que son naturalmente "pegajosa", lo hacen mejor.

El patrón también revela la respuesta a una pregunta desconcertante: ¿por qué las epidemias nocivas, como las enfermedades, parecen mucho más comunes que los beneficiosos?

La respuesta, según el equipo de Santa Fe, es que los medios de propagación superexponential que Benes extienden mucho más rápidamente, por lo que no es más que un breve instante en el que observar su propagación. Y una vez que se ha establecido un beneficio, se hace difícil de distinguir de otros memes.

Por supuesto, una gran parte de esto es la inherente "pegamento" de los nuevos Benes cuando aparecen por primera vez. Eso es un tema de vital importancia para los gobiernos, las empresas y los vendedores. Si pueden identificar Benes que se propagan superexponentially, van a tener una poderosa herramienta a su disposición. También pueden ser capaces de identificar Benes que puedan ocurrir en camarillas (NIMBYism puede ser un ejemplo de esto).

Sin duda, estos grupos serán Pawing sobre este trabajo con interés.

Un corolario interesante de todo esto es la forma en que esta investigación fue producido. Este trabajo es el resultado de un proceso científico extraordinario llamado "72 horas de la ciencia." Quince investigadores del Instituto de Santa Fe resolvió la creación de un artículo científico en 72 horas.

En la elección del tema, el único criterio fue que la mayoría de los miembros del grupo nunca deben haber escuchado sobre el problema. Toda la cuota de autoría grupo igualmente.

El resultado fue este estudio sobre epidemias beneficiosos. ¿Qué tan rápido se propagará?

Ref: arxiv.org/abs/1604.02096 : Dynamics of Beneficial Epidemics


martes, 19 de abril de 2016

Las redes (y las probabilidades) de Juego de Tronos



¿Quién es el siguiente? La predicción de muerte en (la serie) El Juego de Tronos * - Parte 1: De los libros a las redes sociales
Por Clemente Fredembach | Teradata

Información de los primeros 5 libros se discute, que corresponde a los primeros 5 temporadas de la serie de televisión con algunas variaciones (la serie de televisión es más avanzado, pero omite una serie de personajes secundarios para mayor claridad y razones presupuestarias).


¿Tiene la ficción realmente que tener sentido? Este blog explora la aplicación de la ciencia de datos para contar historias a través de la lente de G.R.R. serie épica de Martin (~ 1,4 millones de palabras). Juego de Tronos (GOT) ha sido, en parte, ser famoso porque para cualquier personaje es "juego limpio" que puede morir en cualquier momento, independientemente de la forma en que prevalece/n él/ella/ellos hasta ese momento. ¿Son esas muertes el resultado de "caprichos" del autor, o son parte de una narrativa ya construida?

Para responder a estas preguntas, nos dirigimos a grafos de red. A partir de los datos de texto sin formato, que:
  • crea automáticamente una red social de caracteres para cualquier período de tiempo de la historia
  • Analizada la estructura y las historias de los libros individuales a través de una red de relaciones
  • Medido la importancia y la posición de los personajes a lo largo de la historia basada en su centralidad y la visualizaciones de grafos de red 
  • Predecirse con exactitud grandes muertes de caracteres con un algoritmo de propagación de las creencias (LBP) a través de la red social

Los resultados completos basados en grafos sólo se requiere los datos de texto y una lista de nombres de los personajes. No fue necesaria ninguna información "experto" sobre los libros o historia. A pesar de esta aparente simplicidad, las redes creadas representan fielmente la historia y las principales muertes de caracteres se predicen con exactitud.

¿Por qué los libros?

Ambos libros y series de televisión requieren aproximadamente 50 horas para leer / ver y contienen vagamente [2] la misma información. Texto, sin embargo, es mucho más fácil de analizar y gestionar de vídeo. Además, los libros corresponden a G.R.R. la historia original de Martin, mientras que las adaptaciones siempre vuelven a escribir el material en cierta medida.

En primer lugar, cargamos los archivos de libros electrónicos en una base de datos de Aster y los separamos en capítulos; la preservación de todo el contenido del texto. Debido a que tenemos es escrito como una serie de capítulos "Punto de vista" (POV), es decir, cada capítulo es contada desde la perspectiva de un personaje, se puede estimar cuya historia efectivamente se está contando en los libros contando el número de palabras dedicadas a la perspectiva de cada personaje POV.



A pesar de su simplicidad, recuento de palabras se obtiene información valiosa sobre la estructura de la historia:

  • Los dos primeros libros se cuentan desde la perspectiva de los Stark (Tyrion y Daenerys, dos marginados, son los otros), lo que lleva naturalmente a la "Stark = buena Lannister = mal," percepción de la historia
  • La parte de la historia contada por el "segundo nivel" personajes POV (4º en adelante) disminuye constantemente con el tiempo como la historia se vuelve más compleja y se introducen nuevos personajes POV.
  • Mientras que sólo cuatro [3] POV personajes son definitivamente muerto por este punto [4], la muerte de Eddard Stark es una sorpresa porque él es el narrador principal del primer libro.

Más allá de conteo de palabras: la creación de una red social de texto

Tenemos es una historia larga y complicada, con una gran cantidad de caracteres. Tal vez el contador-intuitivo, esta complejidad es una ventaja: en lugar de referencia de los pronombres constantes, conseguido por lo general explica en detalle los nombres de personajes completos [5]. Por otra parte, el nombre del personaje POV sí se menciona con frecuencia en sus respectivos capítulos [6].

Hemos creado las redes sociales de información de texto menciona hallazgo de 102 caracteres [7] a través de los libros. Esto incluye apodos comunes de los apéndices del libro, por ejemplo, Matarreyes, -Khaleesi.

En cada capítulo, se contó el número de ocurrencias de todos los nombres de los personajes para crear un vínculo entre el carácter POV y los personajes cuyo nombre ocurrir en el capítulo. Por ejemplo, en un capítulo POV "Arya", si "Arya" se menciona 20 veces, 'Sansa' 12 veces y 'Jon' 11 veces, tendríamos (ver tabla):



Arriba: Salida del algoritmo de recuento de caracteres. Cada mención de los 102 caracteres "orugas" es contada por cada capítulo. El valor R y última fila (Sansa-Jon) no se obtienen directamente por análisis de texto, pero en una etapa posterior se describe a continuación.

Esta metodología produce naturalmente una red de "radios", ya que las relaciones entre los personajes no POV no son capturados. Derivamos las relaciones "-carácter transversal" por:

1) La normalización de carácter menciona (por capítulos) para crear un valor mención R
2) Cálculo de la R 2 entre caracteres no POV con una medida de la distancia euclidiana de tipo [8]

La producción de este proceso se muestra en la tabla anterior. Para cualquier capítulo único, la fuerza relación (R) entre dos caracteres no POV no puede exceder su fuerza relación con el carácter POV.

La medición de las relaciones entre los personajes en un capítulo-base, podemos crear una red social para cualquier capítulo único, o entre dos puntos en el tiempo en la historia de la suma de los valores de R para los capítulos considerados. Hemos visualizado los grafos a través de Aster App Center, con las siguientes propiedades:

  • el color de nodo corresponde a la salida del algoritmo de modularidad (basado en la agrupación grafo de comunidades sociales)
  • el tamaño de nodo representa el número de las menciones de un carácter
  • el grosor y color del enlace representan la fuerza relativa de las conexiones entre los personajes (= más gruesas y más rojas más fuertes)

La temporada (TV) libro en particular es posiblemente la escala más natural a la parte de la historia; generamos visualizaciones de grafos para cada libro (información no acumulativo) y uno que cubre toda la historia (todos los libros de la página 1).

Libro 1 conduce a un gran grupo de púrpura centrada en los acontecimientos en Desembarco del Rey con fuertes vínculos entre Eddard, el rey Roberto y el Consejo Pequeño. El racimo grande de color rojo se refiere a los acontecimientos en el Norte y las Tierras de los Ríos, con una familia Stark firmemente conectado y la captura de Tyrion más adelante en el libro. La decisión de Jon a la pared le da su propio clúster cian, mientras que los eventos a través del mar se representan correctamente con el pequeño pero firmemente conectado racimo verde de la Targaryen / Dothrakis.


Arriba: Grafo de la red social de "Juego de Tronos": el primer libro de "Canción de Hielo y Fuego" de la serie. Los grupos y la estructura de la red se adhieren bien a la historia a pesar de haber sido obtenido de forma automática desde los libros "texto sin formato". Las relaciones más fuertes se pueden ver entre Eddard y Robert, Eddard y Catelyn, Daenerys y Khal Drogo

La historia principal del segundo libro narra los acontecimientos en Desembarco del Rey (cian) con Tyrion, Sansa y Joffrey, así como la "guerra de los reyes" que implican los Stark y Baratheon (amarillo). Un número de grupos individuales más pequeños aparecen alrededor de Bran en Invernalia (rojo) y de Arya (verde) escapar se separado de la "historia principal". La Bahía de pared (púrpura) y Esclavos (azul) todavía tienen el individuo, grupos bastante independientes.



Arriba: Grafo de la red social de "Choque de Reyes": el segundo libro de "Canción de Hielo y Fuego" de la serie. Las relaciones más fuertes se pueden ver entre Joffrey-Sansa-Tyrion, Renly-Stannis. Vemos nuevas relaciones fuertes en desarrollo entre Jon-Qhorin, así como Daenerys y Jorah. En comparación con el conseguido, el segundo libro tiene una estructura más compleja, con dos historias principales (Desembarco del Rey y las Tierras de los Ríos) flanqueados por grupos independientes más pequeños que siguen personajes centrales POV.

La progresión basada en el grafo de los libros ilustra lo que la mayoría de los lectores sabrán [9]: más personajes y sub-historias aparecen (Dorne y las islas del Hierro en el Libro 4, Quentyn Martell en el Libro 5). Las redes sociales correspondientes toman la forma de pequeños interrelaciones centradas en personajes POV que tienen cada vez menos contacto entre sí. Esta estructura es particularmente evidente en los libros 4 y 5 A pesar de la línea de tiempo entrelazados (Libro 4 y 5 están divididos geográficamente más bien que en el temporal) [10].


Arriba: Grafo de la red social de "Tormenta de Espadas": el tercer libro de "Canción de Hielo y Fuego" de la serie. El libro continúa la evolución hacia las comunidades más pequeñas y separadas, con Aria y Bran tener sus propias historias que se entrecruzan poco con la historia principal más pequeña (Robb-Catelyn-Walder "rojo de la boda" y Joffrey-Sansa-Tyrion "púrpura de la boda"). Un cambio importante es el crecimiento de la agrupación de pared con la llegada de Stannis en el norte (rosa).


Arriba: Grafo de la red social de "Festín de Cuervos": el cuarto libro de "Canción de Hielo y Fuego" de la serie. La red toma una forma muy distinta, con casi las comunidades aisladas "rayos" y la aparición de nuevos personajes (Dorne es celeste y los isleños de Hierro en rojo). El libro trata de Cersei y Jaime; mientras que Daenerys y la pared no son parte del libro 4.



Arriba: Grafo de la red social de "Danza de Dragones": el quinto libro de "Canción de Hielo y Fuego" de la serie. El último libro de la serie hasta el momento sigue para ilustrar el cambio en la estructura de la red, con un menor número de enlaces globales y una estructura más central en torno a sus personajes principales. Tyrion ha dejado Poniente y ahora aparece en la Bahía de los Esclavos. La proliferación de las "historias de lado" y la introducción de personajes principales haber estirado la red en una serie de individuos.


La medición de la importancia del carácter con grafos

Una estructura de red de los grafo de la historia nos permite comprender y medir la importancia relativa de los personajes mejor que a través de la cantidad de palabras solas: en particular, con las medidas de centralidad de 'intermediación' (la cantidad de tránsitos a través de un nodo de la información) y 'cercanía' (lo céntrico un nodo está dentro de su red local).

Los personajes que viajan o actúan como puerta de entrada a sus comunidades puntuación alta en intermediación, mientras que los personajes centrales de sus comunidades (grandes) tienen un alto cercanía. Los personajes como Jon Tyrion o "Enlace" otros personajes (y la historia) juntos, mientras que los caracteres con alta cercanía, por ejemplo, Catelyn o Sansa forman relaciones fuertes dentro de su red. Tyrion puntúa altos en tanto, convirtiéndose en el personaje central global de la historia hasta el momento.


Arriba: Valores de centralidad de intermediación y los valores de proximidad para el personajes a través de los libros. Libro 1 se trata de Eddard, Libro 2 sobre Tyrion y Joffrey, libro 3 es la mejor equilibrada. El Libro 4 es Lannister centrada, mientras que el último es todo sobre el Norte. El aumento de la intermediación en el libro 5 es el resultado directo de una red más descentralizada (véanse los grafos correspondientes).



Arriba: La historia hasta ahora: Grafo de la red social sobre la totalidad de los 5 libros. Canción de Hielo y Fuego es la historia de los Lannister (rojo), los Stark (verde, azul, púrpura oscura) y una mujer con los dragones (oro). Desde una perspectiva de la estructura de red, Tyrion y Jon son los protagonistas de la historia. En cuanto a personajes muertos hasta el momento, observamos que están, todas ellas situadas en el centro dentro de su red o son nodos hoja (es decir, unos personajes 'hub' se mata a) [11].

¿La muerte de Eddard: una sorpresa?

Ser capaz de calcular las redes sociales en cualquier punto de la historia nos permite monitorear el estado de la red social hasta el punto de las principales muertes (es decir, el capítulo antes de la muerte se produce) y determinar si la muerte personaje fue una sorpresa, o Ya ordenado por la estructura de la red y las muertes anteriores.

Para predecir las muertes de caracteres, empleamos un algoritmo de propagación de las creencias (LBP), que se propaga creencias terreno la verdad de un estado de carácter (es decir, la información verdadera, con 0 = vivos, 1 = muerto) a lo largo de los grafos, de acuerdo con pesos de las aristas [12].

valores de verdad terreno "muertas" son fáciles de obtener (un personaje se le asigna un terreno la verdad de "1" a su / su muerte). Por otro lado, la verdad terreno "Alive" es más difícil de definir en una serie conocida por su alta tasa de mortalidad. Podemos, sin embargo, utilizar LBP para mostrar que las grandes muertes de caracteres se pueden predecir a partir de sólo las redes sociales y poner a prueba nuestra hipótesis inicial "Alive", al mismo tiempo (es decir, si nuestra realidad del terreno conduce a predicciones exactas entonces es creíble).

Nuestras reglas de predicción son:

  • Jon Arryn, Viserys y Robert Baratheon están "muertos" (es decir, que no hacen predicción antes de la muerte de Robert, no hay suficiente información)
  • Cuando los personajes mueren (o no importante) se añade a la realidad del terreno "muerto"
  • Daenerys y Jon Snow están vivos [13] (nuestro único "vivo" verdad del suelo)

Las terreno la verdad "creencias" (vivos o muertos) se propagan a lo largo de la red con el valor R calculado anteriormente [14]. Es importante destacar que la LBP no utiliza ningún "información futura" o aprendizajes para el cálculo de las creencias (aparte de la realidad del terreno "vivo"), sólo se utiliza la estructura de la red social en el momento del evento.

¿Quién es el siguiente? LBP resultados de predicción de muerte?

El riesgo de muerte (caracteres clasificados en la parte superior) antes de la ejecución de Eddard Stark



Arriba: La "probabilidad de muerte" (segunda columna de la tabla anterior) no debe ser tomada literalmente; no tenemos datos suficientes cerca de terreno la verdad (o datos en total) para el valor para ser más precisos, la orden es más significativo aquí.

En ese momento de la historia (el capítulo antes de su muerte), Eddard es la persona más probabilidades de morir. Tenga en cuenta que Khal Drogo (que muere casi al mismo tiempo) es segundo en la lista.

Podría decirse que, Eddard era el centro de todas las medidas de la red, por lo que este resultado podría deberse a "el personaje más central está marcado como el más probable de morir". En realidad, el estado de la red social en el momento de la muerte de Eddard indica que es su proximidad al rey Robert que eleva su riesgo.

Siguiendo adelante, tenemos:

El riesgo de muerte (caracteres clasificados en la parte superior) antes del asesinato de Renly Baratheon




Arriba: Después de Eddard y Khal Drogo, Renly es la próxima gran personaje de la muerte [15]. Por otra parte, él no es un carácter particularmente central: la baja intermediación, y ningún capítulo POV. El algoritmo LBP lo recoge con precisión como el carácter más probable que muera.

El riesgo de muerte (caracteres clasificados en la parte superior) antes de que el "rojo de la boda".


El capítulo (y Episodio de TV) etiquetado como el "rojo de la boda" ve todo el anfitrión amigo Stark + obtención asesinada, pero sobre todo Robb y Catelyn Stark.



La predicción de dolor lumbar sigue siendo fiable: el carácter "más probable morir" se determina que es Catelyn Stark, mientras que 5 de las 10 personas con las más altas probabilidades son parte de la "Red de boda" en sí. Catelyn puntuaciones significativamente superiores a su hijo Robb, debido a su participación más estrecha con Stannis y Renly (en el segundo libro). En ese momento de los libros, la relación entre Robb y Catelyn es el más fuerte entre dos caracteres, es decir, cuando uno muere, el otro será superior al instante la lista de riesgos.

La precisión de LBP durante los 3 primeros libros es notable teniendo en cuenta la limitada información que utiliza [16]. De hecho, solamente la muerte de Joffrey se perdió (que ocupa el 7º de ~ 80 caracteres). En los libros hay poco tiempo entre las dos bodas (10 capítulos más o menos); sin nueva realidad del terreno o las relaciones, las predicciones de dolor lumbar son muy inclinada hacia los sobrevivientes de la "roja de la boda".

Desde el cuarto libro en adelante, sin embargo, la exactitud de la LBP se baja por tres razones:


  1. El número de muertos sigue creciendo mientras que los "sobrevivientes" adicionales son difíciles de precisar sin utilizar retrospectiva 20/20, por lo que la mayoría de los personajes se predice a morir
  2. La historia se vuelve menos centrado, con un "hub and spoke" modelo [17]; la propagación de creencias a lo largo de este tipo de grafos puede ser inexacta
  3. Libro 4 y 5 se producen "al mismo tiempo" [18], por lo que la predicción de propagación más difícil.


¿Jon Snow está muerto?

A pesar de su sencillez y limitaciones, dolor lumbar proporciona información increíblemente precisa.

Para el final del libro 5 de la "línea de tiempo" es volver a la normalidad, lo que nos permite predecir que muere en el libro 6 en función del estado de la red social en toda la historia.

Sin embargo, tuvimos que tomar una decisión: Jon Snow se marcó con el estado "vivo" para el análisis. Por lo tanto, la LBP predijo que está vivo. Si quitamos su condición de realidad del terreno, se puede predecir la mayoría de los personajes de morir (ya que sólo Daenerys se mantendría como "vivo").

Por lo tanto, se corre el algoritmo bajo dos hipótesis distintas:


  • Etiqueta Jon Snow "desconocido" y Tyrion como "vivo" para predecir quién será el próximo a morir bajo el supuesto de que Jon Snow es "juego limpio"
  • Mantener "vivo" (nuestra hipótesis de pie) Jon.

Predicción del Libro 6 



Arriba: Los números están cerca uno del otro, que se espera teniendo en cuenta el bajo número de caracteres "vivo". Las relaciones se construyen más de 5 libros sin embargo; pequeñas diferencias son más significativas que en las medidas anteriores.

Conclusión


Si Jon Snow no se mantiene viva manualmente, que está muerto [19]. Si Jon está vivo y luego Brienne, Walder (Frey), Sam, Edmure y los Lannister son parte superior de la lista [20].

¡¡¡¡No te pierdas!!!!

Lea la segunda parte en los "Predecir muerto en Juego de Tronos 'Series Blog mañana en Análisis y conclusión de supervivencia basada en eventos.

------------------------

Notas al pie

* Mientras que el libro se llama "Canción de Hielo y Fuego", la mayoría de la gente lo conoce como Juego de Tronos

[2] Los libros tienen un contenido más detallado y más historias secundarias

[3] Catelyn (no hay chanchullos señora stoneheart aquí), Eddard, Arys Oakheart y Quentyn Martell

[4] De hecho ser un POV es la segunda característica más precisa para predecir la supervivencia

[5] Necesario cuando se mencionan tantos personajes en un solo capítulo

[6] De hecho, es el nombre que más se menciona en todos menos en un par de capítulos

[7] De http://iceandfire.wikia.com

[8] En concreto, si dos caracteres A y B que tienen una resistencia de la conexión con el carácter PoV de R (A) y R (B), respectivamente, se calcula la fuerza de la relación AB como 1 - sqrt (((1- R (A)) * (1-R (A)) + ((1-R (B)) * (1-R (B)))

[9] Y la mayoría de los físicos, así: la entropía siempre aumenta

[10] La serie de televisión se han omitido o acortar una serie de personajes secundarios e historias y mantuvo una línea de tiempo unificado, por lo que es "más coherente"

[11] Lo que es un buen augurio para Jon Snow

[12] Este algoritmo ha utilizado anteriormente en los datos históricos del renacimiento aquí: http://blogs.teradata.com/international/a-crazy-belief-predicting-outcomes-from-network-graphs/

[13] Se trata de "Canción de hielo y fuego" después de todo ...

[14] He calculado modificaciones en el valor de R en función de los personajes son de casas amigables enemigos / o relaciones de lealtad. Cambió los números un poco, pero no el orden de los "caracteres de probabilidades de morir / sobrevivir"

[15] Con un importante papel en la serie de televisión

[16] ¿El G.R.R. Martin sabe más acerca de la teoría de grafos lo que deja ver?

[17] Véase los grafos de redes para el libro 4 y 5

[18] La serie de televisión "fija" este

[19] Esto puede llegar a ser literalmente cierto

[20] Como cobertura gratuita, estas predicciones son para los libros; la serie de televisión puede llegar a ser diferente

sábado, 16 de abril de 2016

Marketing: NodeXL y el ARS aplicado a los emprendimientos

¿Cómo los vendedores pueden utilizar Nodo XL para el análisis de redes sociales?

ARS y NodeXL para la creación de empresas: Aplicación en un software de aprendizaje de idiomas.
Paulina Rueda -Linkedin

Cómo lograr viralidad: lecciones aprendidas de Facebook


El ARS se puede utilizar para asignar a los clientes potenciales y dirigirse a ellos directamente, o incluso hacer la comercialización de entrada mediante la creación de contenido de gran interés para los clientes vean y luego analizar cómo se logró viralidad. En este blog podrás aprender a utilizar NodeXL como una estrategia para adquirir clientes para una puesta en marcha. Usemos como ejemplo un nuevo negocio SaaS que consiste en un software de aprendizaje de idiomas. Esta industria tiene varios competidores, como la piedra de Rosetta, Duolingo, Pimsleur, Babbel etc .. ¿Cómo se podría robar a los clientes de estas empresas? Fácil, NodeXL le permite buscar palabras específicas en Twitter e identificar conversaciones importantes. Por lo tanto, si lo que queríamos ver lo que la gente en Twitter están hablando de Rosetta Stone podríamos mirar hacia arriba para la palabra: "Piedra Rosetta", "Inglés (Inglés aprendizaje) aprendiendo", "lenguaje", "aprender Inglés para los negocios" y cualquier otra combinación que desea analizar. NodeXL que permite una diversidad de características tales como:

  • Limite el número de tweets a 1.000 o si la empresa quiere analizar 300.000 que es posible también.
  • Mira una zona horaria específica, de esta manera una empresa puede identificar a las personas en los EE.UU., China o en Europa. Por lo tanto si se trata de un software es para los hispanohablantes que viven en la U.S o en América Latina se puede identificar rápidamente a los usuarios que viven en estos países.
  • Fíjese en los usuarios que tienen Twitter desde el año 2006. Si se analizan los usuarios que fueron los primeros en utilizar Twitter probablemente son conocedores de la tecnología y estarán influenciadores más grandes que los que se unieron en 2014.
  • Mira a los usuarios con más de x cantidad de seguidores. Cuando usted está tratando de identificar los grandes factores de influencia es posible que desee mirar a los usuarios con más de 1.000 seguidores.
  • Analizar el contenido de cada tweet. Por ejemplo, haciendo el análisis Busqué Rosetta Stone y miraba a los tweets. A una persona twitteó: "los maestros están trabajando en TISD ser bilingüe con Rosetta Stone gracias a @TISDFoundation" -tharchar. Esta información me dice TISDFoundation está invirtiendo dinero en clases bilingües así que tal orientación este fundamento sería eficaz. También sé que para apuntar y puedo contactar con la persona que Twitter directamente.
Así que continuando con el ejemplo del software de aprendizaje de idiomas, donde podría comenzar esta empresa? Hice un análisis sobre NodeXL probando diferentes palabras en twitter y cada análisis me dio una idea de por dónde empezar. Duolingo, un software de aprendizaje de idiomas, y el competidor para el software de aprendizaje de idiomas parecía tener dos grupos claros cuando buscado en Twitter.

Resulta que se publicó un artículo en The Verge, en relación con una lengua artificial a partir de 1887 se llama esperanto que es seguido por miles de personas en los EE.UU., que se habla en un grupo notorio y clubes privados y ahora que el lenguaje ahora estaba disponible para aprender sobre Duolingo. El artículo también contiene una serie de hipervínculos para ir al sitio web de Duolingo y descargar el software. En este artículo se obtuvo Duolingo miles de usuarios, ya que cientos de personas retweeted el artículo de la Verge.

¿Qué podría ARS descubrir en este caso? Un artículo / blog con gran contenido que atrae a un nicho específico es una estrategia exitosa para adquirir clientes. Además, es importante que el contenido es lo suficientemente bueno. Optimización de motores de búsqueda cuando bien hecho es fantástico! Y la mejor manera de clasificar bien en los resultados de búsqueda de Google es crear contenido que es digno de rango. (Halligan y Shah p.50).



Durante la búsqueda de Duolingo en NodeXL, uno de los grupos procedía de la propia Duolingo. Tienen todas estas flechas salientes, ya que está en conversaciones con clientes.



El otro de los grupos fue la Verge página web. El artículo fue retweeted tantas veces que terminó la adquisición de cientos de clientes para Duolingo.

Ahora, vamos a ir a una empresa que comenzó como una simple puesta en marcha y utiliza ARS para trabajar su camino hacia arriba.
Facebook es conocido como el claro ejemplo de éxito gracias a ARS, que se recomiendan amigos mediante el análisis de redes sociales, y mirando a los amigos de los amigos que podrían ser interesante para usted. Sin embargo ¿cómo se van viral?
La idea de viralidad no es una coincidencia. Viralidad puede ser cuidadosamente planeado y ARS es la manera de planificarlo. Cuando FB se puso en marcha en 2003, los fundadores decidieron concentrarse en una pequeña comunidad densa que era estudiantes de Harvard. Después de que habían entrado en Harvard se expandió a las escuelas Ivy League saturado ese mercado y seguido a las escuelas secundarias. Lo que hicieron es lograr la saturación dentro de una comunidad antes de trasladarse a otra comunidad. (P.110 Tsvetovat y Kouznetsov).


La transición de la propagación lineal para viralidad. (P.111 Tsvetovat y Kouznetsov).

De acuerdo con un estudio realizado por Tsvetovat y Kouznetsov, la transición de un crecimiento lineal para ir viral ocurre alrededor del 7% de la densidad. Esto significa que si un 7% de las personas en su público objetivo adoptar un meme, retweet un video, unirse al sitio, compartir en facebook, dejar comentarios en tu blog o cualquier otra actividad en los medios sociales, el resto seguirá en breve de una manera viral. P. 112
¿Por qué es esto importante para la creación de empresas? Los empresarios siempre se centran en el mercado global, que rara vez van a nichos de mercado independientes. Sin embargo, esta teoría demuestra una alta saturación en un nicho es una buena línea de partida hacia otros nichos. Un nicho puede ser definido por misma ubicación geográfica, pueden unir a la gente por el interés. Si una empresa es capaz de atraer con éxito un nicho que es por la comercialización de entrada, excelente contenido que es el rango, SEO, la piratería crecimiento digno y estrategias de marketing digital, entonces se puede utilizar el ARS para analizar el comportamiento de ese nicho y luego seguir adelante con las siguientes.

En conclusión, el uso de NodeXL para identificar nichos y analizar cómo interactúan entre sí es una poderosa herramienta para las empresas están comenzando. Además, ahora aprendido de Facebook que saturar un mercado pequeño y se centra en el 7% de la audiencia objetivo es el comienzo de la viralidad. Y una manera de reducir este porcentaje hasta un 3 o 4% es la creación de contenido notable por Google para clasificar el material es tan digno y permitir que clientes a encontrar de forma orgánica.


Bibliografía:

Tsvetovat, Maksim y Kouznetsov, Alexander. "Análisis de redes sociales para los negocios". (2011). Disponible en: http://mediashow.ru/sites/default/files/books/2011/11/social.network.analysis.for_.startups.1449306462.pdf
Dean, Sam "Konstrui Pli Bonan Lingvon (para construir un mejor Language)", disponible en: http://www.theverge.com/2015/5/29/8672371/learn-esperanto-language-duolingo-app-origin-history
Análisis NodeXL Ran por Paulina Rueda
Halligan, Brian y Shah Dharmesh, "Inbound Marketing. Atraer, desplegar y satisfacer a los clientes en línea ".

lunes, 11 de abril de 2016

Redes de comercio de obsidiana en el imperio Maya

Adquisición y distribución de obsidiana en la Mesoamericana prehispánica entre el 900 AC-1520 DC: Un análisis de redes sociales
Mark Golitko & Gary M. Feinman
Journal of Archaeological Method Theory (2015) 22:206–247
DOI 10.1007/s10816-014-9211-1


Las economías antiguas se han caracterizado por muchos investigadores como localizadas, muy controladas por los actores políticos y estáticas durante largos períodos de tiempo. En Mesoamérica, investigación reciente ha puesto en duda estos puntos de vista, con el reconocimiento de los principios de intercambio de mercado, la producción de los hogares para el intercambio y la integración de amplio alcance de las comunidades en las redes comerciales regionales. Aquí, nos expandimos en un análisis de la red antes de los ensamblajes de obsidiana de la región maya durante los periodos Clásico y Posclásico para incorporar los datos de toda Mesoamérica entre 900 AC y AD 1520. Con las dos representaciones gráficas visuales y mediciones formales de red, nos encontramos con que la economía mesoamericana era dinámico y generalmente no muy centralizada a través del tiempo. La topología de esta red interactiva sufrió cambios significativos en el tiempo. En particular, la tendencia a la disminución de la jerarquía y el tamaño de la red culminaron en la economía "internacional "altamente comercializada del Postclásico Tardío como se ha señalado en estudios previos. Sobre la base de este análisis, hacemos el caso de que la economía mesoamericana antigua no era ni predominantemente de arriba hacia abajo ni estática, y así no se ajusta a las presunciones realizadas frecuentemente en relación con las economías preindustriales.



Fig. 4 Enlaces del Período 3 (900-300 aC) de red con nodos situados geográficamente. El espesor del enlace corresponde a la fortaleza del enlace- Los enlaces delgados representan enlaces de 94≥BR≥30, mientras que los bordes gruesos representan enlaces de BR≥94


viernes, 8 de abril de 2016

ARS y visualización con Pajek


Análisis y visualización de redes de gran tamaño con el paquete del programa Pajek
Andrej Mrvar y Vladimir Batagekj

Complex Adaptive Systems Modeling 20164: 6
DOI: 10.1186 / s40294-016-0017-8 © Mrvar y Batagekj. 2016

Resumen

Pajek es un paquete de programas para el análisis y visualización de grandes redes (redes que contiene hasta mil millones de vértices, no hay límite, excepto el tamaño de la memoria-en el número de líneas). Ha estado disponible desde hace 20 años. El programa, documentación y material de apoyo se pueden descargar y utilizar de forma gratuita para uso no comercial de su página web: http://mrvar.fdv.uni-lj.si/pajek/



Palabras clave

Pajek Análisis PajekXXL de las redes de gran visualización de las redes
Fondo

Las grandes redes se pueden encontrar en todas partes, por ejemplo, las redes sociales, las conexiones entre las personas (relaciones de parentesco, amistad, Facebook, Twitter, WWW); el comercio entre las organizaciones o países; redes de citación y co-autoría (por ejemplo, obtenido de la Web of Science); llamadas telefónicas; listas en ciencias de la computación de flujo; molécula orgánica en la química (por ejemplo, ADN, las redes de interacción proteína-proteína, la investigación del genoma); conexiones entre las palabras en el texto o diccionarios; las redes de transporte (aerolíneas, calles, ...).

Revisión


Historia

El desarrollo del programa Pajek comenzó en 1996, cuando Andrej Mrvar comenzó su trabajo en su tesis de doctorado sobre el análisis y la visualización de grandes redes de la Facultad de Informática y Ciencias de la Información, Universidad de Ljubljana (asesor prof. dr. Vladimir Batagekj). Aunque Pajek se ha desarrollado ahora por 20 años, sigue siendo el único programa general disponibles en el mercado que pueden manejar grandes redes (redes con hasta un mil millones de vértices; no hay límite, excepto el tamaño de la memoria-del número de líneas). Pajek ahora es utilizado por varias universidades (por ejemplo, de la Universidad de Oxford, la Universidad de California en Irvine, San Diego, Amsterdam ...) y las empresas (por ejemplo, el Deutsche Bundesbank, Volkswagen AG, SPSS Corea, Banco de Inglaterra, Cisco, Basilea Banco de Pagos Internacionales asentamientos, del Departamento de Policía de Kansas City Missouri, Departamento de Policía de Indianápolis ...). Pajek se cita (marzo de 2016) más de 2000 veces en la Web of Science y más de 6000 veces en Google Académico. Las citas se pueden encontrar también en algunas revistas importantes como la naturaleza y la Investigación del Genoma. Pajek fue el ganador de la William D. Richards Jr., Software Award en 2013.

Principales objetivos de Pajek

En el análisis Pajek y visualización de grandes redes se realizan utilizando seis tipos de datos (objetos): red (gráfico); partición (propiedades nominales u ordinales de vértices); vector (propiedades numéricas de vértices); clúster (subconjunto de vértices); permutación (reordenamiento de vértices, propiedades ordinales); y la jerarquía (estructura de árbol general sobre los vértices). De esta manera se organiza ventana principal Pajek (ver Fig. 1 para la instantánea de la ventana principal Pajek).


Fig. 1. Ventana principal Pajek

Los principales objetivos en el diseño de Pajek son:

  • apoyar la abstracción por descomposición (recursiva) de una gran red en varias redes más pequeñas que se pueden tratar adicionalmente usando métodos más sofisticados (Batagelj y Mrvar 1998; Batagelj et al., 1999);
  • proporcionar al usuario con algunas herramientas de visualización potentes (Batagekj y Mrvar 2002, 2003);
  • implementar una selección de algoritmos eficientes (subquadratic) para el análisis de las redes de gran tamaño (Batagekj y Mrvar 2014).


Operaciones

De acuerdo con los objetivos principales, Pajek contiene varias operaciones básicas sobre sus objetos. Pajek no es "un solo programa clic ', algunos usuarios llaman' la calculadora de red '. Esto significa que para obtener algún resultado de varias operaciones básicas deben ser ejecutados en una secuencia. De hecho posibilidad de combinar diferentes operaciones básicas da Pajek un poder especial.

Algunas de estas operaciones básicas disponibles en Pajek incluyen: subredes de extracción; la reducción de partes seleccionadas de las redes; búsqueda de componentes conectados (débil, fuerte, biconexas); la búsqueda de caminos más cortos, k-vecinos, flujo máximo; centralidades de vértices y centralizaciones de redes (grado, cercanía, intermediación, concentradores y autoridades, coeficientes de la agrupación, de Laplace de centralidad) de computación; búsqueda fragmento; la agrupación en las redes (con o sin restricción); corretaje; Los métodos de detección de la comunidad (método de Lovaina y la agrupación VOS); rápida multiplicación red dispersa; censo triádica (Batagekj y Mrvar 2001); agujeros estructurales; islas (en vértices o líneas); contando para tres y cuatro anillos; generando diferentes tipos de redes aleatorias, redes de Petri ejecución, y muchos, muchos otros. Algunas operaciones que son adecuados sólo para redes más pequeñas también están incluidos en Pajek (por ejemplo, Pajek es el único software que incluye modelos de bloques generalizado (Batagekj et al., 2004) -un método sofisticado para dividir redes más pequeñas).

Pajek contiene varias operaciones que permiten las transiciones entre los objetos. En este sentido el análisis de grandes redes se puede realizar con fluidez. Las secuencias de comandos pueden ser definidos como una macro.

Los resultados obtenidos por Pajek (por ejemplo, las particiones y vectores) pueden ser analizados mediante R, SPSS y Excel (varias exportaciones a software estadístico se incluyen en Pajek).

Además de las redes ordinarias (dirigido o no dirigido) Pajek soporta también las redes de dos modos, redes temporales (redes cambiando con el tiempo), redes firmados (redes con líneas positiva y negativa), redes multirelational (varias relaciones definidas en el mismo conjunto de vértices ) y las redes acíclicos. operaciones especiales para este tipo de redes están disponibles, por ejemplo, diferentes métodos para redes de partición (firmado Doreian y Mrvar 1996, 2009, 2014, 2015; Mrvar y Doreian 2009; Doreian et al 2013.); varios métodos para calcular los pesos de recorrido (por ejemplo, SPC, SPLC, y SPNP) y posteriormente la determinación de caminos principales en acíclicos (por ejemplo, cita) ... redes.

Genealogías guardados en formato GEDCOM se pueden cargar en Pajek también. Las relaciones de parentesco pueden representarse como un gráfico Ore, p-grafo bipartito o p-grafo (White et al 1999;. Batagekj y Mrvar 2008). Pajek se aplicó con éxito para el análisis de grandes genealogías (por ejemplo, la búsqueda de volver a vincular los matrimonios).

Además de la norma Pajek existe también una versión especial llamada PajekXXL. PajekXXL es una edición especial del programa Pajek el que el consumo de memoria es mucho menor. Por la misma red dispersa que necesita al menos 2-3 veces menos memoria física que Pajek. Las operaciones que requiere mucha memoria (por ejemplo, la generación de redes aleatorias, extracción, reducción de ...) son por lo tanto mucho más rápido. PajekXXL se utiliza generalmente para grandes redes que no se ajustan a la memoria del ordenador disponible. Después de algunas partes interesantes se encuentran y se extraen, la versión estándar Pajek se puede utilizar para el análisis adicional.

Métodos de visualización

Existen diferentes métodos para la generación automática de esquemas de red disponibles en Pajek. El más importante (se utiliza a menudo) son: optimización Kamada-Kawai, optimización Fruchterman Reingold, mapeo VOS, Pivote MDS, dibujo en capas, la transformación de ojo de pez. Diseños obtenidos por Pajek se pueden exportar a diferentes formatos 2D o 3D de salida (por ejemplo, SVG, EPS, X3D, VOSViewer, Mago, ...). espectadores especiales y editores para estos formatos están disponibles (por ejemplo, inkscape, GSView, instantreality, Rey, ...). El uso de ellos podemos hacer otras modificaciones o diseños de examinarlos en detalle.

Pajek implementaciones de los algoritmos para el drenaje de la red automática se pusieron a prueba en varias competiciones de dibujo gráfico. Andrej Mrvar y Vladimir Batagekj tomaron parte en las competiciones en el período 1995-2005. Sus visualizaciones utilizando el programa Pajek se adjudicaron en conjunto con ocho primeros y tres segundos premios.

Publicaciones

Debido a la amplia utilización del programa de la necesidad de una monografía que describe como "Cómo hacer el análisis de redes con Pajek? 'Se hizo inevitable.

La monografía: Wouter de Nooy, Andrej Mrvar, and Vladimir Batagelj: Exploratory Social Network Analysis with Pajek fue publicado por Cambridge University Press en 2005 (de Nooy et al., 2005). se vendieron alrededor de 6000 ejemplares de la primera edición de la monografía. Alrededor de 2.500 citas de esta publicación se pueden encontrar en Google Académico. Debido a que la Cambridge University Press publicó también la segunda versión revisada y ampliada edición en 2011 (de Nooy et al. 2011). La monografía fue traducido al japonés (Pajek を 活用 し た 社会 ネ ッ ト ワ ー ク 分析) y publicado por la Universidad de Tokio Denki Press en 2009 (de Nooy et al., 2009). Fue traducido al chino por Beijing World Publishing Corporation en 2012, así (蜘蛛: 社会 网络 分析 技术). Entre tanto, la primera edición de China ya se vendió y se publicó la segunda edición china (de Nooy et al. 2012). Ver Fig. 2 para las páginas de portada con enlaces a todas las cinco ediciones de libros.


Fig. 2 Los enlaces a las cinco ediciones de libros. 1. First English Edition, 2. Second English Edition, 3. Japanese Edition, 4. First Chinese Edition, 5.Second Chinese Edition

Ejemplos de visualización con Pajek

En las Figs. se muestran 3, 4, 5, 6 y 7 algunos ejemplos típicos de análisis y visualización de grandes redes que utilizan Pajek. Varios más ejemplos se pueden encontrar en la página web Pajek: http:... // Mrvar FDV uni-lj si / pajek /.

Fig. 3 Regionalización de condados de Estados Unidos obtenidos por el método de detección de la comunidad agrupación VOS (ver imagen también interactiva en SVG:  http://​mrvar.​fdv.​uni-lj.​si/​pajek/​Exports/​uscounties2.​svg)


Fig. 4. La búsqueda de caminos más corto ejemplo: Cambio de "agua" en "vino" en cuatro pasos (cambiando, agregar y quitar una sola letra en cada paso) de la red diccionario de Knuth


Fig. 5. Diferentes formas de vértices en Pajek ( "casa", "hombre" y "mujer"). Versión interactiva: http://​mrvar.​fdv.​uni-lj.​si/​pajek/​Transparent/​ManWomanHouse.​htm


Fig. 6. Grafo simétrico 3D (visualización obtenido por mapeo VOS)


Fig. 7. El parentesco relación (p-grafo) entre dos presidentes de Estados Unidos (George Bush y Franklin Delano Roosevelt)

Discusión

Una de las consecuencias del desarrollo de 20 años en tecnologías de la información y la comunicación es la disponibilidad de gran cantidad de datos. Algunas personas llaman a este fenómeno Big Data. Ahora una gran cantidad de datos ya está disponible en un formato electrónico legible por ordenador. Los investigadores han reconocido el poder de reunir y analizar dichos datos. La necesidad de programas de computadora para analizar y visualizar grandes volúmenes de datos se convierte en inevitable. Lo mismo sucede en el área de análisis de redes sociales. Ahora podemos generar grandes redes de diferentes recursos electrónicos. Ejemplos típicos de este tipo de redes son las redes de coautoría (Batagelj y Mrvar 2000) y las citas obtenidas de la Web of Science. Pajek-programa para el análisis y visualización de grandes redes se discute en el papel.

Áreas de aplicación

Como se ha mencionado en apartados anteriores grandes redes podrían encontrarse en cualquier lugar. paquete de programas Pajek tiene varias áreas de aplicación, incluyendo: análisis de cualquier tipo de redes sociales (. Facebook, Twitter, redes en las organizaciones (Škerlavaj et al 2010), redes de relaciones internacionales, relaciones de parentesco, ...); redes de citación y co-autoría; las redes de interacción proteína-proteína; las redes de transporte, redes arqueológicos, ... Algunas personas lo utilizan también sólo como una herramienta de visualización para la visualización de cualquier tipo de redes.

Conclusión

Pajek está en constante desarrollo. Para obtener más información sobre Pajek comprobar su página web. Para aquellos que quieran aprender Pajek: Varios libros, manuales, artículos y muestras están disponibles. Se enumeran en la sección de referencias.


Referencias

  • Batagelj V, Mrvar A (1998) Pajek—a program for large network analysis. Connections 21(2):47–57
  • Batagelj V, Mrvar A (2000) Some analyses of Erdos collaboration graph. Soc Netw 22:173–186 MathSciNet View Article
  • Batagelj V, Mrvar A (2001) A subquadratic triad census algorithm for large sparse networks with small maximum degree. Soc Netw 23:237–243View Article 
  • Batagelj V, Mrvar A (2002) Pajek—analysis and visualization of large networks. Lecture notes in computer science vol 2265, Springer-Verlag, pp 477–478 
  • Batagelj V, Mrvar A (2003) Pajek—analysis and visualization of large networks. In: M Juenger, P Mutzel (eds) Graph drawing software. Springer (series mathematics and visualization), pp 77–103 
  • Batagelj V, Mrvar A (2008) Analysis of kinship relations with Pajek. Soc Sci Comput Rev 26(2):224–246 View Article 
  • Batagelj V, Mrvar A (2014) Pajek. In: R Alhajj, J. Rokne (eds) Encyclopedia of social network analysis and mining. Springer, Heidelberg, pp 1245–1256 
  • Batagelj V, Mrvar A, Zaveršnik M (1999) Partitioning Approach to visualization of large graphs. Lecture notes in computer science vol 1731. Springer-Verlag, pp 90–97 
  • Batagelj V, Mrvar A, Ferligoj A, Doreian P (2004) Generalized blockmodeling with Pajek. Advances in methodology and statistics, vol 1. FDV, Ljubljana, pp 455–467 
  • de Nooy W, Mrvar A, Batagelj V (2005) Exploratory social network analysis with Pajek. Cambridge University Press, New York View Article 
  • de Nooy W, Mrvar A, Batagelj V (2009) Pajek を活用した社会ネットワーク分析, Tokyo Denki University Press, Tokyo 
  • de Nooy W, Mrvar A, Batagelj V (2011) Exploratory social network analysis with Pajek: revised and expanded, 2nd edn. Cambridge University Press, New York View Article
  • de Nooy W, Mrvar A, Batagelj V (2012) 蜘蛛 : 社会网络分析技术. Beijing World Publishing Corporation, Beijing
  • Doreian P, Mrvar A (1996) A partitioning approach to structural balance. Soc Netw 18:149–168 View Article
  •  Doreian P, Mrvar A (2009) Partitioning signed social networks. Soc Netw 31:1–11View Article MATH
  • Doreian P, Mrvar A (2014) Testing two theories for generating signed networks using real data. Advances in Methodology and Statistics, vol 11. FDV, Ljubljana, pp 31–63 
  • Doreian P, Mrvar A (2015) Structural balance and signed international relations. J Soc Struct 16 
  • Doreian P, Lloyd P, Mrvar A (2013) Partitioning large signed two-mode networks: problems and prospects. Soc Netw 35:178–203 View Article 
  • Mrvar A, Doreian P (2009) Partitioning signed two-mode networks. J Math Sociol 33:196–221View Article MATH
  • Škerlavaj M, Dimovski V, Mrvar A, Pahor M (2010) Intra-organizational learning networks within knowledge-intensive learning environments. Interact Learn Environ 18:39–63 View Article 
  • White DR, Batagelj V, Mrvar A (1999) Analysis of kinship relations with Pajek. Soc Sci Comput Rev 17(3):245–274View Article