domingo, 26 de junio de 2016

Brexit afectará las redes de investigación del Reino Unido

La ciencia de las redes revela el impacto del Brexit en el ecosistema de investigación del Reino Unido


Brexit es un hecho ahora y se espera que tenga un impacto significativo en las economías del Reino Unido y sus socios comerciales claves. Una de las áreas de impacto se refiere a los fondos de investigación de la Unión Europea en la forma de su Programa Marco Horizon 2020 para la Investigación y la Innovación. Un número importante de universidades, institutos de conocimiento y empresas del Reino Unido actualmente participan en este programa. Exactamente que organizaciones y proyectos están potencialmente afectados, y cómo están conectados? La ciencia de las redes ofrece una visión inicial.
Escrito por André Vermeij, Kenedict Innovation Analytic



Un extracto de la red completa que muestra las universidades e instituciones con el mayor número de proyectos asociados

Los datos sobre todos los proyectos y organizaciones de Horizon 2020 está fácilmente disponible como Open Data de CORDIS, el repositorio público de la Comisión Europea para obtener información sobre los proyectos de investigación financiados por la UE. Los principios de la ciencia de las redes nos permiten convertir estos datos en mapas de la actividad de las organizaciones del Reino Unido. Las redes se componen de nodos (entidades) y los bordes (las conexiones entre entidades) y permiten un análisis profundo y visualización de las estructuras subyacentes de la investigación y la colaboración.
A continuación, vamos a las organizaciones que se basan en el Reino Unido a todos los proyectos de Horizonte 2020 que actualmente participan. En la sala de red se conecta, este es un ejemplo de un modo de dos o red bipartita, en el que dos tipos de nodos son distintas conectan cada vez que co-aparecen en el conjunto de datos subyacente. Nos centraremos en el mayor grupo interconectado de la actividad aquí - se omiten los proyectos y organizaciones desconectados.

La exploración de red en sí mismo: Visualización interactiva

La visualización interactivo le permite explorar la red de proyectos y organizaciones de usted mismo. Puede buscar temas y organizaciones que utilizan el cuadro de búsqueda en la parte superior izquierda. Al hacer clic en un nodo muestra sus propiedades a la derecha y le permite ver sus conexiones directas también. los nodos del proyecto incluyen un enlace a la página del proyecto en el sitio web de CORDIS para leer sobre toda la información asociada a ese proyecto.
Los nodos están dimensionados en función de su número total de conexiones, lo que nos permite ver rápidamente que las universidades y las organizaciones son potencialmente los más afectados. colores de nodos se asignan en base a un algoritmo de detección de comunidades, que agrupa a los nodos con conexiones sólidas entre ellos. Esto nos ayuda a obtener una vista visual en los grupos de organizaciones y proyectos que rodean los actores clave. Una versión de pantalla completa de lo visual se puede encontrar aquí.


Detalles



Un primer vistazo a lo visual muestra inmediatamente que la Universidad de Cambridge, la Universidad de Oxford y la University College de Londres son potencialmente los más afectados en términos del número de proyectos de Horizonte 2020 que actualmente participan en. Respectivamente, estas universidades participan en los proyectos 183, 167 y 165. Un buen número de proyectos se caracterizan por la participación de múltiples universidades y organizaciones del Reino Unido. Por ejemplo, Oxford y Cambridge ambos participan en el proyecto 'Bridging the gap: from Individual Behaviour to the Socio-tEchnical MaN'.



El núcleo de la red se compone de una amplia variedad de proyectos y organizaciones que están conectados a varias otras partes de la red. Un buen ejemplo es el proyecto ‘Graphene-based disruptive technologies': muchas de las principales universidades del Reino Unido participan aquí, con la parte de ser proyecto de programa Graphene Flagship de 1 mil millones € de la UE.



La exploración de las estructuras exteriores de la red proporciona una visión interesante sobre los proyectos y organizaciones minoritarias conectado. Te encontrarás con más organizaciones de negocios aquí, incluyendo Rolls Royce y TWI en la parte inferior derecha de la red. Esto demuestra que las organizaciones con fines de lucro son también potencialmente afectados por el Brexit desde una perspectiva de ecosistema investigación, aunque menos que las universidades o institutos de investigación.
Siéntase libre de explorar la red y comparta cualquier idea adicionales usando los comentarios!

viernes, 24 de junio de 2016

Los amigos de Facebook no son amigos después de todo

¡Sorpresa! Sus amigos de Facebook no son sus amigos en la vida real
Usted tiene un amigo en mí (y otras tres personas)
Por Jason Lederman - Popular Science
 


Un nuevo estudio de la Universidad de Oxford confirma por qué tenemos que especificar alguien es un "amigo Facebook" en lugar de un amigo.
El profesor Robin Dunbar observó la relación entre amigos de Facebook de las personas y los verdaderos amigos, y encontró que sólo 14 de los media de 150 amigos de Facebook que un usuario tiene que expresar ninguna simpatía por el usuario en la vida real; sólo cinco amigos de Facebook podrían ser considerados "amigos cercanos".
El estudio también encontró que la edad juega un papel significativo en el número de amigos de Facebook que los participantes tenían, lo que refleja las diferencias en cómo los adolescentes y los adultos utilizan los medios sociales. El grupo de 18 a 24 años de edad de los participantes tenían un promedio de 282 "amigos" más alto que el promedio general de 150 "amigos". Dunbar lo atribuye al hecho de que "los niños son menos exigentes que los adultos en la definición de las amistades, "y que las redes sociales", típicamente estimulan promiscua 'friending' de las personas que a menudo tienen vínculos muy tenues con el ego (X es un amigo [o amigo-de-amigo-de-un-amigo] de y, por lo que le gustaría hacer amistad ¿ellos?)."
A pesar de que los usuarios con más amigos que lo normal pueden pensar que tienen más amigos cercanos, Dunbar encontró la tendencia se mantiene en realidad para ellos, así:
Los encuestados que tenían inusualmente grandes redes no aumentaron el número de amistades cercanas que tenían, sino más bien que agregaron a más conocidos poco definidos en su círculo de amistad, simplemente porque la mayoría de los sitios de medios sociales no permiten diferenciar entre estas capas.
Según Dunbar, las amistades tienen "una tasa de atenuación natural en ausencia de contacto, y los medios sociales pueden funcionar bien para frenar la velocidad de desintegración." Pero no se basan exclusivamente en Facebook para mantener su amistad viva - Dunbar recomienda cara reunión cara a cara para "reforzar" la amistad.
Dado que las personas generalmente encuentran las interacciones a través de medios digitales (incluyendo el teléfono, así como la mensajería instantánea y otros medios de comunicación social basado en texto) menos satisfactorios que las interacciones cara a cara, puede ser que las reuniones cara a cara sean necesarios de vez en cuando para evitar que las amistades, en particular, se decaigan a través de las capas de red y, finalmente, se deslice sobre el enlace ... en la categoría de conocidos.

El trabajo de Dunbar se puede encontrar en:

Do online social media cut through the constraints that limit the size of offline social networks?
R. I. M. Dunbar
DOI: 10.1098/rsos.150292

martes, 21 de junio de 2016

30 paquetes de software de ARS

Top 30 de herramientas de análisis y visualización de redes sociales 

Se revisan las principales herramientas y paquetes de análisis de redes sociales y visualización, que tienen amplias aplicaciones, incluyendo la biología, las finanzas, la sociología, la teoría de redes, y muchos otros dominios.
Por Devendra Desale, KDnuggets.- Data Mining, Analytics, Big Data, and Data Science



Aquí está una lista de la parte superior de análisis de red social y herramientas de visualización que encontramos - véase también en la página Social Network Analysis, Link Analysis, and Visualization de KDnuggets. Aquí vamos...


Centrifuge ofrece a los analistas e investigadores un conjunto integrado de capacidades que pueden ayudar a entender rápidamente y espigan penetración de nuevas fuentes de datos, visualizar descubrimientos mediante la interacción con los datos, colaborar para sacar conclusiones.



Commetrix es un framework de software para la visualización y análisis de red dinámica que soporta moderadores comunitarios, miembros y redes de investigadores. Commetrix es una herramienta de análisis exploratorio de datos de redes dinámicas. Sus conectores pueden leer cómodamente todas las fuentes de datos de la red accesibles, como las redes de coautoría o de procesos de negocio. Sin embargo, la atención se centra en el análisis de la evolución de los patrones de comunicación electrónica, incluyendo el correo electrónico, discusiones, voz sobre IP y mensajería instantánea.

Cuttlefish es una aplicación de banco de trabajo (workbench) de red que visualiza las redes con algunos de los algoritmos de diseño más conocidos. Permite visualizaciones detalladas de los datos de la red, la manipulación interactiva del diseño, edición gráfica y visualización de procesos, así como diferentes métodos de entrada como de salida de TeX usando TikZ y PSTricks. Se puede descargar como archivo jar y se puede utilizar con Gephi también.

Cytoscape es una plataforma de software de código abierto para la visualización de las redes de interacción molecular y vías biológicas y la integración de estas redes con anotaciones, perfiles de expresión génica y otro datos de estado. Si bien Cytoscape fue diseñado originalmente para la investigación biológica, ya que es una plataforma general para el análisis de redes complejas y visualización. distribución del núcleo Cytoscape proporciona un conjunto básico de características para la integración de datos, análisis y visualización. Las características adicionales están disponibles como aplicaciones (anteriormente llamada plugins). Aplicaciones están disponibles para la red y análisis de perfiles moleculares, nuevos diseños, formatos de archivos adicionales, scripting, y la conexión con bases de datos.

EgoNet es un programa para la recogida y análisis de datos de la red egocéntricos. Le ayuda a crear el cuestionario, recopilar datos y proporcionar medidas generales de la red global. Además, las matrices de datos se pueden utilizar para un análisis más extenso por otro software. Una vez que se haya completado la entrevista, la red puede ser visualizado inmediatamente, permitiendo que el entrevistador hacer más preguntas sobre la red. Otras utilidades incluyen la combinación de redes personales en una sola red entera.

Gephi es una visualización interactiva y la plataforma de exploración para todo tipo de redes y sistemas complejos, dinámicos y grafos jerárquicos. Se ejecuta en Windows, Linux y Mac OS X. Gephi es de código abierto y libre. Gephi es una herramienta para las personas que tienen que explorar y comprender los grafos. Como Photoshop, pero para los datos, el usuario interactúa con la representación, manipular las estructuras, formas y colores para revelar propiedades ocultas.



Graph-tool es un módulo de Python eficiente para la manipulación y el análisis estadístico de los grafos (alias para redes). Al contrario de la mayoría de los otros módulos de Python con una funcionalidad similar, las estructuras de datos y algoritmos básicos son implementados en C ++, haciendo uso extensivo de la plantilla de meta-programación, basada en gran medida en la Boost Graph Library. Graph-tool tiene sus propios algoritmos de diseño y dibujo, rutinas interactivas versátiles basados ​​en Cairo y GTK +, pero también puede funcionar como una interfaz muy cómoda a la excelente paquete graphviz.

GraphChi es un spin-off del proyecto GraphLab (ahora renombrado a Dato) de la Universidad Carnegie Mellon. Es para llevar el cómputo de grafos de red a gran escala, tales como el análisis de redes sociales, disponible para cualquier persona con un ordenador portátil moderno. Se le ahorra la molestia y los costos de trabajar con un racimo o distribuidos los servicios en la nube. Programas para GraphChi se escriben en el modelo centrado en el vértice, propuesto por GraphLab y Pregel de Google.

Graphviz es un software de visualización gráfica de código abierto. La visualización gráfica es una forma de representar información estructural como diagramas de grafos abstractos y redes. Los programas de diseño Graphviz toman descripciones de grafos en un lenguaje de texto simple, y hacer diagramas en formatos útiles, tales como imágenes y SVG para páginas web; PDF o PostScript para su inclusión en otros documentos; o visualizar en un navegador gráfico interactivo. Graphviz tiene muchas características útiles para los diagramas de hormigón, como las opciones de colores, fuentes, diseños de nodos de tabla, estilos de línea, hipervínculos y formas personalizadas.

InFlow realiza análisis de red y visualización de la red en un solo producto integrado. Es una de las primeras herramientas en ARS que ha sobrevivido debido a su facilidad de uso y una interfaz interactiva. Es un poco más caro, pero viene con el entrenamiento y el apoyo de Valdis. Es necesario ponerse en contacto con Valdis (puede hacerlo a través de este sitio web) para la fijación de precios y características actuales.



JUNG(Java Universal Network/Graph Framework) es una biblioteca de software que proporciona un lenguaje común y extensible para el modelado, análisis y visualización de datos que se puede representar en forma de grafo o de red. La arquitectura JUNG está diseñado para soportar una variedad de representaciones de entidades y sus relaciones, tales como grafos dirigidos y no dirigidos, grafos multimodales, grafos con enlaces paralelos, y hypergrafos. Proporciona un mecanismo para describir grafos, las entidades y las relaciones con los metadatos.

Keynetiq es una plataforma innovadora para el análisis de red de la organización. Está diseñado para mapear, visualizar y analizar las redes de personas y las relaciones entre ellos, que revela cómo las organizaciones operan realmente en el negocio del día a día. Se proporciona una gama completa de servicios que van desde el análisis de sus objetivos y el diseño de un estudio de la ONA, la implementación de la herramienta Keynetiq, la coordinación de la recopilación de datos y administración de la plataforma, hasta un análisis completo de la red de la organización y una informe detallado completo con un plan de acción.

MeerKat dispone de instalaciones para la minería automatizada comunidad, diversos algoritmos de diseño de visualizaciones de votos, y el análisis de eventos plazo para redes dinámicas que se han observado en varios puntos en el tiempo. Meerkat establece cuidadosamente la red fuera de la pantalla para minimizar la oclusión y se destacan las comunidades. También proporciona información acerca de los nodos más influyentes / centrales dentro de cada comunidad.

Netlytic es un analizador de texto y redes sociales basado en la nube que se pueden resumir de forma automática grandes volúmenes de texto y descubrir las redes sociales de las conversaciones en línea en sitios de medios sociales como Twitter, YouTube, blogs, foros en línea y chats. la suscripción de varios niveles incluyendo la versión gratuita.

NetMiner es una aplicación de software para el análisis de exploración y visualización de datos de gran tamaño de la red según el SCN. Se ha incrustar motor de scripts basado en Python interna que equipado con el generador automático de secuencias de comandos. NetMiner 4 Licencia para los cursos se proporciona a los estudiantes y profesores.

Network Workbench es un software para Análisis de Redes, Modelado y Visualización Toolkit a gran escala para Ciencias Sociales, Biomédicas e Investigación Física. El entorno de los recursos informáticos de código-imaginado datos proporcionará una ventanilla portal en línea para los investigadores, educadores y profesionales interesados ​​en el estudio de las ciencias biomédicas, sociales y de comportamiento, la física y otras redes.

NetworKit es un creciente conjunto de herramientas de código abierto para el análisis de redes de alto rendimiento. Su objetivo es proporcionar herramientas para el análisis de redes de gran tamaño en el rango de tamaño de entre miles de miles de millones de enlaces. Para este propósito, se implementa algoritmos de grafos eficaces, muchos de ellos paralelo a utilizar arquitecturas multinúcleo. Estos están destinados para calcular las medidas estándar de análisis de redes, tales como secuencias grado, coeficientes de la agrupación y la centralidad. A este respecto, NetworKit es comparable a paquetes como NetworkX, aunque con un enfoque en el paralelismo y la escalabilidad.

NetworkX es un paquete de software de lenguaje Python para la creación, manipulación, y el estudio de la estructura, la dinámica y las funciones de las redes complejas. Con NetworkX se puede cargar y redes de tiendas en formatos de datos estándar y no estándar, generar muchos tipos de redes aleatorias y clásicos, analizar la estructura de la red, construir modelos de red, el diseño de nuevos algoritmos de redes, redes de dibujar. Es utilizado por los matemáticos, físicos, biólogos, informáticos, científicos y sociales.

NodeXL es una plantilla libre, de código abierto para Microsoft® Excel® que hace que sea fácil explorar los grafos de redes. Con NodeXL, se puede introducir una lista de enlaces de la red en una hoja de cálculo, haga clic en un botón y ver su grafo, todo ello en el entorno familiar de la ventana de Excel. Grafos flexibles de importación y exportación de importación y exportación en GraphML, PAJEK Ucinet, y los formatos de matriz. Las conexiones directas a las redes sociales Redes Sociales importar directamente desde Twitter, YouTube, Flickr y correo electrónico, o utilizar uno de varios plug-ins disponibles para obtener las redes de Facebook, Cambio, Wikis y los enlaces WWW.

Pajek es un programa para Windows, la principal motivación para el desarrollo de Pajek fue la observación de que existen varias fuentes de grandes redes que ya están en forma legible por máquina. Pajek debe proporcionar herramientas para el análisis y visualización de este tipo de redes: redes de colaboración, molécula orgánica en la química, las redes de interacción receptor de la proteína, genealogías, las redes de Internet, redes de citación, de difusión (SIDA, noticias, innovaciones) redes, la minería de datos (2-mode redes), etc. se utiliza ampliamente en la investigación académica.

Polinode es una herramienta flexible que ayuda a reducir la complejidad a través. En su núcleo está la capacidad de asignar, visualizar y analizar los datos de la red. Dirigida principalmente a las organizaciones y consultores, aplicaciones van desde la identificación de los agentes de cambio y la búsqueda de enlaces críticos a través de la promoción de la diversidad y la mejora de los diseños de los lugares de trabajo.

R es una herramienta de análisis de uso general, pero varias bibliotecas están disponibles para el análisis de redes sociales. Estos incluyen degreenet, RSeina, PAFit, igraph, red SNA, tneto, ERGM, Bergm, hergm, latentnet y networksis. Cada uno proporciona una funcionalidad especializada y para las personas familiarizadas con R representan un amplio conjunto de recursos.

SocNetV (Social Networks Visualizer) es una herramienta fácil de usar multi-plataforma para el análisis y la visualización de las redes sociales. Se permite construir redes (grafos matemáticos) en un lienzo virtual, o redes de carga de varios formatos (GraphML, GraphViz, adyacencia, Pajek, UCINET, etc). Además, SocNetV permite modificar las redes sociales, analizar sus propiedades sociales y matemáticas y aplicar diseños de visualización.



Socioviz ies una plataforma de análisis de redes sociales impulsado por métricas de análisis de redes sociales. Permite al usuario consultar las conversaciones de Twitter y encontrar Identificar factores de influencia, opiniones y contenidos. grafos de redes sociales (mención de usuario y la copresencia hashtag) se visualizan y se pueden exportar en formato Gephi (gexf) para su posterior análisis.

Sentinel Visualizer es utilizado por Advanced Link análisis, visualización de datos, Mapeo Geoespacial, y SNA. Su plataforma de visualización de datos con base de datos le permite ver rápidamente enlaces multi-nivel entre las entidades y el modelo de diferentes tipos de relaciones. funciones de dibujo y volver a dibujar avanzada generar vistas para poner de relieve las entidades más importantes optimizados.

Statnet es un conjunto de paquetes de software en I para el análisis de red de la modelización estadística de las redes. El marco analítico se basa en la familia Modelos de Grafos aleatorios exponenciales (ERGM). Proporciona un marco integral para el modelado de red basado en ERGM, incluyendo herramientas para la estimación del modelo, la evaluación del modelo, la simulación de red basado en el modelo y visualización de la red. Esta amplia funcionalidad es impulsado por un algoritmo de cadena central de Markov Monte Carlo (MCMC).

SVAT (Smart Visual Analytics Tool) es para la visualización de datos, investigación de fraude, y más. Proporciona, visualización rentable fácil de usar de enlaces y fluye entre los sujetos. Una visión general cronológica del conjunto de datos visualizado es crucial en muchos casos. TSVA es compatible con dos puntos de vista de línea de tiempo diferentes, con una gran cantidad de opciones para elegir. Se puede extraer datos de fuentes estructurada o no, y los crujidos para revelar patrones ocultos.



Tulip es un marco de visualización de información dedicado al análisis y visualización de datos relacionales. Su objetivo es proporcionar al desarrollador con una biblioteca completa, el apoyo al diseño de la visualización de información interactivo. Escrito en C ++ el marco permite el desarrollo de algoritmos, codificaciones visuales, técnicas de interacción, modelos de datos y visualizaciones de dominio específico. Uno de los objetivo de tulipán es facilitar la reutilización de componentes y permite que los desarrolladores centrarse en la programación de su aplicación. Esta línea de desarrollo hace que el marco eficiente para la creación de prototipos de investigación, así como el desarrollo de aplicaciones de usuario final.

Visone es un software para la creación visual, la transformación, exploración, análisis y representación de datos de la red, desarrollado de manera conjunta en la Universidad de Konstanz y el Instituto de Tecnología de Karlsruhe desde 2001. El objetivo principal del software visone es capacitar a los investigadores en el ciencias sociales para analizar y visualizar los datos de la red de una manera integrada. Las posibles aplicaciones van desde la sociometría de bibliometría y análisis web.

XANALYS se especializan en proporcionar capacidades de software de gran alcance. A partir de la evaluación de amenazas, manejo de casos importante de Investigación y el delito y fraude de análisis anticipadas. Ayuda a gestionar grandes investigaciones de delitos a varias jurisdicciones, evaluar y analizar las transacciones financieras sospechosas, la captura y actuar sobre los informes de inteligencia, y divulgar las pruebas en un formato de corte listo para asegurar resultados exitosos.

domingo, 19 de junio de 2016

Redes de normas y temas en Wikipedia

La evolución de la red de normas de Wikipedia
Bradi Heaberlin y Simon DeDeo
Future Internet


Resumen: Las normas sociales han sido tradicionalmente difíciles de cuantificar. En cualquier sociedad en particular, su cantidad y las interdependencias complejas a menudo limitan un análisis a nivel de sistema. Una excepción es la de la red de normas que sustentan la comunidad de Wikipedia en línea. Estudiamos la evolución de quince años de esta red con el conjunto interconectado de páginas que se establecen, describiendo e interpretando las normas de la comunidad. A pesar de la reputación de Wikipedia de gobernabilidad ad hoc, nos encontramos con que su evolución normativa es muy conservadora. Los primeros usuarios crean normas que tanto dominan la red y persisten en el tiempo. Estas normas básicas rigen tanto el contenido como las interacciones interpersonales utilizando principios abstractos como la neutralidad, verificabilidad, y asumen de buena fe. A medida que la red crece, vecindarios de normas se desacoplan topológicamente el uno del otro, mientras que el aumento en la coherencia semántica. Tomados en conjunto, estos resultados sugieren que la evolución de la red de Wikipedia norma es similar a los sistemas burocráticos que son anteriores a la era de la información.
Palabras clave: normas sociales; redes de normas; Wikipedia; oligarquía; burocracia; gobernancia; conocimiento común


1. Introducción

Las ideas comunes de la sociedad sobre cómo se "debe" gobernar comportan características esenciales de la vida económica y política [1,2,3,4,5,6]. Fuera de ambientes idealizados de teoría de juegos, por ejemplo, los incentivos económicos se complementan con las normas sobre la honestidad y un salario más alto es posible cuando los trabajadores creen que no deberían engañar a su empleador [7]. Y, si bien la estructura racional de las normas y leyes es una parte importante de las acciones de coordinación y deseos [8], las personas a determinar la legitimidad de estas soluciones basadas en las creencias acerca de la imparcialidad y la autoridad. Una fuerza policial sin legitimidad no puede hacer cumplir la ley [9,10].
Las normas también están en desarrollo continuo. La norma moderna contra la violencia física, por ejemplo, tiene raíces inesperados y sigue evolucionando [11,12,13]. Sin embargo, entendemos mucho menos acerca de la historia y el desarrollo de las normas que sobre la economía o la ley [14]. A menudo carecen de los datos que nos permita hacer el seguimiento de la coevolución de las ideas complejas, interrelacionadas e interpretativos, tales como la honestidad, la justicia, y la autoridad, la forma en que podemos realizar un seguimiento de los precios y los flujos monetarios o la creación y el cumplimiento de los estatutos.
Los sistemas en línea, tales como Wikipedia, proporcionan nuevas oportunidades para estudiar el desarrollo de normas en el tiempo. Junto con los repositorios de información y de códigos en el centro de la economía mundial moderna, tales como GNU / Linux, Wikipedia es un ejemplo canónico de un conocimiento común [15,16,17,18]. conocimientos comunes se basan en las normas, en lugar de los mercados o leyes, para la mayor parte de su gobierno [19,20]. En Wikipedia, editores colaboran para escribir artículos enciclopédicos en un entorno de código abierto gestionado por la comunidad [21,22], y que se basan en las normas sociales para estandarizar y gobiernan sus decisiones de edición [23]. los registros del servidor minuto a minuto de Wikipedia cubren más de quince años de creación de normas y la evolución de una población de editores que se contaban por decenas de miles. Las normas son importantes en la Wikipedia en formas que hacen que sea imposible para que los participantes pasan por alto: es el sistema de normas, en lugar de leyes justas, que dicta lo que el contenido está o no está incluido, que participa, y lo que hacen.
Paralelamente a los hallazgos en el estudio de la evolución regla en grandes instituciones académicas [24], esperamos que las normas de Wikipedia que juegan un papel en la preservación de la memoria institucional, para ser una fuente de estabilidad institucional y el cambio, y que tienen una relación compleja con el circunstancias que llevaron a su creación. páginas norma desempeñan un papel clave en la coordinación de comportamiento entre los editores de la Enciclopedia [25]. Editores citan habitualmente las normas sobre las páginas de discusión de artículos en un intento de coordinar [26], crear consenso y resolver conflictos [23,27].
Este estudio se centra en un subespacio de la enciclopedia dedicada a la información y discusión acerca de las normas de la propia enciclopedia. Las comunidades asociadas a cada uno de 291 idiomas y ediciones tienen una gran independencia para definir y modificar las normas que utilizan de Wikipedia; o sea, se puede seguir una trayectoria evolutiva diferente. Aquí, nos centramos únicamente en las normas de la Wikipedia en idioma Inglés. Se estudia la evolución de estas normas utilizando un subconjunto de las páginas enlazadas estrechamente que establecen, describir e interpretar ellos. Estas páginas, junto con las relaciones entre ellos, nos permiten cuantificar cómo los editores describen las expectativas de comportamiento y, en consecuencia, la forma de crear y volver a interpretar las normas de su comunidad.
Nos centramos en los enlaces entre páginas norma. la formación en línea de enlace se produce por una variedad de razones [28], incluyendo la asociación estratégica por la persona que hace la cita [29]. En el caso de Wikipedia, enlaces entre páginas en la enciclopedia "mainspace" codifican información acerca de las relaciones semánticas [30,31] y la importancia relativa de las páginas [32,33]. La extensión de estos análisis a las páginas de la enciclopedia norma nos permite ver cómo se describen las normas, justificados y explicados por referencia a otras normas. Nuestro uso de esta red es paralela a los estudios de citaciones en los sistemas jurídicos; los investigadores utilizan citas legales para realizar un seguimiento a través de la influencia de precedencia [34] y la legitimación [35], así como el prestigio de la citada [35,36]. El paralelo a las citaciones legales no es exacta: las páginas de la red norma de Wikipedia no (por lo general), creado en respuesta a un evento en particular, como en un caso judicial, sino más bien en respuesta a una necesidad percibida son; páginas pueden ser creados por cualquier usuario, en lugar de un juez o tribunal en particular; y las páginas pueden ser editadas de forma retrospectiva (que conduce, por ejemplo, a la posibilidad de ciclos de gráfico cuando se introducen nuevos enlaces).
Esta perspectiva de la red nos permite ir más allá del seguimiento de un solo comportamiento a través del tiempo (un enfoque común en los estudios de la evolución cultural [37]) para examinar la evolución de las relaciones entre cientos, e incluso miles, de ideas distintas. Utilizamos estos datos para formular tres preguntas críticas. En un sistema en el que constantemente se están discutiendo y crean normas, cómo y cuándo algunas normas llegan a dominar sobre los demás? ¿Qué tipo de comportamiento es lo que gobiernan? Además, ¿cómo esas normas básicas evolucionan con el tiempo?
Las respuestas son sorprendentes. Mientras que algunas cuentas de Wikipedia subrayan su flexibilidad y la naturaleza ad hoc de su gobierno [38,39,40], nos encontramos con que la evolución normativa de la Wikipedia es muy conservadora. Normas que dominan el sistema en los últimos años de la Wikipedia se crearon temprano, cuando la población era mucho menor. Estas normas básicas dicen los editores de la forma de escribir y artículos de formato; también describen cómo colaborar con los demás cuando se enfrentan a los desacuerdos e incluso acaloradas discusiones. Para ello, las normas básicas de referencia, principios racionalizadas universales, como la neutralidad, verificabilidad, la cortesía, y el consenso. Con el tiempo, los barrios de la red de estas normas se desacoplan topológicamente. Mientras lo hacen, su coherencia semántica interna aumenta, tal como se mide utilizando un modelo tema del texto de la página. normas básicas abstractas de Wikipedia y proceso de desacoplamiento muestran que adopta una estructura "organización institucionalizada" similar a los sistemas burocráticos que son anteriores a la era de la información [41].

2. Métodos

Para recopilar datos sobre la red de normas en la Wikipedia, que SPIDER enlaces dentro del "espacio de nombres" reservado para (entre otras cosas) las políticas, lineamientos, procesos y discusión. Estas páginas pueden ser identificados debido a que llevan el prefijo "Wikipedia:" o "WP:". Los nodos de red son páginas. aristas dirigidas entre páginas se producen cuando una página enlaza a otra a través de al menos un hipervínculo que cumple con nuestros criterios de filtrado; estos enlaces se encuentran analizando el código HTML en bruto de cada página y con exclusión de las plantillas de navegación estándar y listas. Nuestra red es, pues, ambos dirigidos y no ponderado. Comenzamos nuestro rastreo en la (seleccionado arbitrariamente) página norma "Asumir la buena fe". Los detalles del proceso de rastreo, los filtros de hipervínculo y el post-tratamiento de los enlaces entre páginas aparecen en el Apéndice A; tanto los datos sin procesar y procesada nuestra red están libremente disponibles en línea [42].
Editores clasifican las páginas del espacio de nombres mediante la adición de etiquetas; estas etiquetas incluyen, sobre todo, "la política", "guía", y "ensayo", entre otros. Cuando descargamos texto de la página, también registrar estas categorizaciones. Estas categorizaciones describen los niveles de gradated expectativas para la adhesión [43]. En el texto "plantilla" que se incluye de forma automática-, las políticas se describen como "normas ampliamente aceptadas" que "todos los editores debe seguir normalmente" [44], las directrices como "normas de aceptación general" que "los editores deben intentar seguir" y para el que "de vez en cuando excepciones pueden ocurrir "[45], mientras que los ensayos proporcionan" apoyo y opinión ":" [s] ome ensayos representan normas generalizadas ", mientras que" otros sólo representan puntos de vista minoritarios "[46]. Una cuarta categoría es la "propuesta", que describe las posibles políticas y directrices "Sin embargo ... en el desarrollo, en discusión, o en el proceso de reunir consenso para la adopción" [47].
Los análisis previos de entorno de políticas de Wikipedia ha hecho hincapié en los muchos, a menudo se superponen, las funciones que las normas de juego en la enciclopedia, como las políticas que tanto intento de controlar el uso no-autorizado de material con derechos de autor y para establecer la legitimidad a través del uso de la dicción legal y la gramática [ 25]. En el estudio actual, consideramos un sistema de clasificación complementaria que se centra en los tipos de interacciones de las normas regulan, en lugar de sus funciones. Proponemos tres categorías distintas normativas en base a, y la clasificación se extiende, preexistente de las normas que rigen [19] y conocimientos comunes naturales [20].
Las normas pueden intentar regular la creación de contenido (normas "-Contenido de Usuario") e interacciones entre los usuarios (normas "usuario-usuario"). Además, las normas pueden intentar definir una estructura administrativa más formal con distintas funciones, deberes y las expectativas de los administradores (normas "usuario-admin"). Los dos autores de este trabajo clasifican de forma independiente una muestra aleatoria de cuarenta páginas que utilizan este esquema, y ​​se calculó la confiabilidad entre codificadores utilizando kappa de Cohen [48].
Para nuestro análisis semántico, incluimos todos los textos, excepto que se encuentra en cajas especiales cuyo texto es reproducido por la plantilla a través de múltiples páginas. Para construir nuestra distribución a través de uno-gramas, se normaliza todo el texto a minúsculas, combinar palabras con guiones ( "corrección de errores" a "errorcorrection"), y soltar puntuación ( "no" a "don't"). Hacemos ninguna corrección derivada ni de ortografía.
Una variable externa crítico es el número de usuarios activos en la enciclopedia en cualquier punto en el tiempo. Tras [49], definimos un usuario activo como uno que ha hecho cinco o más ediciones dentro de un mes; estas estadísticas se mantienen públicamente en [50].

2.1. Medidas de centralidad y atención 

Las páginas de nuestro corpus se crean para explicar las normas de Wikipedia para editores e influir en sus interacciones con la comunidad de edición de la enciclopedia y el contenido. Los usuarios navegar por el sistema de normas como una estructura de red y por lo tanto se encuentran con algunas de las páginas más que otros.
Lo medimos utilizando centralidad del vector propio (CE), que cuantifica la importancia de una página en función de su accesibilidad global dentro de la red. La CE de una página es la probabilidad de que ocurra a través de una página durante una caminata al azar; equivalente al algoritmo PageRank, que se utiliza en las ciencias del comportamiento para identificar a un consenso sobre el dominio y el poder [51]. Hemos establecido ε, la probabilidad de un salto al azar, a 0,15.
Esperamos que algunas de las páginas que se convierten en ideal para acceder a la red, mientras que otros permanecen en gran parte periférica. Estamos cuantificar la desigualdad del sistema utilizando el coeficiente de Gini (GC). GC varía entre cero (igualdad perfecta, todas las páginas tienen la misma CE) y uno (una página tiene un alto CE; todas las demás páginas tienen el mismo valor bajo). GC es ampliamente utilizado en economía para medir la desigualdad en los ingresos. A continuación, se proporciona una medida global de la medida en que un sistema está dominado por unas pocas normas. Como una cantidad sin dimensiones, que permite a los investigadores comparar este sistema con otras que pueden ser objeto de una investigación posterior.
Debido a que estamos interesados ​​en la forma en que evoluciona la red norma citación y el papel que juegan las normas en el contexto de esta estructura, la CE es una medida ideal de la importancia de una norma. Además de cuantificar importancia estructural, sin embargo, se espera que la CE para correlacionar con, y para predecir, medidas de comportamiento de la atención que recibe una página. Para medir la relación entre centralidad y de comportamiento medidas de atención, hacemos un seguimiento de visitas de página de datos (a partir de los registros del servidor de Wikipedia puestos a disposición por StatsGrok [52], véase el Apéndice B), el número total de ediciones de una página ha recibido, el número de ediciones en diversas su página de discusión asociada, y el número de editores que han editado la página. Llevamos a cabo una regresión lineal multivariable sobre estas medidas de atención, junto con la edad y el tamaño de página de la página (en bytes) como predictores de la página de un CE (véase el Apéndice C).

2.2. Influencia y superposición

Una característica importante de la red de norma es la esfera de influencia: las páginas que se basan en cualquier página en particular para el contexto.
Consideremos, por ejemplo, la página norma "Punto de vista neutral" (PVN), una página instando a los editores para describir los sujetos de artículos sin tomar partido. Una página que enlaza con PVN se refiere a su propio sujeto NPOV de alguna manera. Por ejemplo, entre muchas páginas que enlazan con PVN es "Propaganda", un ensayo instando a los editores que tener cuidado con el uso de medios de propaganda de los gobiernos autoritarios. La página de enlaces a la página de la propaganda de PVN el fin de definir la noción de "peso indebido"; El contenido de PVN por lo tanto se puede decir de influir en la interpretación de lo que se encuentra en la propaganda.
La influencia es distinta de centralidad; medidas de centralidad en la medida en que páginas enlazan a la página en cuestión. Por el contrario, la influencia mide el grado en que el contenido de esa página influencias otras páginas. En nuestro formalismo, un nodo p puede ser entendida para influir en un nodo q cuando Q enlaces a p. Influencia no necesita ser directa, sin embargo: p puede influir q si q enlaces a R y R enlaces a p. Para medir la influencia no local, consideramos paseos aleatorios en la red la dirección invertida.
Más formalmente, la colocación de un caminante aleatorio en el nodo p, permitimos que ella tome n pasos de este punto de partida a lo largo de la red de orientación invertida; escribimos la distribución de probabilidad resultante sobre la posición final como pi, la probabilidad de que el caminante terminando en el nodo i. El pi de distribución define la influencia que tiene en p i.
Para cuantificar la distancia entre dos nodos, se considera además la superposición influencia entre dos nodos arbitrarias p y q. Solapamiento cuantifica el grado en que dos caminantes al azar, a partir de estos nodos, tenderán a visitar las mismas páginas. Si pi y qi son las distribuciones de probabilidad asociados con la influencia de nodo p y q, a continuación, se superponen, se define como:


     (1)

Por varias páginas, podemos calcular la media de superposición de par en par simplemente promediando la superposición entre todos los pares posibles dentro del conjunto.
Alta superposición entre p y q indica que dos páginas influyen en un gran número de nodos comunes. Cuando n tiende a infinito, los caminantes al azar convergen a la distribución estacionaria, y la superposición es uno; A la inversa, cuando n es pequeño, caminantes aleatorios tienen menos tiempo para encontrar uno al otro. Tomamos n igual a cinco, más grande que el camino más corto promedio (aproximadamente tres, en nuestra red), de manera que los nodos son potencialmente alcanzable, pero mucho menos que el tiempo de convergencia a la distribución estacionaria.
La superposición puede ser pensado como una medida de la separación de las esferas de influencia. Se invoca únicos mecanismos locales: los usuarios que viajan de una página a otra mediante los enlaces que los conectan. Esto es en contraste a una medida, tal como los caminos más cortos, lo que es computacionalmente caro y requiere un conocimiento detallado, global del enlace-estructura de la red. En general, por ejemplo, el número de nodos de un algoritmo necesita visitar el fin de determinar el camino más corto entre dos nodos por lo general será mucho mayor que la longitud de la trayectoria final.
Tanto la influencia y la superposición requieren que especifique los nodos particulares de interés; nos centramos en este trabajo sobre pares de páginas de alta CE, o normas básicas.

2.3. La coherencia semántica

Consideramos que las relaciones semánticas entre las páginas. Esto proporciona una noción de relación que es distinta de cómo las normas se conectan a través de hipervínculos. Para ello, hacemos (asignación de Dirichlet latente [53]) El modelado de tema en los uno-gramos del, texto legible aparece en cada página. Tema modelos nos permiten representar textos cortos, incluso cuando se obtienen de un rico vocabulario: temas de grano grueso de las distribuciones subyacentes más palabras.
Con el modelo resultante tema, entonces podemos calcular la distancia semántica entre todos los pares de páginas utilizando la distancia Jensen-Shannon (JSD), una medida que cuantifica la posibilidad de distinguir de las dos distribuciones [54]. Esto nos da una red semántica con peso que se puede comparar a la red de enlaces entre páginas. En particular, podemos calcular la coherencia semántica: la correlación de Pearson entre pi (la influencia del nodo p en el nodo i) y el JSD negativo desde el nodo P al nodo i, Ji. Cuando los nodos que están estrechamente relacionadas topológicamente también están estrechamente relacionadas semánticamente (JSD baja), la coherencia es alta.

2.4. La detección de la comunidad

Esperamos que los enlaces que los editores hacen a nivel local para dar lugar a grupos distintos, o haces norma, a nivel mundial. Usamos el algoritmo de detección de Lovaina comunidad [55] para detectar la agrupación entre los nodos de la red. El algoritmo de Lovaina maximiza la modularidad en cada partición local de la red. El primer algoritmo asigna a cada nodo i al otro clúster, a continuación, calcula la ganancia potencial de la modularidad i para unirse al grupo de su nodo vecino j. Cada voy a unirse al grupo de j cuando la combinación de la ganancia ofrece modularidad positiva más alta. Si no hay un posible aumento de la modularidad, que permanece en su grupo inicial.

viernes, 17 de junio de 2016

Redes de comercio marítimo (densas y animadas)

Esta es una visualización increíble de las rutas marítimas del mundo
por Brad Plumer | Vox

Cerca de 11 millones de toneladas de material deja llevar por todo el mundo cada año por buques de gran tamaño. Ropa, TV de pantalla plana, grano, automóviles, petróleo - el transporte de estas mercancías de puerto a puerto es lo que hace que la economía mundial va 'redondo.

Y ahora hay una gran manera de visualizar todo este proceso, a través de este mapa interactivo impresionante desde el Instituto de Energía de la UCL:




Puede utilizar las palancas en la parte superior del mapa para derribar las naves por tipo - portacontenedores (amarillo), graneleros secos (azul), los petroleros y combustibles (rojo), gaseros (verde), y barcos que transportan vehículos (púrpura) - o hacer zoom en las diferentes regiones.

Los investigadores reunieron datos de los miles de barcos comerciales que se movían a través del océano en 2012. Luego trabajaron con el estudio de visualización de datos del horno para que el mapa. Aquí están algunos puntos destacados aseado de jugar con la cosa:

1) Se puede trazar los contornos de los continentes exclusivamente al ver las rutas de envío


(Shipmap.org)

Puede alternar el mapa de modo que sólo muestra las principales rutas de navegación y nada más. Incluso en este caso, se puede ver claramente los continentes, con excepción de la región por encima del círculo polar ártico, donde viajan pocos barcos. (Aunque esto puede cambiar a medida que el hielo marino de verano mantiene en retroceso.)

También puede ver algunas de las principales vías fluviales en las que los grandes barcos pueden navegar - al igual que el río Amazonas, en el norte de Brasil, o el río San Lorenzo que permite a los barcos para viajar desde el Atlántico hasta los Grandes Lagos, o el complejo de Volga-Báltico navegable en Rusia.

También es fácil de detectar algunos centros de la economía mundial con este mapa. Las líneas rojas encima de los barcos que llevan trazas de combustibles líquidos - petróleo crudo o de gasolina. Como se puede ver, tanto en Louisiana y Texas son los principales centros de hidrocarburos. También hay gruesas líneas rojas que salían de la terminal de Valdez en Alaska, que está en el extremo sur de la tubería de Alaska, con lo que el petróleo de los campos en el norte.

2) Hay un importante cuello de botella del envío alrededor de Malasia y Singapur


(Shipmap.org)

Una de las rutas marítimas más importantes del planeta es el estrecho de Malaca, la ruta más corta entre el Pacífico y el Índico, que se puede ver aquí como una línea congestionada de barcos que viajan más allá de Singapur, Malasia e Indonesia. Alrededor del 40 por ciento del comercio mundial pasa a través de este estrecho cada año, incluyendo gran parte del crudo que va desde el Oriente Medio a China.

Pero el angosto estrecho también es vulnerable a la interrupción - y en los últimos años, ha habido un repunte de los ataques de piratas en estos estrechos. Técnicamente, los tres estados limítrofes - Singapur, Malasia e Indonesia - son responsables de la seguridad en esta región, defendiéndola contra la piratería, sino porque es tan crucial, los EE.UU., China, India y Japón han prestado asistencia en la obtención de la región .

Desafortunadamente, no hay forma fácil de solucionar. Los buques que no caben por el estrecho (su profundidad mínima es de aproximadamente 82 pies) tienen que tomar un desvío de miles de millas más al sur.

3) En el año 2012, la mayoría de los barcos mantuvo alejado de Somalia


(Shipmap.org)

A partir de alrededor de 2005, los piratas armados de Somalia comenzaron la intensificación de las incursiones de los buques que viajan alrededor del Cuerno de África. Algunos analistas argumentaron que la pesca ilegal de barcos extranjeros en la región había conducido inicialmente muchos pescadores somalíes para formar milicias armadas para defender sus aguas. Pero aquellos grupos más tarde se volvieron a apoderarse de los buques de carga y la celebración de los equipos de rescate.

Para el año 2012, los piratas estaban costando barcos comerciales entre $ 900 millones y $ 3.3 mil millones por año. Y, como se puede ver en los mapas anteriores, muchos barcos se mantuvieran alejados de la costa de Somalia después de salir del estrecho de Mandeb entre Yemen y Yibuti, que conduce hasta el canal de Suez.

Pero eso fue también la piratería somalí pico. En los años siguientes, las incursiones parecen haber disminuido drásticamente. Las compañías navieras aumentaron su seguridad en el barco mientras que varios militares desplegados buques armados para patrullar la región. Según la mayoría de las cuentas, parece haber funcionado.

4) Los buques tienen que moverse en rutas ordenadas en espacios reducidos, como el Canal Inglés


(Shipmap.org)

Los investigadores han señalado que "mientras que los buques pueden moverse libremente a través del océano abierto, las rutas están predeterminados más cerca de la tierra." Esto es evidente en el Canal Inglés, donde los barcos necesitan moverse en Niza, carriles aseado - como si se tratara de una carretera de dos carriles.

5) Se puede ver barcos esperando su turno en el Canal de Panamá


(Shipmap.org)

Cada año, cerca de 15.000 barcos pasan por el Canal de Panamá que conecta los océanos Pacífico y Atlántico. Sólo unos pocos barcos pueden pasar por las esclusas estrechos en un momento en que suben y bajan usando el agua del lago por encima lentamente. Así barcos anclan fuera del canal, a veces durante semanas, mientras esperan su turno asignado. (En total, alrededor de 30 a 40 barcos grandes pasan por el canal cada día.)

Para hacer frente a la próxima generación de grandes buques portacontenedores, el Canal de Panamá se encuentra en expansión, con un juego adicional de esclusas en el Atlántico y el Pacífico. Incluso esta expansión, sin embargo, no será capaz de manejar el mayor conjunto de buques portacontenedores - que puede ser tan grande como cuatro campos de fútbol de extremo a extremo establecidos.

Por lo tanto, ¿qué hacen esos gigantes? Nicaragua ha pensado en la construcción de su propio canal, grande para dar cabida a estos barcos, pero que nunca se puede conseguir construido (y es un fracaso para toda una serie de razones). Así que, por ahora, los grandes barcos todavía tienen que recorrer todo el camino alrededor de América del Sur.

6) Los buques del mundo son una fuente importante de emisiones de dióxido de carbono

(Shipmap.org)

Hay un enorme costo de todo este envío. Los barcos tienen que quemar una gran cantidad de combustible líquido, y en 2012, acabaron emitiendo alrededor de 796 millones de toneladas de dióxido de carbono. Los investigadores señalan que eso es más que "el conjunto del Reino Unido, Canadá o Brasil emiten en un año." O, dicho de otra manera, el envío es responsable de alrededor de un 3 a 4 por ciento de las emisiones de gases de efecto invernadero de origen humano.

Ahora, esto sigue siendo mucho más eficiente que el envío de todas esas cosas por tierra o por aire. Aún así, los investigadores han estado buscando formas de reducir el tamaño de la huella de carbono del sector del transporte marítimo. Nate Berg corrió a través de algunas de las mejores ideas aquí: "A partir de las mejoras tecnológicas, tales como timones y hélices readaptadas a mejorado de enrutamiento tiempo, las compañías navieras están viendo muchas maneras de mejorar su eficiencia."

martes, 14 de junio de 2016

Visualizando comunidades en Twitter usando Gephi

Visualización de las agrupaciones de Twitter con Gephi (actualización)
por Gabe Sawhney

[Esta actualización de mi proyecto de visualización de clúster Twitter es también el informe final para el estudio independiente que he estado haciendo en infoviz. Definitivamente, voy a recoger este trabajo de nuevo pronto, pero no en el próximo par de semanas. Un post anterior con algunas de mis primeras pruebas y fundamentos está aquí. Un tutorial sobre cómo empezar a hacer estos está aquí.]

Durante los últimos meses he estado absorbiendo mucho acerca de la visualización de información, y en las últimas cuatro semanas que he estado haciendo un montón de trabajo específicamente en la visualización de clusters basados ​​en la red Twitter. El objetivo de esto se describe en un post anterior. En el camino, he aprendido un montón raro de otras cosas: el ajuste del rendimiento de MySQL, las ventajas de la API de Google Social Graph sobre la API de Twitter, cómo moverse por el hecho de que muchos de los equipos del laboratorio de OCAD todavía se están ejecutando OS 10.5, cómo hacer un screencast, etc. Quiero aprovechar este trabajo en un montón de otras direcciones (y, una vez que me he ocupado de mis otras fechas límite). He aquí algunos de los mapas más interesantes que he producido a lo largo del camino:

En pocas las personas que siguen. (193 nodos, 192 enlaces):



Las personas que siguen, incluyendo los enlaces entre ellos (193 nodos, 2813 enlaces):



Los mismos datos, pero ahora con las agrupaciones identificadas:



Hay 7 "comunidades", que corresponden (¡torpemente!) a estas comunidades en el mundo real: arte / previsión / grandes datos; Toronto; tecnología Toronto; CFC / OCAD; Vancouver / Montreal / académicos; innovación social; otro.

Ahora vamos más grande - 6528 nodos y 30599 enlaces. Que es todo el mundo que sigo, y todo el mundo que siguen, pero filtrando aquellos que son seguidos por menos de dos personas en el resto de la red. Aquí es donde el algoritmo de agrupamiento incorporada en Gephi comienza a sturggle: se identificaron 103 agrupaciones:



Se trata de los mismos datos, pero los que tienen menos de 3 seguidores en la red se filtran, al igual que cualquier usuario con más de 4000 seguidores (desde cualquier lugar, no sólo por esta red). El número de grupos se redujo a 30. 2674 nodos, 14376 enlaces:



La misma idea, pero esta vez con mayores restricciones: el "Grado A" tenían que ser de al menos 2, y excluye cualquier persona con más de 2000 seguidores. 4061 nodos, 11667 enlaces, 402 comunidades (!):





Lo probé en las redes de los demás. Aquí hay uno; Sólo los seguidores directos. Las etiquetas también! (150 nodos, 2440 enlaces, 5 grupos):



Sobre el papel, se ve mucho mejor con un fondo negro. ¿Tal vez ocupa la pantalla demasiado ?:



Y un screencast de venir juntos:





Aquí hay otro, de nuevo sólo los seguidores directos. Dos versiones (208 nodos, 3013 enlaces, 7 clusters):




Mismos datos, pero esta vez sólo los nodos donde "In-Degree"> = 5 (4252 nodos, 34897 enlaces, 10 clusters):



He jugado un poco un manojo con la elaboración de mapas de dos o tres redes de personas a la vez, para ver hasta qué punto se superponen. Me pareció mucho más difícil para que sean legibles. Aquí hay una que resultó bien. Es toda la gente que sigo, y toda la gente que sigue a Greg. 568 nodos, 11732 enlaces, 8 comunidades. tamaño de los ganglios se corresponde con el número de seguidores que tiene la persona. Dos versiones, mismos datos, sólo una prestación diferente (hay un elemento de aleatoriedad al proceso):



También hice de screencast de éste:




En su presentación en estratos sobre la creación de prototipos con los datos, Tom Coates de Nokia dijo que a través de la experimentación (jugar?) Y la creación de prototipos, que "empiezan a desarrollar una comprensión más coloquial de los datos ...", que es muy valiosa para cuando llega el momento de desarrollar real ideas de productos. Me había olvidado de ese comentario hasta un punto intermedio de este trabajo. Yo estaba súper orgulloso de mis primeros mapas, pero se ven muy incómoda ahora. Durante estas semanas de trabajo con estos datos, he hecho progresos en encontrar la manera de manejar la situación, en primer lugar, cómo hacer que sea más legible, la forma de hacer que se vea mejor, y, de una manera que puedo " t aún describir, cómo funciona. No estoy todavía en la etapa de desarrollo de productos, pero por suerte que no era el objetivo.

Los lugares que voy a ir con ella al lado son:

  • Profundizar en la investigación sobre algoritmos de agrupamiento, y averiguar lo que sería necesario para ajustar el método de agrupación existente en Gephi, o crear otros nuevos que son más adecuados para grandes redes.
  • Hacer un montón de experimentos en la eliminación de nodos con un gran número de seguidores - estos tienden a ser no-humanos (como @TheOnion y @shitmydadsays) o celebridades (como @BarackObama y @ConanOBrien), y creo que ya que muchas personas de tantas comunidades diferentes que siguen, podrían ser 'cortocircuitos' el análisis de conglomerados. Experimentando con esto significaría ya sea manualmente la identificación de los usuarios de Twitter no humanos, o el uso de ensayo y error para ver si la eliminación de los usuarios con un gran número de seguidores da buenos resultados. (La solución fresca a este problema sería eliminar sólo aquellos usuarios que tienen un gran número de seguidores de un conjunto muy diverso de comunidades. Ni idea todavía cómo podría determinar eso.)
  • Mira en ajustar y escribir nuevas posibilidades de diseño y estilo con Gephi, mediante la creación de plugins.
  • La automatización de la creación de mapas, utilizando el kit de herramientas de Gephi, y / o una biblioteca de procesamiento que está en desarrollo. Las dos posibilidades inmediatas que esto introduciría son:
    • La creación de una página web en la que un usuario puede introducir un ID de Twitter y generar un mapa para ellos sobre la marcha (o en unos pocos minutos).
    • Prueba de diseño o de visualización algoritmos en un gran número de redes de los usuarios. Esto podría ser especialmente útil para el trabajo de ensayo y error requerido para hacer frente a las celebridades y los usuarios no humanos.

domingo, 12 de junio de 2016

Marketing: SEO de webs y ejemplos ilustrados con Gephi

SEO de sitio web y tipologías ilustradas con Gephi
Simon Georges - Developpons de nouveaux horizons


Reconocer una estructura del sitio de su visualización con Gephi


Este artículo sigue a la visualización de la página web con Gephi (que contiene en particular una configuración básica de la herramienta).

A fuerza de llevar a cabo auditorías técnicas, uno se encuentra con muchas estructuras de malla interna. La visualización a menudo da cosas buenas, pero nos damos cuenta de que la malla interna no siempre está optimizado:



Para permitir comparaciones que yo tenga que mostrar al cliente para ilustrar los resultados que pretendemos lograr, decidí hacer directamente a partir de modelos teóricos y ejemplos concretos. Nos encontraremos con que la malla optimizada a menudo producen gráficos simétricos, o regular, un algoritmo que va a entender con más facilidad que una red completa de páginas irregularidades.

En el siguiente artículo, vamos a reanudar las visualizaciones descritas en el artículo anterior (de color dependiendo de la modularidad, PageRank depende del tamaño), pero el algoritmo espacial posiblemente podemos cambiar lo necesario.

También tenemos en cuenta aquí que todos los enlaces están disponibles y accesibles a gatear, se utiliza ninguna técnica de "encubrimiento" o la ofuscación Javascript.

Organización del silo

Aquí hice una prueba con 2 categorías, subcategorías, 5 y niñas de 10 páginas para cada subcategoría, con enlaces internos "estricta" (después de la denominación de este artículo). Gráficamente, se identifican claramente las páginas secundarias de grupos relacionados con sus respectivas sub-categorías, siendo más "central" de las categorías:



Mi archivo de prueba está disponible si usted desea estudiar diversas variaciones o algoritmos espaciales: liens_internes_silos_gephi.csv.

Por contra el algoritmo de modularidad (que corta el gráfico en sub-red de colores distintos) no pueda correctamente subcategorías de posición de la misma categoría uno con el otro (independientemente de los valores damos a la modularidad del coeficiente de resolución). De hecho, esperaba obtener sólo 2 colores diferentes (uno para cada categoría, la página principal se combina con una de dos categorías), y se encontró que se obtienen muchos más colores.

Así que he intentado con diferentes categorías / subcategorías / páginas niñas, y si uno se acerca al resultado deseado al incrementar significativamente el número de subcategorías (aquí, 10 subcategorías), que n todavía no es perfecta:



La representación gráfica no es suficiente, pero los motores de búsqueda pueden utilizar otras pistas para que las páginas juntas (como su dirección URL, enlaces distintivas "cantidades" enlaces "descendientes", o por demasiado grandes diferencias contexto semántico entre las páginas de diferentes categorías).

La clave para recordar acerca de un buen silos organización es su representación en pequeños "grupos" de páginas.

Para ir más lejos, se puede utilizar filtros para Gephi particular, el filtro que le permite mantener sólo los vínculos mutuos:


Al elevar el algoritmo de distribución espacial, se obtiene una muy clara identificación de los silos de procesamiento de gráficos por separación pacífica (colores son innecesarios mismo):



Organización "piramidal"

La estructura de enlace se encuentra en la misma base que el anterior, pero un poco menos optimizado: se lo retiren los enlaces internos entre páginas del mismo nivel (subcategorías y niños páginas):



Se observa que la representación de gráficos es similar, pero los grupos se alargan en "pétalos de la flor".

El renderizado en "flor" se refuerza aún más si nos centramos de nuevo en los enlaces mutuos:



Usted puede haber notado las dos visualizaciones de estas páginas para colorear párrafo en función de su nivel de profundidad en lugar de su grupo (uno se acerca de lo que aquí Cocon.Se). Esto se puede lograr utilizando de nuevo los cálculos estadísticas Gephi, incluyendo el diámetro de la red de páginas:



Se calcula varios factores, uno de los cuales es la distancia media de una página a todas las otras páginas. En un sitio regular, se obtiene el resultado anterior, un color que corresponde al nivel de la profundidad de la página. En la página web irregular (con niveles variables de profundidad dependiendo de la categoría), este indicador está en contra impredecible y el resultado no será tan estética / práctico.

Mega menú

Un Mega menú se identifica por numerosas páginas alta PageRank interna (y casi idéntica), en contraste con los ejemplos anteriores en los que las diferencias en PageRank se suavizan de acuerdo con las páginas del sitio:



A menudo, esto también muestra las estructuras con un mayor número de páginas, en realidad es más difícil de analizar directamente y optimizar ... rápidamente. Se necesita más trabajo, tal vez con un zoom sobre una parte restringida del sitio, por ejemplo.


Sitio de "una página"


Bueno, eh ...



Así que, sí, deliberadamente magnifiqué la línea, ya que este tipo de sitio a veces algunas páginas externas (como las notificaciones legales o un enlace a un blog), pero ayuda a ilustrar la diferencia, de nuevo, para un cliente . Si comparamos este informe con la del párrafo anterior (donde la representación de gráficos está lleno de colores y formas), nos imaginamos que podemos llevar la misma finura o granularidad en las indicaciones que se dan a los motores contenido SEO.

Conclusión

Gephi tiene muchas oportunidades (incluyendo el uso de los filtros, estadísticas, ...), y por lo tanto permite la visualización de abuso utilizados directamente en un contexto de SEO.

En particular, mediante la combinación de los filtros y la variación de los parámetros utilizados para la coloración o algoritmos espaciales, podemos destacar bastante rápidamente puntos de atención. Todo no indican un problema de diseño del sitio, pero tienen como protagonistas a una irregularidad, y por lo tanto una posible vía para explorar, en particular durante una auditoría sin problema aparente inmediatamente. En sus visualizaciones, ahora!