Mostrando entradas con la etiqueta centralidad de PageRank. Mostrar todas las entradas
Mostrando entradas con la etiqueta centralidad de PageRank. Mostrar todas las entradas

viernes, 8 de febrero de 2019

Redes de coautorías de economistas argentinos en un congreso principal

Redes de coautorías de economistas argentinos

Author(s):
Juan M.C. Larrosa , (Universidad Nacional del Sur, Bahia Blanca, Argentina and Instituto de Investigaciones Económicas y Sociales del Sur (IIESS), Altos de Palihue Bahia Blanca, Argentina)


Propósito

Este documento tiene como objetivo proporcionar información sobre la estructura del trabajo colaborativo entre las economías argentinas. El estudio proporciona investigación aplicada específica de análisis de redes sociales centrada en esta profesión en este país específico.

Diseño / metodología / enfoque

La contribución optó por aplicar herramientas de análisis de redes sociales a los documentos presentados en un congreso y publicados en sus actas. Los autores se centran en la detección de actores principales, grupos de coautoría, profesionales que actúan como puentes entre grupos y diferencias entre los géneros.


Recomendaciones

El documento proporciona información empírica sobre cómo ha evolucionado la coautoría entre los economistas argentinos. Los autores encuentran que las propiedades estructurales de la red, los principales actores, tanto hombres como mujeres, las principales universidades o el centro que los afilia, una brecha de género que podría estar cerrando.

Limitaciones / implicaciones de la investigación

El documento se centra en la red para el período 1964-2014 sin una dinámica más detallada. Tampoco explica los principales temas trabajados por los autores.


Implicaciones prácticas

El trabajo proporciona conocimiento sobre cómo se crean los grupos en Economía en Argentina, cómo ha evolucionado la cooperación y cuál ha sido el papel de las mujeres en este desarrollo. También muestra cómo diferentes departamentos y entidades colaboran con éxito diverso en la creación de nuevos conocimientos en Economía en Argentina.

Originalidad / valor

El documento trabaja con datos de una fuente de información no estudiada anteriormente y contribuye a explicar un tipo particular de trabajo colaborativo en una profesión en Argentina.



Juan M.C. Larrosa, (2019) "Coauthorship networks of Argentine economists", Journal of Economics, Finance and Administrative Science, https://doi.org/10.1108/JEFAS-06-2018-0062


martes, 11 de julio de 2017

Detectando influyentes con Pagerank

Cómo encontrar líderes de opinión clave: La campaña #IstandwithCEU

Center for Network Science

Siguiendo nuestro análisis anterior, estudiamos la prevalencia de la campaña #IstandwithCEU en Twitter. Esto incluye el examen de 54k tweets realizados por 15k usuarios durante dos meses con un alcance social total de 180M.

Hemos reconstruido la red de retweets de los usuarios mediante la introducción de un enlace dirigido entre dos usuarios si uno retwitea el otro. Calculamos la importancia de los nodos utilizando el algoritmo llamado PageRank (PR) propuesto por los fundadores de Google. Este método cuantifica el nivel de influencia de cada usuario en la muestra dada. El concepto subyacente es similar a un sistema de votación: si un usuario retweeting a alguien, entonces el usuario retweeted es endosado, y el nivel de respaldo es proporcional a la influencia del retweeter (por ejemplo, el número de seguidores).

El análisis muestra que el puntaje PR está correlacionado con el recuento de seguidores, lo que significa que el éxito y la apreciación anteriores están lógicamente relacionados con la influencia actual y la atención adquirida. Esto es apoyado por la visualización de red también. El color nos dice que hay usuarios que tienen muchos seguidores pero que no son tan influyentes (Fig. 1: nodos grandes en color blanco, Fig. 2: debajo de la línea punteada) y aquellos que no tienen tantos seguidores pero tienen un Gran influencia (Fig. 1: pequeños nodos con color rojo, Fig. 2: puntos por encima de la línea punteada).


 Fig. 1. La red de retweets de los 1000 usuarios más influyentes activos en la campaña. Los nodos representan a los usuarios, su tamaño es proporcional al número de sus seguidores, y su color codifica la centralidad PR de escala de blanco (baja importancia) a rojo (alta importancia).

Hemos encontrado que aunque la intuición ingenua sugeriría que los usuarios altamente seguidos (hasta varios millones de seguidores) son los más importantes para lograr un amplio alcance social, hay un número de usuarios menos populares (con alrededor de 10k seguidores) entre la opinión clave Líderes. Esto significa que además de un alto reconocimiento general, una serie de tweets de calidad y una cantidad razonable de seguidores influyentes pueden en gran medida aumentar el alcance social mediante la inducción de oleadas de retweets entre los usuarios influyentes.


Fig. 2. El puntaje de PageRank versus el recuento de seguidores de cada usuario (representado por un punto) que twittó en el tema #IstandwithCEU. La línea discontinua representa una fórmula analítica (ley de potencia), mientras que los puntos grises dispersados ​​a su alrededor son la tendencia acumulando los datos.
Por Milán Janosov y Zsombor Koman

domingo, 30 de abril de 2017

SEO con Gephi: Pagerank y modularidad para grupos de páginas web


Visualizaciones fáciles de PageRank y grupos de páginas con Gephi

Search Engine Land



En abril del año pasado, colaborador Search Engine Land Paul Shapiro ha escrito una entrada brillante sobre el cálculo de PageRank interna. El puesto ha esbozado método para examinar los enlaces internos de un sitio web con el fin de determinar la importancia de las páginas web dans le.

Esto es asombroso de gran alcance, el objetivo Creo que el concepto de Pablo podría ser más fácil de usar. Utilizó R, qui es un lenguaje y entorno de computación estadística, y la salida es básicamente un montón de números.

Quiero que le muestre cómo hacer los Sami en Gephi con sólo pulsar unos pocos botones en lugar de un montón de código - y, con unos pocos clics más, puede visualizar los datos de una manera que se siente orgulloso de mostrar a sus clientes .

Te voy a mostrar cómo obtener este resultado como un ejemplo de cómo Gephi puede ser útil en sus esfuerzos de SEO. Podrás ble para ver qué páginas son las más fuertes es sus páginas web, páginas determinan cómo se pueden agrupar por temas e identificar algunas cuestiones de sitios web comunes, tales como errores de rastreo o pobres de enlaces internos. A continuación voy a describir algunas ideas para Tomando el concepto al siguiente nivel de geek.

¿Qué es Gephi?

Gephi es un software de código abierto se utiliza para representar gráficamente que las redes y se utiliza comúnmente para representar las redes informáticas y redes de medios sociales.

Es un programa de escritorio simple, basada en Java que se ejecuta en Windows, Mac o Linux. Aunque la versión actual de Gephi es 0.9.1, le animo a descargar la versión anterior 0.9.0, o más tarde la versión 0.9.2, en su lugar. De esa manera usted será ble para seguir aquí, y evitará los errores y los dolores de cabeza de la versión actual. (Si no has-hecho recientemente, puede que tenga que instalar Java en su ordenador también.)

1. Para empezar, el rastreo de su sitio web y la recopilación de datos

Normalmente uso Screaming Frog para el rastreo. Dado que estamos interesados ​​en las páginas aquí y no otros archivos, tendrá que excluir cosas de los datos de rastreo.

Para hacer eso, Aquellos de ustedes con la versión de pago de los deberes de software Implementar la configuración que voy a describir a continuación. (Si está utilizando los límites de versión libre que a qui la recogida de 500 URL y no le permiten ajustar la configuración muchos tienen, voy a explicar qué hacer después.)

Ir a “Configuration” > “Spider” y verá algo parecido a la siguiente captura de pantalla. Haga que el suyo que coincida con la mía para los mejores resultados. Normalmente aussi añadir .*(png|jpg|jpeg|gif|bmp)$ a “Configuration” > “Exclude” para deshacerse de las imágenes, qui Screaming Frog deja veces en el retraso de rastreo.



Para iniciar el rastreo, podría URL de su sitio en el espacio en la parte superior izquierda (foto de abajo). A continuación, haga clic en "Inicio" y esperar a que el rastreo hasta el final.



Cuando se termina el rastreo, vaya a “Bulk Export” > “All Inlinks.” Usted querrá cambiar “Files of Type” a “.csv”  y guardar el archivo.

La limpieza de la hoja de cálculo


  • Eliminar la primera fila que contiene “All Inlinks.”
  • Eliminar la primera columna, “Type.”
  • Cambie el nombre del "destino" a la columna "Target".
  • Eliminar todas las demás columnas Además de “Source” y “Target.”.
  • Guardar el archivo editado (y puedes volver a hacer un uso seguro del tipo de archivo es .csv).



Opcionalmente, puede dejar otras columnas como código de estado o de texto de enlace si desea que este tipo de datos es la gráfica. Los dos principales campos que voy a estar explicando cómo utilizar son “Source” y “Target.”

Si está utilizando la versión gratuita de Screaming Frog, tendrá que hacer un montón de trabajo de limpieza para filtrar las imágenes, archivos CSS y JavaScript.

En Excel, si vas a "Insertar" y haga clic en "Tabla", obtendrá una ventana emergente. Haga su caja fuerte de datos ha-ha definido correctamente, haga clic en "Mi TIENE encabezados de tabla", y haga bien. Ahora, seleccione la flecha en la parte superior derecha de la columna "Target", y un cuadro de búsqueda aparecerá. Lo utilizan para filtrar las filas de la tabla para identificar que contienen las extensiones para los diferentes tipos de archivos, como .js o .css.

Una vez que tenga una visión de todas las filas de la tabla que tienen uno infractor tipo de archivo, seleccionar y eliminar toda la información para aquellas filas. Haga esto para cada tipo de archivo de la antes mencionada y presentar cualquier tipo de imágenes como .jpg, .jpeg, .png, .gif, .bmp o cualquier otra cosa. Cuando haya terminado, es necesario guardar el archivo como .csv de nuevo.

2. Uso Gephi para visualizar los datos de rastreo



Importación de nuestros datos


  • En la pantalla emergente que aparece al abrir la aplicación, haga clic en “New Project.”
  • A continuación, seleccione “File” > “Import Spreadsheet.”
  • Elija su archivo .csv y hacer seguro el “Separator” se establece como “Comma” y “As table” se establece como “Edges table.” Si usted tuviera que hacer un montón de limpieza de datos de Excel, haga amargo que ha eliminado cualquier filas en blanco dentro de sus datos antes de importarlo.
  • Haga clic en “Next,” y asegúrese de que “Create missing nodes” se comprueba antes de pulsar "Finish".

Para nuestros propósitos - Visualización de enlaces internos - los "Edges" son los enlaces internos, y "nodos" son diferentes páginas de la web. (Nota: Si se tropieza con un error de memoria, puede aumentar la cantidad de memoria en Asignado por Gephi Siguiendo esta guía).

Si realmente-tienen un amplio conjunto de datos o desea combinar varios conjuntos de datos, puede importar varios archivos en Gephi.

Una vez que todos los datos están en el "Laboratorio de Datos", se puede cambiar a "Información general". A continuación, verá un cuadro negro probable como la de abajo. No se preocupe, vamos a hacer que bonita en un minuto.




El cálculo de PageRank y modularidad

En la pestaña "Estadísticas", ejecute "PageRank" y "Modularidad". (Seleccionar "ventana" y "Estadísticas" si usted no ve la pestaña "Estadísticas").

Recomiendo el uso de la configuración predeterminada de PageRank, el objetivo de modularidad que lo haría destildaría "Use pesos." Esto añadirá los datos acerca de sus páginas en nuevas columnas que serán utilizados para la visualización.




Es posible que tenga que ejecutar modularidad un par de veces para hacer las cosas de la manera deseada 'em. racimos modularidad páginas que están más conectados con one modularidad otra en grupos o clases (cada par représentée un número). Usted tendrá que formar grupos de páginas que son lo suficientemente grande como para ser significativo, pero lo suficientemente pequeño como para obtener su cabeza alrededor.

Estás clustering, después de todo, por lo que la agrupación de todas sus páginas en dos o tres grupos, probablemente, trae un montón de cosas juntos diferencia. Propósito si al final con 200 racimos, eso no es del todo útil, tampoco. En caso de duda, el objetivo de un mayor número de grupos, ya que muchos de los grupos será probablemente muy pequeño y los deberes agrupaciones mano aún ser revelado.

No se preocupe, te voy a mostrar cómo comprobar y ajustar sus grupos en un minuto. (Nota :. Un menor modularidad le dará más grupos y A modularidad Superior le dará grupos Menos Tweak esto mediante fracciones en lugar de números enteros, como un pequeño cambio hace una gran diferencia).

Ajustar su configuración Modularidad

Vamos a ver lo que hemos hecho. Cambiar la pestaña de "Laboratorio de Datos" y mirar a la "Tabla de datos." Allí encontrará sus nuevas columnas para PageRank y Clase modularidad. Los deberes números de PageRank se alinean con los números de artículo mencionado de Paul Shapiro, el objetivo tesis que tienes que hacer sin tener ningún tipo de codificación. (Recuerde, los números de la tesis de PageRank son internos, no lo hemos Consulte lo general a "PageRank").

La modularidad Clase asigna un número a cada página, de modo altamente Eso páginas interconectadas recibe el número de Sami. Utilizar la funcionalidad de filtro en la parte superior derecha para aislar cada página de su grupo, y el globo ocular se examinan algunas de las direcciones URL para ver qué tan cerca están relacionados con la tesis de ser blanco. Si las páginas terminaron en el mal Clase modularidad, es necesario Puede Volver a ajustar la configuración, o podría indicar indicación de que usted no está haciendo un buen trabajo bajo el mecanismo de interconexión feliz.

Recuerde que su modularidad se basa es la vinculación interna, en realidad no el contenido de las páginas, por lo que está identificando aquellas que están normalmente unidos entre sí - Los que no deberías ser unidos entre sí.

En mi caso, he elegido un bufete de abogados y con la configuración predeterminada, que terminó con el desglose siguiente cuando me ordenadas según la modularidad, qui probablemente mejor hecho podría tener con algunos ajustes:

  • Clase 0 = lesión
  • Clase 1 = familia
  • Clase 2 = algunas páginas aleatorias
  • Clase 3 = penal
  • Clase = 4 tráfico
  • Clase 5 = DWI
  • Clase 6 = un par de páginas al azar

Puede volver a la pestaña "general" y continuará haciendo ajustes hasta que esté satisfecho con sus grupos de páginas. Incluso se ejecutan varias veces con modularidad números de la même pueden dar resultados diferentes ligeramente cada vez, por lo que puede llevar algún jugando para llegar a un punto de donde usted está satisfecho con los resultados.

Vamos a hacer una foto con Layout

Te prometí una visualización Más temprano, y es probable que te preguntas cuando llegamos a ese recurso compartido. Vamos a hacer que el cuadrado negro en una visualización real de que es más fácil de entender.

Ir a "Visión general"> "Diseño". En el cuadro desplegable lado izquierdo donde dice ": elija un diseño," seleccionar "ForceAtlas 2."




Ahora sólo tiene que jugar con los ajustes que para conseguir una visualización que se sienta cómodo. (Si alguna vez se pierde, haga clic en la imagen de la lupa poco en el lado izquierdo de la imagen, y que centrarán y el tamaño de la visualización así que todo es visible en la pantalla.) Para el patrón de la estrella por encima, he puesto "Escala" de 1000 y "gravedad" a 0,7, el resto objetivo son valores predeterminados. Los dos principales ajustes que jugar con escalamiento son probable y gravedad.

Escalamiento gobierna el tamaño de la visualización; El Superior se establece, la más escasa su gráfico será. La manera más fácil de entender la gravedad es pensar en los nodos como los planetas. Cuando aumenta la gravedad, esto atrae todo más cerca. Puede ajustar esta marcando la casilla "Más fuerte gravedad" y ajustando el número de gravedad.

Hay algunas otras opciones, y los efectos son de cada interfaz Explicado dans le. No dude en jugar con ellos (siempre se puede cambiar de nuevo) y ver si hay algo que ayuda a que la visualización más clara.

¿Qué queremos mostrar?

En el caso citado, queremos mostrar modularidad Ambos grupos de páginas () y PageRank interna. La mejor manera que he encontrado para hacer esto es para ajustar el tamaño de los nodos se basa PageRank y los colores se basan modularidad. En la ventana "Aspecto", seleccione "nodos", "Tamaño" (el segundo icono), y en la "pestaña" donde hay un desplegable de "Clasificación Elija un atributo," seleccionar "PageRank".

Elija Algunos tamaños y pulsa "Aceptar" hasta que los nodos más importantes son distinguibles de los otros. En la captura de pantalla a continuación, tengo el tamaño mínimo establecido como el 100 y el tamaño máximo en 1.000. Ajuste del tamaño del nodo se basa PageRank le ayuda a identificar fácilmente significativo es sus páginas web - son más grandes.




Para visualizar los grupos de páginas con modularidad, todavía nos queremos estar en la ventana de "Apariencia", el objetivo de este tiempo queremos seleccionar "nodos" "color" (el primer icono), y "Música". En el desplegable hacia abajo para "Elija un atributo," seleccionar "Clase modularidad."

Algunos colores predeterminados están pobladas, meta si desea cambiar ellos, hay un pequeño botón verde de "paleta". En la Paleta, si hace clic en "Generar", puede especificar el número de colores para mostrar basándose se cuántos grupos La modularidad consiguió cuando se ejecuta.

En mi caso, las clases 2 y 6 no eran muy grandes, así que estoy haciendo clic en Cerrar en sus colores y cambiando a em negro. Si desea mostrar sólo un tema específico, cambiar el color de una sola clase modularidad, dejando los otros hicieron comentarios otro color.




Cambio de la visualización

Puede usted desear para etiquetar los nodos de modo que sabemos lo Representan la página. Para agregar una etiqueta con la dirección URL, tenemos que volver a la pestaña "Laboratorio de Datos" y seleccione la tabla de datos. Hay una caja en la parte inferior para "Copiar datos a otra columna," y queremos copiar "ID" para "etiqueta" para obtener las direcciones URL para mostrar. El proceso es similar para los bordes. Si ha guardado el texto de anclaje del rastreo, puede etiquetar cada flanco con el texto del ancla.

De nuevo en la pestaña "Ver", tendrá que seleccionar cómo desea que su visualización que se vea. Normalmente selecciono "Default curvo" en virtud de los ajustes preestablecidos, el objetivo de una gran cantidad de personas como "Straight predeterminado".

Cambiar el tamaño de fuente y el tamaño proporcional para las etiquetas ayudará a visualizar em de manera que se pueden leer en diferentes tamaños. Sólo jugar con la configuración de la ficha de vista previa para conseguir que se muestre la forma que desee.

Para la visualización de abajo, he apagado etiquetas de nodo y el borde de manera que no repartiera la identidad del sitio web de la empresa, salvo derecho particular que he utilizado. En su mayor parte, Han hecho un buen trabajo agrupando sus páginas y que une internamente. Si hubiera dejado columna de texto del ancla en la hoja de cálculo de Screaming Frog, podría haber tenido Cada enlace interno (línea) muestra las TIC con el ancla de texto como un sello de borde y cada página enlazada desde (círculos) como una etiqueta de nodo.


Gephi para los conjuntos de datos más grandes

Para los conjuntos de datos más grandes, todavía se puede utilizar Gephi, AUNQUE su gráfico es probable que se parecen más a un mapa estelar. Me graficada los enlaces internos de Search Engine Land, meta que tuvo que ajustar el escalado a 5000 y gravedad a 0,2 en los ForceAtlas 2 ajuste.

Todavía se puede ejecutar cálculos de PageRank y modularidad, el propósito es probable que necesite cambiar el tamaño de los ganglios a algo grande para ver Cualquier dato que su gráfico. También puede que tenga que añadir más colores a la paleta, como se describió anteriormente, ya que hay muchas clases de modularidad probables más distintivas en un conjunto de datos de este tamaño. Esto es lo que el gráfico de SEL se ve como antes de teñirlo.




¿Por qué esto tiene alguna importancia?

Gephi se puede utilizar para mostrar una variedad de problemas. En una Anteriormente he publicado en mi artículo sobre el futuro de SEO, que mostró una fractura entre HTTPS y HTTP.

Además, se puede descubrir secciones qui puede ser considerado por un cliente significativo que enviaban muy bien conectado internamente. Por lo general, la tesis están más lejos hacia fuera en la visualización debido a la gravedad, y es posible que desee enlazar a ellos más de las páginas de actualidad relacionadas.

Una cosa es decirle a un cliente que necesita más enlaces internos, el objetivo es mucho más fácil para mostrarles que ellos consideran una página a ser significativo En realidad es muy aislado. El cuadro abajo Fue creado por un simple cambio de mi modularidad hasta que sólo tenía dos grupos. Comentarios Este era porque tenía dos enlaces HTTP y HTTPS en mi rastreo, y reduje la modularidad hasta que tenía sólo dos grupos, la mayoría de qui relacionados fueron páginas HTTP > HTTP y páginas HTTPS > HTTPS.




Hay un montón de otras cosas que este tipo de visualización que pueden pista sobre. Busque nodos individuales por sí mismos. Puede usted encontrar tonos de páginas escasas o incluso errores de rastreo. Trampas de araña puede mostrar como una especie de una línea infinita de páginas y páginas que no están en las agrupaciones adecuadas puede significar que enviaban une internamente a partir de ellos las páginas más relevantes.

Un sitio web bien ligado internamente puede parecer más como un círculo que una estrella, y no me parece que es un problema incluso si los colores no siempre se alinean en grupos. Hay que recordar que cada sitio web es única y visualización de cada uno es diferente.




Es difícil de explicar todas las posibilidades, el objetivo si se intenta algunos de estos, usted comenzará a ver los problemas comunes o tal vez incluso algo nuevo y diferente. Estas visualizaciones se permitirá ayudar a los clientes a entender que usted siempre está hablando. Yo te prometí que sus clientes les va a encantar.

Gephi: tiene una serie de opciones para la exportación .png, .svg, .pdf o si desea crear imágenes estáticas. Más divertido es exportar para su uso página web fue por lo que se crea una experiencia interactiva. Para hacer eso, echa un vistazo a los complementos de Gephi - En particular, la exportación y SigmaJS Gexf-JS Web Viewer.

¿Qué más podemos hacer con Gephi?

Añadir información adicional acerca de los vínculos

Si puede-tener un rastreador que identifican el alquiler de los enlaces, se puede ajustar el peso de sus bordes se basa de manera diferente en el alquiler del enlace. Digamos, por ejemplo, que le damos a cada contenido Enlace un valor mayor que, por ejemplo, un sistema de navegación o pie de página de enlaces. Esto nos permite cambiar el cálculo PageRank interno basado en el peso de los enlaces, determinadas por sus alquiler. Que mostraría probable una representación más exacta de cómo Google está valorando probable es que los enlaces en base a su inversión.

Esto nos permite cambiar el cálculo PageRank interno basado en el peso de los enlaces, determinadas por sus alquiler. Que mostraría probable una representación más exacta de cómo Google está valorando probable es que los enlaces en base a su inversión.

Recalando en métricas de terceros para obtener una visión más completa

La visualización que hemos estado trabajando allí hasta el momento ha sido-en base a cálculos internos de PageRank y asume que todas las páginas tienen el mismo peso en la salida. Sabemos, por supuesto, que esta no es la forma en que Google ve las cosas, que cada página habría Enlaces de variable, la fuerza, la clase y la relevancia de ir a ellos desde sitios externos.

Para hacer nuestra visualización más compleja y útil, podemos cambiarlo para tirar en las métricas de terceros más que la fuerza interna PageRank. Hay un número de diferentes fuentes para esta información como sea posible, tales como Moz Page Authority, Ahrefs URL Rating, o Majestic Citation Flow o Trust Flow. Cualquiera de estos deben trabajar, por lo que elegir a su favorito. Los deberes resultado ser una representación más exacta de la página web como los motores de búsqueda lo ven, ya que ahora se tiene en cuenta la fuerza de las páginas.

Podemos empezar con el archivo Sami hemos creado para mostrar encima de PageRank interna. En Gephi, vamos a ir a la pestaña "Laboratorio de Datos" y hacer un uso seguro estamos en la pestaña "nodos". Hay una opción "Exportar tabla", y se puede exportar sus columnas en un archivo .csv de su elección. Abrir ese archivo exportado en Excel y crear una nueva columna con cualquier nombre que desee. Me pasó a llamarlo "CF" ya que estoy usando flujo Cita Majestic en mi ejemplo.

Ahora, vamos a incorporar a los datos de terceros. En la hoja de cálculo que exportan desde Gephi, he copiado los datos de Majestic que tiene la página en una columna de flujo y Cita en el segundo. Ahora tenemos que casarse con estos datos a la primera, y se puede hacer esto utilizando una fórmula BUSCARV.

En primer lugar, seleccionar los datos Majestic - Ambas columnas - y convertirlo en un rango con nombre. Para ello, vaya al menú desplegable Insertar y seleccione Nombre. A partir de ahí, elegir la opción "definir" y nombre de rango de sus datos Majestic lo que quiera. Para nuestro ejemplo, lo llamaremos "majestuosa".

A continuación, volver a la columna "CF" en el conjunto de datos original. Haga clic en la primera celda en blanco y tipée =VLOOKUP(A2,majestic,2,FALSE), A continuación, pulsa "Enter" en su teclado. Copiar esto a todas las otras entradas "CF" haciendo doble clic en el pequeño cuadrado en la parte inferior derecha de la caja. Esta fórmula utiliza los datos en la columna A - la URL - tener una llave, y luego hacerlo coincidir con la dirección URL en los datos Majestic Sami. Luego se dirige a la siguiente columna de datos Majestic - los datos PageRank externa que estamos buscando - y tira de ella hacia la columna de la FQ.

A continuación, tendrá que hacer clic en la letra de la columna en la parte superior de la columna de la CF para seleccionar todo en la columna. Haga clic en "CTRL + C" para copiar, a continuación, haga clic derecho e ir a "Pegado especial" en los que aparece y seleccionar el menú "Valores". Esta es nuestra fórmula para reemplazar a los números reales. Ahora podemos eliminar las filas que se había nuestros datos de terceros y salvar a nuestro archivo de nuevo como .csv.



De vuelta en Gephi y en el "Laboratorio de Datos," queremos hacer clic en "Importar hoja de cálculo" para tirar en la tabla que acaba de hacer. Seleccione el archivo .csv creado. Esta vez, a diferencia con los pasos anteriores, queremos cambiar "como mesa" a "mesa de nodos." Haga clic en "Siguiente" y hacer agrio "nodos de fuerza que ser creado como nuevos" no está marcada, después haga clic en "Finalizar". Esta deberes reemplazar la tabla nodos de datos con nuestra tabla modificada que incluye CF.

En la parte inferior de la pantalla de aplicación, verá un botón de "Copiar datos a otra columna." Simplemente queremos seleccionar "CF" y en el "Copiar a" queremos seleccionar "PageRank". Ahora, en vez PageRank interna de los datos generados, estamos utilizando los datos de PageRank externas de terceros.

De vuelta en la pestaña "Información general", queremos mirar en "Apariencia" y pulsa "Aceptar" una vez más. Ahora nuestros nodos deberías ser de un tamaño basado en la fuerza es a partir de nuestros datos CF Majestic. En mi siguiente gráfico, se puede ver qui son las páginas más fuerte en el sitio web, Teniendo en cuenta las medidas externas de la fuerza de las páginas.





Se puede decir mucho sólo de esta imagen de uno. Cuando se enciende en las etiquetas, se puede ver en cada páginas quien representa cada círculo. El color indica agrupación a cual se agrupa, y el tamaño de círculo indica la fuerza relativa de la página.

La tesis de la parte superior más lejos puntos son, al menos las páginas están vinculadas internamente. Se puede decir por el número de nodos de cada color qué categorías que el cliente ha creado en su mayor feliz y lo que ha sido exitoso para ellos en la atracción de los enlaces externos. Por ejemplo, se puede ver que hay una gran cantidad de puntos de color púrpura, lo que indica que es probable indicación área significativa práctica el año para la empresa y que están creando una gran cantidad de feliz a su alrededor.

El problema es mayor Que la púrpura puntos están más lejos del centro, indicando indicación de que no están bien comunicados internamente. Sin dar demasiado lejos, te puedo decir que muchos de los puntos lejanos a cabo son las entradas del blog. Y mientras lo hacen un buen trabajo de los blogs con enlaces a otras páginas, hacer un trabajo pobre Ellos, por la promoción de sus entradas de blog en el sitio web.

Conclusión

Espero que hayan disfrutado jugando junto con sus propios datos y ha conseguido un buen sentido de cómo Gephi puede ayudar a visualizar grandes datos procesables para usted y para sus clientes.

domingo, 2 de abril de 2017

Visualizando Pagerank y modularidad en Gephi

Visualizaciones fáciles de PageRank y grupos de páginas con Gephi
Colaborador Patrick Stox nos guía a través de cómo usar una herramienta de análisis de conglomerados para visualizar sitios web e identificar oportunidades de mejora de su estructura de enlaces.
Patrick Stox | Search Engine Land




En abril del año pasado, colaborador Search Engine Land Paul Shapiro ha escrito una entrada brillante sobre el cálculo de PageRank interna. El puesto ha esbozado método para examinar los enlaces internos de un sitio web con el fin de determinar la importancia de las páginas web dans le.

Esto es asombroso de gran alcance, el objetivo Creo que el concepto de Pablo podría ser más fácil de usar. Utilizó R, qui es un lenguaje y entorno de computación estadística, y la salida es básicamente un montón de números.

Quiero que le muestre cómo hacer los Sami en Gephi con sólo pulsar unos pocos botones en lugar de un montón de código - y, con unos pocos clics más, puede visualizar los datos de una manera que se siente orgulloso de mostrar a sus clientes .

Te voy a mostrar cómo obtener este resultado como un ejemplo de cómo Gephi puede ser útil en sus esfuerzos de SEO. Podrás ble para ver qué páginas son las más fuertes es sus páginas web, páginas determinan cómo se pueden agrupar por temas e identificar algunas cuestiones de sitios web comunes, tales como errores de rastreo o pobres de enlaces internos. A continuación voy a describir algunas ideas para Tomando el concepto al siguiente nivel de geek.

¿Cuál es Gephi?

Gephi es un software de código abierto se utiliza para representar gráficamente que las redes y se utiliza comúnmente para representar las redes informáticas y redes de medios sociales.

Es un programa de escritorio simple, basada en Java que se ejecuta en Windows, Mac o Linux. Aunque la versión actual de Gephi es 0.9.1, le animo a descargar la versión anterior 0.9.0, o más tarde la versión 0.9.2, en su lugar. De esa manera usted será ble para seguir aquí, y evitará los errores y los dolores de cabeza de la versión actual. (Si no has-hecho recientemente, puede que tenga que instalar Java en su ordenador también.)



1. Para empezar, el rastreo de su sitio web y la recopilación de datos

Normalmente uso Screaming Frog para el rastreo. Dado que estamos interesados en las páginas aquí y no otros archivos, tendrá que excluir cosas de los datos de rastreo.

Para hacer eso, Aquellos de ustedes con la versión de pago de los deberes de software Implementar la configuración que voy a describir a continuación. (Si está utilizando los límites de versión libre que a qui la recogida de 500 URL y no le permiten ajustar la configuración muchos tienen, voy a explicar qué hacer después.)

Ir a “Configuration” > “Spider” y verá algo parecido a la siguiente captura de pantalla. Haga que el suyo que coincida con la mía para los mejores resultados. Normalmente aussi añadir * (PNG | jpg | jpeg | gif | bmp). $ A "Ajustes"> "Excluir" para deshacerse de las imágenes, qui Screaming Frog deja veces en el retraso de rastreo.



Para iniciar el rastreo, podría URL de su sitio en el espacio en la parte superior izquierda (foto de abajo). A continuación, haga clic en "Inicio" y esperar a que el rastreo hasta el final.



Cuando se termina el rastreo, vaya a "exportación en masa"> "Todos los enlaces entrantes." Usted querrá cambiar "Archivos de tipo" a ".csv" y guardar el archivo.

La limpieza de la hoja de cálculo

  • Eliminar la primera fila que contiene "All Inlinks"
  • Eliminar la primera columna, "Type".
  • Cambie el nombre del "destino" a la columna "Target".
  • Eliminar todas las demás columnas Además de "Source" y "Target".
  • Guardar el archivo editado (y puedes volver a hacer un uso seguro del tipo de archivo



Opcionalmente, puede dejar otras columnas como código de estado o de texto de enlace si desea que este tipo de datos es la gráfica. Los dos principales campos que voy a estar explicando cómo utilizar son "Fuente" y "destino".

Si está utilizando la versión gratuita de Screaming Frog, tendrá que hacer un montón de trabajo de limpieza para filtrar las imágenes, archivos CSS y JavaScript.

En Excel, si vas a "Insert" y haga clic en "Table", obtendrá una ventana emergente. Haga su caja fuerte de datos ha-ha definido correctamente, haga clic en "Mi tabla tiene encabezados", y haga bien. Ahora, seleccione la flecha en la parte superior derecha de la columna "Target", y un cuadro de búsqueda aparecerá. Lo utilizan para filtrar las filas de la tabla para identificar que contienen las extensiones para los diferentes tipos de archivos, como .js o .css.

Una vez que tenga una visión de todas las filas de la tabla que tienen uno infractor tipo de archivo, seleccionar y eliminar toda la información para aquellas filas. Haga esto para cada tipo de archivo de la antes mencionada y presentar cualquier tipo de imágenes como .jpg, .jpeg, .png, .gif, .bmp o cualquier otra cosa. Cuando haya terminado, es necesario guardar el archivo como .csv de nuevo.

2. Uso Gephi para visualizar los datos de rastreo




Importación de nuestros datos


  • En la pantalla emergente que aparece al abrir la aplicación, haga clic en "Nuevo proyecto".
  • A continuación, seleccione "Archivo"> ​​"Importar hoja de cálculo."
  • Elija su archivo .csv y hacer seguro el "separador" se establece como "coma" y "Como mesa" se establece como "tabla de bordes." Si usted tuviera que hacer un montón de limpieza de datos de Excel, haga amargo que ha eliminado cualquier filas en blanco dentro de sus datos antes de importarlo.
  • Haga clic en "Siguiente", y asegúrese de que "Crear nodos faltantes" se comprueba antes de pulsar "Finalizar".

Para nuestros propósitos - Visualización de enlaces internos - los "bordes" son los enlaces internos, y "nodos" son diferentes páginas de la web. (Nota: Si se tropieza con un error de memoria, puede aumentar la cantidad de memoria en Asignado por Gephi siguiendo esta guía).

Si realmente-tienen un amplio conjunto de datos o desea combinar varios conjuntos de datos, puede importar varios archivos en Gephi.

Una vez que todos los datos están en el "Laboratorio de Datos", se puede cambiar a "Información general". A continuación, verá un cuadro negro probable como la de abajo. No se preocupe, vamos a hacer que bonita en un minuto.



Calculando de PageRank y modularidad


En la pestaña "Estadísticas", ejecute "PageRank" y "modularidad". (Seleccionar "ventana" y "Estadísticas" si usted no ve la pestaña "Estadísticas").

Recomiendo el uso de la configuración predeterminada de PageRank, el objetivo de modularidad que lo haría un-tick "Use pesos." Esto añadirá los datos acerca de sus páginas en nuevas columnas que serán utilizados para la visualización.




Es posible que tenga que ejecutar modularidad un par de veces para hacer las cosas de la manera deseada 'em. racimos modularidad páginas que están más conectados con one modularidad otra en grupos o clases (cada par représentée un número). Usted tendrá que formar grupos de páginas que son lo suficientemente grande como para ser significativo, pero lo suficientemente pequeño como para obtener su cabeza alrededor.

Estás clustering, después de todo, por lo que la agrupación de todas sus páginas en dos o tres grupos, probablemente, trae un montón de cosas juntos diferencia. Propósito si al final con 200 racimos, eso no es del todo útil, tampoco. En caso de duda, el objetivo de un mayor número de grupos, ya que muchos de los grupos será probablemente muy pequeño y los deberes agrupaciones mano aún ser revelado.

No se preocupe, te voy a mostrar cómo comprobar y ajustar sus grupos en un minuto. (Nota :. Un menor modularidad le dará más grupos y A modularidad Superior le dará grupos Menos Tweak esto mediante fracciones en lugar de números enteros, como un pequeño cambio hace una gran diferencia).

Ajustando su configuración Modularidad

Vamos a ver lo que hemos hecho. Cambiar la pestaña de "Laboratorio de Datos" y mirar a la "Tabla de datos." Allí encontrará sus nuevas columnas para PageRank y Clase modularidad. Los deberes números de PageRank se alinean con los números de artículo mencionado de Paul Shapiro, el objetivo tesis que tienes que hacer sin tener ningún tipo de codificación. (Recuerde, los números de la tesis de PageRank son internos, no lo hemos Consulte lo general a "PageRank").

La modularidad Clase asigna un número a cada página, de modo altamente Eso páginas interconectadas recibe el número de Sami. Utilizar la funcionalidad de filtro en la parte superior derecha para aislar cada página de su grupo, y el globo ocular se examinan algunas de las direcciones URL para ver qué tan cerca están relacionados con la tesis de ser blanco. Si las páginas terminaron en el mal Clase modularidad, es necesario Puede Volver a ajustar la configuración, o podría indicar indicación de que usted no está haciendo un buen trabajo bajo el mecanismo de interconexión feliz.

Recuerde que su modularidad se basa es la vinculación interna, en realidad no el contenido de las páginas, por lo que está identificando aquellas que están normalmente unidos entre sí - Los que no deberías ser unidos entre sí.

En mi caso, he elegido un bufete de abogados y con la configuración predeterminada, que terminó con el desglose siguiente cuando me ordenadas según la modularidad, qui probablemente mejor hecho podría tener con algunos ajustes:

  • Clase 0 = lesión
  • Clase 1 = familia
  • Clase 2 = algunas páginas aleatorias
  • Clase 3 = penal
  • Clase = 4 tráfico
  • Clase 5 = DWI
  • Clase 6 = un par de páginas al azar

Puede volver a la pestaña "general" y continuará haciendo ajustes hasta que esté satisfecho con sus grupos de páginas. Incluso se ejecutan varias veces con modularidad números de la même pueden dar resultados diferentes ligeramente cada vez, por lo que puede llevar algún jugando para llegar a un punto de donde usted está satisfecho con los resultados.

Vamos a hacer una foto con diseño

Te prometí una visualización Más temprano, y es probable que te preguntas cuando llegamos a ese recurso compartido. Vamos a hacer que el cuadrado negro en una visualización real de que es más fácil de entender.

Ir a "Visión general"> "Diseño". En el cuadro desplegable lado izquierdo donde dice ": elija un diseño," seleccionar "ForceAtlas 2."



Ahora sólo tiene que jugar con los ajustes que para conseguir una visualización que se sienta cómodo. (Si alguna vez se pierde, haga clic en la imagen de la lupa poco en el lado izquierdo de la imagen, y que centrarán y el tamaño de la visualización así que todo es visible en la pantalla.) Para el patrón de la estrella por encima, he puesto "Escala" de 1000 y "gravedad" a 0,7, el resto objetivo son valores predeterminados. Los dos principales ajustes que jugar con escalamiento son probable y gravedad.

Escalamiento gobierna el tamaño de la visualización; El Superior se establece, la más escasa su gráfico será. La manera más fácil de entender la gravedad es pensar en los nodos como los planetas. Cuando aumenta la gravedad, esto atrae todo más cerca. Puede ajustar esta marcando la casilla "Más fuerte gravedad" y ajustando el número de gravedad.

Hay algunas otras opciones, y los efectos son de cada interfaz Explicado dans le. No dude en jugar con ellos (siempre se puede cambiar de nuevo) y ver si hay algo que ayuda a que la visualización más clara.

¿Qué queremos mostrar?

En el caso citado, queremos mostrar modularidad Ambos grupos de páginas () y PageRank interna. La mejor manera que he encontrado para hacer esto es para ajustar el tamaño de los nodos se basa PageRank y los colores se basan modularidad. En la ventana "Aspecto", seleccione "nodos", "Tamaño" (el segundo icono), y en la "pestaña" donde hay un desplegable de "Clasificación Elija un atributo," seleccionar "PageRank".

Elija Algunos tamaños y pulsa "Aceptar" hasta que los nodos más importantes son distinguibles de los otros. En la captura de pantalla a continuación, tengo el tamaño mínimo establecido como el 100 y el tamaño máximo en 1.000. Ajuste del tamaño del nodo se basa PageRank le ayuda a identificar fácilmente significativo es sus páginas web - más grandes son.



Para visualizar los grupos de páginas con modularidad, todavía nos queremos estar en la ventana de "Appearance", el objetivo de este tiempo queremos seleccionar "nodos" "color" (el primer icono), y "Partition". En el desplegable hacia abajo para "Choose an attribute," seleccionar "Modularity Class."

Algunos colores predeterminados están pobladas, meta si desea cambiar ellos, hay un pequeño botón verde de "paleta". En la Paleta, si hace clic en "Generate", puede especificar el número de colores para mostrar basándose se cuántos grupos La modularidad consiguió cuando se ejecuta.

En mi caso, las clases 2 y 6 no eran muy grandes, así que estoy haciendo clic en Cerrar en sus colores y cambiando a em negro. Si desea mostrar sólo un tema específico, cambiar el color de una sola clase modularidad, dejando los otros hicieron comentarios otro color.



Cambio de la visualización

Puede usted desear para etiquetar los nodos de modo que sabemos lo Representan la página. Para agregar una etiqueta con la dirección URL, tenemos que volver a la pestaña "Data Laboratory" y seleccione la tabla de datos. Hay una caja en la parte inferior para "Copy data to other column," y queremos copiar "ID" para "etiqueta" para obtener las direcciones URL para mostrar. El proceso es similar para los bordes. Si ha guardado el texto de anclaje del rastreo, puede etiquetar cada flanco con el texto del ancla.

De nuevo en la pestaña "Preview", tendrá que seleccionar cómo desea que su visualización que se vea. Normalmente selecciono "Default Curved" en virtud de los ajustes preestablecidos, el objetivo de una gran cantidad de personas como "Default Straight".

Cambiar el tamaño de fuente y el tamaño proporcional para las etiquetas ayudará a visualizar em de manera que se pueden leer en diferentes tamaños. Sólo jugar con la configuración de la ficha de vista previa para conseguir que se muestre la forma que desee.

Para la visualización de abajo, he apagado etiquetas de nodo y el borde de manera que no repartiera la identidad del sitio web de la empresa, salvo derecho particular que he utilizado. En su mayor parte, Han hecho un buen trabajo agrupando sus páginas y que une internamente. Si hubiera dejado columna de texto del ancla en la hoja de cálculo de Screaming Frog, podría haber tenido Cada enlace interno (línea) muestra las TIC con el ancla de texto como un sello de borde y cada página enlazada desde (círculos) como una etiqueta de nodo.


Gephi para los conjuntos de datos más grandes

Para los conjuntos de datos más grandes, todavía se puede utilizar Gephi, aunque su grafo es probable que se parecen más a un mapa estelar. Yo grafiqué los enlaces internos de Search Engine Land, meta que tuvo que ajustar el escalado a 5000 y gravedad a 0,2 en los ForceAtlas 2 ajuste.

Todavía se puede ejecutar cálculos de PageRank y Modularity, el propósito es probable que necesite cambiar el tamaño de los ganglios a algo grande para ver Cualquier dato que su gráfico. También puede que tenga que añadir más colores a la paleta, como se describió anteriormente, ya que hay muchas clases de modularidad probables más distintivas en un conjunto de datos de este tamaño. Esto es lo que el grafo de SEL se ve como antes de teñirlo.



¿Por qué es importante esto?

Gephi se puede utilizar para mostrar una variedad de problemas. En uno que posteé anteriormente en artículo Future of SEO, mostré una división entre HTTPS y HTTP.

Además, puede descubrir secciones que pueden ser consideradas importantes por un cliente que no están internamente vinculados muy bien. Por lo general, estos son más alejados en la visualización debido a la gravedad, y es posible que desee vincular a ellos más de las páginas relacionadas.

Una cosa es decirle a un cliente que necesita más enlaces internos, pero es mucho más fácil mostrarles que una página que consideran importante es realmente muy aislada. La imagen de abajo fue creada simplemente cambiando mi Modularidad hasta que tuviera sólo dos grupos. Esto se debía a que tenía enlaces http y https en mi rastreo, y reduje la modularidad hasta que sólo tenía dos grupos, los más relacionados de los cuales eran páginas HTTP> HTTP y páginas HTTPS> HTTPS.



Hay un montón de otras cosas que este tipo de visualización puede darnos cuenta. Busque nodos individuales por sí mismos. Puede encontrar toneladas de páginas dispersas o incluso errores de rastreo. Las trampas de araña pueden mostrar como una línea infinita de páginas, y las páginas que no están en los grupos correctos pueden significar que no están internamente vinculándolos de las páginas más relevantes.

Un sitio web bien internamente vinculado puede parecer más un círculo que una estrella, y yo no consideraría esto un problema, incluso si los colores no siempre se alinean en grupos. Tienes que recordar que cada sitio web es único y cada visualización es diferente.



Es difícil explicar todas las posibilidades, pero si intenta algunas de estas, comenzará a ver problemas comunes o tal vez incluso algo nuevo y diferente. Estas visualizaciones le permitirán ayudar a los clientes a entender los problemas de los que siempre está hablando. Le prometo que sus clientes les encantará.

Gephi tiene varias opciones de exportación para .png, .svg o .pdf si desea crear imágenes estáticas. Más divertido es exportar para usarlo en una página web para crear una experiencia interactiva. Para hacer eso, echa un vistazo a los complementos de Gephi - en particular, el exportador SigmaJS y Gexf-JS Web Viewer.

¿Qué más podemos hacer con Gephi?

Agregar información adicional sobre los vínculos

Si tiene un rastreador que puede identificar la ubicación de los vínculos, puede ajustar el peso de los bordes de forma diferente en función de la ubicación del enlace. Digamos, por ejemplo, que damos a cada enlace de contenido principal un valor más alto que, digamos, un enlace de navegación o pie de página. Esto nos permite cambiar el cálculo de PageRank interno basado en el peso de los enlaces según lo determinado por su ubicación. Eso probablemente mostrará una representación más precisa de cómo Google es probable valorar los enlaces basados ​​en su ubicación.

Esto nos permite cambiar el cálculo de PageRank interno basado en el peso de los enlaces según lo determinado por su ubicación. Eso probablemente mostrará una representación más precisa de cómo Google es probable valorar los enlaces basados ​​en su ubicación.

Obtención de métricas de terceros para obtener una vista más completa

La visualización que hemos estado trabajando hasta ahora se ha basado en cálculos internos de PageRank y asume que todas las páginas están ponderadas igualmente al principio. Sabemos, por supuesto, que esta no es la forma en que Google mira las cosas, ya que cada página tendría vínculos de diferente fuerza, tipo y relevancia que les va desde sitios externos.

Para que nuestra visualización sea más compleja y útil, podemos cambiarla para obtener métricas de fuerza de terceros en lugar de PageRank interno. Existen varias fuentes posibles para esta información, como Autoridad de página de Moz, Clasificación de URL de Ahrefs o Flujo de citas majestuoso o Flujo de confianza. Cualquiera de estos debe funcionar, así que elige tu favorito. El resultado debe ser una representación más exacta del sitio web como los motores de búsqueda lo ven, ya que ahora tener en cuenta la fuerza de las páginas.

Podemos comenzar con el mismo archivo que creamos anteriormente para mostrar el PageRank interno. En Gephi, vamos a ir a la pestaña "Laboratorio de datos" y asegurarnos de que estamos en la pestaña "Nodos". Hay una opción "Exportar tabla", y puede exportar sus columnas a un archivo .csv de su elección. Abra ese archivo exportado en Excel y cree una nueva columna con el nombre que desee. Llamé a esto "CF" ya que estoy usando Majestic Citation Flow en mi ejemplo.

Ahora, vamos a incorporar los datos de terceros. En la hoja de cálculo que he exportado desde Gephi, he copiado datos de Majestic que tiene las Páginas en una columna y Flujo de Citas en la segunda. Ahora tenemos que casar estos datos con el primero, y puede hacerlo usando una fórmula VLOOKUP.

Primero, seleccione los datos Majestic - ambas columnas - y haga que sea un rango con nombre. Para ello, vaya al menú desplegable Insertar y seleccione Nombre. Desde allí, elija la opción "definir" y nombre su rango de datos Majestic lo que quiera. Para nuestro ejemplo, lo llamaremos "majestuoso".

Vuelva a la columna "CF" del conjunto de datos original. Haga clic en la primera celda en blanco y escriba = VLOOKUP (A2, majestic, 2, FALSE), luego presione "Enter" en su teclado. Copiar esto a todas las otras entradas "CF" haciendo doble clic en el pequeño cuadrado en la parte inferior derecha del cuadro. Esta fórmula utiliza los datos de la columna A - la URL - como una clave, y luego coincide con la misma URL en los datos de Majestic. Luego va a la siguiente columna de datos de Majestic - los datos de PageRank externos que estamos buscando - y lo lleva a la columna CF.

A continuación, deseará hacer clic en la letra de la columna en la parte superior de la columna CF para seleccionar todo en la columna. Pulse "CTRL + C" para copiar, luego haga clic con el botón derecho del ratón y vaya a "Pegar especial" en el menú que aparece y seleccione "Valores". Esto reemplaza nuestra fórmula con los números reales. Ahora podemos eliminar el rango que tenía nuestros datos de terceros y guardar nuestro archivo de nuevo como .csv.



De vuelta en Gephi y en el "Data Laboratory", queremos hacer clic en "Import Spreadsheet" para insertar la tabla que acabamos de hacer. Elija el archivo .csv creado. Esta vez, a diferencia de los pasos anteriores, queremos cambiar "as table" a "Nodes table." Haga clic en "Next" y asegúrese de que "Force nodes to be created as new ones" esté desmarcado, luego pulse "Finish". Reemplace la tabla de datos de nodos con nuestra tabla modificada que incluye CF.

En la parte inferior de la pantalla de la aplicación, verás un botón para "Copiar datos a otra columna". Simplemente queremos seleccionar "CF" y en "Copiar a", queremos seleccionar "PageRank". De los datos de PageRank internos generados, estamos utilizando los datos externos de PageRank externos.

De vuelta en la pestaña "Descripción general", queremos buscar en "Apariencia" y pulsar "Aplicar" una vez más. Ahora nuestros Nodos deben ser dimensionados basados ​​en la fuerza relativa de nuestros datos de Majestic CF. En mi gráfica a continuación, puedes ver cuáles son las páginas más fuertes del sitio web, teniendo en cuenta las medidas externas de solidez de las páginas.



Usted puede decir mucho sólo de esta imagen. Al activar las etiquetas, puede ver qué páginas representa cada círculo. El color indica qué agrupación y el tamaño del círculo indica la fuerza relativa de la página.

Cuanto más lejos están estos puntos, menos vinculados internamente están las páginas. Puede saber por el número de nodos de cada color qué categorías ha creado el cliente más contenido y qué ha sido exitoso para ellos en la atracción de enlaces externos. Por ejemplo, se puede ver que hay un montón de puntos púrpura, lo que indica que esto es probablemente un área de práctica importante para la empresa y que están creando una gran cantidad de contenido a su alrededor.

El problema es que los puntos morados más grandes están más lejos del centro, indicando que no están bien conectados internamente. Sin dar demasiado lejos, puedo decirle que muchos de los puntos distantes son los postes del blog. Y mientras que hacen un buen trabajo que liga de blogs a otras páginas, hacen un trabajo pobre de promover sus publicaciones del blog en el Web site.

Conclusión

Espero que hayas disfrutado jugando junto con tus propios datos y que tengas un buen sentido de cómo Gephi puede ayudarte a visualizar datos importantes que puedes procesar para ti y para tus clientes.


martes, 3 de mayo de 2016

Redes de comercio de armas y alineación ante una guerra

¿Donde se alineará su país en la Tercera Guerra Mundial?
Kenneth Soo -  Anna Lyzzin


En el reciente escándalo de los documentos de Panamá, periodistas analizaron 11,5 millones de documentos gráficos que utilizan la red para rastrear el uso de estructuras fiscales en el extranjero. En este capítulo, se utiliza una técnica de red gráfico denominado Análisis de Redes Sociales (ARS) para mapear la transferencia de armas entre países. Al analizar el comercio de armas bilaterales, una red de lazos multilaterales puede ser destilada, y proporciona información en el complejo ámbito de la política internacional.

El ARS se basa en las matemáticas y conceptos de la informática, y se aplica en muchas disciplinas de las ciencias sociales. Se analizan las relaciones entre los individuos, el descubrimiento de los círculos sociales y personas influyentes dentro de una red. Por ejemplo, se puede identificar el personaje principal de Juego de Tronos, una serie de televisión popular. El ARS también se utiliza en la inteligencia del gobierno para trazar círculos del crimen y las células terroristas. Aparte de la gente, otras entidades como los objetos pueden ser mapeadas en una red también.

Introducción a los Grafos

En el ARS, estructuras de red llamados grafos se utilizan para analizar las relaciones entre los individuos. Cada individuo está representado por un nodo. Una línea llamada un enlace entre dos nodos indica una relación entre dos individuos. Estos enlaces pueden tener un valor o peso que indica la intensidad de la relación.

En el gráfico siguiente, David está familiarizado con todos los otros tres individuos. Entre sus tres conocidos, Julia y María se conocen entre sí, pero que no saben Tom. Como Julia no ha hecho más conocido a David y María, sus enlaces con Julia son débiles.


Una red simple amistad. El espesor del enlace indica el nivel de relación.

Una ilustración

Los datos del Instituto Internacional de Investigación para la Paz de Estocolmo (SIPRI) tiene información anual sobre las transferencias bilaterales de las principales armas convencionales. Todos los precios son en dólares estadounidenses usando precios de 1990. Magnitud de las transferencias de armas se puede interpretar como una medida de la relación bilateral, ya que un país sólo confiar en otro con las armas si están alineados en la escena internacional. A medida que el valor del comercio de armas entre dos países puede fluctuar en función cuando las nuevas tecnologías están disponibles para la venta, nos fijamos en datos de 2006 a 2015, y utilizamos el volumen comercial de 10 años entre los países como una medida de su relación. Sólo los volúmenes de comercio a 10 años sobre $ 100 millones resultan analizados, y el gráfico de la red resultante contenía 91 nodos y 295 enlaces.

El grafo se generó usando Gephi, y el diseño de la red se determinó usando un algoritmo de fuerza dirigida. En este algoritmo, los nodos y los enlaces se asignan "fuerzas". Los nodos que no tienen enlaces entre ellos se repelen entre sí, mientras que los nodos que tienen enlaces de conexión se atraen entre sí sobre la base de la fuerza de su conexión.


Una red que muestra las relaciones de los países basadas en el comercio de armas. Fuente: SIPRI

Interpretación de la red

En el gráfico anterior, cada nodo representa un país, y existe una arista entre dos países si hay más de $ 100 millones de dólares en los brazos comercializados entre ellos en los últimos 10 años. El tamaño de los enlaces es proporcional al valor del comercio de armas entre los dos países, el mayor de los cuales es entre Rusia y la India ($ 22.3b), seguido por Rusia y China ($ 11.1b). De los 295 enlaces, solamente 55 de ellos tienen valores por encima de $ 1 mil millones.

El color de un nodo indica el subgrupo del país. Los subgrupos se descubren mediante el método de Lovaina, que maximiza enlaces entre países en su propio subgrupo, y minimiza los enlaces entre países de diferentes subgrupos. Desde los enlaces se pueden ver las relaciones como cordiales entre dos países, los subgrupos pueden ser vistos como alianzas o alineaciones. Países dentro del mismo subgrupo son más propensos a ser cantando la misma melodía en la política internacional, mientras que los países de diferentes subgrupos son posiblemente uno contra el otro.

Este algoritmo se ha colocado con precisión los Estados Unidos en un grupo diferente de Rusia y China, y el grupo más grande (azul) contiene los EE.UU. y muchos de sus aliados clave. Los países que nos rodean en la red son sus socios estratégicos en todo el mundo que cuenta con mantener su poder en contra de sus rivales. El segundo grupo (amarillo) comprende las naciones en su mayoría europeos, pero también contiene países amigos de Occidente que se agrupan por separado del grupo azul debido a que su clave brazos socio comercial es Alemania, Países Bajos, Suecia o, en lugar de los EE.UU..

El último grupo (rojo) está constituido por Estados que mantienen relaciones más estrechas con Rusia o China, y son en su mayoría de Asia y África. Muchos de estos países tienen tipos de gobierno que son incompatibles con los EE.UU., ya menudo son criticados por Occidente por su historial de derechos humanos o de su falta de democracia. Lo más sorprendente inclusión en este grupo es Ucrania, que tiene relaciones aparentemente inestables con Rusia debido a la intervención militar rusa en Ucrania en 2014. colocación de Ucrania se debe a la venta de armas a muchos países de su subgrupo, como Rusia y China, así como su falta de interacción con las naciones occidentales. De hecho, según el SIPRI, Ucrania exportó US $ 227 millones de dólares en armas a Rusia en 2014 y 2015, a pesar de operación militar rusa en su país durante este período.

¿Cuán influyente es un país?

El tamaño del nodo de cada país representa su centralidad en la red, y se determina utilizando el algoritmo de PageRank. Este algoritmo, llamado así por el fundador de Google, Larry Page, fue utilizado por una versión inicial de Google para clasificar los sitios web. En nuestra red, PageRank determina la centralidad de un país por el número de conexiones que tiene, la fuerza de sus conexiones, así como la importancia de los países en las que está conectado. Por lo tanto, la centralidad puede ser visto como la influencia de un país en el escenario global.



Como era de esperar, el PageRank clasificó a los EE.UU. como el país más influyente en la red. A pesar de la participación de Rusia en las dos más grandes transferencias de armas bilaterales, es los EE.UU. que supera el valor total de las transferencias de armas en los últimos 10 años. Cambiamos los EE.UU. $ 92.5b de dólares en armas con sus aliados, incluyendo Corea del Sur ($ 8.12b), Emiratos Árabes Unidos ($ 6.98b), Australia ($ 6.21b), y Arabia Saudita ($ 5.69b). En total, los EE.UU. llevó a cabo el comercio de armas valorado sobre $ 1 mil millones, con otros 22 países en este periodo.

A pesar de la India que tiene el tercer mayor volumen comercial total, que está en el puesto 14 de un distante por PageRank, debido a tener un menor número de enlaces. En su lugar, el algoritmo identifica los Estados Unidos, Rusia, Alemania, Francia y China en su parte superior y cinco, lo que demuestra una vez más la precisión del algoritmo ya que cuatro de ellas ejercer un poder significativo como miembros permanentes del Consejo de Seguridad de las Naciones Unidas.

Una sorpresiva inclusión en el top 15 es Ucrania (6º), ya que no es conocido por ser un país influyente. Esto demuestra las limitaciones de utilizar sólo los datos del SIPRI para analizar las relaciones internacionales. la posición de Ucrania se infla debido a su importante industria de exportación de armas, ya que era la décima mayor exportador 2006-2015. Ella enviado armas a 15 países diferentes en esta red, de los cuales 5 de ellos de importación exclusivamente de ella.

domingo, 15 de marzo de 2015

Pagerank descubre el mejor equipo de fútbol de todos los tiempos

El algoritmo Pagerank revela el máximo equipo de fútbol de todos los tiempos
La red creada por los resultados de los equipos que juegan entre sí puede ser clasificado en la misma forma que los sitios web, dicen los científicos de la computación.
MIT Technology Review



El algoritmo PageRank de Google se ha convertido en uno de los más famosos de la informática. Fue diseñado originalmente para clasificar los sitios web de acuerdo a su importancia al suponer que un sitio es importante si se vincula a otros sitios importantes.

El algoritmo funciona contando los enlaces a un sitio web y la importancia de los sitios de estos vienen. A continuación, utiliza este para calcular la importancia del sitio original. A través de un proceso de iteración, el algoritmo se le ocurre un ranking.

Desde los fundadores de Google, Larry Page y Sergei Brin, desarrollaron el algoritmo a mediados de la década de 1990, los investigadores han comenzado a usarlo para clasificar nodos en otras redes. Una idea ha sido la de utilizarlo para clasificar documentos científicos que utilizan la red de enlaces en las referencias que contienen. Otra es la de usarla para las elecciones en las que todo el mundo es un candidato y pueden votar por nadie más.

Hoy en día, Verica Lazova y Lasko Basnarkov en la Universidad Cyril y Methodius de Macedonia han encontrado otro uso para el algoritmo de PageRank. Estos chicos lo han utilizado para crear un ranking de los equipos nacionales de fútbol del mundo de todos los tiempos utilizando los resultados de los 20 torneos de la Copa Mundial que se han producido desde 1930. Su hipótesis es que un equipo debe altamente clasificado si se ha golpeado a otros equipos altamente clasificados .

El método es sencillo. Se llevan a los resultados de más de 7.000 partidos jugados entre 210 países desde 1930. Durante estos juegos, los equipos anotaron más de 20.000 goles en un promedio de 4.3 por partido.

Lazova y Basnarkov van a crear una red en la que los equipos son nodos y existe un vínculo entre ellos si han jugado uno contra el otro. El peso y la polaridad de este enlace depende de los resultados, que ha vencido a quién y así sucesivamente.

Finalmente, se aplican el algoritmo Pagerank durante un número de iteraciones para determinar un ranking.

Los resultados serán una lectura interesante para cualquier aficionado al fútbol. El equipo mejor clasificado es Brasil, que no es de extrañar teniendo en cuenta que ha ganado el torneo un récord de 5 veces, más que cualquier otra nación. También ha jugado más partidos que cualquier otro equipo, ganado más partidos y marcado más goles.

Después de Brasil vienen de Italia, Alemania, Holanda, Argentina, Inglaterra, España, Francia y Checoslovaquia, en ese orden.

Lazova y Basnarkov luego comparar su clasificación a la lista de todos los tiempos creado por órgano rector internacional del fútbol, ​​la FIFA. Esto tiene Brasil en la parte superior, seguido por Alemania y luego Italia. Argentina es el equipo clasificado cuarto con España quinto y sexto Inglaterra.

Eso es similar a la lista Pagerank pero hay algunas diferencias notables también. Los Países Bajos son el lugar número 8 en la lista de la FIFA, pero cuarto en la lista Pagerank. Dinamarca es el 17 en la lista de Pagerank pero sólo 25 de la FIFA de. Y Checoslovaquia no aparece en absoluto en la lista de la FIFA, después de haber dejado de existir como país en 1993.

Eso es un enfoque interesante que muestra la utilidad del Pagerank en ser capaz de clasificar los nodos en más o menos cualquier tipo de red. Es evidente que el mismo enfoque podría funcionar para el fútbol americano, béisbol, baloncesto, cricket y más o menos cualquier otro deporte. Si algún científico de la computación tiene algo de tiempo libre para realizar estos rankings, él o ella podría ganar los corazones y las mentes de innumerables fans que estarán esperando ansiosamente el resultado de la clasificación de Pagerank de sus equipos.


domingo, 6 de julio de 2014

Centralidad y prestigio en los datos de Padgett usando Mathematica

Centralidad y prestigio de las familias florentinas 

La familia Medici no tenía la mayor riqueza o la mayoría de escaños en la legislatura, sin embargo, llegó al poder. A través de los matrimonios, la familia Medici tenía una posición de centralidad en la red social, que es crucial para la comunicación, ofertas de intermediación, etc


In[1]:=
Click for copyable input
In[2]:=
Click for copyable input
In[3]:=
Click for copyable input
In[4]:=
Click for copyable input




Wolfram

viernes, 16 de mayo de 2014

Sen (2014): Los superdifusores de información en redes

La ciencia emergente de superspreaders (y cómo saber si usted es uno de ellos)
Nadie ha descubierto la manera de detectar los esparcidores más influyentes de información en una red real. Ahora que parece que va a cambiar con consecuencias importantes, sobre todo para los propios superspreaders.




¿Quiénes son los esparcidores de información más influyentes en una red? Esa es una pregunta que los vendedores, los bloggers, los servicios de noticias e incluso los gobiernos les gustaría contestar. Entre otras cosas porque la respuesta podría proporcionar formas de promover productos de forma rápida, para aumentar la popularidad de los partidos políticos por encima de sus rivales y para sembrar la rápida difusión de noticias y opiniones.

Así que no es sorprendente que los teóricos de redes han pasado algún tiempo pensando en la mejor manera de identificar a estas personas y comprobar cómo la información que reciben podría extenderse alrededor de una red. De hecho, se han encontrado una serie de medidas que punto los llamados super difundidores (superspreaders), personas que difunden información, ideas o incluso la enfermedad de manera más eficiente que cualquier otro.

Pero hay un problema. Las redes sociales son tan complejos que los científicos de la red no han sido capaces de poner a prueba sus ideas en el siempre ha sido muy difícil de reconstruir la estructura exacta de las redes de Twitter o Facebook, por ejemplo - que el mundo real. En su lugar, han creado modelos que imitan a las redes reales de ciertas maneras y probado sus ideas sobre estos en su lugar.

Pero hay cada vez más pruebas de que la información no se propaga a través de redes reales de la misma manera como lo hace a través de estos idealizados queridos. La gente tiende a transmitir la información sólo cuando están interesados ​​en un tema y cuando están activos, factores que son difíciles de tener en cuenta en un modelo puramente topológica de una red.

Así que la pregunta de cómo encontrar los superspreaders permanece abierta. Eso parece que va a cambiar gracias a la obra de Sen Pei en la Universidad de Beihang en Pekín y algunos amigos que han realizado el primer estudio de superspreaders en redes reales.

Estos muchachos han estudiado la forma en los flujos de información en torno a las diversas redes que van desde la red de blogs Livejournal a la red de la publicación científica en la Sociedad Americana de Física de, así como en los subgrupos de las redes de Twitter y Facebook. Y han descubierto que el indicador clave que identifica superspreaders en estas redes.

En el pasado, los científicos de la red han desarrollado una serie de pruebas de matemáticas para medir la influencia que tienen los individuos sobre la difusión de información a través de una red. Por ejemplo, una medida es simplemente el número de conexiones de una persona tiene a otras personas en la red, una propiedad conocida como su grado. La idea es que las personas más altamente conectados son los mejores en la difusión de información.

Otra medida utiliza el famoso algoritmo PageRank que Google desarrolló para el ranking de páginas web. Esto funciona mediante la clasificación de alguien más altamente si están conectados a otras personas de alto rango.

Luego está "centralidad de intermediación", una medida de la cantidad de los caminos más cortos a través de una red de pasar a través de un individuo específico. La idea es que estas personas son más capaces de inyectar información en la red.

Y, finalmente, es una propiedad de los nodos de una red conocida como su k-núcleo. Esto se determina mediante la poda de forma iterativa las periferias de una red para ver lo que queda. El k-núcleo es el paso en el que dicho nodo o persona está podados desde la red. Obviamente, los más conectados sobrevivir a este proceso, el más largo y tener la puntuación más alta de k-núcleo.

La pregunta que Sen y colegas dispuso a contestar era cuál de estas medidas mejor escogidos fuera superspreaders de información en las redes reales.

Comenzaron con LiveJournal, una red de blogs en ​​los que los individuos mantienen listas de amigos que representan vínculos sociales con otros usuarios de LiveJournal. Esta red permite a la gente a volver a publicar la información de otros blogs y utilizar una referencia de los enlaces de vuelta al post original. Esto permite que Sen y co para recrear no sólo la red de vínculos sociales entre los usuarios de LiveJournal, sino también la forma en que la información se transmite entre ellos.

Sen y colegas recogen todas las entradas del blog de ​​febrero 2010 a noviembre 2011, un total de más de 56 millones entradas. De ellos, unos 600.000 contienen enlaces a otros mensajes publicados por los usuarios de LiveJournal.

Los datos revelan dos importantes propiedades de difusión de la información. En primer lugar, sólo unos 250.000 usuarios participan activamente en la difusión de información. Esa es una pequeña fracción del total.

Más importante aún, se encontraron con que la información no siempre se difunden a través de la red social. El encontró que la información podría extenderse entre dos usuarios de LiveJournal a pesar de que no tienen ninguna relación social.

Eso es probablemente porque encuentran esta información fuera del ecosistema LiveJournal, quizás a través de búsquedas en la web o/a través de otras redes. "Sólo 31,93 % de los puestos de propagación se puede atribuir a los vínculos sociales observables", dicen.

Eso está en marcado contraste con los supuestos detrás de muchos modelos de red social. Estos simulan la forma en los flujos de información, asumiendo que viaja directamente a través de la red de una persona a otra, como una enfermedad que se transmite por contacto físico.

El trabajo de Sen y colegas sugiere que las influencias fuera de la red son cruciales también. En la práctica, la información a menudo se extiende a través de varias fuentes aparentemente independientes dentro de la red al mismo tiempo. Esto tiene importantes implicaciones para la forma en superspreaders se pueden observar.

Sen y compañía dicen que una persona grados -el número de otras personas que él o ella están conectados no- es un buen predictor de la difusión de la información como los teóricos han pensado. "Nos parece que el grado de que el usuario no es un indicador confiable de influencia en todas las circunstancias", dicen.

Lo que es más, el algoritmo PageRank es a menudo ineficaz en este tipo de red también. "Contrariamente a la creencia común, aunque PageRank es eficaz en el ranking de páginas web, hay muchas situaciones en las que no puede localizar superspreaders de información en la realidad", dicen.

Por el contrario, la propiedad del k-núcleo es relativamente bueno en encontrar superspreaders. "Nos encontramos constantemente que los mejores esparcidores están situados en el k-núcleo", dicen.

Lo que es interesante aquí es que Sen y colegas encontraron resultados similares cuando examinaron la red de divulgación científica en revistas de la Sociedad Americana de Física, así como en los subgrupos de las redes en Twitter y Facebook. Los usuarios de estas redes diferentes mostraron el mismo comportamiento de difusión de información.

Pero antes de que la conclusión de que el problema de encontrar superspreaders está ahora resuelto, hay un factor adicional que debe tenerse en cuenta. La medida k-núcleo es una propiedad global de la red sólo puede ser calculada teniendo en cuenta la estructura de toda la red.

Eso no es muy conveniente cuando se trata de grandes redes, como Facebook y Twitter, que son también los más valiosos para los vendedores, políticos, etc.

Así Sen y colegas han desarrollado todavía otra medida de la influencia que funciona casi tan bien como la medida k-núcleo, pero es mucho más fácil de calcular en el uso de subconjuntos de toda la red.

Su método consiste en sumar los grados de los vecinos más cercanos de una persona y decir que esto es casi tan bueno como la puntuación de k-núcleo para predecir superspreaders.

En otras palabras, tomar cada uno de sus amigos más cercanos, cuente el número de conexiones que tienen y luego añadir a todos ellos juntos. Si sus amigos más cercanos están altamente conectadas, lo más probable es que usted es un superspreader.

Si es así, hay algunas personas que les gustaría llegar a conocerte mejor -vendedores, políticos, gobiernos, etc. Con superspreaders ser tan valiosas materias primas, lo que será interesante ver cómo evoluciona el mercado para ellos y sus servicios.

Ref:  arxiv.org/abs/1405.1790 : Searching For Superspreaders Of Information In Real-World Social Media

MIT Technology Review