viernes, 13 de mayo de 2016

Marketing: Usando Gephi para tareas de SEO


SEO y sitio web para ver: ir más allá con Gephi
Simon Georges | Makina Corpus


Podemos diagnosticar muchos problemas de SEO durante la visualización de una página web con Gephi, siempre que sean metódica.

La visualización es ahora una necesidad para un SEO (véase, por ejemplo este artículo) y esta es una razón para el aumento de las herramientas de Saas reservadas. Usando Gephi (OSS de visualización de redes) es especialmente frecuente para múltiples usos, incluyendo la visualización y optimización de la red interna.

Sin embargo, lo que hace que la visualización término SEO era un poco revolucionado recientemente por Cocon. Esta su visión circular.


Motivado por la herramienta durante la presentación del video SearchCast Laurent Bourrelly, quería tratar de replicar algunas de las visualizaciones disponibles en esta herramienta sólo usando Gephi.
Atención en el resto del artículo, las fórmulas se dan para Libre Office (viva el software libre!). Por lo tanto, hay que adaptarse a Excel, incluyendo el reemplazo de "Data.A1" con "datos! A1".

La base: los enlaces internos y PageRank

Esta parte no será una sorpresa para quienes están familiarizados con Gephi que pueden ir directamente a la URL de vista u orugas Vista: presento en efecto el mismo que el conjunto de tutoriales sobre el uso Gephi para SEO: visualización de los enlaces internos del sitio.

En primer lugar vamos a preparar los datos que necesitaremos: Así que empieza explorando el sitio usando Screaming Frog. Vamos a copiar el rastreo completo de los datos en una hoja de cálculo, que llamaremos ficha "Datos". A continuación, exportar los enlaces internos en una pestaña segundo "Enlaces":




  • Primer paso: calcular el PageRank y, posiblemente, la modularidad, a partir de los enlaces internos. Para esto :
    • No tener en exportación de enlaces internos que href líneas de tipo y sólo las columnas que contienen URLs (origen y destino), y cambiar el nombre de la "Fuente" y "destino";
    • Exportar hoja de CSV.
    • Gephi abierta, crear un nuevo proyecto, vaya a la pestaña "Laboratorio de Datos" e importar el archivo recién creado (por lo general, se detecta sólo que son enlaces, y todas las opciones son correctas).
    • A continuación, puede cambiar a la primera pestaña ( "Información general"). A continuación, ver una visualización de su sitio en la forma de un gráfico no organizada ninguna:




  • Antes de ver, vamos a utilizar las funciones de estadísticas Gephi:



Aquí vamos a iniciar directamente el cálculo de los 2 algoritmos que nos va a interesar: Modularidad y PageRank.



El PageRank determina la probabilidad de llegar en la página independientemente de la página en su sitio donde se llega, vamos a decir que es importante que su sitio proporciona una página (atención aquí, sólo hablamos de enlaces , la popularidad interno y externo no se tiene en cuenta).

La modularidad es un concepto puramente "red" no se utiliza en SEO: la modularidad rompe una red en subredes. Si todo va bien, esto hará que los valores de "conglomerados" de páginas de su sitio.


  • Ahora vamos a utilizar estos cálculos para mejorar la visualización:




    • El primer icono al lado de "nodos" y "bordes" representa el color: haga clic en "Atributos", elegir el "modularidad" atributo (que no está presente si no se ha iniciado el cálculo), y haga clic "Aplicar": su visualización debe iluminar.
    • Al hacer clic en el icono al lado de usted puede elegir la opción "PageRank", como atributo de tamaño. Elegir un rango de tamaño que se adapte a usted (yo uso 30 a 150, por ejemplo), y haga clic en "Aplicar" página debe empezar a diferenciarse.
  • A continuación, puede jugar con algoritmos de organización espacial para representar mejor su sitio.



No conseguimos nada satisfactoria: surge ningún clúster, hay demasiados enlaces internos en el sitio para analizar cualquier cosa, desde este punto de vista (pero contras, ya podemos pensar que abogará una racionalización de los enlaces internos).

Ahora vamos a tratar las visualizaciones más específicos, con la esperanza de identificar otros problemas del sitio.

La vista "URL"

Cocon.se ofrece una vista "URL", que muestra una vista en la que el padre es el URL de la página principal. A partir de los datos que ha copiado del ScreamingFrog, es bastante fácil de encontrar al padre de un URL de la página: crear una nueva hoja. En la segunda columna, utilice la fórmula

= Data.A1

en la celda A1 y, a continuación, copiar toda la columna. En la primera columna de esta hoja, a continuación, utilizar la fórmula

= LEFT (B1; FIND ( "/ [^ /] * $", B1) -1)

Tendrá una columna rellena con la url "padre" de la página. Trate de mantener sólo los enlaces a páginas web (archivos de extraer), que será más eficaz en términos de visualización.

Tenga en cuenta que algunos sistemas, tendrá que añadir final "/" porque las direcciones URL de su sitio contienen (que alcanzó los límites de la automatización, y no siempre se ajustará algunas URL).

Si se utiliza la hoja de trabajo que ha creado como fuente de "enlaces" en Gephi (después de eliminar los enlaces importados en el párrafo anterior, pero manteniendo los nodos para mantenerlos involucrados y colores), se obtiene una representación las direcciones URL de la estructura del sitio, una especie "humana" de la visión de cómo el sitio fue diseñado.



En este ejemplo, no es completamente grupos separados: esto es porque en algunos casos no existiera la página "padre". Aquí está un sitio Drupal con el módulo de reescritura de URL (Pathauto) en su configuración por defecto, todas las URL de las páginas están en "/ content / [titulo-de-la-página]", y no hay página "/ contenido" en el sitio (el bloque en la parte superior izquierda). Este problema es, por supuesto manchado directamente de los datos de rastreo, pero permite la visualización de ilustrar de manera efectiva al cliente.

El bloque inferior de la derecha representa las páginas de "etiquetas", la estructura no se integra bien con el resto de la página web o bien (sin página "/ tag", mientras que todas estas URL son "/ tag / [tag-name]." se podría proponer una URL reescritura, tal vez podría proporcionar ventajosamente una simple supresión de estas páginas (excepto tal vez de los que se PageRank interna es significativa, probablemente merece ser convertido en la sección "real" de la página).

Finalmente, la última observación, todos los colores se mezclan en este punto de vista, lo que indica que los enlaces internos no tienen nada que ver con la estructura de URL, por lo que no hay silos de la organización.

La vista "Crawler"

Cocon.se también ofrece una visión "orugas", destacando el primer enlace que llevó al descubrimiento de una página. Para simular este punto de vista con Gephi, vamos a reanudar nuestro fichero de identificación de los enlaces internos, pero esta vez vamos a cruzar los datos con el "nivel" de la columna Screaming Frog datos que muestran el número de clics necesarios para acceder a la página.

Al lado de cada columna "Fuente" y "destino", utilizo la fórmula

= BUSCARV (A2; Datos $ A $ 2. Datos $ Z $ 1000; 26; 0).

buscará el contenido de la celda A2 de mi hoja actual en la primera columna indica el área I (A2 -> Z1000), de manera que la columna A es que las direcciones URL, y una vez que el valor encontrado, me conviene devolver el valor de la columna 26 columnas a la derecha (columna Z aquí) la columna del "nivel": entonces consigo el nivel de profundidad de cada una de las páginas interiores que participan en mis prisiones.

Última operación, vamos a filtrar los enlaces para mantener sólo aquellos con "nivel" de la fuente es directamente debajo del punto de destino (mediante la creación de una fórmula que contiene colone

= (B2 + 1 = D2)

y mantener sólo las filas cuya célula es "TRUE").

más vamos a borrar la tabla de enlaces Gephi a utilizar estos nuevos datos como "mesa de enlace", y jugar un poco con los algoritmos espaciales, obtenemos una representación completamente diferente:



Aquí, dos cosas son rápidamente destacaron:

  • La mayoría de las páginas se descubren a través de la página de mapa del sitio (el gran redondel central verde en el centro del bloque);
  • Muchas páginas no están ligados: son páginas descubrimientos a través de las etiquetas "canónicos" o páginas cuyas URL contener parámetros que he suprimido para ejecutar diferentes fórmulas). Cabe aquí probablemente adaptar nuestras fórmulas para dar cuenta de estos casos. Sin embargo, se identificaron una fuente potencial de problemas: las páginas no canónicos directamente o muchos de paginación (el parámetro suprimirse en relación con una paginación) que se rastree e indexe.

En caso de que no se elimina el parámetro de búsqueda, es también por este punto de vista se puede identificar canales de búsqueda (como largas cadenas de nodos), o "trampas" para el robot (generaciones muchas de las páginas dinámicas que no devuelven ningún contenido (incluso la identificación gráfica que las cadenas de paginación)).

Una vez más, esto también es identificable en la lectura de los datos de rastreo, pero no necesariamente como de inmediato, y se puede utilizar para ilustrar la situación de su cliente.

Conclusión

Se lograron los objetivos iniciales: podemos identificar los problemas directamente de visualizaciones, e ilustrar a nuestros clientes para entender mejor.

Está claro que contra Cocon.Se pone mucho más las cosas hacia adelante, especialmente para todos los problemas de "fuga" capullos semánticas: aquí podemos obtener un resultado que se acerca la observación de los colores que intervienen en cada grupo, porque las clases modulares deben corresponder normalmente a los capullos.

Dicho esto, los resultados obtenidos por nuestro método nos encontramos hoy en día, aunque los técnicos de agradecimiento Cocon.Se por empujarme a mano Gephi visualización de la pregunta fundamental.

Si usted tiene otras ideas de análisis o visualización, por favor hágamelo saber!

No hay comentarios:

Publicar un comentario en la entrada