Análisis de redes sociales: Internet

Mostrando entradas con la etiqueta Internet. Mostrar todas las entradas

jueves, 7 de diciembre de 2017

Análisis de datos y sitios para funciones de SEO

SEO: cómo los datos pueden revelar errores y oportunidades ...
Virgile Juhan | JDN

La explotación de datos para mejorar el SEO fue uno de los principales temas de SEO Camp'us. Al final del día, dos retroalimentaciones instructivas, incluida la de Priceminister..

La explosión de datos también concierne a los SEO, y la explotación de este depósito de información está comenzando a madurar y tiene un fuerte impacto en la gestión del SEO. Esta es una de las lecciones que se pueden aprender de SEO Camp'us, el evento estrella de SearchBridge el 9 y 10 de marzo de 2017, del cual JDN fue socio.

"Los datos pueden provenir de Google y sus herramientas, como su webmaster. Pero también hay herramientas de terceros, tales Botify, Yooda o Majestic que puede proporcionar aún más datos. Cruzarlos a continuación, utilizando todos estos datos se utiliza para salir de una lógica empírica para la construcción de las estrategias impulsadas por datos-, "observó Olivier Tassel, consultor de NetBooster en su precisión en base a este tema de la conferencia (" empíricamente SEO a SEO de datos centrada en cómo su estrategia corporativa en 2017? "). Este especialista también señala que todos estos datos pueden ser monitorizados con soluciones personalizables de cuadros de mando muy flexibles y potentes, además de código abierto, como Superserie, desarrollado por Airbnb. Arriba: hábilmente explotados todos estos datos se pueden alimentar los sistemas de aprendizaje automático, y por lo tanto abierto a la senda predictiva.

Un DataViz para la detección de un fallo de funcionamiento

Para tomar un ejemplo la primera base, los datos de una herramienta útil SEO pueden ser explotadas por una solución DataViz para extraer rápidamente la atención a un problema importante. El caso fue presentado por Simon Georges, consultor de Makina Corpus. Este experto SEO Drupal y utilizó por primera vez el rastreo Screaming Frog herramienta para navegar por un sitio como Google haría. Gritando rana está en la lista que incluye las direcciones URL visitadas dentro de este sitio web. entonces esta lista se ha subido a la herramienta DataViz Gephi de código abierto. Y luego, sorpresa: si el sitio se supone que tiene tres secciones, una cuarta apareció muy claramente en el gráfico. la respuesta del propietario del sitio: "se ve como un tumor". Y eso es todo, de hecho.

DataViz realizado por Gephi que muestra 4 colores correspondientes a las cuatro partes de un sitio ... que se supone que hace que el recuento 3! © Simon Georges

Lo que pasa es que el sitio de la casa incluye un calendario de eventos. En esta agenda, no eran tan absolutamente clásico, un enlace "próximo mes" y "mes anterior". El rastreador se vio envuelto en un sinfín de estos enlaces. Volvió décadas atrás, y lo mismo antes. Esta es la cuarta sección del sitio, que aparece muy visual (púrpura aquí-contra) en Gephi, y por lo tanto en realidad corresponde a ... un calendario. "Luego, cuando se estudió el verdadero rastreo robot de Google, se confirmó que estaba tomando exactamente el mismo camino que el robot Screaming Frog. Por lo tanto, Google desperdiciando su tiempo para rastrear páginas sin ningún interés, mientras que para otras páginas con un gran potencial de SEO fueron descuidados o no del todo exploradas", lo que lleva Simon Georges.

SEO predictivo en PriceMinister

También hay ejemplos mucho más avanzadas en el campo de la minería de datos, predictivo y tendiendo a. SEO Priceminister Cecile Beroni, ha compartido su trabajo en el campo de datos grandes. Su entorno es uno de los sitios con alto volumen, un sitio con no menos de 24 millones de páginas, incluyendo 17 millones indexadas en Google. Por supuesto, SEO es altamente estratégica, con 30 a 40% de las visitas SEO (excluyendo consultas decir "marca", navegación).

Cécile Beroni, Priceminister SEO para SEO Camp'us © 2017 JDN

"Queríamos utilizar los primeros datos disponibles para mejorar la indexación de Google. El propósito era específicamente para aumentar el número de páginas indexadas o mejorar la rotación de URL rastreadas," resume SEO. Para este primer proyecto, el rastreo de Google es estudiado en profundidad, y cambios en el sitio para ayudar a guiar robots de Google ayudaron mucho mejor predecir qué páginas serán cubiertos. Un algoritmo de casa, confidencial, se ha desarrollado.

"Ahora sabemos que el 80% de las URL que Google rastree, mientras que en el principio era el 61%," dice SEO. "Al final, el número de páginas que se arrastró en realidad no ha aumentado. Especialmente la rotación viajó URL que ha sido mejorado." PriceMinister puede entonces "empujar" y almacenar millones de URL estratégicas - una cifra que tiende a limitar su caché solución sin barniz. "Anteriormente, Google podría obtener más de seis meses para recorrer todo el catálogo, ahora Google puede tener acceso a un mayor número de direcciones URL en un tiempo bastante corto. Este fue nuestro principio", recuerda Cécile Béroni.

Luego fue el blanco de una mejor predicción de palabras clave estratégicas "las principales palabras clave",. Para este proyecto, el sitio era capaz de confiar en un equipo interno (SEO, inteligencia de negocios, grandes volúmenes de datos), sino también en un proveedor de servicios externo, Authoritas, que proporciona gran cantidad de datos. Entre ellos: las palabras clave sobre la que se colocan Priceminister con su volumen de búsquedas y competidores que también están en sus resultados de búsqueda, entre otros. "Era necesario poner de relieve las oportunidades", dijo Seo. Ellos tomaron la forma de una lista bastante cruda de 2,4 millones de palabras clave que podrían apuntar sitio de comercio electrónico.

"A continuación, tuvo que trabajar en la lista, respondiendo a varias preguntas: ¿Tenemos el producto afectado por palabra clave ¿Cuál es la competencia para esa palabra clave, la presencia de Google Shopping también puede dar pistas interesantes de este tema ", detalla el empleado PriceMinister. Una vez que estos filtros producen, 1,4 millones de nuevas páginas de destino fueron creados o mejorados. El resultado anunciado por el sitio del comerciante es espectacular: 40% más de visibilidad en los resultados de reensamblaje de Google, según la herramienta de Searchmetrics.

viernes, 3 de marzo de 2017

Darknet es más solido estructuralmente que la Internet abierta

Sinopsis: ¿Por qué el Darknet es robusto?
Physics

La teoría de redes explica por qué una parte insondable de Internet utilizada para intercambios anónimos es particularmente resistente a las fallas y ataques.

M. De Domenico y A. Arenas, Phys. Rev. E (2017)

Darknet es una red oculta de servicios web accesibles únicamente a través de protocolos que garantizan la privacidad y el anonimato. Debido a que se utiliza para fines delicados ya veces ilícitos -desde las ventas de medicamentos hasta el intercambio de artículos fuera de los pagos de los editores- el Darknet es un blanco frecuente de ataques cibernéticos. El hecho de que estos ataques hayan fracasado generalmente podría ser debido a la topología única de la red oculta, según Manlio De Domenico y Alex Arenas en la Universidad Rovira i Virgili de Tarragona, España. Los investigadores utilizaron la teoría de redes para analizar el Darknet, encontrando que su red descentralizada de "nodos" lo hacen más resistente al ataque en comparación con el resto de Internet.

Basándose en datos del Internet Research Lab de la Universidad de California, Los Angeles, el equipo caracterizó la topología de Darknet. A continuación, desarrollaron un modelo que describe la forma en que la información se transmite en Darknet con "onion routing", una técnica que encapsula los mensajes en múltiples capas de cifrado. Este modelo permitió a los investigadores simular la respuesta de Darknet a tres tipos de perturbaciones: ataques dirigidos a nodos de red específicos, fallos aleatorios de algunos nodos y cascadas de fallos que se propagan a través de la red.

Su análisis muestra que, para causar grandes interrupciones, los ataques deben tener como objetivo 4 veces el número de nodos en el Darknet como en Internet. Además, los fallos en cascada se corrigen más fácilmente en Darknet mediante la adición de capacidad de red. Los autores atribuyen esta resistencia a la topología relativamente descentralizada de Darknet, que surge espontáneamente del uso de protocolos de enrutamiento de cebolla. Por el contrario, Internet tiene una estructura más heterogénea, consistente en centros altamente interconectados que proporcionan estabilidad pero también hacen que todo el sistema sea potencialmente vulnerable.

Esta investigación va a ser publicada en Physical Review E.

domingo, 24 de julio de 2016

Taxonomía de estructuras de comunidades en grandes redes

La caracterización de la estructura de la comunidad de las redes complejas

Andrea Lancichinetti, Mikko Kivelä, Jari Saramäki, Santo Fortunato
Publicado: 12 de agosto de 2010 | http://dx.doi.org/10.1371/journal.pone.0011976

Resumen

Trasfondo
La estructura de la comunidad es una de las propiedades fundamentales de las redes complejas y desempeña un papel crucial en su topología y función. Mientras que una cantidad impresionante de trabajo se ha hecho sobre la cuestión de la detección de la comunidad, muy poca atención se ha dedicado hasta ahora a la investigación de las comunidades en las redes reales.
Metodología / Principales conclusiones
Se presenta un análisis empírico sistemático de las propiedades estadísticas de las comunidades en la información general, la comunicación, tecnológicos, biológicos, y las redes sociales. Nos encontramos con que la organización mesoscópica de las redes de la misma categoría es notablemente similar. Esto se refleja en varias características de la estructura de la comunidad, que pueden ser utilizados como "huellas dactilares" de categorías específicas de la red. Mientras que las distribuciones de tamaño de la comunidad son siempre amplio, ciertas categorías de redes consisten principalmente en las comunidades en forma de árbol, mientras que otros tienen módulos más densos. ruta longitudes medias dentro de las comunidades inicialmente crecen logarítmicamente con el tamaño de la comunidad, pero se satura el crecimiento se ralentiza o para las comunidades más grandes que un tamaño característico. Este comportamiento está relacionado con la presencia de los centros dentro de las comunidades, cuyas funciones difieren entre categorías. También la inserción comunitaria de nodos, medido en términos de la fracción de enlaces dentro de sus comunidades, tiene una distribución característica para cada categoría.
Conclusiones / Importancia
Nuestros resultados, verificados por el uso de dos métodos de detección comunidad fundamentalmente diferentes, permiten una clasificación de las redes reales y allanan el camino a un modelado realista de la evolución de redes '.

Introducción

La moderna ciencia de los sistemas complejos ha experimentado un avance significativo después del descubrimiento de que la representación gráfica de este tipo de sistemas, a pesar de su simplicidad, revela un conjunto de características cruciales que son suficientes para revelar sus propiedades, función y evolución mecanismos estructurales generales [1] - [ 8]. Que representa un sistema complejo como un grafo que significa convertir las unidades elementales del sistema en los nodos, mientras que los enlaces entre nodos indican sus interacciones o relaciones mutuas. Muchas redes complejas se caracterizan por una amplia distribución del número de vecinos de un nodo, es decir, su grado. Esto es responsable de las propiedades peculiares tales como alta robustez frente a fallos aleatorios [9] y la ausencia de un umbral para la propagación de epidemias [10].

Otra característica importante de las redes complejas está representado por su estructura mesoscopic, caracterizado por la presencia de grupos de nodos, denominados comunidades o módulos, con una alta densidad de enlaces entre los nodos de un mismo grupo y una relativamente baja densidad de enlaces entre los nodos de diferentes grupos [11] - [14]. Esta organización compartimental de las redes es muy común en los sistemas de origen diverso. Ya se comentó en la década de 1960 que una estructura modular jerárquica es necesario para la robustez y estabilidad de los sistemas complejos, y les da una ventaja evolutiva [15].

La exploración de las comunidades de la red es importante por tres razones principales: 1) para revelar organización de la red a un nivel grueso, lo que puede ayudar a formular mecanismos realistas para su génesis y evolución; 2) para entender mejor los procesos dinámicos que tienen lugar en la red (por ejemplo, los procesos de innovación y epidemias), que pueden verse afectados considerablemente por la estructura modular del grafo de difusión; 3) para descubrir relaciones entre los nodos que no son aparentes mediante la inspección de la gráfica como un todo y que por lo general se pueden atribuir a la función del sistema.

Por lo tanto, no es sorprendente que los últimos años han sido testigos de una explosión de investigación sobre la estructura de la comunidad en los grafos. El problema principal, por supuesto, es la forma de detectar las comunidades, en primer lugar, y este es el punto esencial empujón por parte de la mayoría de los artículos sobre el tema que han aparecido en la literatura. Un gran número de métodos y técnicas se han diseñado, pero la comunidad científica todavía no ha acordado cuáles son los métodos más fiables y cuando un método deben o no deben ser adoptadas. Esto es debido al hecho de que está mal definida el concepto de comunidad. Dado que la atención se ha centrado en el desarrollo del método, muy poco se ha hecho hasta ahora para abordar una cuestión fundamental de este esfuerzo: ¿qué comunidades en redes reales parecen? Esto es lo que vamos a tratar de evaluar en este documento.

Investigaciones anteriores han demostrado que a través de una amplia gama de redes, la distribución de tamaños de la comunidad es amplio, con muchas pequeñas comunidades que coexisten con algunos otros mucho más grandes [12], [16] - [19]. La cola de la distribución puede ser a menudo bastante bien equipado por una ley de potencia. Leskovec et al. [20] han llevado a cabo una investigación exhaustiva de la calidad de las comunidades en las redes reales, medido por la puntuación de la conductancia [21]. Encontraron que la conductancia más bajo, lo que indica módulos bien definidos, se alcanza a las comunidades de un tamaño característico de los nodos, mientras que las comunidades mucho más grandes son más "mezclarse" con el resto de la red. Por esta razón se sugiere que la organización mesoscopic de redes puede tener una estructura de núcleo-periferia, donde la periferia se compone de pequeñas comunidades bien definidas y el núcleo comprende módulos más grandes, que están conectados más densamente entre sí y por lo tanto más difícil de detectar. Guimerá y Amaral han propuesto una clasificación de los nodos basados en sus roles dentro de las comunidades [22].

Sin embargo, las propiedades fundamentales de las comunidades en las redes reales siguen siendo en su mayoría desconocidos. El descubrimiento de estas propiedades es el objetivo principal de este trabajo. Con este fin, hemos realizado un extenso análisis estadístico de la estructura de la comunidad de muchas redes reales de la naturaleza, la sociedad y la tecnología. La principal conclusión es que las comunidades se caracterizan por rasgos distintivos, que son comunes para las redes de la misma clase, pero que difieren de una clase a otra. Cabe destacar que dicha caracterización es independiente del método específico adoptado para encontrar las comunidades.

Métodos

Como nuestro objetivo es estudiar las características estadísticas de las comunidades, es necesario emplear conjuntos de datos en las redes grandes que contienen un gran número de comunidades de tamaño variable. Nuestros conjuntos de datos contienen los nodos, con excepción de las redes de interacción de proteínas (PIN), donde los más grandes conjuntos de datos disponibles son del orden de los nodos.

La Tabla 1 enumera los conjuntos de datos de red que hemos utilizado, junto con algunas estadísticas básicas. La mayoría de ellos han sido descargados de la red grande de conjunto de datos de la colección de Stanford (http://snap.stanford.edu/data/). Algunas redes están dirigidas originalmente (por ejemplo, el grafo de la web), pero los hemos tratado como no dirigida. Para más detalles sobre todas las redes se pueden encontrar en el Apéndice S1.

Table 1. Lista de datos de red usadas para el análisis

En general, hemos tenido en cuenta cinco categorías de redes:

Redes de comunicación. Esta clase comprende la red de correo electrónico de una gran institución europea de investigación, y un conjunto de relaciones entre los usuarios de Wikipedia que se comunican a través de sus páginas de discusión. Tenga en cuenta que en los dos casos, la comunicación no es necesariamente personal, sino que implica, por ejemplo, correos electrónicos en masa, y por lo tanto estas redes no se puede considerar como redes sociales.
Internet. Aquí tenemos dos mapas de Internet a nivel de sistemas autónomos (AS) (es decir, los nodos son grupos de enrutadores administrados por una sola entidad), producidas por los dos principales proyectos que exploran la topología de Internet: CAIDA (http: // www .caida.org /) y diez centavos (http://www.netdimes.org/).
Redes de información. Esta clase incluye una red cita de pre-impresiones en línea en www.arxiv.org, una red de co-compra de los artículos vendidos por www.amazon.com y dos muestras de la gráfica Web, uno en representación de la berkeley.edu dominios y stanford.edu ( web-BS), y el otro fue lanzado por Google (web-G).
Redes biológicas. Esta clase contiene los conjuntos de interacciones entre proteínas de tres organismos: mosca de la fruta (Drosophila melanogaster), levadura (Saccharomyces cerevisiae) y el hombre (Homo sapiens).
Redes sociales. Aquí hemos considerado cuatro conjuntos de datos: una red de relaciones de amistad entre los usuarios de la comunidad en línea LiveJournal (www.livejournal.com); el conjunto de las relaciones de confianza entre los usuarios del sitio epinions.com opinión de los consumidores; la red de amistad de los usuarios del slashdot.org; la red de los usuarios de friedship www.last.fm.

El problema de la elección de un método para la detección de las comunidades es muy delicada. En primer lugar, se necesitan algoritmos muy eficiente, debido a que las redes que estudiamos son grandes. Este requisito excluye la mayoría de los métodos existentes. En segundo lugar, como se mencionó anteriormente, no existe un acuerdo común sobre un método de detección de la comunidad para todo uso. Esto se debe a la ausencia de una definición compartida de la comunidad, que se justifica por la naturaleza del problema en sí. En consecuencia, existe también la arbitrariedad en la definición de los procedimientos de ensayo fiables para los algoritmos. Sin embargo, existe un amplio consenso sobre la definición de comunidad originalmente introducido en un artículo de Condon y Karp [23]. La idea es que una red tiene comunidades si la probabilidad de que dos nodos de una misma comunidad están conectados excede la probabilidad de que los nodos de diferentes comunidades están conectados. Este concepto de comunidad se ha implementado para crear clases de grafos de referencia con las comunidades, tales como los introducidos por Girvan y Newman [11] y los grafos diseñados recientemente por Lancichinetti et al. [24], que integran al índice de referencia Girvan y Newman con distribuciones realistas de grado y el tamaño de la comunidad (LFR referencia). Investigaciones recientes indican que algunos algoritmos funcionan muy bien en el punto de referencia LFR [25]. En particular, el método introducido por Infomap Rosvall y Bergstrom [26] tiene una destacada actuación, y también es rápido y por lo tanto adecuado para grandes redes. Sin embargo, como todos los métodos de detección comunidad tiene su propio "sabor" y la preferencia hacia el etiquetado de determinados tipos de estructura de las comunidades, depender de un solo método no es suficiente si las conclusiones generales sobre la estructura de la comunidad deben ser presentados. Por lo tanto hemos verificado de forma cruzada los resultados obtenidos por Infomap con los producidos por un algoritmo muy diferente, la etiqueta de Propagación Método (LPM), propuesto por Leung et al. [27]. Este último ha demostrado ser fiable en el punto de referencia LFR y también es lo suficientemente rápido para manejar los sistemas más grandes de nuestra colección. Las descripciones detalladas de Infomap y la LPM se dan en el Apéndice S1. Aquí acabamos de señalar las profundas diferencias entre las dos técnicas. Infomap es un método de optimización global, que tiene como objetivo optimizar una función que expresa la calidad de la longitud del código de un paseo aleatorio de longitud infinita que tiene lugar en el grafo. El LPM es un método local, donde los nodos se atribuyen a la misma comunidad donde la mayoría de sus vecinos son. Las particiones obtenidos por ambos métodos para la misma red están en diferente general. Sin embargo, las características estadísticas generales de la estructura de la comunidad no parecen depender mucho de los detalles de las particiones. En lo que sigue, sólo se presentaron los resultados Infomap; para LPM, véase el Apéndice S1.

Resultados

Comenzamos el análisis por discutir brevemente la distribución de tamaños de la comunidad (Fig. 1). Vemos que, como era de esperar, para cada sistema hay una amplia gama de tamaños de la comunidad, que abarca varios órdenes de magnitud para los sistemas más grandes. Esto está de acuerdo con estudios anteriores [12], [16] - [19]. Las formas generales de las distribuciones son sistemas similares a través de la misma clase. Las distribuciones de las redes biológicas muestran las diferencias más grandes, que, sin embargo, es probable que el resultado de ruido como las redes son más pequeñas. Para las redes biológicas, el análisis realizado con el LPM muestra ligeramente diferentes distribuciones, así superpuestos (véase el Apéndice S1).

Figura 1. Distribución de tamaños de la comunidad.
Todas las distribuciones son amplios, y similar para los sistemas de la misma categoría. Los puntos de datos son promedios dentro de contenedores logarítmicas del tamaño del módulo.

A continuación, nos dirigimos a la topología de las comunidades, y estudiamos la densidad de enlace de las comunidades y su dependencia del tamaño de la comunidad. La densidad de enlace de un subgrafo se define como la fracción de enlaces existentes a posibles enlaces,

donde

es el número de sus enlaces internos y su tamaño se mide en los nodos. Aquí, utilizamos la densidad de enlace a escala

, que también equivale aproximadamente al grado promedio interna de nodos en la comunidad. Hemos elegido esta medida, ya que señala claramente la naturaleza de subgrafos. Para los árboles, siempre hay

enlaces, y por lo tanto

. Por otro lado, para cliques completo

y por lo tanto

.

La Figura 2 muestra el promedio de las densidades escalados de enlaces

como función del tamaño de la comunidad para diferentes redes. Las líneas discontinuas indican los casos límite (

). Vemos que las densidades de enlace en las redes de comunicación e Internet son muy cerca del límite inferior, lo que significa que sus comunidades son en forma de árbol y contienen pocos o ningún bucle. En las redes de comunicación, la densidad de enlace reducido no depende del tamaño de la comunidad, mientras que en los grafos de grandes comunidades de Internet parecen algo más densa. Redes en estas dos clases son los más escasa en nuestra colección, como su muy pequeño grado medio indica que en general no son mucho más densos que los árboles (ver Tabla 1). Cabe señalar que, en general, la vista intuitiva en las comunidades es que son "denso" en comparación con el resto de la red. Sin embargo, como los métodos aplicados aquí producen particiones, las comunidades de una red en forma de árbol son también necesariamente árbol similar. Contrariamente a lo anterior, las redes de información mucho más denso revelan una imagen diferente, donde las comunidades son bastante objetos densos, con la densidad de escala creciente con s. Especialmente en la red de Amazon, las comunidades con

son casi camarillas. Las redes sociales muestran aún otro patrón: la densidad de escalado de los módulos crece bastante regularmente con el tamaño, aproximadamente como una ley de potencia. Comunidades en las redes sociales son en su mayoría muy lejos de los dos casos límite: son más densos que los árboles, pero mucho más escasa que camarillas, con la excepción de las pequeñas comunidades que aparecen más árbol similar. Por último, las redes biológicas se caracterizan por dos regímenes: para

, las comunidades son muy similares a árboles; para valores más grandes de s la densidad escalada aumenta con s. En la Figura 3 se ilustran las comunidades características de las clases de red.

Figura 2. Densidad escalada de enlaces de las comunidades como una función del tamaño de la comunidad.
Las redes de comunicación e Internet consisten esencialmente de las comunidades de árboles similares, mientras que las comunidades de redes sociales e información son mucho más denso. Pequeños módulos en redes biológicas son a menudo árbol similar, mientras que los módulos de mayor tamaño son más densos. Los puntos de datos son promedios dentro de contenedores logarítmicas del tamaño del módulo s.

Figura 3. Ejemplos visualizada de las comunidades en las redes de diferentes clases.
Las redes de comunicación (a: correo electrónico, b: Wiki Discusión) contienen comunidades muy dispersas con cubos en forma de estrella. Estos centros dan lugar a muy bajo longitudes de camino más corto dentro de las comunidades (ver Fig. 2). cubos parecidos a estrellas también están presentes en las comunidades de Internet (C: Dimes, d: Caida), que son relativamente escasas también. La comunidad CAIDA muestra una estructura de "estrellas fusionado" bastante típico de estas redes (véase el Apéndice S1). Por el contrario, las redes de información contienen densas comunidades hasta grandes camarillas (e: Amazon, f: Web-BS). En las redes biológicas, cuanto mayor sea la comunidad, menos del árbol-como es (g: D. melanogaster, h: H. sapiens). Por último, las comunidades en las redes sociales aparecen en promedio bastante homogénea (i: Slashdot, j: Epinions).

La compacidad de las comunidades se puede medir utilizando la longitud del camino más corto promedio dentro de cada comunidad. Higo. 4 muestra los valores medios de en función del tamaño de la comunidad. Para todas las redes, las longitudes medias camino más corto son muy pequeñas, con la excepción de las redes sociales. Curiosamente, todas las parcelas revelan el mismo patrón básico, con independencia de la clase de red. Para las comunidades muy pequeñas, crece aproximadamente como el logaritmo del tamaño de la comunidad (indicado por la línea de puntos), que es la propiedad "mundo pequeño" se observa típicamente en redes complejas [28]. Llamamos a estos módulos microcomunidades. Para los tamaños del orden de, sin embargo, el aumento de repente se vuelve menos pronunciada, y varias curvas de alcanzar una meseta. Los módulos con nodos son macrocommunidades. La estabilización de la longitud del camino más corto medio en macrocommunidades se puede atribuir a la presencia de nodos con alto grado, es decir, cubos, que hacen caminos geodésicos en promedio corto. Hacemos notar que, dado que la mayoría de nuestros sistemas tienen grado distribuciones amplias, más cortas longitudes de paso son muy cortos [29], pero la brusca transición que observamos es inesperada y aparece como una característica completamente nueva.

Figura 4. El camino más corto promedios de duración dentro de las comunidades como una función del tamaño de la comunidad.
Después de un régimen inicial logarítmica "mundo pequeño" (línea de trazos en diagonal), el camino más corto promedio crece mucho más lento o se satura para las comunidades con nodos (línea punteada vertical). Los puntos de datos son promedios dentro de contenedores logarítmicas de tamaño del módulo.

Para las redes de comunicación, hay una meseta con

para

. A medida que estas comunidades son en forma de árbol, esto indica que tienen una estructura semejante a una estrella donde la mayoría de los nodos están conectados a un concentrador central única y por lo tanto es igual a dos su distancia. Para las redes de Internet, la presencia conjunta de baja densidad y baja distancias también significa que los cubos dominan la estructura - aquí, estructuras "-combinado de la estrella" que consta de dos o más ejes que comparten muchos de sus vecinos fueron observados (véase la figura 3d.). Esta estructura garantiza una comunicación eficiente entre las unidades de los sistemas. Por el contrario, la información, social, y redes biológicas tener una densidad más alta y por lo tanto sus longitudes de trayectoria cortas son debido tanto a la densidad y la presencia de concentradores. Hubs juegan un papel menor en las redes sociales, ya que las longitudes medias camino más corto siguen aumentando poco a poco también para grandes.

La imagen de arriba se ve corroborada por la Fig. 5, que muestra la relación entre la máxima observada grado interna en la comunidad de nodos

como una función del tamaño s de la comunidad. Esta relación es igual a la unidad, si cualquier nodo está conectado a todos los otros nodos de su comunidad, y por lo tanto se cuantifica el predominio de los mayores centros dentro de las comunidades. Para las redes de comunicación,

es cercano a la unidad, incluso para los s grandes, de acuerdo con las observaciones anteriores sobre las comunidades en forma de estrella. Para Internet, esta cantidad disminuye con un poco, ya que las comunidades pueden contener varios concentradores que no se conectan a todos los demás nodos. En las redes de información, hay algunas diferencias. En los grafos Web, las comunidades más grandes contienen nodos de conexión (casi) toda la comunidad. A medida que la densidad de borde en estas comunidades es alta, puede haber varios de estos nodos - en una pandilla, todos los nodos tienen grado

. Para las redes biológicas y sociales, hay una tendencia a la baja. Sobre todo en las redes sociales, hay pocas o ninguna centros dominantes en grandes comunidades. Estamos observación de que el acuerdo entre las curvas de la figura. 5 es más cualitativo que cuantitativo (sobre todo para las redes sociales y biológicas), en desacuerdo con otras firmas. Esto se debe a las parcelas se refieren a las propiedades de una clase muy restringido de nodos "extremales", es decir, de los centros de la comunidad. Por lo tanto, por una parte, el ruido de las curvas es más grande. Por otro lado, los métodos de detección de la comunidad tienen diferentes maneras de tratar a los centros: mientras que los métodos generalmente tienden a ponerlos "dentro de" comunidades, otros (como Infomap) de vez en cuando les ponen "entre" comunidades.

Figura 5. La máxima observada grado interno de nodos como una función del tamaño de la comunidad.
Esta cantidad es igual a uno si cualquier nodo está vinculado a todos los demás nodos de su comunidad, y por lo tanto cuantifica el predominio de los centros dentro de las comunidades.

Veamos próxima a echar un vistazo más de cerca a la relación entre los nodos individuales y estructura de la comunidad. Aquí, la propiedad más natural para investigar es el grado interno

, que indica el número de vecinos de un nodo en su comunidad. Medimos la incrustación de un nodo en su comunidad con la relación

, que caracteriza el grado en que el vecindario del nodo pertenece a la misma comunidad que el propio nodo. La distribución de probabilidad de la relación de arraigo de todos los nodos de sus respectivas redes se muestra en la Fig. 6. Uno directamente puede suponer que, en promedio, el arraigo de nodos sería bastante grande, y una fracción sustancial de sus vecinos deben residir dentro de sus respectivas comunidades. Sin embargo, la Fig. La figura 6 muestra un patrón más complejo, donde los valores

más pequeños de no son nada raro. Todas nuestras redes se caracterizan por una fracción sustancial de los nodos que son totalmente interna a sus comunidades, es decir, que no tienen enlaces a fuera de su comunidad y por lo tanto

. Estos corresponden a los puntos de datos más a la derecha en cada parcela, y tales nodos normalmente ascienden a más del 50% todos los nodos. Estos nodos tienen en su mayoría un bajo grado (por ejemplo, los grados-uno nodos conectados a hubs en las redes de comunicación). Redes en la misma clase siguen esencialmente un patrón muy similar. Las redes de comunicación e Internet tienen perfiles muy similares a futuro, donde la distribución tiene un pico alrededor de

. Las redes de información, en cambio, tienen un perfil bastante diferente, con un incremento suave inicial de llegar a una meseta en alrededor

. Las redes biológicas, a pesar de la inevitable ruido, también muestran una imagen consistente a través de conjuntos de datos. Ellos se asemejan algo a las redes de comunicación y de Internet, con una subida inicial hasta que

, seguido de un lento descenso para los valores más grandes. Las redes sociales tienen una distribución bastante plana en toda la gama, con pequeñas variaciones de un sistema a otro. Esto significa que hay muchos nodos con la mayor parte de sus vecinos fuera de su comunidad. La mayoría de las técnicas de detección de la comunidad, incluidos los que hemos adoptado, tienden a asignar a cada nodo de la comunidad, que contiene la mayor fracción de sus vecinos. Esto implica que si un nodo tiene sólo unos pocos vecinos dentro de su propia comunidad, que tendrá aún menos vecinos dentro de otras comunidades individuales. Dichos nodos actúan como "intermediarios" entre muchos módulos diferentes, y se comparten entre muchas comunidades en lugar de pertenecer a una única comunidad. Por lo tanto, sería más correcto para asignarlos a más de una comunidad. La superposición de las comunidades son conocidos por ser muy comunes en las redes sociales, y se han introducido técnicas especializadas para su detección [16], [30] - [35].

Figura 6. Distribución de probabilidad para ISA

, la fracción de los vecinos de un nodo que pertenece a su propia comunidad.
Redes en la misma clase presentan un comportamiento similar.

En el Apéndice S1 se investigan otras propiedades estadísticas de las comunidades.

Discusión

Desde el advenimiento de la ciencia de las redes complejas, su atención se ha desplazado desde la comprensión de la aparición y la importancia de las características a nivel de sistema para mesoscopic propiedades de las redes. Estos se manifiestan en las comunidades, es decir subgraphs densamente conectada. Las comunidades son ubicuos en las redes y por lo general juegan un papel importante en la función de un sistema complejo - módulos en las redes de interacción proteína-se refieren a funciones biológicas específicas, y las comunidades en las redes sociales representan el nivel fundamental de la organización en una sociedad. El doble problema de definir formalmente y detectar con precisión las comunidades ha atraído hasta ahora la mayor parte de la atención, a costa de una falta de comprensión de las propiedades estructurales fundamentales de las comunidades. Nuestro objetivo en este trabajo ha sido el de descubrir algunas de estas propiedades.

Nuestros resultados indican que las comunidades detectados en las redes de la misma pantalla clase características estructurales sorprendentemente similares. Esto es notable, ya que algunas clases son muy amplio y comprenden sistemas de diferente origen (por ejemplo, la clase de redes de información, que incluye grafos de citación, co-compra y la Web). El resultado se verifica mediante dos métodos de detección de la comunidad que son diferentes tanto partición-basan, pero se basan en principios completamente diferentes. De acuerdo con los resultados anteriores, las distribuciones de tamaño de la comunidad son amplios para todos los sistemas que hemos estudiado. densidades de enlace dentro de las comunidades dependen en gran medida de la clase de red. La longitud media de camino más corto muestra un comportamiento similar en todas las clases, en un principio aumentará de manera logarítmica en función del tamaño de la comunidad (microcomunidades) y luego la ralentización o la saturación de las comunidades de tamaño

(macrocommunities). En combinación con nuestros resultados en la densidad de enlace en las comunidades, el comportamiento de las longitudes de trayectoria revela un cuadro donde los nodos de alto grado son muy dominantes en las comunidades de ciertas clases (de comunicación, Internet) y juega un papel menos importante en la conectividad de los demás, especialmente redes sociales. Esta imagen se ve corroborada por el análisis de los grados internos en la comunidad máximas de nodos. Por último, también la distribución de probabilidad de la fracción de los enlaces internos para los nodos muestra una firma clara para cada una de las clases consideradas.

Las firmas que hemos encontrado son una especie de identificación de la red, y podrían utilizarse tanto para clasificar otros sistemas e identificar nuevas clases de red. Por otra parte, podrían convertirse en elementos esenciales de los modelos de red, con la ventaja de las descripciones más precisas de las redes reales y las predicciones de su evolución.

Aunque nuestros resultados se han obtenido utilizando dos métodos diferentes, sus méritos generales de validez alguna discusión. A medida que el concepto de "comunidad" es mal definido, todos los métodos para la detección de las comunidades se basa en una interpretación específica del concepto. Además, las filosofías subyacentes de los métodos pueden diferir en gran medida. Métodos que requieren que las comunidades son "local" muy densa, como camarilla percolación [16], detectaría sólo unas pocas comunidades en las redes de comunicación e Internet, ya que no tienen en cuenta los árboles o estrellas como comunidades - sin embargo, este resultado sería coherente para las redes de la misma clase. Por otra parte, es evidente que los métodos basados en particiones descuidar el hecho de que los nodos pueden participar en múltiples comunidades. Sin embargo, vale la pena señalar que cualquiera que sea el método utilizado, las comunidades resultantes son subgrafos reales de la red en estudio, es decir, sus bloques de construcción. Por lo tanto sus propiedades estadísticas reflejan la organización mesoscópicas de las redes, y nuestros resultados indican que esta organización es similar dentro de las clases de redes.

Un artículo muy reciente [36] ha llegado a una conclusión similar con un enfoque totalmente diferente, donde las taxonomías de redes se construyeron sobre la base de firmas derivadas de la modularidad de Newman y Girvan.

Referencias

domingo, 15 de septiembre de 2013

Netnografía

Netnografía

La Netnografía es un neologismo que aúna sus raíces etnográficas y la del estudio de grupos, comunidades o problemas en Internet como campo de investigación social.

No es aún una discplina científica autónoma y abarca métodos y técnicas propias de la sociología y la etnografía.¹ La opinión libre de individuos en Internet permite al investigador acceder a datos provenientes de miles de individuos actuando libre y espontáneamente, lo que supone un aumento exponencial respecto a técnicas de análisis como focus groups. Asimismo, permite al investigador mantener un registro de estas interacciones.

La investigación netnográfica se originó a finales de los años 90 con una aplicación restringida al ámbito académico. Se cree que el término fue empleado por vez primera por R.V. Kozinets en 1997. En los años posteriores al 2000 se desarrollaron los primeros servicios de investigación netnográfica.

En cuanto al valor de la información netnográfica, datos recientes sugieren que los individuos dialogando en Internet sobre marcas y productos tienden a poseer un conocimiento en profundidad de las temáticas sobre las que hablan.² Bien sea de coches, alimentación infantil o productos bancarios, las personas que dialogan en Internet poseen un interés y un conocimiento sumamente interesante para los responsables de marketing. Investigadores como R.V. Kozinets,³ sostienen que el nivel de conocimiento de estos usuarios regulares de productos puede llegar a superar el de los propios ingenieros que han desarrollado esos productos. De igual forma, estos mismos investigadores resaltan que los fans de marca que hablan en Internet sobre la comunicación de sus marcas favoritas ofrecen un imput diferencial a los responsables de comunicación. Su diálogo tiende a ofrecer datos más cercanos a la realidad que técnicas tradicionales en cuanto a repercusión de campañas pasadas. Asimismo se sostiene que ofrecen un valor diferencial a la hora de proveer de mensajes y canales más efectivos de instrumentalización de campañas.

Para otros autores como Miguel del Fresno⁴ la Netnografía es una disciplina aún en construcción y heredera de disciplinas clásicas como la antropología social y cultural, la sociología e incluso de la psicología con el objetivo de entender la realidad social que se está produciendo en el contexto online donde millones de personas conviven, se expresan e interactúan a diario. Esta propuesta es menos restringida que la de Kozinets puesto que no se limita a una aproximación orientada al marketing sino que es transversal a las Ciencias Sociales y, por tanto abierta a la investigación social, como por ejemplo la investigación netnográficas de los climas de opinión alrededor de los medicamentos y su aceptabilidad social⁵

Véase también

Wikilibros alberga un libro o manual sobre La Netnografía: Un Método de Investigación en Internet.

Referencias

Jump upDel Fresno, Miguel (2011) Netnografía. Investigación, análisis e intervención social. Editorial UOC, 1ª edición, Barcelona, España ISBN 978-8497883856
Jump upKozinets, Robert V. (2010), Netnography: The Marketer’s Secret Weapon; White Paper.
Jump uphttp://kozinets.net/
Jump uphttp://migueldelfresno.com/
Jump upDel Fresno, Miguel; López-Pelaez, Antonio (2012) Innovación, riesgo y sostenibilidad: la estrategia de deslegitimación social de los medicamentos genéricos, Sistema: Revista de ciencias sociales, nº 227, pp. 3-22 ISSN: 0210-0223

Wikipedia

Páginas

jueves, 7 de diciembre de 2017

Análisis de datos y sitios para funciones de SEO

Un DataViz para la detección de un fallo de funcionamiento

SEO predictivo en PriceMinister

viernes, 3 de marzo de 2017

Darknet es más solido estructuralmente que la Internet abierta

domingo, 24 de julio de 2016

Taxonomía de estructuras de comunidades en grandes redes

Resumen

Trasfondo

Metodología / Principales conclusiones

Conclusiones / Importancia

Introducción

Métodos

Resultados

Discusión

Referencias

domingo, 15 de septiembre de 2013

Netnografía

Véase también

Referencias