Mostrando entradas con la etiqueta seguidores. Mostrar todas las entradas
Mostrando entradas con la etiqueta seguidores. Mostrar todas las entradas

sábado, 4 de febrero de 2017

Hints: Ampliando la memoria de Gephi para procesar redes grandes

Cómo ampliar las capacidades de procesamiento de Gephi

Grupo de Facebook Gephi

Consulta al grupo

¿Cómo calcular la modularidad en redes grandes? Mi red tiene 240 mil nodos y 57 millones de enlaces. La exploración funciona bien, pero cuando intento calcular la modularidad consigo el mensaje de la memoria.
¿Hay una forma menos intensiva de recursos para calcular la modularidad fuera de Gephi? ¿O es Gephi ya la opción más eficiente y necesito actualizar mi equipo o usar algún servicio en la nube?
Actualización: Aumentar el límite de memoria más allá de la RAM disponible funcionó. Más soluciones en los comentarios.



Respuesta 1

El kit de herramientas de Gephi sería más indicado aquí. En otras palabras, usted necesita la codificación sin una interfaz gráfica de usuario creo.

Respuesta 2

No es una idea muy especial, pero ampliar la RAM con un poco más de GB también podría ayudar.

  • Ya se ha actualizado a 32 GB y no quedan huecos. Probablemente mejorará la computadora antes de reemplazar los memorias DDR3.

Respuesta 3

1. Puede intentar subir la memoria en el archivo de configuración de Gephi en etc / gephi.conf simplemente estableciendo el límite de memoria a 100 GB o incluso más alto. Incluso si usted no tiene esa cantidad de RAM instalada físicamente en su computadora, los cálculos de modularidad pueden ser terminados en un tiempo razonable. He publicado algunos detalles anteriormente en este post:

2. Podría probar el software iGraph. Sin embargo, se requiere experiencia en programación. Tiene bibliotecas C / C ++, Python y R disponibles. Se debe googlear "igraph louvain". En todos los paquetes de R / C / Python hay múltiples algoritmos de computación de modularidad - el método de Lovaina es el mejor. Sin embargo, cada biblioteca utiliza un nombre diferente para el método. En el paquete Python se llama community_multilevel, en C es igraph_community_multilevel, y en R cluster_louvain.

No he usado iGraph yo mismo pero parece bueno. Examinar la documentación también muestra que puede importar y exportar el formato de archivo de Gephi (GEXF al menos, probablemente otros también).

Google más acerca de iGraph + Gephi si tiene experiencia en programación.

3. Usted puede google para "Louvain método modularidad" para más implementaciones - He visto algunas implementaciones simples de C antes. El mayor problema suele ser la conversión entre diferentes formatos de archivo. Es extremadamente frustrante sólo para convertir archivos de entrada a un formato correcto, a continuación, la salida puede ser uno o más archivos. Entonces estos necesitan convertir de nuevo a Gephi. No es un enfoque recomendado!

El parámetro que utilizaría en etc / gephi.conf es "-Xmx100G". Obviamente es bueno entender cómo funciona la memoria del ordenador - no es sólo un número mágico para resolver todos los problemas de memoria.

La modificación de tutoriales de ejemplo de Gephi Toolkit también es bastante fácil si tienes experiencia previa en programación. Ya ha encontrado las partes necesarias en la sección de ejemplo. Ahora solo tendrías que conseguirlo para compilar y ejecutar - que puede ser tedioso si ocurren errores extraños. Después de la compilación de éxito + ejecutarlo debería ser bastante fácil incluso para un programador principiante para copiar y pegar los ejemplos de código relevantes de los ejemplos de Gephi Toolkit y obtener un ejecutable ejecutable Java sin cabeza. ¡Buena suerte!

Respuesta 4

Sólo se está quedando sin memoria porque el tiempo de ejecución de Java está limitando el tamaño de montón máximo. Una vez que el límite de memoria se eleva - incluso por encima de la RAM física instalada - el algoritmo puede ejecutarse. Si la memoria física se agota, el sistema operativo utilizará pagefile / swapfile / paging virtual que a menudo hace las cosas más lentas. La lentitud es causada por el sistema operativo escribiendo y leyendo cosas del disco en lugar de RAM. Hoy en día con rápidas SSD unidades esto no es necesariamente tan malo de un problema. Incluso si el disco era disco duro antiguo, el procesamiento podría continuar aunque sea más lento. Es fácil comprobar si funciona o no modificando el parámetro Xmx en etc / gephi.conf.

Respuesta 5

Haciendo swap es seguro, y sí las SSDs son agradables, pero aún órdenes de magnitud más lento que RAM. Sería bueno tener un análisis de la memoria necesaria antes de cambiar la configuración, si se tarda minutos, horas o lo que sea para ejecutar el cálculo. No tengo ni idea de la complejidad espacial de Louvain, ni de cuánto Gephi / JVM usa para vértices y aristas en este caso, o en general

Respuesta 6

¿Es su red ponderada o no - es decir, ¿tienen los enlaces con peso o fuerza? La cantidad de enlaces parece alta en contraste con la cantidad de nodos.

Si puede simplificar la red cortando algunos de los enlaces, podría ser más factible calcular la modularidad. Simplemente eliminando los enlaces con poco peso (enlaces irrelevantes) podría simplificar la red, pero aún así mantener la estructura de la comunidad subyacente intacta.

Recuerde que el algoritmo de modularidad no es óptimo en ningún caso. Simplificar la red eliminando los enlaces no significa necesariamente "perder información" de ella.

Háganos saber si descubre una manera de gestionar esa red.

  • Es una red de seguidores de Twitter, por lo que los enlaces no están ponderados. Lo que hice para que funcione, sólo estaba utilizando los enlaces de las personas que siguen menos de 1 000 cuentas. 
  • Pero quiero hacerlo funcionar con los enlaces de las personas que siguen hasta 10 000 cuentas.
    Yo uso la modularidad para dividir la red en más pequeños ya que esto funcionó bastante bien en el pasado. Pero siempre estoy abierto a mejores métodos

Respuesta 7

Una idea más sobre la computación modular en grandes redes. Encontré un plugin / tutorial para insertar datos en la base de datos de gráficos Neo4j y luego usar un plugin para calcular la modularidad en él. Los detalles están en el algoritmo Smart Local Moving (SLM), pero la implementación incluye también el algoritmo de maximización de la modularidad de Louvain.

Hay un tutorial para hacer esto aquí

Gephi tiene plugin de integración de Neo4j - podría ser incorporado en realidad. De esta manera usted podría ser capaz de calcular la modularidad en la base de datos Neo4j e importar los datos de Neo4j a Gephi a través de la consulta.

  • Como solución rápida establecí el límite de memoria a 200G. Actualizaré el aquí cómo fue. Para el futuro examinaré Gephi Toolkit y Neo4j. Gracias a todos.

Respuesta 8

Aumentar el límite de memoria mucho más allá (200 GB) de la RAM disponible (32 GB) trabajado. Lo dejé correr durante la noche, así que no sé cuánto tiempo tomó, pero fue menos de 10 horas. Se escribió 550GB a la SSD.
Especificaciones para los interesados:
- i5 4670k con una velocidad de reloj de 4,5 GHz
- 32 GB de RAM a 1866 GHz
- Samsung 850 EVO 500GB SSD


lunes, 26 de diciembre de 2016

La estructura de red de los seguidores de Twitter

¿Red de información o red social? La estructura del grafo de seguidores de Twitter
Seth A. Myers, Aneesh Sharma, Pankaj Gupta y Jimmy Lin
Twitter, Inc.
@seth_a_myers @aneeshs @pankaj @lintool


En este artículo se proporciona una caracterización de las características topológicas del grafo de seguidores de Twitter, analizando propiedades tales como distribuciones de grados, componentes conectados, longitudes de trayectorias más cortas, coeficientes de agrupamiento y asortividad de grado. Para cada una de estas propiedades, comparamos y contrastamos con los datos disponibles de otras redes sociales. Estos análisis proporcionan un conjunto de estadísticas principales que la comunidad puede hacer referencia. Además, utilizamos estos datos para investigar una pregunta frecuente: ¿Es Twitter una red social o una red de información? La relación de "seguir" en Twitter es principalmente sobre el consumo de información, sin embargo muchos siguen están construidos sobre los lazos sociales.No es de extrañar que el grafo de seguidores de Twitter muestra características estructurales de una red de información y una red social. Más allá de caracterizaciones descriptivas, planteamos la hipótesis de que desde la perspectiva de un usuario individual, Twitter comienza más como una red de información, pero evoluciona para comportarse más como una red social. Proporcionamos evidencia preliminar que puede servir como un modelo formal de cómo evoluciona una red híbrida como Twitter.



viernes, 13 de junio de 2014

Compra de amigos en Twitter

Amigos (falsos) con beneficios (reales)

Pagué $ 5 para 4.000 seguidores en Twitter, y aquí está lo que encontré
La compra de su forma de estado en las redes sociales se ha convertido en una práctica habitual. Desde Instagram le gusta a los seguidores de Twitter, hay un número creciente de servicios que prometen subir sus números. ¡Y son bastante asequibles!

Lo que solía ser completamente mal visto, ahora, considerarse de hecho un acto de la optimización de los medios de comunicación social. Al igual que la elección de las palabras clave adecuadas cuando se optimizan para la búsqueda de Google, puede la compra de seguidores o gustos falsos impulsar la posición de uno en las redes sociales?

Esa fue la pregunta principal me puse a explorar cuando me decidí a dar el paso y comprar seguidores.

Como científico de datos que estoy perpetuamente trabajando en la identificación de mejores formas para clasificar los usuarios y contenidos en las redes sociales. Estos espacios están llenos de lo que los investigadores llaman Internet affordances de estado, los indicadores, las medidas y las cifras que nos dan la posibilidad de comparar fácilmente entre sí. Número de ventiladores, favoritos, le gusta o seguidores - Estos números aparecen en todas partes, sin embargo, no está claro cuán significativo o representante de la verdadera autoridad que realmente son. Cristal Una cosa es clara - en las redes sociales es fácil confundir popularidad por credibilidad.

El Experimento

Al principio, he usado la API de Twitter para obtener una lista de mis 2.600 seguidores en Twitter existentes. Entonces me puse a averiguar dónde comprar más.

Google convenientemente completado automático mi búsqueda de "comprar gorjeo" con una serie de sugerencias útiles, como: "comprar seguidores en Twitter", "comprar seguidores en Twitter baratas" y "comprar seguidores en Twitter opiniones" Desde luego, no era el único que busca. esto.



Google completa automáticamente 'buy Twitter' con los seguidores, barato y revisión. Además de eso, hubo incluso un link patrocinado en el lado derecho de un servicio en Ebay.
Uno de los mejores servicios que surgió fue fiverr.com, un mercado en línea para los servicios que cuestan $ 5 o menos. Por allí, alguien se ofrece a grabar un personaje Morgan Freeman Voice Over, y otro a cantar feliz cumpleaños como Marilyn Monroe todo por un precio de oferta de $ 5. Después de la búsqueda de 'seguidores en Twitter', vi la siguiente lista de servicios de cada uno que promete una cierta cantidad de "real" o "calidad" de seguidores en Twitter, que van desde 200 a más de 20.000, todo por el precio de ganga de ... $ 5.

I settled on one that seemed trustworthy.
27,500 followers felt excessive, while 4,000 was a number that I could stomach. I specified my Twitter handle — @gilgul — paid the fee.
Y esperé

Me decidí por uno que parecía digno de confianza.

27.500 seguidores sentían excesiva, mientras que 4000 era un número que podía soportar. Especifiqué mi mango Twitter - @ guilgul - pagado la cuota.

Y esperó.

Dentro de las 24 horas, mi perfil saltó de alrededor de 2.600 seguidores a la gama 6600. Recuerdo sentir una oleada de emoción cuando vi notificaciones vuelan mostrando más y más usuarios de seguirme. A pesar de que yo sabía que esto era un cien por ciento falso, la emoción me emocionó, y al final del proceso, que tiene más de 6k seguidores, en honor a la verdad, se sentía muy bien.



Esto es lo que parece cuando se gana 4.000 seguidores! Tenga en cuenta el descenso de un par de semanas después de la compra. Esto es Twitter limpiando cuidadosamente y eliminar cuentas falsas.
Una vez que mis 4.000 seguidores recién comprados estaban a bordo, he utilizado la API de Twitter para hacer otro de sorpresas de mi lista de seguidores, que comparé con mi lista de principios para generar una lista de las 4.000 cuentas de Twitter falsas ahora me sigue. Esto fue algo muy emocionante. En mi línea de trabajo, tener acceso a un conjunto de datos tan limpio no es fácil de conseguir.

Análisis

El uso de los datos, comencé a buscar más de cerca a mis nuevos seguidores. No estaba inmediatamente claro por echar un vistazo a sus perfiles que sólo eran bots.


@ AnnalisaMonsodz es un ejemplo de una cuenta de robot típico: texto aleatorio usado para el campo de la bio así como tweets, siguiente número significativamente más alto que los seguidores.
Todos ellos tenían imágenes de perfil y los nombres de pantalla que no necesariamente se sienten automatizado. Pero al mirar más profundamente, estaba claro que algo estaba fuera de sus perfiles.

Las biografías incluyen fragmentos aleatorios de texto de lo que sospechaba era un libro o manuscrito. Además, la mayoría de mis nuevos fans seguían enormemente más usuarios de los que tenían los usuarios seguían.

Ahora viene la parte emocionante. Usando mi lista de bots, comencé a trazar quién más seguido mis nuevos seguidores, con la esperanza de arrojar luz sobre qué tipo de gente comprar seguidores.

Si bien estas cuentas falsas pueden ser difíciles de identificar simplemente con base en imágenes de perfil o de texto, mediante el análisis de la red (que siguen y que los sigue) todo se vuelve sorprendentemente clara.


Esta es una representación gráfica de la red de mis seguidores de Twitter después de que yo adquirí los bots. El grupo superior representa mis seguidores "reales", que se entrelazan, muchos siguen unos a otros, claramente una comunidad de usuarios. Si bien la región púrpura inferior representa las cuentas falsas, que están completamente separados - estructuralmente es evidente que no son una comunidad real, con muy poca conectividad entre las cuentas.

En la lista global de cientos de miles de cuentas de mis bots siguieron, me encontré con DJs, músicos, diseñadores de moda, actores, políticos, servicios de bienes raíces, bancos, vendedores y marcas. No tiene mucho sentido, supongo. ¡Qué emocionante es un músico con pocos seguidores en Twitter? ¿Qué credibilidad es un político cuya nadie los tweets se inscriba para recibir?

Pero algunos realmente me desconcertó. Una cuenta que los seguidores claramente adquirió es @ YellowCabNYC, el "New York City Taxi App". Esto no debe confundirse con el Taxi & Limousine Comisión NYC (@ nyctaxi) que regula los taxis amarillos de la ciudad. Otro era @ SuperProtein, "delicioso salud y bienestar suplementos", así como @ Elisabeth_Musil, consultor y coach de negocios. La lista sigue y sigue.

Resultado

Aún más interesante, al menos para mí, era lo que mis seguidores falsos hicieron por mí. Mi puntuación Klout casi al instante se alzó. Yo no estaba impresionado por que hasta que me di cuenta de que el motor de búsqueda de Microsoft, Bing, colabora con Klout, por lo que una puntuación Klout superior me puso más arriba en los resultados de búsqueda de Bing.

 Mis números completamente falsas en una plataforma tuvieron un efecto muy real en un servicio completamente diferente.
Con el tiempo, yo también empecé a ver un aumento en el número de mis seguidores reales. Esto podría ser debido al hecho de que Twitter comenzó a empujar hacia fuera más notificaciones a sus usuarios. También podría ser un factor de credibilidad percibida. Cuando un extraño visto mi perfil, mi gran número de seguidores me hizo mirar más creíble.

Después de unos meses, algunos de mis seguidores falsos comenzaron a desaparecer. Pero mi número total de seguidores ha dejado de crecer. En cierto modo, lo que hice fue optimizar mi cuenta de medios de comunicación social. Tal vez la adquisición de esa parte de los seguidores me dio lo suficiente de un golpe a la semilla de crecimiento orgánico. Profesionales de adquisición usuario aprovechar técnicas similares al ejecutar campañas pagadas, especialmente dentro de los entornos de tienda de aplicaciones.

Todos estamos acostumbrados a la práctica de la optimización del Search Engine que se ha convertido en una industria de miles de millones de dólares. La adquisición de estado en línea es sólo uno de las muchas maneras en las que alguien puede llevar a cabo la optimización de los medios de comunicación social. Este es, sin duda, no sólo ocurre en Twitter. TagsForLikes es un servicio de uso común que añade los hashtags más populares y relevantes a sus puestos de Instagram, haciéndolos mucho más visible cuando otros usuarios realicen búsquedas. Boostlikes aumenta gustos de su página de Facebook, y varios servicios de la promesa para descargar su aplicación móvil, algunos ofrecen calificaciones.


La compra de Likes y Seguidores (fuente: Google Trends)

La pendiente ascendente que vemos en Google Trends, el creciente número de tareas propuestas en fiverr.com, y los artículos cada vez que cubren el tema apuntan al hecho de que hay mayor interés en la optimización de medios sociales, en el sistema de juego.

No estoy recomendando a nadie salir a comprar seguidores. De hecho, yo no puedo superar la sensación de que es bastante mala calidad. Pero sí creo que la adquisición de la cantidad exacta, por mucho que me gusta escribir, puede tener un efecto positivo a largo plazo sobre la aceleración del crecimiento y la visibilidad.

Si has llegado hasta aquí abajo, y usted no es un bot, hazme un favor - en la cabeza a Twitter y sígueme: @ guilgul


iMedium