Difusión de ataques localizados en redes espaciales múltiples con una estructura comunitaria
Dana Vaknin, Bnaya Gross, Sergey V. Buldyrev y Shlomo Havlin
Universidad Bar-Ilan, Ramat Gan, Israel
Universidad Yeshiva, Nueva York, EE. UU. Arxiv
Estudiamos el efecto de los ataques localizados en una red espacial multiplex, donde cada capa es una red de comunidades. El sistema se considera funcional cuando los nodos pertenecen al componente gigante en todas las capas multiplex. Las comunidades son de tamaño linealζ, de modo que dentro de muchos pares de nodos están vinculados con la misma probabilidad, y adicionalmente los nodos en comunidades cercanas están vinculados con una probabilidad diferente (típicamente más pequeña). Este modelo puede representar un sistema de infraestructura interdependiente de ciudades donde dentro de la ciudad hay muchos enlaces, mientras que entre las ciudades hay menos enlaces. Desarrollamos un método analítico, similar al método de elementos finitos aplicado a una red con comunidades, y verificamos nuestros resultados analíticos mediante simulaciones. Descubrimos, tanto por simulación como por teoría, que para diferentes parámetros de conectividad y espacialidad, existe un tamaño de daño acrítico localizado por encima del cual se extenderá y todo el sistema colapsará.
Alguien compró a mi cuenta de Twitter unos 10 mil seguidores falsos / bots, y esto es lo que aprendí sobre las herramientas de detección de spam de Twitter
Geoff Golberg | Medium Cofundador de Elementus | Presentado en Adweek, Forbes, IB Times y Huffington Post, entre otros | geoffgolberg.com
Representación de grafo de red de mis seguidores de Twitter (¡gran punto gris soy yo, Geoff Golberg!). Cada punto es uno de mis seguidores de Twitter. La versión interactiva es fantástica cuando se ve en el escritorio (use el touchpad / mouse para moverse / acercarse, pase el cursor sobre los puntos para revelar la cuenta, haga clic para observar la interconectividad). Crédito gráfico: Max Galka
La historia primero, los datos después
A menos que haya estado viviendo bajo una roca, es probable que haya leído el informe de investigación de The New York Times, "The Follower Factory". La pieza se sumerge profundamente en la compra de seguidores de Twitter falsos / bot. Yo también tengo algo de experiencia con seguidores de Twitter falsos / bot. Tengo una historia Tengo algunos datos.
Supongo que un buen lugar para comenzar sería este tweet del profesor de Stanford, Johan Ugander: es parte de una tormenta de tweets conectado a "The Follower Factory" y te animo a leer el hilo en su totalidad:
First, it’s perfectly possible that a bad actor would maliciously target someone with bot followers to make them look bad. So just because someone has many bot followers doesn’t mean they bought them. 5/n
Escribir una publicación sobre cuentas de Twitter falsas / bot es algo que he pospuesto por demasiado tiempo. Puedo relacionarme con el escenario hipotético que describe Johan, ya que fui atacado de esta manera hace un par de años. Descubrir ese tweet fue el empujón que necesitaba para finalmente abordar esta publicación (¡gracias, Johan!).
En enero de 2016 noté que mi cuenta de Twitter estaba ganando seguidores a un ritmo ridículo:
Looks like some idiot decided to buy fake followers for my Twitter account (gaining ~100 followers every 10 mins) pic.twitter.com/9MdVUuOCuP
MeVee surgió de la nada, lanzando una aplicación de video en vivo a principios de 2016, en lo que era un sector muy caliente en ese momento. El seguimiento en Twitter de MeVee (15K +) fue una señal de alerta inmediata para mí, considerando que acababan de lanzarse, así que decidí revisar manualmente los seguidores de Twitter más recientes de la cuenta. Después de encontrar lo que parecía ser principalmente cuentas falsas / bot, ejecuté la cuenta a través de TwitterAudit. TwitterAudit ciertamente no es perfecto, pero me ha impresionado su precisión (más sobre esto más adelante). Como sospechaba, TwitterAudit reveló que la mayoría (93%) de los seguidores de Twitter de MeVee eran falsos.
¿Por qué una aplicación lanzada recientemente compraría seguidores de Twitter? La respuesta es simple: la prueba social (es decir, tener más seguidores en Twitter puede afectar la percepción de MeVee).
Para su crédito, MeVee respondió a mi tweet en lugar de ignorarlo:
La cuenta de Twitter de MeVee ha cambiado su manejador de @MeVeeApp a @buildwithcrane. La cuenta ahora está asociada con Crane AI, que no tiene nada que ver con el video en vivo (MeVee ya no existe)
La respuesta ("alguien desde el principio accidentalmente compró algunos seguidores") me dio una buena risa. Varias personas nombradas en el informe del New York Times señalaron de manera similar con el dedo en otro lugar (empleados, familiares, agentes, compañías de relaciones públicas, amigos) cuando se enfrentaron.
Si bien no puedo decir definitivamente que alguien con vínculos de MeVee atacó mi cuenta, lo que definitivamente puedo decir es que no compré los seguidores. Muy fácilmente podría haber sido un tercero que se encontró con nuestro intercambio de Twitter y pensó que sería divertido inundar mi cuenta con seguidores falsos / bot. En cualquier caso, la identidad del culpable no es central en la historia / datos que estoy compartiendo.
En última instancia, cualquiera puede comprar seguidores de Twitter falsos / bot en su cuenta de Twitter. ¿Sabía usted eso?
Mientras que unos días antes estaba recomendando herramientas para facilitar la eliminación de MeVee de seguidores de Twitter falsos / bot, ahora me encontré en una posición en la que mi cuenta de Twitter estaba siendo "maliciosamente [apuntada] por alguien con seguidores de bot para hacer que me viera mal "
En ese momento, trabajaba como creador / consultor de contenido de video en vivo. Fue un trabajo que realmente disfruté, especialmente cuando se trataba de viajes, como fue el caso cuando me asocié con Heineken durante los Juegos Olímpicos de Río, por ejemplo:
Trabajando como un "influencer" (prefiero mucho "creador"), me sentí muy orgulloso de asegurar que mi seguimiento de Twitter fuera limpio / de fiar. En otras palabras, no quería que mi cuenta fuera seguida por cuentas de Twitter falsa / bot, lo que podría ser malo para los negocios.
Los expertos en marketing están investigando / analizando las audiencias de los creadores con quienes se asocian más allá de simplemente mirar el alcance (es decir, el número de seguidores). La mayoría de los especialistas en marketing, sin embargo, no emplean procesos sofisticados para garantizar que se mantengan alejados de los socios que a sabiendas juegan con el sistema mediante la compra de seguidores / compromisos sociales. Mi deseo de mantener un seguimiento limpio / legítimo de Twitter fue impulsado por la necesidad. No quería perder ningún trabajo por la apariencia de que estaba representando falsamente mi alcance / influencia.
Desde que me uní a Twitter (marzo de 2009), de hecho, y mucho antes de ingresar al video en vivo, regularmente revisaba mis seguidores para asegurarme de que fueran cuentas reales. Como resultado, puedo decir con confianza que probablemente tengo más cuentas de Twitter bloqueadas que tú. (~ 3.3K cuentas, para ser precisos)
El marketing de Influencer está completamente roto, por cierto, pero lo guardaré para una futura publicación.
Bueno, Mierda. Esto apesta
No me llevó mucho tiempo darme cuenta de que mi cuenta de Twitter estaba siendo atacada (en lo que a mí respecta) por cuentas falsas / bot.
Después de frustrarme con el bloqueo de las cuentas infinitas de bots falsos / bots, opté por cambiar mi configuración para "Proteger [mis] tweets". Al suscribirse a Twitter, los tweets son públicos por defecto y cualquiera puede seguir cualquier cuenta. Cuando los tweets están protegidos, las personas deben hacer una solicitud para seguir. Por lo tanto, cambiar mi cuenta a privado aliviaría la carga de bloquear cuentas.
La protección de tweets no es una solución ideal, ya que los tweets de cuentas privadas solo pueden ser vistos por los seguidores. Esto limita la visibilidad y, por extensión, dificulta el compromiso / la interacción. Otra desventaja de tener una cuenta privada es que tus tweets ya no pueden ser retuiteados. Twitter funciona como un vehículo fantástico para amplificar contenido (mediante descubrimiento / retweets); sin embargo, ese valor no puede ser capturado por cuentas privadas de Twitter. Estar limitado a la utilización de Twitter en el marco de una red privada degrada enormemente tanto la utilidad como la experiencia del usuario. Tener una cuenta privada significaba que ya no podía aprovechar Twitter de manera efectiva.
A continuación, llamé a varios empleados de Twitter para ver si podían ofrecer consejos / soluciones. El resultado de esos intercambios fue este: no se preocupen por los seguidores falsos / bot, ya que Twitter friega regularmente su ecosistema y las cuentas falsas / bots serán eliminadas, eventualmente. También archivé un boleto con el Centro de ayuda de Twitter, pero no recibí una respuesta (vale la pena señalar que no se proporcionó un número de ticket ni un correo electrónico de confirmación).
Poco tiempo después cambié mi cuenta a pública, dando a Twitter el beneficio de la duda. Durante las próximas semanas, mi cuenta de Twitter creció de ~ 4.6K seguidores a ~ 11.7K "seguidores" (del 7 de enero de 2016 al 29 de enero de 2016):
Fuente: TwitterCounter.com (Feb '18)
Más de dos años después, todavía estoy esperando que se eliminen miles de cuentas falsas / bot de Twitter / mi lista de seguidores.
Ya es suficiente con la historia, vayamos a los datos
Como ilustraré, y aplicando múltiples enfoques / herramientas, es relativamente fácil identificar cuentas de Twitter falsas / bot. Además, contrariamente a la creencia popular, Twitter es bastante efectivo para identificar cuentas de spam.
Según Nick Bilton (autor de "Hatching Twitter"): "Twitter sabía acerca de todos sus seguidores falsos, y siempre lo ha hecho, eliminando suficientes bots para que parezca que les importa, pero no lo suficiente como para afectar la cantidad percibida de activos. usuarios en la plataforma ".
Luego de una inspección más cercana de lo que ocurre bajo el capó de Twitter, resulta evidente que la afirmación de Nick describe perfectamente el enfoque de Twitter para lidiar con cuentas falsas / bot.
1) Representación de grafo de red
@ seguidores de geoffgolberg (a partir de mayo '17)
Una vez más, esta es una representación gráfica de red de mis seguidores de Twitter. Cada punto es uno de mis seguidores de Twitter. Los colores representan las comunidades (determinadas por la interconexión) y el tamaño de cada círculo representa cuán central es el seguidor / cuenta en la comunidad.
Dado que esta es mi propia red de Twitter, rápidamente queda claro lo que cada comunidad representa. Cuando se realizan análisis similares para otras cuentas, donde uno carece del mismo nivel de familiaridad, puede requerir un poco más de trabajo de campo.
El gráfico anterior incluye una leyenda para evitarle el dolor (personalmente, ¡me gusta este proceso!) De intentar identificar a cada comunidad. Lo que inmediatamente se destaca son los racimos verdes. Mientras que los clusters no verdes reflejan una conectividad significativa entre las comunidades, los clusters verdes están, en su mayor parte, desconectados del resto de las comunidades. Los seguidores falsos / bot que se compraron para mi cuenta comprenden la gran mayoría de los puntos verdes. Una pequeña porción de los puntos verdes son seguidores reales, simplemente cuentas que no están conectadas con el resto de mis seguidores de Twitter (algunos amigos de la escuela secundaria, por ejemplo, aparecen en los clusters verdes).
TwitterAudit se fundó en 2012. De forma gratuita, uno puede auditar sus propias / otras cuentas de Twitter. TwitterAudit toma una muestra aleatoria de (hasta) 5K de los seguidores de una cuenta y luego puntúa a cada uno de esos seguidores. Su algoritmo evalúa un conjunto de variables (algunas de las cuales incluyen: número de tweets, fecha del último tweet, proporción de seguidores y seguidores) y luego determina si cada seguidor es real o falso. Su oferta paga (PRO) le permite a uno ejecutar su cuenta a través de un mayor número de sus seguidores, en lugar de estar limitado por 5K, como es el caso de la oferta gratuita.
Un puntaje de auditoría del 98%, por ejemplo, significa que TwitterAudit ha determinado que el 98% de los seguidores de la cuenta es real. Antes de comenzar una ronda de bloqueo de seguidores falsos / bot en septiembre de 2015, tenía un puntaje de TwitterAudit del 98% (78 seguidores falsos de ~ 4K seguidores):
En febrero de 2018, más de dos años después de que mi cuenta de Twitter fue atacada por cuentas falsas / bot, TwitterAudit determinó que ~ 4K de mis seguidores eran falsos (70% de puntaje de auditoría):
Aquí está el crecimiento de esos seguidores falsos, en relación con el crecimiento de mis seguidores en Twitter en general:
@ seguidores de geoffgolberg (seguidores "falsos" según lo determinado por TwitterAudit, Feb '18)
Como mencioné anteriormente, mantener un seguimiento limpio / legítimo de Twitter siempre ha sido importante para mí. Esto se evidencia por el hecho de que el primer seguidor falso identificado por TwitterAudit fue mi seguidor 1.680 (en otras palabras, evité seguidores falsos durante mis primeros ~ 6 años como usuario de Twitter). A continuación se muestra una tabla que resume los datos de TwitterAudit:
3) API de Twitter
El informe del New York Times empleó una táctica muy inteligente para identificar a los seguidores falsos / bot. Su enfoque implica trazar los seguidores de una cuenta (primero a más reciente) en la fecha en que se creó cada cuenta (seguidor) respectiva. El siguiente ejemplo, cortesía del editor gráfico del New York Times, Rich Harris, hace un excelente trabajo al ilustrar patrones que señalan a los seguidores falsos / bot:
When you buy fake followers, they leave fingerprints, as @cocteau discovered. We illustrated it by analysing celebrity chef Michael Symon, who bought at least 600,000 followers. pic.twitter.com/P9wqdQphjb
El profesor de Credit Columbia, Mark Hansen, con el descubrimiento de la huella dactilar
Poco después de leer "The Follower Factory", me encontré con una publicación de Elaine Ou, donde aplica el mismo análisis a su propia cuenta de Twitter. Elaine revisa los seguidores del columnista del New York Times Paul Krugman ("por el bien de la objetividad periodística") y Eric Schneiderman, el Fiscal General de Nueva York, también (Schneiderman abrió una investigación tras el informe del New York Times). Elaine escribió un código de Python para reproducir los diagramas de dispersión del estilo del New York Times, y tuvo la amabilidad de vincularlo al final de su publicación.
Estos son los resultados de ejecutar el script de Elaine para mi cuenta de Twitter:
@ seguidores de geoffgolberg (Feb '18; excluye "cuentas sospechosas de spam")
Aquí es donde las cosas se ponen interesantes.
A pesar de tener más de 13K seguidores en ese momento, el script solo devolvió ~ 9.4K seguidores (el ataque del seguidor falsa / bot puede verse desde ~ 3.6K a ~ 5.1K seguidores). Decidí buscar en el Centro de ayuda de Twitter y encontré la sección "Mi conteo de seguidores está equivocado". Una frase que decía "Para ver la lista completa de sus seguidores, incluidas las cuentas sospechosas de spam, apague el filtro de calidad en su configuración" me llamó la atención. Aquí hay más información sobre el filtro de calidad (también desde el Centro de ayuda de Twitter):
Cada cuenta de Twitter tiene un filtro de calidad (que se lanzó en agosto de 2016) activado por defecto. Traducido: Twitter quiere ocultar las cuentas que han identificado como "cuentas sospechosas de correo no deseado" de su lista de seguidores. Si un usuario desea ver la lista completa de sus seguidores, debe desactivar el filtro de calidad en su configuración. Este hallazgo me llevó a twittear las siguientes preguntas:
1) Has Twitter always hidden followers which are "suspected spam accounts" (post launching quality filter in Aug '16 & when that setting is enabled)?
2) Once Twitter has identified those accounts, why are they simply not being removed? pic.twitter.com/3yN1CPmxTn
Con el filtro de calidad ahora desactivado, el script de Elaine todavía devolvió ~ 9.4K seguidores para mi cuenta. Su secuencia de comandos está utilizando la llamada a la API GET followers / list para obtener una lista de seguidores de la cuenta. Alternativamente, esto se puede hacer usando la llamada a la API GET followers / ids.
Este último devolvió mi lista completa de seguidores, haciendo coincidir el número que aparece en mi perfil de Twitter (más de 13K).
Aquí está el diagrama de dispersión del estilo del New York Times (reproducido usando Excel) para mi lista completa de seguidores:
Los seguidores de @ geoffgolberg (Feb '18; incluye "cuentas sospechosas de spam")
El ataque comprendió ~ 1.5K cuentas en el primer diagrama de dispersión, mientras que aquí, que refleja el conteo de seguidores reales mostrado por Twitter, el ataque recoge unas cuentas adicionales de 4K (el ataque falso / seguidor del robot ahora se puede ver desde ~ 3.7K a ~ 9.2K seguidores). Esas cuentas ~ 4K han sido identificadas por Twitter como "cuentas sospechosas de spam"; sin embargo, por alguna razón, las cuentas no se suspenden ni eliminan.
A continuación, decidí comparar la lista parcial de mis seguidores (OBTENER seguidores / enumerar llamada API) con mi lista completa de seguidores (GET seguidores / ids llamada API). Estas son las "cuentas sospechosas de correo no deseado" (es decir, no devueltas por la API llamada GET followers / list) expresadas como un porcentaje de mi lista completa de seguidores (es decir, cuentas devueltas por la API de ID / seguidores de GET):
Con la excepción del ataque, la API de Twitter siempre devolvió ~ 1% de seguidores como cuentas identificadas por Twitter como "cuentas sospechosas de correo no deseado" (cada período de tiempo abarca al menos un año y entre miles de seguidores). Sin embargo, durante el mes de enero de 2016, Twitter ha marcado el 73% de las cuentas que siguieron a mi cuenta como "cuentas sospechosas de correo no deseado" (nuevamente, más de 4K cuentas / seguidores). En otras palabras, más de 4K de los 13.600 seguidores reflejados en mi perfil de Twitter son "cuentas sospechosas de spam", al menos, según las herramientas de detección de spam de Twitter.
Esto no es un error ni está aislado de mi cuenta. La plataforma completa de Twitter se basa en recuentos engañosos / inflados de seguidores / seguidores, que incluyen cuentas que los mismos Twitter han identificado como "cuentas sospechosas de correo no deseado" (y se han identificado como tales durante años).
Discutiré por qué eso importa más adelante en la publicación; primero analizaremos más de cerca los datos de los diversos enfoques / herramientas.
Comparando los tres enfoques
Para esta sección, el análisis se centrará en el período de tiempo de ataque (del 7 de enero de 2016 al 29 de enero de 2016).
En el contexto del ataque, el enfoque del grafo de red es el más preciso para identificar seguidores falsos / bot. Ciertamente hay muchos puntos verdes / seguidores que son cuentas reales; sin embargo, es mucho más probable que esas cuentas sigan fuera de las fechas de ataque.
Traducido: los amigos de la escuela secundaria mencionados anteriormente, por ejemplo, que forman parte de los clusters verdes, están allí porque están desconectados del resto de mis comunidades, no porque sean cuentas falsas / bot. Es mucho más probable que lo hayan seguido en el primer período de tiempo (marzo de 2009 a diciembre de 2014) que 7 años después de que me uní a Twitter durante el ataque que duró solo unas semanas en enero de 2016. Durante el período de ataque, los grupos verdes desconectados tienden a señalar cuentas falsas / bot, en lugar de cuentas más amplias que están desconectadas del resto de mis comunidades.
Antes de saltar a los datos, aquí hay una visualización de ~ 200 cuentas que siguieron durante el período de ataque (¡encienda su audio mientras mira!). La primera columna es roja cuando la representación del gráfico de red refleja estar en los clústeres verdes (es decir, cuentas falsas / bot). La segunda columna es roja cuando la API de Twitter refleja ser una "cuenta sospechosa de spam". La tercera columna es roja cuando TwitterAudit refleja que es una cuenta falsa. Las cuentas que fueron suspendidas por Twitter (entre junio de 2017 y febrero de 2018) son de color naranja, mientras que las cuentas que fueron eliminadas por Twitter (el mismo período de tiempo) son de color gris:
Tenga en cuenta la cadena de ~ 30 seguidores donde los tres enfoques indican que las cuentas que siguen son reales. Esto sucedió el 19 de enero de 2016, después de haber sido nominado por los premios Shorty Awards para Periscoper of the Year (recogiendo esos seguidores reales, en sucesión, como resultado):
El enfoque del grafo de red identifica el 97% de las cuentas que siguieron durante el ataque (5,419 de 5,583) para ser cuentas falsas / bot (puntos verdes). Entre junio de 2017 y febrero de 2018 (9 meses), Twitter suspendió solo 50 de esas cuentas, mientras que otras 36 fueron eliminadas.
La API de Twitter identifica 4.013 "cuentas sospechosas de correo no deseado" que siguieron durante el ataque. El 98.7% de esas cuentas también fueron determinadas como cuentas falsas / bot por el gráfico de red. En otras palabras, Twitter aplica el identificador de "cuenta sospechosa de correo no deseado" solo una vez que tienen un alto nivel de confianza.
TwitterAudit identifica 3.903 cuentas falsas que siguieron durante el ataque. El 98.8% de esas cuentas también fueron determinadas como cuentas falsas / bot por el gráfico de la red. Al igual que Twitter, cuando TwitterAudit identifica una cuenta como spam / falso, hay una gran probabilidad de que sea, de hecho, una cuenta falsa / bot.
Tanto Twitter como Twitter Audit no identifican ~ 1.5K cuentas falsas / bot contra el gráfico de red.
Cuando Twitter marcó una cuenta como spam, hubo una probabilidad del 76.6% de que TwitterAudit también identificara la cuenta como una cuenta falsa / bot. Cuando TwitterAudit determinó que una cuenta era falsa, había un 78.8% de posibilidades de que la cuenta también fuera identificada como una cuenta de spam / falsa por Twitter.
Hubo 3,049 cuentas donde los tres enfoques determinaron que la cuenta es una cuenta falsa / bot.
Aquí hay otra forma de visualizar el conjunto de datos (las cuentas suspendidas por Twitter son amarillas, las cuentas eliminadas por Twitter son azules):
Anteriormente, hice la siguiente afirmación: la plataforma completa de Twitter se basa en seguidores engañosos / inflados / siguientes recuentos
La presencia de cuentas falsas / bot no debería ser la clave de esta publicación. Lo que es notable es que Twitter es bastante bueno para identificar cuentas de spam, simplemente eligen eliminar una fracción de estas cuentas falsas / bot.
¿Por qué no eliminarlos a todos?
Twitter es una compañía que cotiza en bolsa. Cada trimestre, entre otras cosas, Twitter informa sus MAU (usuarios activos mensuales). Es una medida clave que los accionistas (potenciales) evalúan al tomar decisiones de inversión. Durante la llamada a las ganancias del tercer trimestre de Twitter, se reveló que Twitter había exagerado su recuento de MAU durante los últimos tres años.
En el caso de mi cuenta de Twitter, Twitter actualmente refleja tener 13.500 seguidores:
Este número, sin embargo, incluye ~ 4K cuentas que los mismos Twitter han identificado como "cuentas sospechosas de correo no deseado". Desde la perspectiva de un usuario de Twitter, me sentiría mucho más cómodo usando la plataforma sabiendo que los seguidores / siguientes conteos presentados son más precisos representación de la realidad. Además, cuando se interactúa con otras cuentas, es posible que los usuarios incluyan estos recuentos como señales que procesan cuando evalúan la credibilidad de las cuentas con las que interactúan.
Desde la perspectiva de un anunciante, tener recuentos de seguidores / seguidores que reflejen cuentas que en realidad están siendo utilizadas por seres humanos (es decir, menos "cuentas sospechosas de correo no deseado" de Twitter) es críticamente importante. Lo que es más importante, ¿filtra Twitter los compromisos / acciones que involucran "cuentas sospechosas de correo no deseado" al determinar qué eventos / acciones son facturables a los anunciantes? Si los anunciantes no reciben una factura en esos casos, ¿por qué esas cuentas se reflejan en los seguidores / conteos siguientes?
OK, ¿cuál es tu punto?
Las implicaciones de la decisión de Twitter de eliminar solo una fracción de las cuentas falsas / bot son mucho más amplias que las de un solo usuario (yo, en este caso), molesto.
A principios de este mes, mientras revisaba las cuentas que seguían las mías, simplemente ordenaba a mis seguidores por la cantidad de tweets que cada cuenta publicaba. Después de notar que uno de mis seguidores tenía una cantidad alarmantemente grande de tweets, decidí investigar un poco más, luego compartí mis hallazgos en este hilo:
Twitter *says* they "proactively identify suspicious account behaviors that indicate automated activity or violations of [their] policies.."
Al día siguiente noté que Twitter había suspendido la cuenta de Twitter @nine_oh. Twitter habría (probablemente) continuado contando la cuenta como un usuario activo mensual si no se hubiera puesto en su conocimiento, y esa es la parte más problemática. Vale la pena señalar que la cuenta fue marcada por Twitter como una "cuenta sospechosa de spam" antes de ser suspendida.
En este caso particular, se estaba utilizando una cuenta que reflejaba tener más de un millón de seguidores para amplificar los tweets conservadores de Trump. Es de suponer que el algoritmo de Twitter ve los retweets de cuentas con gran cantidad de seguidores como una señal favorable, ya sea que Twitter haya determinado que muchos de esos seguidores son "sospechosos de cuentas de spam". A menudo, lo que sucede es que las redes de cuentas retuitean los mismos tweets / tweets un corto período de tiempo. Esto probablemente se haga como un intento de juego del algoritmo de Twitter, dando a los tweets / tweets más visibilidad en las líneas de tiempo de los usuarios. En otras palabras, es un esfuerzo coordinado para impactar el flujo de información a través de la plataforma de Twitter:
El problema no es específico de Trump / tweets conservadores. Sucede en todo el espectro político y se extiende a muchos países.
Todo se reduce a esto: Twitter tomó la decisión de poner la rentabilidad por delante de la democracia.
Responsabilidad
A principios de este mes, Twitter emitió una RFP (solicitud de propuesta) en la que buscaba la dirección del público para ayudarlo a "definir qué significa la salud para Twitter y cómo [ellos] deberían abordar la medición".
La salud de Twitter mejoraría tremendamente si Twitter hiciera una cosa (aparentemente simple): eliminar el 100% de las cuentas que identificaron como "sospechosas de cuentas de spam"
¿Cómo podemos nosotros, como usuarios, anunciantes y accionistas, asegurarnos de que Twitter se considere "públicamente responsable" para hacerlo? ¿Cómo podemos garantizar que Twitter adopte un enfoque más proactivo para controlar su ecosistema en el futuro?
¿Cómo podemos entender una ciudad a través de sus redes de infraestructura? Esta pregunta fue el punto de partida para mi proyecto final en la clase de visualización de datos impartida por Roberta Sinatra. El objetivo de la clase era obtener información sobre un conjunto de datos a través de la visualización.
La ciudad seleccionada para analizar fue Budapest, una elección obvia ahora que estoy viviendo aquí y también porque quería entender mejor la ciudad. Para obtener los datos y construir la red, utilicé OSMnx, una biblioteca de Python desarrollada por Geoff Boeing. Usé OSMnx para descargar los datos de la ciudad desde OpenStreetMap y construir la red usando las calles como bordes y las intersecciones entre dos calles como nodos. Para el proyecto, trabajé con 4 kilómetros cuadrados del centro de la ciudad de Budapest. Primero visualicé la red de la ciudad asignando el ancho de los bordes, calles, de acuerdo con el tipo de calle, para mostrar dónde están las calles principales en la ciudad y cómo están conectadas.
Como sabemos por la literatura científica de la red, la topología de una red determina su resistencia, por lo que el siguiente paso para comprender mejor a Budapest, una ciudad con un río en el medio, fue trabajar con la red y probar su tolerancia al ataque. En resumen, calculé la centralidad de intersección de todas las intersecciones de calles de la red, dibujé la red con el tamaño de los nodos de acuerdo con su centralidad de intermediación y eliminé la que tenía la interinidad más alta una por una. Este enfoque nos permite simular cómo cambia la red si "cerramos" o eliminamos la intersección que está en el medio de las rutas más cortas entre todas las otras intersecciones.
El video nos muestra esta simulación del cálculo de la centralidad de intermediación y la eliminación de los nodos con la más alta. También muestra la fracción de nodos eliminados y cuántos componentes conectados tiene la red, y podemos observar que solo eliminar menos del 2% de los nodos conduce a más de 3 componentes conectados diferentes en la red, lo que significa que estamos aislando algunas partes de la ciudad. Las intersecciones más importantes que mantienen unida la red de calles del centro de Budapest corresponden a los puentes que conectan Buda y Pest sobre el Danubio: el Puente Margarita, el Puente de las Cadenas y el Puente Elisabeth.
Visualizaciones como la desarrollada en este proyecto nos permiten imaginar nuevas posibilidades para trabajar y comprender mejor las redes urbanas y la complejidad en las ciudades usando nuevas tecnologías y enfoques de la ciencia de las redes junto con el urbanismo, el urbanismo, la sociología y otras disciplinas.
Los científicos desarrollan un nuevo algoritmo inspirado en colonias de abejas para ayudar a desmantelar redes sociales criminales Phys.org
Los científicos desarrollan un nuevo algoritmo inspirado en colonias de abejas para ayudar a desmantelar redes sociales criminales
Investigadores de la Universidad de Granada (UGR) han diseñado un algoritmo, inspirado en el comportamiento inteligente y social de las colonias de abejas, que permite a las fuerzas del orden atacar y desmantelar cualquier tipo de red social que suponga una amenaza, ya sean redes sociales físicas o virtuales vinculadas al crimen organizado y al terrorismo yihadista.
Las posibles aplicaciones de este nuevo algoritmo bio-inspirado, que ayuda a tomar decisiones óptimas para desmantelar cualquier tipo de red social, son muchas y variadas: desde desmantelar una red criminal hasta facilitar el diseño de estrategias de vacunación capaces de contener la difusión de una pandemia.
La herramienta diseñada por los investigadores de la UGR detecta e identifica automáticamente a los actores o nodos más peligrosos dentro de una determinada red social y la densidad de las relaciones interconectadas entre ellos, lo que puede ayudar a las autoridades a tomar sus decisiones y actuar de la manera más eficiente posible.
Según lo explicado por uno de los autores de este artículo, Manuel Lozano Márquez, del Departamento de Informática e Inteligencia Artificial de la UGR, "las abejas forman sociedades bastante bien organizadas, en las que cada miembro tiene un papel específico. : Las abejas exploradoras que buscan fuentes de alimento, las abejas obreras que recolectan alimentos y las abejas supervisoras que esperan en la colonia ".
El intercambio de datos y los procesos de comunicación se establecen entre esas tres funciones, lo que hace que el rendimiento general de la colonia sea muy rentable. Los científicos de la UGR han simulado este comportamiento utilizando abejas in silico con el fin de encontrar estrategias efectivas y eficientes para desmantelar redes. Los resultados de los experimentos indican que la técnica propuesta mejora significativamente, desde un punto de vista estadístico, la estrategia clásica utilizada para atacar y desmantelar las redes sociales.
Redes sociales
Muchos sistemas complejos de interacción relacionados con la naturaleza y relacionados con la humanidad están estructurados en una red compleja, es decir, están formados por una serie de actores interrelacionados. Las redes sociales son un ejemplo muy reciente de esto. Algunas redes son perniciosas debido a su potencial para causar daño a las personas, las infraestructuras críticas y los intereses económicos.
El método clásico (y también el más natural e intuitivo) para desmantelar una red es identificar a sus principales actores y actuar sobre ellos. Sin embargo, esta estrategia no garantiza que la red resultante esté totalmente desprovista de poder organizativo y reconstructivo, y puede seguir causando daño.
"Para encontrar la forma más efectiva de desmantelar una red es necesario desarrollar y poner en marcha un proceso de optimización que analiza una multitud de situaciones y selecciona la mejor opción en el menor tiempo posible Es similar a lo que un programa de ajedrez Lo hace al identificar, predecir y comprobar los posibles pasos o caminos que pueden ocurrir en un juego de ajedrez a partir de un momento dado y el movimiento ", dice Humberto Trujillo Mendoza del Departamento de Metodología de las Ciencias del Comportamiento de la UGR y uno de los autores de la papel.
Como explican los autores, "la sutileza con que grupos o colonias de seres vivos relativamente simples (hormigas, termitas, abejas, etc.) son capaces de resolver problemas vitales para sobrevivir es una prueba de la eficacia de la evolución". A través de ciertas interrelaciones entre los miembros de una colonia, surge un comportamiento colectivo de esa colonia, que les permite reaccionar de manera eficiente a situaciones ambientales problemáticas. Esa tarea, aplicada por la UGR al campo de la inteligencia artificial, sería imposible de realizar por los miembros individuales de la colonia.
En la actualidad, este grupo de investigación está trabajando en el desarrollo de otros algoritmos similares a los descritos. Esta vez lo están haciendo para determinar los nodos de la red social a los que deben conectarse ciertos "infiltrados" para aumentar la cantidad y calidad de la información recopilada para mejorar el conocimiento de las relaciones entre los otros actores, optimizando así al desmantelamiento de la red.
La literatura sobre los ataques de red
La mayor parte de la investigación sobre los ataques de red se basa en la idea de nodos críticos, lo que permite caracterizar la vulnerabilidad y robustez de una determinada red con respecto a la remoción de nodos, causada por vallas adversarias, fallas aleatorias o desastres naturales. Esta clase de problemas, CNP, ha sido ampliamente estudiada en la última década (Walteros y Pardalos, 2012), y diferentes casos han sido analizados según los intereses particulares.
Arulselvan et al. (2009) y Pullan (2015) se centraron en la minimización del número total de pares de vértices conectados. Shen et al. (2012) con el objetivo de maximizar el número de componentes conectados y minimizar el tamaño del más grande. Ortiz-Arroyo (2010) trabajó en la maximización de la entropía de información gráfica. Veremyev et al. (2015) analizaron la minimización de una medida de conectividad basada en la distancia, como la eficiencia gráfica, el índice de Harary, la longitud de la trayectoria característica y la cercanía residual. Gunasekara et al. (2015) también abordaron casos CNP multiobjetivos que enfatizaron la maximización de la centralidad del vector propio medio y la distancia entre nodos críticos.
Sin embargo, la mayor parte de la atención en la literatura CNP se ha centrado en el caso particular definido por Arulselvan et al. (2009), donde el ataque óptimo fragmenta al máximo la red y simultáneamente minimiza la varianza entre el número de vértices en los componentes conectados resultantes. Es decir, la red residual contiene un conjunto relativamente grande de componentes conectados, cada uno con un número similar de vértices (Ventresca y Aleman, 2015a). Esta instancia CNP se referenciará como CNP-A. Arulsel van et al. (2009) presentó un modelo de programación lineal entera (ILP) y un enfoque heurístico basado en un algoritmo codicioso acoplado con una fase de búsqueda local para el CNP-A. Posteriormente, la naturaleza NP-completa de este problema (Arulselvan et al., 2009) promovió la aplicación de metaheurísticas para obtener soluciones casi óptimas dentro de tiempos computacionales razonables: Ventresca (2012) propuso un modelo de aprendizaje incremental basado en población y un apareamiento simulado, Pullan (2015) diseñó un algoritmo codicioso de varios arranques, y Aringhieri et al. (2015) presentó un enfoque de búsqueda de vecindario variable.
Los ataques basados en la centralidad (Crucitti et al., 2004, Iyer et al., 2013) son otra alternativa para abordar CNPs, que apuntan a los vértices a ser removidos de acuerdo a una medida de centralidad dada y una de las siguientes estrategias:
En ataques simultáneos dirigidos, la medida de centralidad se calcula para todos los vértices de la red, y los k con los valores más altos se eliminan a la vez.
En los ataques segmentados secuenciales, sólo el vértice con la medida de centralidad más alta se elimina a la vez y el proceso se repite k veces. Dado que cada remoción probablemente modifica los valores de centralidad de los vértices restantes, la métrica se calcula una vez para el gráfico inicial y de nuevo después de cada eliminación para los vértices restantes.
Iyer et al. (2013) investigaron el efecto de los ataques basados en la centralidad con diferentes esquemas de remoción y medidas de centralidad, como el grado, BC, la cercanía y el autovector en una amplia gama de redes.
Encontraron que la eliminación secuencial del vértice con BC más alto era el método más efectivo para degradar la estructura de la red. Esta conclusión también fue apoyada por Ventresca y Aleman (2015b), quienes analizaron los efectos de acuerdo a seis métricas de centralidad.
Referencias
Aringhieri, R., Grosso, A., Hosteins, P., Scatamacchia, R., 2015. VNS solutions for the critical node problem. Electronic Notes in Discrete Mathematics 47, 37–44.
Arulselvan, A., Commander, C. W., Elefteriadou, L., Pardalos, P. M., 2009. Detecting critical nodes in sparse graphs. Computers & Operations Research 36 (7), 2193–2200.
Crucitti, P., Latora, V., Marchiori, M., Rapisarda, A., 2004. Error and attack tolerance of complex networks. Physica A: Statistical Mechanics and its Applications 340 (1), 388–394
Iyer, S., Timothy, K., Bala, S., Zhen, W., 04 2013. Attack robustness and centrality of complex networks. PLoS ONE 8 (4), e59613.
Ortiz-Arroyo, D., 2010. Computational Social Network Analysis: Trends, Tools and Research Advances. Springer London, London, Ch. Discovering sets of key players in social networks, pp. 27–47.
Pullan, W., 2015. Heuristic identification of critical nodes in sparse real-world graphs. Journal of Heuristics 21 (5), 577–598.
Shen, S., Smith, J. C., Goli, R., 2012. Exact interdiction models and algorithms for disconnecting networks via node deletions. Discrete Optimization 9 (3), 172–188.
Ventresca, M., Aleman, D., 2014. A derandomized approximation algorithm for the critical node detection problem. Computers & Operations Research 43, 261–270.
Veremyev, A., Prokopyev, O. A., Pasiliao, E. L., 2015. Critical nodes for distance-based connectivity and related problems in graphs. Networks 66 (3), 170–195.
Walteros, J. L., Pardalos, P. M., 2012. Applications of Mathematics and Informatics in Military Science. Springer New York, New York, NY, Ch. Selected topics in critical element detection, pp. 9–26.
Más información: Manuel Lozano et al. Optimizing network attacks by artificial bee colony, Information Sciences (2017). DOI: 10.1016/j.ins.2016.10.014
La teoría de redes explica por qué una parte insondable de Internet utilizada para intercambios anónimos es particularmente resistente a las fallas y ataques.
M. De Domenico y A. Arenas, Phys. Rev. E (2017)
Darknet es una red oculta de servicios web accesibles únicamente a través de protocolos que garantizan la privacidad y el anonimato. Debido a que se utiliza para fines delicados ya veces ilícitos -desde las ventas de medicamentos hasta el intercambio de artículos fuera de los pagos de los editores- el Darknet es un blanco frecuente de ataques cibernéticos. El hecho de que estos ataques hayan fracasado generalmente podría ser debido a la topología única de la red oculta, según Manlio De Domenico y Alex Arenas en la Universidad Rovira i Virgili de Tarragona, España. Los investigadores utilizaron la teoría de redes para analizar el Darknet, encontrando que su red descentralizada de "nodos" lo hacen más resistente al ataque en comparación con el resto de Internet.
Basándose en datos del Internet Research Lab de la Universidad de California, Los Angeles, el equipo caracterizó la topología de Darknet. A continuación, desarrollaron un modelo que describe la forma en que la información se transmite en Darknet con "onion routing", una técnica que encapsula los mensajes en múltiples capas de cifrado. Este modelo permitió a los investigadores simular la respuesta de Darknet a tres tipos de perturbaciones: ataques dirigidos a nodos de red específicos, fallos aleatorios de algunos nodos y cascadas de fallos que se propagan a través de la red.
Su análisis muestra que, para causar grandes interrupciones, los ataques deben tener como objetivo 4 veces el número de nodos en el Darknet como en Internet. Además, los fallos en cascada se corrigen más fácilmente en Darknet mediante la adición de capacidad de red. Los autores atribuyen esta resistencia a la topología relativamente descentralizada de Darknet, que surge espontáneamente del uso de protocolos de enrutamiento de cebolla. Por el contrario, Internet tiene una estructura más heterogénea, consistente en centros altamente interconectados que proporcionan estabilidad pero también hacen que todo el sistema sea potencialmente vulnerable.
Department of Physics, 225 Nieuwland Science Hall, University of Notre Dame, Notre Dame, Indiana 46556, USA Correspondence to: Albert-László Barabási Correspondence and requests for materials should be addressed to A.-L.B. (e-mail: Email: alb@nd.edu).
Muchos sistemas complejos muestran un sorprendente grado de tolerancia frente a errores. Por ejemplo, los organismos relativamente simples crecen, persisten y se reproducen a pesar de las drásticas intervenciones farmacéuticas o ambientales, una tolerancia de error atribuida a la robustez de la red metabólica subyacente1. Las complejas redes de comunicación2 muestran un sorprendente grado de robustez: aunque los componentes clave regularmente fallan, los fallos locales raramente llevan a la pérdida de la capacidad global de transmisión de información de la red. La estabilidad de estos y otros sistemas complejos se atribuye a menudo al cableado redundante de la red funcional definida por los componentes de los sistemas. Aquí se demuestra que la tolerancia de error no es compartida por todos los sistemas redundantes: sólo se muestra por una clase de redes no homogéneas, denominadas redes sin escala, que incluyen las redes World Wide Web3, 4, 5, Internet6, redes sociales7 y células8. Encontramos que tales redes muestran un grado inesperado de robustez, la capacidad de sus nodos para comunicarse no siendo afectada incluso por tasas de fracaso realistas. Sin embargo, la tolerancia de errores tiene un alto precio ya que estas redes son extremadamente vulnerables a ataques (es decir, a la selección y remoción de algunos nodos que juegan un papel vital en el mantenimiento de la conectividad de la red). Tal tolerancia de error y vulnerabilidad de ataque son propiedades genéricas de las redes de comunicación.
La creciente disponibilidad de datos topológicos sobre las grandes redes, ayudada por la informatización de la adquisición de datos, ha llevado a grandes avances en nuestra comprensión de los aspectos genéricos de la estructura y el desarrollo de la red9,10,11,12,13,14,15,16. Los resultados empíricos y teóricos existentes indican que las redes complejas pueden dividirse en dos clases principales basadas en su distribución de conectividad P (k), dando la probabilidad de que un nodo en la red esté conectado a k otros nodos. La primera clase de redes se caracteriza por un P (k) que alcanza un pico en una valla de cerca de valla media derecha y disminuye exponencialmente para k grande. Los ejemplos más investigados de tales redes exponenciales son el modelo de gráfico aleatorio de Erdös y Rényi9, y el modelo de Watts y Strogatz11 de pequeño mundo, que conduce a una red bastante homogénea, en la que cada nodo tiene aproximadamente el mismo número de enlaces, K sime fencekright cerca de la izquierda. Por el contrario, los resultados obtenidos en la World Wide Web (WWW) 3, 4, 5, Internet6 y otras grandes redes17,18,19 indican que muchos sistemas pertenecen a una clase de redes no homogéneas, denominadas redes libres de escala, para las cuales P (K) decae como una ley de potencia, que es P (k) aproximadamente k-gamma, P( k) k libre de una escala característica. Mientras que la probabilidad de que un nodo tenga un número muy grande de conexiones (k doble mayor que la cerca de valla de cerca izquierda) está prácticamente prohibida en redes exponenciales, los nodos altamente conectados son estadísticamente significativos en redes libres de escala.-
A, La red exponencial es homogénea: la mayoría de los nodos tienen aproximadamente el mismo número de enlaces. B, La red libre de escala es no homogénea: la mayoría de los nodos tienen uno o dos enlaces, pero unos pocos nodos tienen un gran número de enlaces, lo que garantiza que el sistema está totalmente conectado. Rojo, los cinco nodos con el mayor número de enlaces; Verdes, sus primeros vecinos. Aunque en la red exponencial sólo el 27% de los nodos son alcanzados por los cinco nodos más conectados, en la red libre de escala se alcanzan más del 60%, lo que demuestra la importancia de los nodos conectados en la red libre de escala. Nodos y 215 enlaces ((k = 3.3). La visualización de la red se realizó utilizando el programa Pajek para el análisis de redes de gran tamaño: valla izquierda http://vlado.fmf.uni-lj.si/pub/networks/pajek/pajekman.htmright fence.
Comenzamos por investigar la robustez de los dos modelos básicos de distribución de conectividad, el modelo Erdös-Rényi (ER) 9, 10 que produce una red con cola exponencial y el modelo libre de escala17 con una cola de poder-ley. En el modelo ER primero definimos los N nodos, y luego conectamos cada par de nodos con la probabilidad p. Este algoritmo genera una red homogénea (Fig. 1), cuya conectividad sigue una distribución de Poisson que alcanzó un pico en la valla de cerca de valla izquierda y que se desintegra exponencialmente para k doble mayor que kk .
La distribución de conectividad no homogénea de muchas redes reales es reproducida por el modelo libre de escala17, 18 que incorpora dos ingredientes comunes a las redes reales: el crecimiento y el apego preferencial. El modelo comienza con nodos m0. En cada paso de tiempo t se introduce un nuevo nodo, que está conectado a m de los nodos ya existentes. La probabilidad Pii de que el nuevo nodo está conectado al nodo i depende de la conectividad ki del nodo i tal que i = k i/jk j. Para t grande la distribución de conectividad es una ley de potencia que sigue P(k) = 2 m2/k3..
La interconexión de una red se describe por su diámetro d, definido como la longitud media de los caminos más cortos entre dos nodos cualesquiera de la red. El diámetro caracteriza la habilidad de dos nodos para comunicarse entre sí: cuanto menor es d, más corta es la trayectoria esperada entre ellos. Las redes con un número muy grande de nodos pueden tener un diámetro bastante pequeño; Por ejemplo, el diámetro de la WWW con más de 800 millones de nodos20 es alrededor de 19 (ref.3), mientras que se cree que las redes sociales con más de seis mil millones de individuos tienen un diámetro de alrededor de seis21. Para comparar correctamente los dos modelos de red, hemos generado redes que tienen el mismo número de nodos y enlaces, de modo que P (k) sigue una distribución de Poisson para la red exponencial y una ley de potencia para la red libre de escala.
Para abordar la tolerancia de error de las redes, se estudian los cambios de diámetro cuando se elimina una pequeña fracción f de los nodos. El mal funcionamiento (ausencia) de cualquier nodo en general aumenta la distancia entre los nodos restantes, ya que puede eliminar algunos caminos que contribuyen a la interconexión del sistema. En efecto, para la red exponencial el diámetro aumenta monotónicamente con f (figura 2a); Así, a pesar de su cableado redundante (Fig. 1), es cada vez más difícil para los nodos restantes para comunicarse entre sí. Este comportamiento se basa en la homogeneidad de la red: puesto que todos los nodos tienen aproximadamente el mismo número de enlaces, todos ellos contribuyen igualmente al diámetro de la red, por lo que la eliminación de cada nodo causa la misma cantidad de daño. Por el contrario, observamos un comportamiento drásticamente diferente y sorprendente para la red libre de escala (figura 2a): el diámetro permanece sin cambios bajo un nivel creciente de errores. Así, incluso cuando el 5% de los nodos fallan, la comunicación entre los nodos restantes de la red no se ve afectada. Esta robustez de las redes libres de escala está enraizada en su distribución de conectividad extremadamente inhomogénea: debido a que la distribución de la ley de potencia implica que la mayoría de los nodos tienen sólo unos pocos enlaces, los nodos con conectividad pequeña serán seleccionados con mucha mayor probabilidad. La eliminación de estos nodos "pequeños" no altera la estructura de la ruta de los nodos restantes, y por lo tanto no tiene ningún impacto en la topología de red general.
(a) Comparación entre los modelos de red exponencial (E) y libre de escala (SF), cada uno de los cuales contiene N = 10.000 nodos y 20.000 enlaces (es decir, valla de cerca de valla izquierda = 4). Los símbolos azules corresponden al diámetro de las redes exponenciales (triángulos) y las redes libres de escala (cuadrados) cuando una fracción f de los nodos se elimina aleatoriamente (tolerancia de error). Los símbolos rojos muestran la respuesta de las redes exponenciales (diamantes) y las redes libres de escala (círculos) a los ataques, cuando se eliminan los nodos más conectados. Determinamos la dependencia f del diámetro para diferentes tamaños de sistema (N = 1.000; 5.000; 20.000) y encontramos que las curvas obtenidas, además de una corrección de tamaño logarítmico, se superponen con las mostradas en a, indicando que los resultados son independientes del Tamaño del sistema. Observamos que el diámetro de la red sin perturbaciones (f = 0) libre de escala es menor que el de la red exponencial, lo que indica que las redes libres de escala utilizan los enlaces disponibles para ellos de manera más eficiente, generando una red más interconectada. B, Los cambios en el diámetro de Internet bajo fallos aleatorios (cuadrados) o ataques (círculos). Utilizamos el mapa topológico de Internet, que contiene 6.209 nodos y 12.200 enlaces (k = 3.4), recopilados por el National Laboratory for Applied Network Research, cerca de la izquierda fencehttp: //moat.nlanr.net/Routing/rawdata/right fence. C, error (cuadrados) y ataque (círculos) de supervivencia de la World Wide Web, medido en una muestra que contiene 325.729 nodos y 1.498.353 enlaces3, de tal manera que k = 4.59.
Un agente informado que intenta dañar deliberadamente una red no eliminará los nodos al azar, sino que preferentemente se dirigirá a los nodos más conectados. Para simular un ataque primero retiramos el nodo más conectado y continuamos seleccionando y eliminando nodos en orden decreciente de su conectividad k. Al medir el diámetro de una red exponencial bajo ataque, se observa que, debido a la homogeneidad de la red, no existe diferencia sustancial si los nodos se seleccionan aleatoriamente o en orden decreciente de conectividad (Figura 2a). Por otro lado, se observa un comportamiento drásticamente diferente para las redes libres de escala. Cuando se eliminan los nodos más conectados, el diámetro de la red libre de escala aumenta rápidamente, duplicando su valor original si se elimina el 5% de los nodos. Esta vulnerabilidad a los ataques está enraizada en la inhomogeneidad de la distribución de conectividad: la conectividad es mantenida por unos pocos nodos altamente conectados (Figura 1b), cuya eliminación altera drásticamente la topología de la red y disminuye la capacidad de los nodos restantes para comunicarse con cada uno otro.
Cuando los nodos se eliminan de una red, los clústeres de nodos cuyos vínculos con el sistema desaparecen pueden ser cortados (fragmentados) del clúster principal. Para entender mejor el impacto de los fallos y los ataques en la estructura de la red, investigamos a continuación este proceso de fragmentación. Medimos el tamaño del mayor grupo, S, que se muestra como una fracción del tamaño total del sistema, cuando una fracción f de los nodos se eliminan aleatoriamente o en un modo de ataque. Encontramos que para la red exponencial, a medida que aumentamos f, S muestra un comportamiento de tipo umbral tal que para f > fec = 0.28 tenemos S 0. Se observa un comportamiento similar cuando se monitorea el tamaño medio de sde los aislados (Es decir, todos los conglomerados excepto el más grande), encontrando que s aumenta rápidamente hasta que s 2 en fec, después de lo cual disminuye s = 1. Estos resultados indican el siguiente escenario de desglose ( Fig. 3a). Para los pequeños f, sólo los nodos individuales se separan, a s 1, pero a medida que f aumenta, el tamaño de los fragmentos que caen del grupo principal aumenta, mostrando un comportamiento inusual en fec. Cuando el sistema se desmorona; El racimo principal se rompe en pedazos pequeños, llevando a S 0, y el tamaño de los fragmentos, valla cerrada a la izquierda, picos. A medida que continuamos eliminando los nodos (f > fec ), fragmentamos estos grupos aislados, lo que conduce a una cerca decreciente de la cerca derecha. Debido a que el modelo ER es equivalente a la percolación dimensional infinita22, el comportamiento umbral observado es cualitativamente similar al punto crítico de percolación.
El tamaño relativo del mayor grupo S (símbolos abiertos) y el tamaño promedio de los grupos aislados dejó la valla cerrada (símbolos rellenos) en función de la fracción de nodos eliminados f para los mismos sistemas que en la Fig. 2. El tamaño S se define como la fracción de nodos contenidos en el grupo más grande (es decir, S = 1 para f = 0). A, Fragmentación de la red exponencial bajo fallos aleatorios (cuadrados) y ataques (círculos). B, Fragmentación de la red libre de escala bajo fallos aleatorios (cuadrados azules) y ataques (círculos rojos). El recuadro muestra las curvas de tolerancia de error para toda la gama de f, indicando que el racimo principal se descompone sólo después de haber sido completamente desinflado. Observamos que el comportamiento de la red libre de escala bajo errores es consistente con una transición de percolación extremadamente retardada: a tasas de error alto no realistas (fmax 0,75) observamos un pico muy pequeño en la valla de fencesright izquierda s ( smax1,06 ) Incluso en el caso de fallas aleatorias, lo que indica la existencia de un punto crítico. Para a y b se repitió el análisis para sistemas de tamaños N = 1.000, 5.000 y 20.000, encontrando que las curvas de cerca S y de valla izquierda superpuestas se superponen con la que se muestra aquí, indicando que el escenario de agrupamiento global y el valor de la Punto es independiente del tamaño del sistema. C, d, Fragmentación de Internet (c) y WWW (d), utilizando los datos topológicos descritos en la Fig. 2. Los símbolos son los mismos que en b. La valla de fencesright izquierda en d en el caso de ataque se muestra en una escala diferente, dibujada en el lado derecho del marco. Considerando que para f pequeño hemos dejado la cerca fencesright de la cerca 1.5, en fwc = 0.067 el tamaño medio del fragmento aumenta repentinamente, pico en s max 60, después decae rápidamente. Para la curva de ataque en d ordenamos los nodos en función del número de enlaces salientes, kout. Observamos que mientras que las tres redes estudiadas, el modelo libre de escala, Internet y la WWW, tienen diferentes gamas, vallas de cerca y coeficientes de agrupamiento11, su respuesta a ataques y errores es idéntica. De hecho, encontramos que la diferencia entre estas magnitudes cambia sólo fc y la magnitud de d, S and s pero no la naturaleza de la respuesta de estas redes a las perturbaciones.
Sin embargo, la respuesta de una red libre de escala a los ataques y fallos es bastante diferente (Fig. 3b). Para los fracasos aleatorios no se observa un umbral para la fragmentación; En cambio, el tamaño del grupo más grande disminuye lentamente. El hecho de que s 1 para la mayoría de los valores de f indica que la red es deflactada por los nodos que se rompen uno por uno, el nivel de error creciente que conduce al aislamiento de solo nodos solamente, no racimos de nodos. Por lo tanto, en contraste con la fragmentación catastrófica de la red exponencial en fe c, la red libre de escala permanece unida como un cluster grande para valores muy altos de f, proporcionando evidencia adicional de la estabilidad topológica de estas redes bajo fallos aleatorios. Este comportamiento es consistente con la existencia de un punto crítico extremadamente retrasado (Fig. 3) donde la red se descompone sólo después de que el racimo principal haya sido completamente desinflado. Por otra parte, la respuesta al ataque de la red libre de escala es similar (pero más rápida) a la respuesta al ataque y al fallo de la red exponencial (figura 3b): en un umbral crítico fsfc 0.18, menor que el valor fec 0.28 observado para la red exponencial, el sistema se deshace, formando muchos grupos aislados (Fig. 4).
a-f, La distribución de tamaños de clúster para varios valores de f cuando una red libre de escala de parámetros dada en la Fig. 3b está sujeto a fallos aleatorios (a-c) o ataques (d-f). Los paneles superiores, las redes exponenciales bajo fallos y ataques aleatorios y las redes libres de escala bajo ataques se comportan de manera similar. Para f pequeños, los grupos de diferentes tamaños se descomponen, aunque todavía hay un grupo grande. Esto es apoyado por la distribución de tamaño de clúster: aunque vemos algunos fragmentos de tamaños entre 1 y 16, hay un gran grupo de tamaño 9.000 (el tamaño del sistema original es 10.000). En un fc crítico (ver Fig. 3) la red se rompe en fragmentos pequeños entre los tamaños 1 y 100 (b) y el grupo grande desaparece. A mayor aún f (c) los grupos se fragmentan más en nodos individuales o grupos de tamaño dos. Los paneles inferiores, las redes libres de escala siguen un escenario diferente bajo fallos aleatorios: el tamaño del grupo más grande disminuye lentamente como primeros nodos individuales, y luego se rompen grupos pequeños. De hecho, en f = 0,05 sólo los nodos simples y dobles se rompen (d). En f = 0.18, la red está fragmentada (b) bajo ataque, pero bajo fallas el gran grupo de tamaño 8.000 coexiste con grupos aislados de tamaños 1 a 5 (e). Incluso para una tasa de error de f = 0,45, el clúster grande persiste, el tamaño de los fragmentos rotos no excede 11 (f).
Aunque se están realizando grandes esfuerzos para diseñar componentes tolerantes a errores y de bajo rendimiento para los sistemas de comunicación, poco se sabe sobre el efecto de los errores y los ataques a la conectividad a gran escala de la red. A continuación, investigamos el error y la tolerancia de ataque de dos redes de creciente importancia económica y estratégica: Internet y la WWW.
Faloutsos et al.6 investigaron las propiedades topológicas de Internet en el nivel de enrutador e inter-dominio, encontrando que la distribución de conectividad sigue una ley de potencia, P(k) k-2.48. En consecuencia, esperamos que debe mostrar la tolerancia de error y la vulnerabilidad de ataque predicho por nuestro estudio. Para probar esto, hemos utilizado la última encuesta de la topología de Internet, dando a la red en el nivel inter-dominio (sistema autónomo). De hecho, encontramos que el diámetro de Internet no se ve afectado por la eliminación aleatoria de hasta 2,5% de los nodos (un orden de magnitud mayor que la tasa de fallos (0,33%) de los enrutadores de Internet23), mientras que si el mismo porcentaje De los nodos más conectados son eliminados (ataque), d más que triples (figura 2b). De forma similar, el clúster grande conectado persiste para altas tasas de eliminación de nodos aleatorios, pero si los nodos se eliminan en el modo de ataque, el tamaño de los fragmentos que se rompen aumenta rápidamente, apareciendo el punto crítico a fIc 0.03 (Figura 3b).
La WWW forma un enorme grafo dirigido cuyos nodos son documentos y los bordes son los hipervínculos de URL que apuntan de un documento a otro, su topología determinando la capacidad de los motores de búsqueda para localizar información sobre él. La WWW es también una red libre de escala: las probabilidades Pout (k) y Pin (k) que un documento tiene k enlaces salientes y entrantes siguen una ley de poder sobre varios órdenes de magnitud, es decir, P(k) k -, con in = 2.1 y out = 2.453, 4, 24, Ya que no existe un mapa topológico completo de la WWW, limitamos nuestro estudio a un subconjunto de la red que contiene 325.729 nodos y 1.469.680 enlaces (k = 4.59 ) (Referencia 3). A pesar de la dirección de los enlaces, la respuesta del sistema es similar a las redes no dirigidas que investigamos anteriormente: después de un ligero incremento inicial, d permanece constante en el caso de fallas aleatorias y aumentos para ataques (Figura 2c). La red sobrevive como una agrupación grande bajo altas tasas de fracaso, pero el comportamiento de la cerca cercada por la izquierda indica que bajo ataque el sistema se desmorona abruptamente en fw c = 0.067 (Figura 3c).
En resumen, encontramos que las redes libres de escala exhiben un sorprendentemente alto grado de tolerancia contra fallos aleatorios, una propiedad no compartida por sus contrapartes exponenciales. Esta robustez es probablemente la base de la tolerancia de error de muchos sistemas complejos, que van desde células8 a sistemas de comunicación distribuidos. También explica por qué, a pesar de los frecuentes problemas del enrutador23, rara vez experimentamos cortes de red globales o, a pesar de la indisponibilidad temporal de muchas páginas web, nuestra capacidad de navegar y localizar información en la web no se ve afectada. Sin embargo, la tolerancia de error se produce a expensas de la supervivencia de ataque: el diámetro de estas redes aumenta rápidamente y se rompen en muchos fragmentos aislados cuando se atacan los nodos más conectados. Esta disminución de la capacidad de supervivencia de los ataques es útil para el diseño de fármacos8, pero es menos alentadora para los sistemas de comunicación, como Internet o la WWW. Aunque generalmente se piensa que los ataques a redes con administración de recursos distribuidos son menos exitosos, nuestros resultados indican lo contrario. Las debilidades topológicas de las actuales redes de comunicación, enraizadas en su distribución de conectividad no homogénea, reducen seriamente su capacidad de supervivencia de ataque. Esto podría ser explotado por aquellos que buscan dañar estos sistemas.