miércoles, 22 de abril de 2015

La Ley de Benford ayuda a detectar cuentas sospechosas en Twitter

Cómo la Ley de Benford revela actividad sospechosa en Twitter

La distribución contraintuitiva de dígitos en determinados conjuntos de datos resulta ser una poderosa herramienta para la detección de comportamiento extraño en las redes sociales.

MIT Technology Review




De vuelta en la década de 1880, el astrónomo estadounidense Simon Newcomb notó algo extraño en el libro de tablas logarítmicas en su biblioteca las páginas iniciales estaban mucho más fuertemente manoseadas que los posteriores lo que implicaba que la gente miraba hacia arriba logaritmos comenzando con "1" mucho más a menudo que los " 9. "

Después de algunas investigaciones, su conclusión de que en cualquier lista de los datos, los números comienzan con el dígito "1" debe ser mucho más comunes que los números que comienzan con otras cifras. Luego pasó a formular lógica matemática detrás de este fenómeno, que más tarde se conoció como la ley de Benford, en honor del físico Frank Benford que lo descubrió independientemente unos 50 años más tarde.

La ley de Benford es muy contradictoria. Después de todo, no es claro por qué los números que comienzan con "1" deberían ser más comunes que otros. De hecho, la ley prevé que en los datos que se ajustan a esta regla, los números con el primer dígito "1" debe ocurrir alrededor del 30 por ciento del tiempo, mientras que los números que comienzan con el dígito "9" debe representar menos del 5 por ciento del total.

Eso resulta ser cierto en general para una amplia gama de conjuntos de datos y, de hecho, casi cualquier conjunto de datos que se extiende por varios órdenes de magnitud. Eso incluye a las poblaciones de las ciudades, los precios del mercado de valores, constantes físicas, números en un problema de resumen del lector, y así sucesivamente.

Aunque extraño, la ley de Benford resulta ser enormemente útil para detectar el fraude financiero. La idea es que si la gente inventa cifras, los primeros dígitos de los datos deben ser distribuidos de manera bastante uniforme. De hecho, cada vez que hay una influencia externa sobre el comportamiento de la gente, se plantea la posibilidad de una desviación de la ley de Benford.

Por supuesto, un conjunto de datos que se desvía de la ley de Benford no es a prueba de fraude, sólo una indicación de que se requiere una mayor investigación.

Pero mientras que los estadísticos han buscado la ley de Benford en muchos conjuntos de datos, nunca han aplicado al mundo de las redes sociales. Hoy que cambia gracias al trabajo de Jennifer Golbeck en la Universidad de Maryland en College Park. Ella muestra que no sólo la ley de Benford se aplica a muchos conjuntos de datos asociados con las redes sociales, pero que las desviaciones de esta ley están claramente vinculados a la actividad sospechosa en línea.

Golbeck comienza con los datos sobre los usuarios de los cinco principales redes sociales: Facebook (18.000 usuarios), Twitter (78.000 usuarios), Google Plus (20.000 usuarios), Pinterest (40 millones de usuarios) y LiveJournal (45.000 usuarios). Su método era sencillo. Miró el número de amigos y seguidores asociados a cada usuario en estos conjuntos de datos y contó la distribución de los primeros dígitos en las figuras.

Los resultados son una lectura interesante. En cada serie, excepto uno de datos, la distribución estadística de primeros dígitos sigue de cerca la ley de Benford.

Eso no es realmente una sorpresa. No hay ninguna razón por qué estos conjuntos de datos, que abarcan varios órdenes de magnitud, no deben seguir la ley de Benford. Pero un conjunto de datos no siguió la ley de Benford. Esto ocurrió en el número de la siguiente manera en Pinterest. Golbeck señala que esto por sí mismo no indica actividad fraudulenta, pero ciertamente sugiere que se necesita más investigación.

No pasó mucho tiempo para que Golbeck para identificar la causa. Resulta que cuando la gente se une Pinterest, están obligados a seguir cinco o más "intereses" antes de que puedan continuar con el proceso de registro. Esto crea al menos cinco inicial sigue para cada usuario. "Aunque los usuarios pueden entrar y después eliminar los sigue, pocos lo hacen, y este proceso de iniciación afecta a toda la distribución de los DCF", dice ella.

Eso es un ejemplo interesante de cómo una influencia externa provoca un conjunto de datos a desviarse de la ley de Benford. Contadores forenses buscan desviaciones similares en los datos financieros, pero estas desviaciones no siempre son indicativas de fraude. Por ejemplo, el número 03 de mayo surgir con más frecuencia de lo esperado en los libros de una empresa si con frecuencia compra los productos que cuestan £ 39.99.

Golbeck ha ido más allá para ver si la ley de Benford sugiere actividades sospechosas en las redes sociales. En particular, ella no era justo en el número de cada uno de los amigos, pero en las redes de sus amigos, las llamadas redes egocéntricas.

Luego mide la correlación entre la red egocéntrica de un individuo y la ley de Benford y encontró que para la gran mayoría de la gente, esta correlación es superior a 0,9. "En general, la gran mayoría de las redes egocéntricas se ajustaba a lo que la Ley de Benford predicho", dice ella.

En el caso de Twitter, sólo 170 personas de las 21.000 que ella investigó tenían una correlación inferior a 0,5. Golbeck investigó cada uno de ellos con resultados curiosos.

"Casi cada una de las cuentas de 170 parecían estar comprometido en actividades sospechosas", dice ella.

Algunas de las cuentas eran claramente el spam, pero la mayoría eran parte de una red de bots rusos que publican fragmentos aleatorios de obras literarias o citas. "Todas las cuentas rusas se comportaban de la misma manera, después de otras cuentas de su tipo, exactamente una imagen de fotos de la publicación, con una imagen de la foto diferente como foto de perfil", dice ella.

Sólo por qué existen estas cuentas, y con qué propósito, no está claro. Pero su comportamiento es muy inusual. De hecho, sólo dos de las 170 cuentas con una baja correlación con la ley de Benford parecen pertenecer a los usuarios legítimos, dice Golbeck.

Eso es un trabajo interesante que tiene implicaciones importantes para la red social forense. En los últimos años, se ha vuelto cada vez más difícil de detectar cuentas en las redes sociales que se dedican a actividades sospechosas. La comparación de un gran número de ellos en contra de la ley de Benford es una manera rápida y sencilla de encontrar los que requieren mayor investigación.

Por supuesto, este proceso no va a encontrar todas las cuentas sospechosas. Cualquier cuenta que crece en la misma forma que uno convencional permanecería oculto y es posible que los usuarios maléficos podrían emplear técnicas simples para hacer sus cuentas menos identificables ahora que este método ha sido revelado.

Pero por el momento, la ley de Benford parece ser una herramienta valiosa en la guerra contra el fraude y las actividades sospechosas en las redes sociales. "La aplicabilidad de la Ley de Benford a los medios de comunicación social es una nueva herramienta para analizar el comportamiento del usuario, la comprensión de cuándo y por qué se pueden producir desviaciones naturales, y en última instancia detectar cuando las fuerzas anormales en el trabajo", concluye Golbeck.

Ref: arxiv.org/abs/1504.04387 : Benford’s Law Applies to Online Social Networks

No hay comentarios:

Publicar un comentario en la entrada