miércoles, 7 de marzo de 2018

Qué algoritmo sobre o subajusta cuando se buscan comunidades en redes

Evaluación del sobreajuste y el subajuste en modelos de estructura de comunidad de red

Amir Ghasemian, Homa Hosseinmardi, Aaron Clauset
(Presentado el 28 de febrero de 2018)
arXiv:1802.10582 [stat.ML]


Una tarea común de minería de datos en redes es la detección de comunidades, que busca una descomposición no supervisada de una red en grupos estructurales basada en regularidades estadísticas en la conectividad de la red. Aunque existen muchos métodos, el teorema de No Free Lunch para la detección de comunidades implica que cada uno realiza algún tipo de compensación, y ningún algoritmo puede ser óptimo en todas las entradas. Por lo tanto, diferentes algoritmos superarán o subestimarán las diferentes entradas, encontrando más, menos o solo comunidades diferentes de lo que es óptimo, y los métodos de evaluación que usan una partición de metadatos como verdad fundamental producirán conclusiones engañosas sobre la precisión general. Aquí, presentamos una amplia evaluación de sobreequipamiento en la detección de comunidades, comparando el comportamiento de 16 algoritmos de detección de comunidades de vanguardia en un corpus novedoso y estructuralmente diverso de 406 redes del mundo real. Encontramos que (i) los algoritmos varían ampliamente tanto en el número de comunidades que encuentran como en su composición correspondiente, dado el mismo aporte, (ii) los algoritmos se pueden agrupar en grupos de alto nivel basados ​​en las similitudes de sus resultados en realidades. las redes mundiales, y (iii) estas diferencias inducen una amplia variación en la precisión de las tareas de predicción de enlaces y descripción de enlaces. Presentamos un nuevo diagnóstico para evaluar el sobreajuste y el ajuste insuficiente en la práctica, y lo utilizamos para dividir aproximadamente los métodos de detección de la comunidad en algoritmos de aprendizaje general y especializado. En todos los métodos e insumos, las técnicas bayesianas basadas en el modelo de bloques estocásticos y un enfoque de longitud de descripción mínima para la regularización representan el mejor enfoque general de aprendizaje, pero pueden superarse en circunstancias específicas. Estos resultados introducen un enfoque basado en principios teóricos para evaluar el exceso y el insuficiente ajuste en los modelos de la estructura de la red comunitaria y un punto de referencia realista mediante el cual se pueden evaluar y comparar nuevos métodos.



No hay comentarios:

Publicar un comentario