Mostrando entradas con la etiqueta matriz de adyacencia. Mostrar todas las entradas
Mostrando entradas con la etiqueta matriz de adyacencia. Mostrar todas las entradas

miércoles, 4 de julio de 2018

Otra introducción al ARS

Análisis de redes sociales: estado del arte


Contribuido por: Bart Baesens | datamining apps


Introducción

En las últimas décadas, el uso de sitios web de redes sociales en la vida cotidiana de todos está en auge. Las personas pueden continuar sus conversaciones en sitios de redes sociales como Facebook, Twitter, LinkedIn, Google+, Instagram, etc., y compartir sus experiencias con sus conocidos, amigos, familiares, etc. Solo hace falta un clic para actualizar su ubicación al resto de el mundo. Hay muchas opciones para transmitir sus actividades actuales: por una imagen, video, ubicación geográfica, enlaces o simplemente texto sin formato.

Los usuarios de los sitios de redes sociales en línea revelan explícitamente sus relaciones con otras personas. En consecuencia, los sitios de redes sociales son un mapeo casi perfecto de las relaciones que existen en el mundo real. Saben quién eres, cuáles son tus aficiones e intereses, con quién te casas, cuántos hijos tienes, tus amigos con los que trabajas todas las semanas, tus amigos del club del vino, etc. Esta red interconectada de gente que sabe el uno al otro de alguna manera es una fuente de información y conocimiento extremadamente interesante. Los gerentes de marketing ya no necesitan adivinar quién podría influir en quién crear la campaña adecuada. Está todo allí ... cuál es el problema. Los sitios de redes sociales reconocen la riqueza de las fuentes de datos que tienen y no están dispuestos a compartirlos sin costo. Esos datos a menudo se privatizan y regulan, y están bien ocultos para uso comercial. Por otro lado, los sitios de redes sociales ofrecen muchas facilidades incorporadas a los gerentes y otras partes interesadas para lanzar y administrar sus campañas de mercadotecnia explotando la red social, sin publicar la representación exacta de la red.

Sin embargo, las empresas a menudo se olvidan de que pueden reconstruir una parte de la red social utilizando datos internos. Los proveedores de telecomunicaciones, por ejemplo, tienen una base de datos transaccional masiva donde registran el comportamiento de llamadas de sus clientes. Bajo el supuesto de que los buenos amigos se llaman entre sí más a menudo, podemos recrear la red e indicar la fuerza de enlace entre las personas en función de la frecuencia y / o duración de las llamadas. Los proveedores de infraestructura de Internet pueden mapear las relaciones entre las personas que usan las direcciones IP de sus clientes. Las direcciones IP que se comunican frecuentemente están representadas por una relación más fuerte. Al final, la red de IP contemplará la estructura relacional entre las personas desde otro punto de vista, pero hasta cierto punto, como se observa en la realidad. Se pueden encontrar muchos más ejemplos en las industrias de banca, venta minorista y juegos en línea. En este artículo, discutimos cómo se pueden aprovechar las redes sociales para el análisis.

Definiciones de redes sociales

Una red social se compone de nodos (vértices) y enlaces. Ambos deben estar claramente definidos al comienzo del análisis. Un nodo (vértice) podría definirse como un cliente (privado / profesional), hogar / familia, paciente, médico, papel, autor, terrorista, página web ... Un enlace puede definirse como la relación de un amigo, una llamada, la transmisión de un enfermedad, una relación de "seguimiento", una referencia, etc. Tenga en cuenta que los enlaces también se pueden ponderar según la frecuencia de interacción, la importancia del intercambio de información, la intimidad, la intensidad emocional, etc. Por ejemplo: en una configuración de predicción de abandono, el enlace puede ponderarse de acuerdo con el tiempo (total) en que dos clientes se llamaron durante un período específico. Las redes sociales se pueden representar como un sociograma. Esto se ilustra en la figura siguiente por la cual el color de los nodos corresponde a un estado específico (por ejemplo, revuelto o no revuelto).


Ejemplo de sociograma.

Los sociogramas son útiles para representar redes de pequeña escala. Para redes de gran escala, la red se representa típicamente como una matriz (ver a continuación). Estas matrices serán simétricas [1] y típicamente muy dispersas (con muchos ceros). La matriz también puede contener los pesos si se producen conexiones ponderadas.


C1 C2 C3 C4
C1 1 1 0
C2 1 0 1
C3 1 0 0
C4 0 1 0

Representación matricial de una red social.

En lo que sigue, discutimos cómo se pueden aprovechar las redes sociales para los análisis descriptivos y predictivos.


Análisis descriptivo: métricas de redes sociales y minería comunitaria


Recuerde, el objetivo del análisis descriptivo es describir un conjunto de datos utilizando un conjunto de estadísticas o métricas clave. Una red social se puede caracterizar por varias métricas de centralidad. Las medidas de centralidad más importantes se muestran en la siguiente tabla.


Geodésica Ruta más corta entre dos nodos en la red.
Grado Número de conexiones de un nodo (dentro versus fuera de grado si las conexiones están dirigidas).
Cercanía La distancia promedio de un nodo a todos los demás nodos de la red (recíproco de lejanía).
Intermediación Cuenta el número de veces que un nodo o enlace se encuentra en la ruta más corta entre dos nodos de la red.
Centro teórico de grafos El nodo con la distancia máxima más pequeña a todos los otros nodos de la red.



Medidas de centralidad de red común.

Estas métricas ahora se pueden ilustrar con el ejemplo de juguete de red Kite representado en la siguiente figura [2]:




La red barrilete.


Grado CercaníaIntermediación
6 Diane 0.64 Fernando 14 Heather
5 Fernando 0.64 Garth 8.33 Fernando
5 Garth 0.6 Diane 8.33 Garth
4 Andre 0.6 Heather 8 Ike
4 Beverly 0.53 Andre 3.67 Diane
3 Carol 0.53 Beverly 0.83 Andre
3 Ed 0.5 Carol 0.83 Beverly
3 Heather 0.5 Ed 0 Carol
2 Ike 0.43 Ike 0 Ed
1 Jane 0.31 Jane 0 Jane

Medidas de centralidad para la red Kite.

La tabla anterior informa las medidas de centralidad para la red Kite. Según el grado, Diane es la más importante ya que tiene la mayoría de las conexiones. Ella trabaja como un conector o concentrador. Sin embargo, tenga en cuenta que solo conecta a los que ya están conectados entre sí. Fernando y Garth son los más cercanos a todos los demás. Son los mejor posicionados para comunicar mensajes que deben fluir rápidamente a todos los demás nodos de la red. Heather tiene la mayor intersección. Ella se sienta entre dos comunidades importantes (Ike y Jane contra el resto). Ella juega un rol de intermediario entre ambas comunidades, pero también es un punto único de falla. Tenga en cuenta que la medida de intersección a menudo se utiliza para la minería comunitaria. Una técnica popular aquí es el algoritmo de Girvan-Newman que funciona de la siguiente manera [3]:
  • La intersección de todos los enlaces existentes en la red se calcula primero.
  • El enlace con la mayor intersección se elimina.
  • La interdependencia de todos los enlaces afectados por la eliminación se vuelve a calcular.
  • Los pasos 2 y 3 se repiten hasta que no quedan enlaces.
El resultado es esencialmente un dendrograma (similar a, por ejemplo, agrupamiento jerárquico), que luego se puede utilizar para decidir el número óptimo de comunidades. La minería comunitaria sirve para varios propósitos. Permite comprender el comportamiento de subconjuntos homogéneos en su red que pueden ser especialmente relevantes en análisis de marketing (por ejemplo, para recomendaciones específicas) o detección de fraude (para detectar, por ejemplo, anillos de fraude). Además, la información de la comunidad también puede aprovecharse para el análisis predictivo, utilizando, p. procedimientos de producción como explicamos a continuación.


Análisis predictivo: aprendizaje de redes sociales


En el análisis predictivo, el objetivo es medir una variable objetivo de interés. Los ejemplos podrían ser abandono, fraude, valor predeterminado o valor de vida del cliente (CLV). En el aprendizaje de redes sociales, el objetivo es calcular la probabilidad de membresía de clase (por ejemplo, probabilidad de abandono) de un nodo específico, dado el estado de los otros nodos de la red. Varios desafíos importantes surgen cuando se aprende en las redes sociales. Un desafío clave es que los datos no son independientes y están distribuidos de forma idéntica (IID), una suposición que a menudo se hace en modelos estadísticos clásicos (por ejemplo, regresión lineal y logística). El comportamiento de correlación entre los nodos implica que la pertenencia a la clase de un nodo puede influir en la pertenencia a la clase de un nodo relacionado. A continuación, no es fácil crear una división en un conjunto de capacitación para el desarrollo del modelo y un conjunto de prueba para la validación del modelo, ya que toda la red está interconectada y no se puede cortar en dos partes. Además, muchas redes son de gran escala (por ejemplo, un gráfico de llamadas de un proveedor de telecomunicaciones) y es necesario desarrollar procedimientos computacionales eficientes para hacer el aprendizaje. Finalmente, no se debe olvidar la forma tradicional de hacer análisis utilizando solo información específica de nodo (es decir, sin los aspectos de red) ya que esta información puede ser muy valiosa para la predicción también.

Una forma directa de aprovechar las redes sociales para el análisis predictivo es resumir la red en un conjunto de características que luego se pueden combinar con características que no sean de red (es decir, locales) para el modelado predictivo. Un ejemplo popular de esto es la regresión logística relacional según lo introducido por Lu y Getoor (2003) [4]. Este enfoque básicamente parte de un conjunto de datos con características locales específicas del nodo y le agrega características de red de la siguiente manera:
  • La clase de vecino más frecuente (modo-enlace);
  • Frecuencia de las clases de los vecinos (enlace de frecuencia);
  • Indicadores binarios que indican presencia de clase (enlace binario).

Esto se ilustra en la figura siguiente para el cliente Bart.


Regresión logística relacional.


Luego, se puede estimar un modelo de regresión logística o árbol de decisión utilizando el conjunto de datos con características locales y de red. Tenga en cuenta que existe una cierta correlación entre las características de red agregadas, que deben filtrarse durante un procedimiento de selección de entrada. La creación de características de red también se llama Featurization, ya que las características de la red se agregan básicamente como características especiales al conjunto de datos. Estas características pueden medir el comportamiento de los vecinos en términos de la variable objetivo (por ejemplo, abandono o no) o en términos de las características específicas del nodo local (por ejemplo, edad, promociones, etc.). La figura a continuación proporciona un ejemplo en el que se agrega una característica que describe la cantidad de contactos con churners. La columna final etiquetada 'Churn' es la variable objetivo.


Ejemplo de Caracterización con características que describen el comportamiento objetivo de los vecinos.

La figura a continuación proporciona un ejemplo donde se agregan características que describen el comportamiento del nodo local de los vecinos.


Ejemplo de Caracterización con características que describen el comportamiento del nodo local de los vecinos.

Privacidad

Obviamente, el uso de datos de redes sociales para fines analíticos también requiere una reflexión exhaustiva sobre la privacidad. Con frecuencia, los clientes desconocen sus rastreos de datos, tanto en línea como fuera de línea, y cómo pueden analizarse. Por lo tanto, especialmente bajo la regulación GDPR actual, es de vital importancia que las empresas siempre divulguen adecuadamente qué datos recopilan y cómo los usan. Al hacerlo, no solo deben enfocarse en posibles beneficios de privacidad sino también en los beneficios para el cliente, de modo que los clientes puedan tomar una decisión bien informada sobre si, cuándo y cómo se pueden usar sus datos.

Conclusión

En este artículo, nos acercamos al análisis de redes sociales. Comenzamos brindando definiciones clave de redes sociales. A continuación, ilustramos cómo se pueden aprovechar las redes sociales para el análisis descriptivo resumiéndolos mediante métricas de redes sociales como cercanía, interdependencia, etc. A continuación, desarrollamos el uso de redes sociales para el análisis predictivo utilizando varios procedimientos de presentación. Es importante señalar que aunque las redes sociales representan un nuevo tipo de información, definitivamente no se debe sobreestimar su poder. Más específicamente, uno no debería abandonar los datos tradicionales que no pertenecen a la red para hacer análisis. A lo largo de nuestra investigación, encontramos que los mejores modelos analíticos para, p. Predicción de abandono de pagos: la detección de fraudes generalmente se genera utilizando una combinación de datos de red y no de red. Finalmente, es importante tener en cuenta que siempre que se analicen datos de redes sociales, la privacidad siempre debe respetarse.


Referencias y notas

  • [1] Tenga en cuenta que este es solo el caso de las redes no dirigidas. Para redes dirigidas, que representan p. una relación 'siguiente' que no es necesariamente recíproca, la matriz no será simétrica.
  • [2] Krackhardt, D, Assessing the Political Landscape: Structure, Cognition, and Power in Organizations, Administrative Science Quarterly, 35, pp. 342-369, 1990.
  • [3] Girvan M., Newman M. E. J., Community structure in social and biological networks, Proceedings of the National Academy of Sciences, USA 99, pp. 7821–7826, 2002.
  • [4] Lu Q., Getoor L., Link-based Classification, Proceeding of the Twentieth Conference on Machine Learning (ICML-2003), Washington DC, 2003.

jueves, 3 de mayo de 2018

Innovación y redes en un modelo probabilístico complejo

El modelo matemático revela los patrones de cómo surgen las innovaciones

El trabajo podría conducir a un nuevo enfoque para el estudio de lo que es posible, y cómo se sigue de lo que ya existe.
por Emerging Technology from the arXiv

La innovación es una de las fuerzas impulsoras en nuestro mundo. La creación constante de nuevas ideas y su transformación en tecnologías y productos constituye una piedra angular poderosa para la sociedad del siglo XXI. De hecho, muchas universidades e institutos, junto con regiones como Silicon Valley, cultivan este proceso.

Y sin embargo, el proceso de innovación es algo así como un misterio. Una amplia gama de investigadores lo han estudiado, desde economistas y antropólogos hasta biólogos e ingenieros evolutivos. Su objetivo es comprender cómo ocurre la innovación y los factores que la impulsan para que puedan optimizar las condiciones para la innovación futura.

Sin embargo, este enfoque ha tenido un éxito limitado. La velocidad a la que las innovaciones aparecen y desaparecen se ha medido cuidadosamente. Sigue un conjunto de patrones bien caracterizados que los científicos observan en muchas circunstancias diferentes. Y, sin embargo, nadie ha sido capaz de explicar cómo surge este patrón o por qué rige la innovación.

Hoy, todo eso cambia gracias al trabajo de Vittorio Loreto en la Universidad Sapienza de Roma en Italia y algunos amigos que han creado el primer modelo matemático que reproduce fielmente los patrones que siguen las innovaciones. El trabajo abre el camino a un nuevo enfoque para el estudio de la innovación, de lo que es posible y cómo esto se sigue de lo que ya existe.

La noción de que la innovación surge de la interacción entre lo real y lo posible fue formalizada por primera vez por el teórico de la complejidad Stuart Kauffmann. En 2002, Kauffmann introdujo la idea del "posible adyacente" como una forma de pensar sobre la evolución biológica.

Lo adyacente posible es todas esas cosas (ideas, palabras, canciones, moléculas, genomas, tecnologías, etc.) que están a un paso de lo que realmente existe. Conecta la realización real de un fenómeno particular y el espacio de posibilidades inexploradas.

Adyacente posible


Pero esta idea es difícil de modelar por una razón importante. El espacio de posibilidades inexploradas incluye todo tipo de cosas que son fáciles de imaginar y esperar, pero también incluye cosas que son completamente inesperadas y difíciles de imaginar. Y mientras que el primero es difícil de modelar, este último ha parecido casi imposible.

Además, cada innovación cambia el panorama de las posibilidades futuras. Entonces, en cada instante, el espacio de posibilidades inexploradas -la posible adyacente- está cambiando.

"Aunque el poder creativo de los posibles adyacentes es ampliamente apreciado a un nivel anecdótico, su importancia en la literatura científica es, en nuestra opinión, subestimada", dicen Loreto y compañía.

Sin embargo, incluso con toda esta complejidad, la innovación parece seguir patrones predecibles y fáciles de medir que se han conocido como "leyes" debido a su ubicuidad. Una de ellas es la ley de Heaps, que establece que el número de cosas nuevas aumenta a una velocidad sublineal. En otras palabras, se rige por una ley de poder de la forma V (n) = knβ donde β está entre 0 y 1.

Las palabras a menudo se consideran como un tipo de innovación, y el lenguaje está en constante evolución a medida que aparecen nuevas palabras y las antiguas desaparecen.

Esta evolución sigue la ley de Heaps. Dado un corpus de palabras de tamaño n, el número de palabras distintas V (n) es proporcional a n elevado a la potencia β. En colecciones de palabras reales, β resulta estar entre 0.4 y 0.6.

Otro patrón estadístico bien conocido en innovación es la ley de Zipf, que describe cómo la frecuencia de una innovación se relaciona con su popularidad. Por ejemplo, en un corpus de palabras, la palabra más frecuente ocurre dos veces más que la segunda palabra más frecuente, tres veces más frecuente que la tercera palabra más frecuente, y así sucesivamente. En inglés, la palabra más frecuente es "the", que representa aproximadamente el 7 por ciento de todas las palabras, seguida de "of", que representa aproximadamente el 3,5 por ciento de todas las palabras, seguido de "and", y así sucesivamente.

Esta distribución de frecuencia es la ley de Zipf y surge en una amplia gama de circunstancias, como la forma en que las ediciones aparecen en Wikipedia, cómo escuchamos nuevas canciones en línea, y así sucesivamente.

Estos patrones son leyes empíricas; los conocemos porque podemos medirlos. Pero no está claro por qué los patrones toman esta forma. Y mientras que los matemáticos pueden modelar la innovación simplemente conectando los números observados en ecuaciones, preferirían tener un modelo que produzca estos números a partir de los primeros principios.

Volvemos a Loreto y sus amigos (uno de los cuales es el matemático de la Universidad de Cornell Steve Strogatz). Estos chicos crean un modelo que explica estos patrones por primera vez.

Comienzan con una conocida caja de arena matemática llamada la urna de Polya. Comienza con una urna llena de bolas de diferentes colores. Se retira una bola al azar, se inspecciona y se coloca de nuevo en la urna con varias otras bolas del mismo color, lo que aumenta la probabilidad de que este color se seleccione en el futuro.

Este es un modelo que utilizan los matemáticos para explorar los efectos enriquecedores y la aparición de leyes de potencia. Por lo tanto, es un buen punto de partida para un modelo de innovación. Sin embargo, no produce naturalmente el crecimiento sublineal que predice la ley de Heaps.

Esto se debe a que el modelo Polya urna permite todas las consecuencias esperadas de la innovación (de descubrir un cierto color) pero no tiene en cuenta todas las consecuencias inesperadas de cómo una innovación influye en lo adyacente posible.

Así que Loreto, Strogatz y colegas han modificado el modelo de urna de Polya para dar cuenta de la posibilidad de que descubrir un nuevo color en la urna pueda desencadenar consecuencias completamente inesperadas. Ellos llaman a este modelo "la urna de Polya con desencadenamiento de la innovación".

El ejercicio comienza con una urna llena de bolas de colores. Se retira una bola al azar, se examina y se reemplaza en la urna.

Si este color se ha visto antes, también se colocan en la urna un número de otras bolas del mismo color. Pero si el color es nuevo -nunca se había visto antes en este ejercicio-, se agregan varias bolas de colores completamente nuevos a la urna.

Luego, Loreto y coautores calculan cómo cambia el número de colores nuevos de la urna y su distribución de frecuencia a lo largo del tiempo. El resultado es que el modelo reproduce las leyes de Heaps y Zipf tal como aparecen en el mundo real: una matemática primero. "El modelo de la urna de Polya con desencadenamiento de la innovación presenta por primera vez una forma satisfactoria basada en el primer principio de reproducir observaciones empíricas", dicen Loreto y compañía.

El equipo también ha demostrado que su modelo predice cómo aparecen las innovaciones en el mundo real. El modelo predice con precisión cómo se producen los eventos de edición en las páginas de Wikipedia, la aparición de etiquetas en los sistemas de anotación social, la secuencia de palabras en los textos y cómo los humanos descubren nuevas canciones en los catálogos de música en línea.

Curiosamente, estos sistemas implican dos formas diferentes de descubrimiento. Por un lado, hay cosas que ya existen pero que son nuevas para el individuo que las encuentra, como las canciones en línea; y por el otro, cosas que nunca antes existieron y que son completamente nuevas para el mundo, como las ediciones en Wikipedia.

Loreto y compañía llaman a las primeras novedades (son nuevas para un individuo) y las últimas son innovaciones, son nuevas para el mundo.

Curiosamente, el mismo modelo explica ambos fenómenos. Parece que el patrón detrás de la forma en que descubrimos novedades -nuevas canciones, libros, etc.- es lo mismo que el patrón detrás de la manera en que las innovaciones emergen de lo adyacente posible.

Eso plantea algunas preguntas interesantes, entre ellas, por qué debería ser así. Pero también abre una forma completamente nueva de pensar acerca de la innovación y los eventos desencadenantes que conducen a cosas nuevas. "Estos resultados proporcionan un punto de partida para una comprensión más profunda de las posibles adyacentes y la naturaleza diferente de los eventos desencadenantes que probablemente sean importantes en la investigación de la evolución biológica, lingüística, cultural y tecnológica", dicen Loreto y compañía.

Esperaremos ver cómo el estudio de la innovación evoluciona en lo posible adyacente como resultado de este trabajo.

Ref: arxiv.org/abs/1701.00994: Dynamics on Expanding Spaces: Modeling the Emergence of Novelties

viernes, 28 de julio de 2017

Representando redes complejas con matrices

Retratos de redes complejas

Arxiv
J. P. Bagrow, E. M. Bollt, J. D. Skufca, D. ben-Avraham

Proponemos un método para caracterizar grandes redes complejas mediante la introducción de una nueva estructura de matriz, única para una red dada, que codifica información estructural; Proporciona una visualización útil, incluso para redes muy grandes; Y permite una comparación estadística rigurosa entre redes. Los procesos dinámicos como la percolación se pueden visualizar usando animaciones. Se discuten las aplicaciones a la teoría gráfica, así como generalizaciones a redes ponderadas, pruebas de similitud de red del mundo real y aplicabilidad al problema del isomorfismo de grafos.