El futuro está en forma de grafo
Tim Baker, director global de innovación, finanzas y riesgos, Thomson ReutersDr. Tharindi Hapuarachchi Gerente de Asociaciones Técnicas
Bob Bailey Vicepresidente y Arquitecto Jefe de Información, Thomson Reuters
Según Forrester, para 2017, el 25% de las empresas habrá implementado una base de datos de grafos, mientras que Gartner afirma que "el análisis de grafos es posiblemente el diferenciador competitivo más efectivo para las organizaciones que persiguen operaciones y decisiones basadas en datos".
Cuando Microsoft® anunció la adquisición de LinkedIn® - había otra gran pista sobre la importancia futura del grafo - ¡la transcripción de la entrevista entre Satya Nadella y Jeff Weiner mencionó "grafo" nueve veces!
Entonces, ¿qué es una base de datos de grafos, y cómo y por qué está surgiendo de repente como la última aplicación asesina en el "panorama de los grandes datos"? ¿Cuáles son los casos de uso para el grafo, y cómo los clientes pueden sumergirse sin tener que construir un equipo de ciencia e ingeniería de datos de 30 miembros?
Los grafos se están convirtiendo en una herramienta cada vez más popular y útil en el mundo de la información, pero de ninguna manera son nuevos: de hecho, el primer grafo se remonta al problema del puente de Konigsberg que posteriormente fue resuelto por el matemático suizo Leonhard
Euler en 1736.2 Más recientemente, la noción de un grafo como una forma de representar las relaciones entre las personas se popularizó al observar que Kevin Bacon (el actor) es, en promedio, tres grados de separación de cualquier otro actor en la base de datos de IMDb. La teoría matemática y la investigación práctica (por ejemplo, en Facebook®) han demostrado que, en promedio, las personas no tienen más de seis grados de separación entre sí.
Gráfico 1: Sean Connery - Kevin Bacon Number = 2 (nunca han trabajado en la misma película)
Fuentes: IMDb y Thomson Reuters Data Fusion
El algoritmo que permite el cálculo del número mínimo de caminos entre dos personas (su separación real) fue desarrollado en los años 50 por el matemático holandés Edsger Dijkstra, pero no fue hasta el advenimiento del big data y la explosión del poder de la informática barata. que tales algoritmos realmente podrían ponerse a trabajar para casos de uso como el "grafo social" de Facebook, que conecta intereses y amigos para que pueda encontrar restaurantes en Barcelona que les gusten a sus amigos. El PageRank de Google es el algoritmo que de nuevo aprovecha los datos del grafo (que representa los hipervínculos entre las páginas web) para obtener resultados de búsqueda.
Al igual que las listas y tablas, los grafos son un medio para organizar y representar información. Un grafo comprende objetos y relaciones entre esos objetos, de modo que cualquier par de objetos conectados por una relación forman una simple "oración" de información, como "Perro muerde a Pat". Así que uno puede pensar que un grafo es un "mapa" de muchos tales oraciones que involucran un superconjunto de objetos y tipos de relación. Por ejemplo, "Pat trabaja en el Royal Mail" y "El perro pertenece a Alicia" podría estar junto a "Mordeduras de perro Pat", por lo que podemos inferir asociaciones no explícitamente establecidas entre objetos, y seguir "señales" de relación a información relacionada.
Gráfico 2: El perro muerde a Pat
Un método de grafo hace que sea fácil agregar datos de múltiples fuentes que pueden diferir ampliamente en precisión, precisión y significado. Cualquiera puede agregar información nueva a un grafo sin afectar o estar limitado por lo que ya está allí: agregando a la suma del conocimiento. Por el contrario, las listas y tablas se diseñan antes de que se agregue cualquier información para que el conjunto de elementos representados y la información contenida en cada elemento sea clara. Esto tiene el efecto de restringir lo que se puede representar.
Una tabla diseñada para capturar una relación de "mordiscos" no se puede usar para representar una relación de "trabajos en". Las listas y las tablas reducen intrínsecamente el conocimiento disponible para adaptarse a un conjunto de diseños por adelantado, por lo que también se pueden determinar las preguntas que se pueden responder con anticipación. Por otro lado, el mismo grafo se puede usar para responder preguntas con diversos contextos, cualquiera que sean, independientemente de quién creó el grafo o con qué propósito. Ya sea que esté interesado en los peligros de ser cartero o en el comportamiento de las mascotas de Alicia, el grafo anterior puede proporcionar respuestas, incluso si su propósito original era documentar el día de Pat.
En el mundo de los datos financieros, los considerables activos de datos de Thomson Reuters están contribuyendo a la formación de un Grafo de conocimiento de Thomson Reuters. Esto ayudará a nuestros clientes a identificar relaciones inferidas y fácticas previamente desconocidas. Por ejemplo, Thomson Reuters ha estado siguiendo movimientos de oficiales y directores de compañías durante más de 30 años. Nuestra base de datos de ofertas abarca un período de tiempo similar. Mediante el mapeo de organizaciones y personas en ambos conjuntos de datos a identificadores permanentes comunes (PermID), se forma una representación gráfica que explora a qué ejecutivos se asocian con qué se trata en el tiempo. Los grafos como este también se pueden conectar fácilmente a otros grafos, siempre y cuando las bases de datos de grafos compartan algunos estándares comunes, generalmente en relación con la representación de las entidades (como personas o empresas) y las relaciones.
Por ejemplo, aunque el sitio web de IMDb no ha adoptado PermIDs para identificar de manera exclusiva a los actores, un pequeño grupo de individuos en esa base de datos son o han sido funcionarios o directores de compañías que están en las bases de datos de entidades de Thomson Reuters, como tales tienen PermIDs. Por ejemplo, Ashton Kutcher es actor y miembro de la junta directiva de Katalyst Media, la firma que fundó con Jason Goldberg.
Gráfico 3: Cuando dos mundos colisionan
Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion
Gráfico 4: Conectar los puntos
Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion
Por lo tanto, al atravesar nodos comunes a los grafos, es posible unir dos conjuntos de datos separados. Luego, la base de conocimiento resultante ("The Graph", como en "The Web") permite a los usuarios un acceso máximo a la información y la capacidad de personalizar individualmente consultas y vistas, sujeto únicamente a derechos y regulaciones en lugar de a la separación técnica y física. Por ejemplo, ¿cuál es la relación entre Qantas y Kevin Bacon? Bueno, el empresario australiano James Packer estaba en la junta directiva de Qantas, y a través de sus nupcias planificadas con Mariah Carey (cantante y actriz ocasional) ella proporciona la conexión esencial entre el mundo de los negocios y el entretenimiento.
Es esta capacidad de conectar grafos lo que realmente impulsó la adquisición de LinkedIn y Microsoft. En ese momento, Jeff Weiner afirmó: "Lo que más nos emociona a Satya y a mí es cuando combinas el grafo corporativo de Microsoft con el grafo profesional de LinkedIn".
Uso de los clientes del grafo
Su naturaleza acumulativa hace que el grafo sea un método especialmente útil cuando se comparten y combinan datos. Si todos en una organización grande, por ejemplo, comparten lo que saben contribuyendo a un grafo, la base de conocimiento resultante se puede utilizar de una manera mucho más matizada y flexible que si todos se hubieran visto obligados a contribuir a una base de datos centralmente prediseñada . El método de grafo marca un cambio en el énfasis de datos que solo se crean y administran para necesidades específicas, a datos que se conectan para formar el conocimiento colectivo de la organización.Para ampliar el conjunto de preguntas que podrían responderse desde el grafo de los bancos, las relaciones se pueden establecer con otros grafo externos. Estas relaciones conectan el conocimiento entre sí, de modo que al responder a preguntas posteriores se puede utilizar lo que en términos de información ahora es un grafo más grande, compuesto por los más pequeños.
La buena noticia es que Thomson Reuters ha estado trabajando en los componentes fundamentales para establecer tal vez una de las bases de datos de grafos de alta precisión más grandes del mundo profesional. Aprovechando los vastos activos de contenido de la empresa, más la identidad de la entidad de alta definición habilitada por Open PermID: Thomson Reuters planea lanzar un feed que expondrá hasta 30 mil millones de relaciones entre tipos de entidades, incluidos valores, personas, organizaciones y eventos. Conectar esto con su propio grafo organizacional abrirá enormes oportunidades para nuestros clientes, combinando la perspectiva autoritativa global con su propio conocimiento organizacional, generando respuestas y puntos de vista contextualizados y de alto valor.
Recientes compromisos han revelado que muchos clientes ya se han embarcado en su propio viaje por el mundo de los grafos; algunos están investigando, algunos experimentando, y unos pocos han implementado entornos de big data de gran escala optimizados para datos de grafos. Los casos de uso son casi demasiado numerosos para enumerarlos, pero van desde la gestión de relaciones y el desarrollo empresarial hasta la generación alfa y de ideas, y por supuesto, el análisis de riesgos.
El riesgo es quizás la categoría más importante, ya que las bases de datos de grafos ayudan a identificar relaciones ocultas o complejas que van al centro de la detección de fraude, el análisis de riesgo de la cadena de suministro y la exposición a las entidades sancionadas. Los Documentos de Panamá ayudaron a exponer tales conexiones ocultas y la importancia de modelar y conectar datos de entidades como parte del proceso de investigación.
No hay comentarios:
Publicar un comentario