sábado, 20 de enero de 2018

Redes de conflicto en Siria

Un enfoque de análisis de red para el dilema sirio

Una tabla de The Big Pharaoh haciendo las rondas de las redes sociales muestra cuán enredado es el Medio Oriente. Pero si lo molestamos, vemos que la región está bastante bien dividida en dos campos; es solo que uno de esos campamentos está dividido entre sí. Decidir cuáles de estas divisiones internas son fundamentales para la paz y cuáles son distracciones a corto plazo puede hacer que las opciones diplomáticas sean muy claras.

Kerwin Datu || Global Urbanist



Unidos contra enemigos comunes: un gráfico de red que muestra a los jugadores en el Medio Oriente que tienen enemigos mutuos. Imagen: Kerwin Datu

Max Fisher, de The Washington Post, publicó un grafo que muestra la red enredada de amor y odio que atrapa a los diversos "entrometidos" y "metidos" en el Medio Oriente. La tabla es obra de un bloguero egipcio, The Big Pharaoh, y se inspiró en una carta al Financial Times. El cuadro parece completamente sin esperanza, o en palabras de Fisher, "algo aterrador".

Y sí, sí, al menos hasta que comiences a molestarlo paso a paso. Parte de mi propia investigación implica analizar la economía global como una red de ciudades utilizando las herramientas del análisis de redes sociales. Aunque no pretendo tener ningún tipo de experiencia en Oriente Medio, decidí convertir la tabla de The Big Pharaoh en un gráfico de red (incorporando las suposiciones que Fisher anotó en su actualización) para ver qué está sucediendo realmente dentro de ella. Tampoco pretendo evaluar la verdad de la tabla original; Ofrezco esto simplemente como un ejercicio metodológico interesante que puede ser replicado por cualquiera que busque nuevas formas de analizar complejos problemas diplomáticos.

Si tomamos solo las líneas de "soporte", estas producen una red bastante simple. El mundo está dividido en dos bandos: los que se ponen del lado de los rebeldes sirios y los que están del lado de Bashar Assad, con el apoyo de Irán a Hamas, el único vínculo que contradice esta impresión general:



Si tomamos solo las líneas de "odio", esto produce un caos que es muy difícil de entender:



Vivir en quién odia quién es tan improductivo en este diagrama como lo es en la vida real, así que veámoslo de otra manera. ¿Qué jugadores pueden estar unidos por un enemigo común? El siguiente gráfico muestra dónde pueden darse esas alianzas:



Una vez más, el mundo se divide claramente en dos bandos. Si combinamos la red de soporte con la red de aquellos que tienen enemigos en común, obtenemos lo que llamaré el gráfico del optimista: la red de todos aquellos que podrían trabajar juntos en un mundo optimista.



¿Qué podemos hacer desde esta posición? Si EE. UU. Decide seguir una ruta puramente militar para sacar a Assad del poder, provocará la ira de Rusia, Irán y los chiítas libaneses, pero puede hacerlo con una amplia base de apoyo, incluidos los mismos rebeldes sirios, Israel, Qatar, Turquía, los sunitas libaneses e incluso Al Qaeda. Sin embargo, si elige una ruta diplomática para obtener apoyo para eliminar a Assad, debe aislarlo en el gráfico anterior al hacer un aliado fuera de Rusia y / o Irán (suponiendo que hacer un aliado de los chiítas libaneses tendría poco impacto). Rusia no odia a los Estados Unidos, pero odia a los rebeldes sirios, convirtiéndolo en un aliado poco prometedor contra Assad. Irán odia a los rebeldes sirios y Estados Unidos odia a Irán, pero Al Qaeda es una espina en ambos lados, lo que la convierte en una fuente potencial aunque poco probable de cooperación.

Pero antes de que uno pueda siquiera pensar en aislar a Assad, aquellos que actualmente respaldan a los rebeldes sirios deben presentar un frente unido. Está claro que, entre los odios que aquí se presentan, algunos de ellos deben considerarse simplemente como riesgos diplomáticos, mientras que otros presentan un desafío importante a la posibilidad de permanecer unidos. Los "odios" que deben considerarse más o menos como dados son los siguientes:



Los odios más importantes para enfocarse son aquellos entre los miembros del bloque rebelde sirio:



Aquí comenzamos a ver que los dolores de cabeza están realmente del lado de los rebeldes; desde la perspectiva de Assad, el mundo es un lugar muy simple, y hasta que sus oponentes puedan unirse, él puede hacer lo que le plazca.

Tres de estos odios entran en conflicto con la posibilidad de unirse contra un enemigo común, pero todos implican a Al Qaeda. Parecería que Al Qaeda tiene más valor como enemigo que como aliado, mejor usarlo como una forma de reunir a Irán que intentar aliarse directamente con Al Qaeda, aunque esto requiere destruir la simpatía de Al Qaeda por los rebeldes sirios.

Tres de estos odios entran en conflicto con la posibilidad de unirse contra un enemigo común, pero todos implican a Al Qaeda. Parecería que Al Qaeda tiene más valor como enemigo que como aliado, mejor usarlo como una forma de reunir a Irán que intentar aliarse directamente con Al Qaeda, aunque esto requiere destruir la simpatía de Al Qaeda por los rebeldes sirios.

Otros cuatro odios involucran al General Sisi, pero el gráfico de nuestro optimista sugiere que él es un jugador externo. El odio de la Hermandad Saudita-Musulmana también es una preocupación periférica. Los odios restantes -los que realmente deberían ser revocados- son el odio de EE. UU. E Israel hacia Hamas. Si las relaciones entre Hamas y los Estados Unidos e Israel pueden ser reparadas, entonces los rebeldes sirios están respaldados por un frente sustancialmente unido. Este frente tendrá a Hamas como aliado y Al Qaeda como un enemigo común, dándole dos puntos de simpatía con Irán; se podría aplicar presión sobre Irán para cambiar los lados de Assad. Aquí está lo que podría parecer ese nuevo mundo valiente:



Aquí está lo que nos dice la gráfica del Gran Faraón: Assad y sus aliados están unidos; toda la confusión está del lado de aquellos que apoyan a los rebeldes sirios. Entre estos odios internos, muchos de estos son periféricos al problema de eliminar a Assad: el general Sisi y Al Qaeda en particular son, en cierto sentido, simples distracciones a corto plazo. El desafío más importante es aislar diplomáticamente a Assad, y parte de esto depende de restablecer los lazos con Hamas y encontrar maneras de unir a Irán. Aunque esto es meramente dentro del contexto de este ejercicio de red, que sin duda es tan abstracto como cualquier esperanza para una resolución limpia del problema.

jueves, 18 de enero de 2018

Qué buscar en un software de ARS

S de software(s), o cómo elegir el software para el análisis de redes

por Laurent Beauguitte || groupe fmr




En la actualidad hay más de 90 software dedicados al análisis de redes de acuerdo con la página Wikipedia sobre Social network analysis software (consultado el 31 de marzo de 2013). Tres hechos desalentadores para comenzar:
  • es imposible conocer todo el software;
  • es imposible seguir sus noticias;
  • dominar un software es un proceso (más o menos) lento.
A estos tres hechos se agregan dos restricciones: una lingüística, el inglés es obligatorio, ya sea para leer la documentación o usar los menús; la otra disciplina, se recomienda ser bilingüe Análisis de redes sociales (Escuela de Wasserman - Faust) / Física e Informática (Escuela de Watts, Newman et al.). Pero hay buenas noticias: el suministro es abundante, diverso y el software es cada vez más potente y fácil de manejar.

Los pocos elementos presentados en esta publicación están destinados a facilitar la elección del software. Se pueden usar cuatro conjuntos de criterios (esta clasificación es arbitraria y probablemente incompleta):

  • los criterios relacionados con el usuario;
  • los criterios de datos;
  • los criterios relacionados con los tratamientos deseados;
  • los criterios relacionados con el software en sí.

En lo que respecta al usuario, todo depende de sus objetivos y su frecuencia de uso. Si planea un uso regular y plural de análisis de red (mediciones, modelos, visualización), quizás sea útil atacar a R. Si lo necesita de vez en cuando para producir una imagen hermosa (para ilustrar un boleto, una conferencia, un curso, etc.), se recomiendan botones de software con una interfaz simple. La elección de un software pagado, gratuito o gratuito es una cuestión de convicción personal. Tenga cuidado, una gran cantidad de software no gratuito está disponible exclusivamente en Windows.

Un criterio útil es también tu red personal: si tienes en tu entorno a las personas que dominan este o aquel software, ¡moviliza tanto sus habilidades! Finalmente, y para contrarrestar los tres hechos desalentadores que abren este post, el aprendizaje es acumulativo: una vez que dominas un software, aprender a utilizar un segundo es más fácil y rápido. Y es bueno porque, si su práctica es regular, rápidamente se sentirá limitado con un solo software. No es raro usar software para visualización, uno para análisis y un tercero para una función específica.

En cuanto a los datos, no todos los programas pueden analizar todos los tipos de gráficos. Si su gráfica es simple, tiene muchas opciones. Si se valora, bipartita, multiplexada, que consiste en redes personales u otras, la elección es más restringida. Sin pretender ser exhaustivo, aquí hay una pequeña lista de software especializado:


El tamaño de la red importa. Si su red es pequeña (menos de doscientos vértices), se puede usar casi todo el software. Si su red incluye muchos miles o cientos de miles de vértices y enlaces, solo un puñado de software es adecuado (R, Cytoscape, GephiTulip son candidatos serios, obviamente hay otros). Pero cuidado, cuanto más grande sea el gráfico, más largo será el proceso y más se colapsará el software ... incluso en máquinas potentes.

Con respecto a los tratamientos deseados, no todo el software hace posible llevar a cabo todos los tratamientos existentes. El software es rápido, ergonómico, multiplataforma, permitiendo al mismo tiempo el clic-botón y las líneas de comando, los análisis múltiples y las visualizaciones de excelente calidad, este software no existe (incluso si algunos no están muy lejos). Y si su objetivo principal es producir una imagen hermosa, lo cual no es malo aquí, compruebe también que las visualizaciones se pueden exportar en formato vectorial (.eps, .svg, .ai, etc.) para volver a trabajar, luego . Pasar unas pocas decenas de minutos para obtener un gran resultado, pero donde no se puede agregar al autor, las fuentes o volver a trabajar la policía es una experiencia frustrante ...

Último conjunto de criterios para revisar, el software en sí. ¿Es pago, gratis o libre? ¿Multiplataformas? ¿Es fácil de manejar (se sabe que algún software está especialmente dañado)? ¿Es usado por un equipo, respaldado por instituciones o es una herramienta desarrollada por una persona en su esquina? ¿Hay actualizaciones frecuentes? ¿Hay una lista de correo? ¿Cuál es la calidad de la documentación propuesta? ¿Hay tutoriales en castellano?

La documentación aspecto es especialmente importante si para dominar un país libre, es necesario comprar un manual de 30 o 40 euros (véase Pajek o NodeXL), quizás el juego debe Vale la pena el esfuerzo ... el formato de los datos y su compatibilidad con otros programas es otro aspecto importante: si tengo que pasar horas para dar formato a los datos y el formato es tan específico que ningún otro software no conoce el juego, es bueno perder tanto tiempo? Porque, por supuesto, no hay (¿todavía no?) Formato estándar ... Una regla pequeña simple: un software propuesto sin conjuntos de datos no es muy interesante porque a menudo es necesario examinar cómo están estructurados para que luego pueda importar sus propios datos.

Por último consejo: para aprender cómo utilizar el software, por favor, escribir hojas de metodología (puedo importar mis datos, puedo exportar mis resultados, puedo personalizar mis visualizaciones etc.) o tutoriales y compartirlas. Porque, de vez en cuando, incluso siendo bilingüe español - inglés y ARS - física, es bueno encontrar tutoriales correctos en castellano...

martes, 16 de enero de 2018

Facebook y las ciencias sociales: Buen maridaje

Facebook es bueno para la ciencia

Clifford Lampe es profesor asociado de información en la Universidad de Michigan en Ann Arbor.
The Chronicle of Higher Education




En las últimas dos semanas, se ha producido un debate importante sobre la ética de un estudio publicado en las Actas de la Academia Nacional de Ciencias por investigadores de Facebook Data Science y la Universidad de Cornell. En el estudio, los investigadores manipularon algunos parámetros en las noticias para evaluar cómo los cambios influyeron en los estados de ánimo de los lectores según lo definido en sus publicaciones posteriores. Si bien es fácil perderse en las malezas de este debate, la controversia ha planteado preguntas significativas sobre el papel de las empresas como Facebook en la producción de ciencia pública.

Para el registro, soy partidario de Facebook. He escrito artículos con personas del equipo de Data Science, tengo dos Ph.D. estudiantes que realizan pasantías en Facebook este verano, y creen que Facebook brinda un servicio valioso a las personas. Eso no quiere decir que nunca cometa errores, o que no debemos cuestionar el poder de Facebook para construir la arquitectura de tanta comunicación humana.

Entre muchas inquietudes específicas, algunos comentaristas se preocupan por la consolidación de tantos datos de las ciencias sociales en manos de una sola corporación. Otros han pedido a Facebook y a otros que realicen su investigación de acuerdo con técnicas comunes en el mundo académico.

Sin embargo, me preocupa más que Facebook, quemado por los medios sensacionalistas y las apresuradas condenas de algunos académicos, decida dejar de hacer investigaciones públicas. Eso sería un verdadero golpe para la ciencia.

¿Por qué las compañías como Facebook participan en la producción de ciencia pública? ¿No es la ruta segura para realizar pruebas internas y no participar en publicaciones académicas? Probablemente, pero aquí está la cosa: los investigadores corporativos provienen de los mismos programas universitarios que los académicos. La publicación está integrada en su código genético, y las compañías como Facebook saben que para atraer doctores realmente inteligentes, ayuda a brindar la oportunidad de publicar en medios científicos.

Además, las empresas ven la publicación académica como una forma de retribuir. Sé que puede parecer totalmente ingenuo, pero en las conversaciones que tuve con personas en Facebook y en otros lugares, los investigadores hablan de compartir ideas como una forma de ser buenos ciudadanos. Estoy seguro de que las facciones legales y de relaciones públicas en dichas corporaciones sienten una punzada en el riesgo-recompensa, pero muchos en la ciencia respecto del sector privado como algo bueno y creo que ayuda a contribuir a que el mundo. Este punto se ha perdido casi por completo en la cobertura sobre el estudio de contagio emocional de Facebook. Mucha gente asume que cualquier ciencia hecha por Facebook debe tener una motivación egoísta.

En pocas palabras, la participación corporativa en la ciencia pública es muy valiosa. ¿Cómo es eso?
  1. Las corporaciones nos permiten probar la validez de nuestras teorías. No hay corolario de Facebook en el mundo académico. Ya sea en nuestros laboratorios o en los sistemas limitados que hemos sido capaces de crear para poner a prueba las personas en el campo, no podemos abordar ya sea la diversidad o la validez de las interacciones entre las personas en sitios como Facebook.
  2. La ciencia pública aumenta la comprensión pública de las redes sociales. Parte de la razón por la que algunas personas se molestaron por este estudio de Facebook fue que no estaban al tanto de los algoritmos ya incorporados en las noticias. Una comprensión más pública sobre el poder de los algoritmos es algo bueno.
  3. Las corporaciones brindan la oportunidad de poner en práctica las ciencias sociales. Los primeros científicos sociales creían que comprender a los humanos podría ayudar a crear un mundo mejor. Ahora, a excepción de algunos de nuestros amigos en economía, los académicos a menudo evitan los resultados prácticos de la investigación en ciencias sociales. Facebook y empresas similares -mediante el uso directo de la investigación en ciencias sociales para crear sistemas que median y complementan la comunicación- brindan oportunidades para aquellos académicos que ven el valor de mezclar ciencia pura y efectos prácticos.
  4. Las corporaciones brindan apoyo a las ciencias sociales cuando el financiamiento público está disminuyendo. Las empresas como Facebook no solo están invirtiendo en ciencias sociales, sino que también ofrecen trabajos valiosos y significativos para investigadores formados en la universidad. (Lo cual no quiere decir que debamos renunciar a la financiación pública de las ciencias sociales).
Por esas razones, creo que Facebook debería ser elogiado por participar en la ciencia pública. Pero, ¿resuelve esa resolución los ataques en su contra?

De cualquier manera, hay varias cosas que debemos hacer para aclarar la ética de la investigación en los medios sociales. Además de los paneles optativos que permiten a los participantes aceptar el estudio, lo que sin duda funcionaría en muchos casos, las empresas podrían emplear paneles de revisión externos, lo que algunos ya hacen. Podemos abogar por cambios en revistas y actas de hacer algo más profundo que las declaraciones pro forma que los autores han cumplido los criterios de revisión del IRB, y podemos trabajar con nuestros propios IRB a reconsiderar la forma en que utilizamos los datos secundarios.

Algunas empresas están experimentando con paneles de derechos de usuario, compuestos por personas que no son empleados y que usan sus servicios. Facebook ya ha introducido muchos cambios en los últimos años para proporcionar una mayor supervisión de la investigación que se realiza allí. En mi propia investigación, varias personas de diferentes partes de Facebook revisan nuevos protocolos de investigación y brindan retroalimentación, independientemente de los procesos IRB de mi propia universidad. A menudo, los abogados y expertos en códigos de la industria pueden proporcionar revisiones más expertas que IRBscan de la universidad.

Dicho esto, creo que la última controversia tendrá un efecto escalofriante no solo en Facebook, sino también en otras compañías que ven esta saga desarrollarse. Eso ha sucedido en el pasado. En 2006, AOL tuvo una violación de privacidad relacionada con los datos compartidos con los investigadores. La brecha fue utilizada como una razón por la cual varias compañías dejaron de compartir datos con investigadores académicos.

Desde la perspectiva de Facebook, los ataques de algunos académicos han sido particularmente inquietantes. Parte de eso es choque de cultura. Los académicos prosperan y están orientados a la crítica. Somos operadores independientes que profundizamos en el conflicto como una forma de arrojar luz sobre los problemas. Los entornos corporativos se basan mucho más en el consenso y la colaboración; algunos grupos en las empresas pueden ver la cultura de la crítica como destructiva más que constructiva.

Espero que Facebook responda a esta controversia al continuar reflexionando sobre sus prácticas de investigación y al continuar su compromiso con la ciencia pública. Si Facebook y otras compañías abandonan la publicación académica, habremos perdido una oportunidad notable para avanzar en las ciencias sociales. En lugar de mover el debate sobre la ética hacia adelante, lo habremos cerrado.

domingo, 14 de enero de 2018

Base de datos de redes online Colorado Index of Complex Networks

Base de datos online Colorado Index of Complex Networks


Si necesitan conjuntos de redes para testeos, experimentación o enseñanza se puede recurrir a la Colorado Index of Complex Networks. Se puede buscar por domino, propiedades de los grafos, tamaño, y muchas condiciones más. Gracias a la Universidad de Colorado!


viernes, 12 de enero de 2018

Apareamiento selectivo y nivel de ingresos: Un lazo fuerte en Gran Bretaña

El problema de clase de Gran Bretaña se reduce a "apareamiento selectivo"



Lianna Brinded || Quartz

Gran Bretaña está obsesionada con la clase social. Ya sea que se trate de los trabajos que tenemos, las palabras que usamos, la educación que recibimos, las creencias políticas, o incluso los programas de televisión que vemos, estar preocupados con la clase es tan británico como beber té y comer pescado con papas fritas.

Si bien el sistema de clases es complejo, un diferenciador clave es el capital económico; y la falta de igualdad de ingresos le da a Gran Bretaña uno de los peores problemas de movilidad social en el mundo.

Pero los británicos tienden a exacerbar el problema de la desigualdad del ingreso de las clases sociales con el "apareamiento selectivo": elegir tener hijos con alguien que tenga rasgos similares. Si bien los estudios muestran que los humanos lo hacen al observar los marcadores genéticos, un informe publicado hoy (30 de diciembre) por el think tank independiente Resolution Foundation señaló (pdf y ver al final de la nota) que en el Reino Unido "la gente tiende a juntarse con aquellos que tienen expectativas de herencia similares a el suyo ".

Por supuesto, esto podría ser una situación de gallina y huevo. Si naces en cierta clase en Gran Bretaña, es menos probable que te muevas dentro de la sociedad y, por lo tanto, estés expuesto a más socios potenciales en otros grupos. Pero por lo general, al estar en contacto con otras personas de posición social similar, terminas perjudicando la movilidad social al fortalecer el status quo.

"El apareamiento selectivo probablemente amplifique estas brechas absolutas en las transferencias de riqueza futuras de los individuos a nivel de los hogares", dijo el informe. "Los adultos menores de 50 años que están en pareja y no esperan heredarse tienen socios con una herencia futura promedio esperada de £ 25,000 (U$D 33,759). Por el contrario, aquellos que esperan heredar más de £ 500,000 en el futuro tienen socios con una herencia futura media esperada de £ 190,000 ".

The Resolution Foundation también señala que las fortunas pasadas a la generación más joven se reducen principalmente a la propiedad de la vivienda. Cuanto más pobre es la familia, es menos probable que sean propietarios de su hogar, e incluso si poseen propiedades, es poco probable que valga tanto como sus contrapartes más ricas. El grupo de expertos dice que el 46% de las personas entre 20 y 35 años que no poseen una casa no tienen riqueza de propiedad de los padres, lo que significa que es más probable que nunca hereden una o pasen una a sus propios hijos.


(Análisis de Resolution Foundation de ONS, Wealth and Assets Survey)

Tal vez las narraciones románticas de la cultura pop sobre personas que se enamoran de alguien "del lado equivocado de la vía", como en espectáculos populares como Downton Abbey (foto inicial), sean tan convincentes en Gran Bretaña precisamente porque esas relaciones son tan poco probables estadísticamente.

The Resolution Foundation también analizó cuáles son las implicaciones para las herencias y los dones en los niveles de vida generacionales. Descubrió que estos tipos de transferencias de riqueza ayudarán significativamente a los jóvenes de la generación del milenio (nacidos entre 1981 y 2000) en los próximos años, incluso más que las generaciones anteriores. Esto se debe a que las tasas de propiedad de la vivienda de los padres de la generación del milenio (nacidos durante el baby boom entre 1946 y 1965) son del 75% y "el valor real de las fincas pasando por la muerte se ha más que duplicado en los últimos 20 años".

Sin embargo, como se señala en el informe, los hijos de padres ricos recibirán mayores herencias, mientras que los muy pobres recibirán casi nada. Si la historia se repite, sus hijos se juntarán con otros con antecedentes económicos similares, y la brecha de igualdad de ingresos se ampliará aún más, como lo ha hecho durante generaciones.

miércoles, 10 de enero de 2018

Cómo los grafos representan el futuro de la información

El futuro está en forma de grafo

Tim Baker, director global de innovación, finanzas y riesgos, Thomson Reuters
Dr. Tharindi Hapuarachchi Gerente de Asociaciones Técnicas
Bob Bailey Vicepresidente y Arquitecto Jefe de Información, Thomson Reuters




Según Forrester, para 2017, el 25% de las empresas habrá implementado una base de datos de grafos, mientras que Gartner afirma que "el análisis de grafos es posiblemente el diferenciador competitivo más efectivo para las organizaciones que persiguen operaciones y decisiones basadas en datos".

Cuando Microsoft® anunció la adquisición de LinkedIn® - había otra gran pista sobre la importancia futura del grafo - ¡la transcripción de la entrevista entre Satya Nadella y Jeff Weiner mencionó "grafo" nueve veces!

Entonces, ¿qué es una base de datos de grafos, y cómo y por qué está surgiendo de repente como la última aplicación asesina en el "panorama de los grandes datos"? ¿Cuáles son los casos de uso para el grafo, y cómo los clientes pueden sumergirse sin tener que construir un equipo de ciencia e ingeniería de datos de 30 miembros?

Los grafos se están convirtiendo en una herramienta cada vez más popular y útil en el mundo de la información, pero de ninguna manera son nuevos: de hecho, el primer grafo se remonta al problema del puente de Konigsberg que posteriormente fue resuelto por el matemático suizo Leonhard
Euler en 1736.2 Más recientemente, la noción de un grafo como una forma de representar las relaciones entre las personas se popularizó al observar que Kevin Bacon (el actor) es, en promedio, tres grados de separación de cualquier otro actor en la base de datos de IMDb. La teoría matemática y la investigación práctica (por ejemplo, en Facebook®) han demostrado que, en promedio, las personas no tienen más de seis grados de separación entre sí.

Gráfico 1: Sean Connery - Kevin Bacon Number = 2 (nunca han trabajado en la misma película)

Fuentes: IMDb y Thomson Reuters Data Fusion

El algoritmo que permite el cálculo del número mínimo de caminos entre dos personas (su separación real) fue desarrollado en los años 50 por el matemático holandés Edsger Dijkstra, pero no fue hasta el advenimiento del big data y la explosión del poder de la informática barata. que tales algoritmos realmente podrían ponerse a trabajar para casos de uso como el "grafo social" de Facebook, que conecta intereses y amigos para que pueda encontrar restaurantes en Barcelona que les gusten a sus amigos. El PageRank de Google es el algoritmo que de nuevo aprovecha los datos del grafo (que representa los hipervínculos entre las páginas web) para obtener resultados de búsqueda.

Al igual que las listas y tablas, los grafos son un medio para organizar y representar información. Un grafo comprende objetos y relaciones entre esos objetos, de modo que cualquier par de objetos conectados por una relación forman una simple "oración" de información, como "Perro muerde a Pat". Así que uno puede pensar que un grafo es un "mapa" de muchos tales oraciones que involucran un superconjunto de objetos y tipos de relación. Por ejemplo, "Pat trabaja en el Royal Mail" y "El perro pertenece a Alicia" podría estar junto a "Mordeduras de perro Pat", por lo que podemos inferir asociaciones no explícitamente establecidas entre objetos, y seguir "señales" de relación a información relacionada.

Gráfico 2: El perro muerde a Pat


Un método de grafo hace que sea fácil agregar datos de múltiples fuentes que pueden diferir ampliamente en precisión, precisión y significado. Cualquiera puede agregar información nueva a un grafo sin afectar o estar limitado por lo que ya está allí: agregando a la suma del conocimiento. Por el contrario, las listas y tablas se diseñan antes de que se agregue cualquier información para que el conjunto de elementos representados y la información contenida en cada elemento sea clara. Esto tiene el efecto de restringir lo que se puede representar.

Una tabla diseñada para capturar una relación de "mordiscos" no se puede usar para representar una relación de "trabajos en". Las listas y las tablas reducen intrínsecamente el conocimiento disponible para adaptarse a un conjunto de diseños por adelantado, por lo que también se pueden determinar las preguntas que se pueden responder con anticipación. Por otro lado, el mismo grafo se puede usar para responder preguntas con diversos contextos, cualquiera que sean, independientemente de quién creó el grafo o con qué propósito. Ya sea que esté interesado en los peligros de ser cartero o en el comportamiento de las mascotas de Alicia, el grafo anterior puede proporcionar respuestas, incluso si su propósito original era documentar el día de Pat.

En el mundo de los datos financieros, los considerables activos de datos de Thomson Reuters están contribuyendo a la formación de un Grafo de conocimiento de Thomson Reuters. Esto ayudará a nuestros clientes a identificar relaciones inferidas y fácticas previamente desconocidas. Por ejemplo, Thomson Reuters ha estado siguiendo movimientos de oficiales y directores de compañías durante más de 30 años. Nuestra base de datos de ofertas abarca un período de tiempo similar. Mediante el mapeo de organizaciones y personas en ambos conjuntos de datos a identificadores permanentes comunes (PermID), se forma una representación gráfica que explora a qué ejecutivos se asocian con qué se trata en el tiempo. Los grafos como este también se pueden conectar fácilmente a otros grafos, siempre y cuando las bases de datos de grafos compartan algunos estándares comunes, generalmente en relación con la representación de las entidades (como personas o empresas) y las relaciones.

Por ejemplo, aunque el sitio web de IMDb no ha adoptado PermIDs para identificar de manera exclusiva a los actores, un pequeño grupo de individuos en esa base de datos son o han sido funcionarios o directores de compañías que están en las bases de datos de entidades de Thomson Reuters, como tales tienen PermIDs. Por ejemplo, Ashton Kutcher es actor y miembro de la junta directiva de Katalyst Media, la firma que fundó con Jason Goldberg.

Gráfico 3: Cuando dos mundos colisionan

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion
Gráfico 4: Conectar los puntos

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion

Por lo tanto, al atravesar nodos comunes a los grafos, es posible unir dos conjuntos de datos separados. Luego, la base de conocimiento resultante ("The Graph", como en "The Web") permite a los usuarios un acceso máximo a la información y la capacidad de personalizar individualmente consultas y vistas, sujeto únicamente a derechos y regulaciones en lugar de a la separación técnica y física. Por ejemplo, ¿cuál es la relación entre Qantas y Kevin Bacon? Bueno, el empresario australiano James Packer estaba en la junta directiva de Qantas, y a través de sus nupcias planificadas con Mariah Carey (cantante y actriz ocasional) ella proporciona la conexión esencial entre el mundo de los negocios y el entretenimiento.

Es esta capacidad de conectar grafos lo que realmente impulsó la adquisición de LinkedIn y Microsoft. En ese momento, Jeff Weiner afirmó: "Lo que más nos emociona a Satya y a mí es cuando combinas el grafo corporativo de Microsoft con el grafo profesional de LinkedIn".

Uso de los clientes del grafo

Su naturaleza acumulativa hace que el grafo sea un método especialmente útil cuando se comparten y combinan datos. Si todos en una organización grande, por ejemplo, comparten lo que saben contribuyendo a un grafo, la base de conocimiento resultante se puede utilizar de una manera mucho más matizada y flexible que si todos se hubieran visto obligados a contribuir a una base de datos centralmente prediseñada . El método de grafo marca un cambio en el énfasis de datos que solo se crean y administran para necesidades específicas, a datos que se conectan para formar el conocimiento colectivo de la organización.

Para ampliar el conjunto de preguntas que podrían responderse desde el grafo de los bancos, las relaciones se pueden establecer con otros grafo externos. Estas relaciones conectan el conocimiento entre sí, de modo que al responder a preguntas posteriores se puede utilizar lo que en términos de información ahora es un grafo más grande, compuesto por los más pequeños.

La buena noticia es que Thomson Reuters ha estado trabajando en los componentes fundamentales para establecer tal vez una de las bases de datos de grafos de alta precisión más grandes del mundo profesional. Aprovechando los vastos activos de contenido de la empresa, más la identidad de la entidad de alta definición habilitada por Open PermID: Thomson Reuters planea lanzar un feed que expondrá hasta 30 mil millones de relaciones entre tipos de entidades, incluidos valores, personas, organizaciones y eventos. Conectar esto con su propio grafo organizacional abrirá enormes oportunidades para nuestros clientes, combinando la perspectiva autoritativa global con su propio conocimiento organizacional, generando respuestas y puntos de vista contextualizados y de alto valor.

Recientes compromisos han revelado que muchos clientes ya se han embarcado en su propio viaje por el mundo de los grafos; algunos están investigando, algunos experimentando, y unos pocos han implementado entornos de big data de gran escala optimizados para datos de grafos. Los casos de uso son casi demasiado numerosos para enumerarlos, pero van desde la gestión de relaciones y el desarrollo empresarial hasta la generación alfa y de ideas, y por supuesto, el análisis de riesgos.

El riesgo es quizás la categoría más importante, ya que las bases de datos de grafos ayudan a identificar relaciones ocultas o complejas que van al centro de la detección de fraude, el análisis de riesgo de la cadena de suministro y la exposición a las entidades sancionadas. Los Documentos de Panamá ayudaron a exponer tales conexiones ocultas y la importancia de modelar y conectar datos de entidades como parte del proceso de investigación.

lunes, 8 de enero de 2018

Visualizando y simulando en la red de calles de Budapest

Visualizando la red de calles de Budapest

Center for Network Science


¿Cómo podemos entender una ciudad a través de sus redes de infraestructura? Esta pregunta fue el punto de partida para mi proyecto final en la clase de visualización de datos impartida por Roberta Sinatra. El objetivo de la clase era obtener información sobre un conjunto de datos a través de la visualización.

La ciudad seleccionada para analizar fue Budapest, una elección obvia ahora que estoy viviendo aquí y también porque quería entender mejor la ciudad. Para obtener los datos y construir la red, utilicé OSMnx, una biblioteca de Python desarrollada por Geoff Boeing. Usé OSMnx para descargar los datos de la ciudad desde OpenStreetMap y construir la red usando las calles como bordes y las intersecciones entre dos calles como nodos. Para el proyecto, trabajé con 4 kilómetros cuadrados del centro de la ciudad de Budapest. Primero visualicé la red de la ciudad asignando el ancho de los bordes, calles, de acuerdo con el tipo de calle, para mostrar dónde están las calles principales en la ciudad y cómo están conectadas.



Como sabemos por la literatura científica de la red, la topología de una red determina su resistencia, por lo que el siguiente paso para comprender mejor a Budapest, una ciudad con un río en el medio, fue trabajar con la red y probar su tolerancia al ataque. En resumen, calculé la centralidad de intersección de todas las intersecciones de calles de la red, dibujé la red con el tamaño de los nodos de acuerdo con su centralidad de intermediación y eliminé la que tenía la interinidad más alta una por una. Este enfoque nos permite simular cómo cambia la red si "cerramos" o eliminamos la intersección que está en el medio de las rutas más cortas entre todas las otras intersecciones.

Budapest Network Attack Tolerance from Luis Guillermo Natera Orozco on Vimeo.


El video nos muestra esta simulación del cálculo de la centralidad de intermediación y la eliminación de los nodos con la más alta. También muestra la fracción de nodos eliminados y cuántos componentes conectados tiene la red, y podemos observar que solo eliminar menos del 2% de los nodos conduce a más de 3 componentes conectados diferentes en la red, lo que significa que estamos aislando algunas partes de la ciudad. Las intersecciones más importantes que mantienen unida la red de calles del centro de Budapest corresponden a los puentes que conectan Buda y Pest sobre el Danubio: el Puente Margarita, el Puente de las Cadenas y el Puente Elisabeth.

Visualizaciones como la desarrollada en este proyecto nos permiten imaginar nuevas posibilidades para trabajar y comprender mejor las redes urbanas y la complejidad en las ciudades usando nuevas tecnologías y enfoques de la ciencia de las redes junto con el urbanismo, el urbanismo, la sociología y otras disciplinas.

Publicación del blog por Luis Guillermo Natera Orozco