Mostrando entradas con la etiqueta web semántica. Mostrar todas las entradas
Mostrando entradas con la etiqueta web semántica. Mostrar todas las entradas

jueves, 28 de junio de 2018

Enfoque de 2 modos para análisis de redes socio-semánticas en Twitter


Análisis automatizado de redes de actores en Twitter: Nuevo enfoque para el análisis de redes socio-semánticas

Iina Hellsten, Loet Leydesdorff
ARXiv

Los datos de los medios sociales brindan oportunidades cada vez mayores para el análisis automatizado de grandes conjuntos de documentos textuales. Hasta ahora, se han desarrollado herramientas automatizadas para dar cuenta de las redes sociales entre los participantes de los debates, o para analizar el contenido de esos debates. Se ha prestado menos atención al mapeo de actores concurrentes (participantes) y temas (contenido) en debates en línea que forman redes socio-semánticas. Proponemos un nuevo enfoque automatizado que utiliza un enfoque de matriz completa de temas codirigidos y los actores. Mostramos las ventajas del nuevo enfoque con el análisis de un gran conjunto de mensajes de Twitter en inglés en la reunión de Río + 20, en junio de 2012 (72.077 tweets), y un conjunto de datos más pequeño de mensajes en Twitter en neerlandés sobre la gripe aviar relacionado con la avicultura en 2015-2017 (2,139 tweets). Discutimos las implicaciones teóricas, metodológicas y sustantivas de nuestro enfoque, también para el análisis de otros datos de redes sociales.


martes, 19 de diciembre de 2017

Gephi vs Cytoscape para grandes redes

Un nuevo mejor amigo: Gephi para redes a gran escala

Descargar como PDF
AI3

Visualización + Análisis de redes deja a un lado el Cytoscape

Aunque nunca tuve la intención de hacerlo, algunas publicaciones mías de hace unos años sobre 26 herramientas para la visualización de grafos a gran escala han sido algunas de las más populares en este sitio. De hecho, mi recomendación para Cytoscape para ver grafos a gran escala se ubica dentro de los 5 primeros puestos de todos los tiempos en este sitio.

Cuando se realizó ese análisis en enero de 2008, mi empresa estaba en medio de la necesidad de procesar el gran vocabulario de UMBEL, que ahora consta de 28,000 conceptos. Al igual que cualquier otra cosa, la necesidad impulsa la investigación y la demanda, y después de revisar muchos programas de grafos, elegimos Cytoscape, y luego proporcionamos algunas pautas continuas en su uso para fines web semánticos. Hemos continuado utilizándolo productivamente en los años intermedios.

Al igual que con cualquier herramienta, una revisa y selecciona la mejor en el momento de la necesidad. Más recientemente, sin embargo, con el uso cada vez mayor de grandes ontologías por parte de los clientes y el desarrollo de nuestro propio marco de gestión y edición de structOntology, hemos comenzado a chocar con las limitaciones del análisis de redes y grafos a gran escala. Con esta publicación, anunciamos nuestra nueva herramienta favorita para la red semántica Web y el análisis de grafos, Gephi, y explicamos su uso y mostramos un ejemplo actual.


La línea base y las limitaciones de Cytoscape

Hace tres años y medio cuando escribí por primera vez sobre Cytoscape, fue en la versión 2.5. Hoy está en la versión 2.8 y se han mejorado muchos aspectos (incluido su sitio web). Sin embargo, en otros aspectos, el desarrollo se ha desacelerado. Por ejemplo, la versión 3.x se discutió por primera vez hace más de tres años; todavía no está disponible hoy.

Aunque el sistema es de código abierto, Cytoscape también se ha desarrollado en gran parte con fondos de subvención externos. Al igual que otros proyectos financiados de manera similar, una vez y cuando los fondos de las subvenciones disminuyen, también se desacelera el desarrollo. Si bien claramente ha habido una comunidad activa detrás de Cytoscape, comienza a sentirse cansado y un poco largo en el diente. Desde un punto de vista web semántico, algunas de las limitaciones del Cytoscape actual incluyen:

  • Difícil conversión de ontologías existentes: Cytoscape requiere crear una entrada de CSV; había un plug-in anterior de RDFscape que ofrecía una gran promesa de unir el software al RDF y al ámbito de la Web semántica, pero no se mantuvo activo
  • Análisis de red: uno de los primeros y valiosos plug-ins de análisis de redes generalizadas fue NetworkAnalyzer; sin embargo, ese componente no ha visto un desarrollo activo en tres años, y los nuevos módulos dinámicos generalizados adecuados para el análisis de redes sociales (ARS) y las redes del mundo pequeño no han sido aparentes
  • Rendimiento lento y fallas demasiado frecuentes: Cytoscape siempre ha tenido una interfaz peculiar y fallas frecuentes; las versiones posteriores son un poco más estables, pero la usabilidad sigue siendo un desafío
  • Ampliamente respaldado por la comunidad biomédica: desde el principio, Cytoscape fue un proyecto de la comunidad biomédica. La mayoría de los complementos aún pertenecen a ese espacio. Debido al soporte de los formatos OBO (Open Biomedical and Biological Ontologies) y la falta de aceptación por parte de la comunidad web semántica más amplia, el desarrollo basado en RDF y OWL ha estado muy ausente.
  • Aparte de los archivos PDF, la capacidad deficiente para generar grafos de gran tamaño de manera visible
  • Soporte de diseño limitado y bajo rendimiento para muchos de los que se incluyen con el paquete estándar.


Sin lugar a dudas, si estuviéramos haciendo tecnologías semánticas en el espacio biomédico, podríamos desarrollar nuestros propios complementos y contribuir al proyecto Cytoscape para ayudar a superar algunas de estas limitaciones. Pero, como soy un friki de herramientas (consulte mi lista de Sweet Tools con casi 1000 herramientas Web semánticas y relacionadas), decidí consultar el estado actual de las herramientas de visualización a gran escala y ver si alguna había avanzado en algunos de nuestros objetivos sobresalientes.


Elegir Gephi y usarlo

Hay tres clases de herramientas gráficas en el espacio de la tecnología semántica:

  • Navegación y descubrimiento ontológicos, a los que el Relation Browser y RelFinder son ejemplos notables
  • Visualización de la estructura de ontología (y, a veces, edición), como las herramientas GraphViz (OWLViz) o OntoGraf utilizadas en Protégé (o el agradable FlexViz, utilizado nuevamente por la comunidad OBO), y
  • Visualización de grafos a gran escala para obtener una imagen completa y relaciones macro en la ontología.

Se podría argumentar que las dos primeras categorías han recibido la atención de desarrollo más actual. Pero, también diría que la tercera clase es una de las más importantes: para comprender dónde se encuentra uno en un gran espacio de conocimiento, se necesitan herramientas de navegación y visualización a gran escala mucho mejores. Desafortunadamente, esta tercera categoría también es la que parece estar recibiendo la menor atención de desarrollo. (Sin duda, los grafos a gran escala plantean desafíos computacionales y de rendimiento).

En los casi cuatro años desde mi última gran revisión de 26 herramientas en esta categoría, los nuevos participantes parecen bastante limitados. Seguramente he pasado por alto algunos, pero los más notables son Gruff, NAViGaTOR, NetworkX y Gephi [1]. Gruff en realidad parece pertenecer más a la Categoría # 2; No pude encontrar ejemplos de grafos en la escala de miles de nodos. NAViGaTOR es solo biomédico. NetworkX no tiene importación directa de grafos semánticos y, aunque aparentemente algunas bibliotecas RDF pueden usarse para manipular importaciones, los flujos de trabajo alternativos eran demasiado complejos para abordarlos en una evaluación inicial. Esto deja a Gephi como el único nuevo candidato potencial.

Desde un sitio web limpio hasta tutoriales introductorios bien diseñados, las primeras impresiones de Gephi son muy positivas. La prueba real, por supuesto, era hacer que funcionara contra mis pruebas de casos de uso reales. Para eso, utilicé una ontología "grande" para un cliente actual que captura aproximadamente 3000 conceptos diferentes y sus relaciones y más de 100 propiedades. Lo que aquí cuento, desde la primera vez que instalé el programa y complementos y luego configuré, analicé, definí los parámetros de la pantalla y luego publiqué los resultados, me llevó menos de un día desde un comienzo totalmente frío. El programa y el entorno de Gephi es sorprendentemente fácil de aprender, ayudado por algunos excelentes tutoriales e información en línea (ver la sección de conclusión).

El habilitador crítico para poder usar Gephi para esta fuente y para mis propósitos es el complemento SemanticWebImport, desarrollado recientemente por Fabien Gandon y su equipo en Inria como parte del proyecto Edelweiss [2]. Una vez que el complemento está instalado, solo necesita abrir la pestaña SemanticWebImport, darle la URL de su ontología de origen y seleccionar el botón de Inicio (panel central):




Tenga en cuenta que la herramienta SemanticWebImport también tiene la capacidad (panel central) de enviar consultas a un punto final SPARQL, cuyos resultados arrojan un grafo de resultados (parcial) desde la ontología de origen. (Esta característica no se trata más en este documento.) Esta carga de ontología y capacidad de visualización funcionó sin error para las cinco o seis ontologías OWL 2 que probé inicialmente contra el sistema.
Una vez cargada, se puede manipular una ontología (grafo) con una interfaz convencional de IDE de pestañas y vistas. En los paneles de la derecha de arriba estamos seleccionando varias rutinas de análisis de red para ejecutar, en este caso grados promedio. Una vez que se ejecutan una o más de estas opciones de análisis, podemos usar los resultados para agrupar o visualizar el grafo; el panel superior izquierdo muestra el resaltado de la clase de modularidad, que es la forma en que hice el análisis de la comunidad (clustering) de nuestra gran ontología de prueba. (Cuando se ejecuta, también puede asignar colores diferentes a las familias de clúster). También realicé algunos filtros de nodos y propiedades extraños en esta etapa y también instruí al sistema a través del análisis de clasificación para mostrar que los nodos con más conexiones de enlace son más grandes que esos nodos con menos enlaces

En esta coyuntura, también puede configurar la escala para variar las opciones de visualización como lineal o alguna función de potencia. También puede seleccionar diferentes opciones de diseño de grafo (panel inferior izquierdo). Hay muchas opciones de plug-in de diseño para Gephi. Se informa que el complemento de diseño llamado OpenOrd, por ejemplo, puede escalar a millones de nodos.

En este punto, jugué extensivamente con la combinación de filtros, análisis, clusters, particiones y clasificaciones (como se pueden aplicar por separado a nodos y bordes) para: 1) comenzar a comprender la estructura y las características generales del grafo grande; y 2) refinar el aspecto final que quería que tuviera mi grafo publicado.

En nuestro ejemplo, finalmente elegí el diseño estándar de Yifan Hu para hacer que las comunidades (clusters) se agreguen una cerca de la otra en el grafo. Luego apliqué el diseño de Atlas de Fuerza Paralela para organizar los nodos y hacer los espaciamientos más uniformes. El aspecto paralelo de este diseño basado en la fuerza permite que estos cálculos intensos se ejecuten más rápido. El resultado de estos dos diseños en secuencia es entonces lo que se usó para las pantallas de resultados.

Al finalizar este análisis, estaba listo para publicar el grafo. Uno de los mejores aspectos de Gephi es su flexibilidad y control sobre las salidas. A través de la pestaña de Vista previa principal, pude hacer mis configuraciones finales para el grafo publicado:



Los resultados del grafo de los filtros y clústeres y colores procesados ​​anteriormente se muestran en el panel Vista previa de la derecha. En el lado izquierdo, se configuran muchos aspectos de la visualización final, como etiquetas encendidas o apagadas, tamaños de fuente, colores, etc. Vale la pena mirar la figura anterior en tamaño completo para ver algunas de las opciones disponibles.
Las opciones de salida estándar incluyen SVG (imagen vectorial) o archivos PDF, como se muestra en la esquina inferior izquierda, con escala de tamaño de salida mediante barra deslizadora. Además, es posible realizar guardados estándar en una variedad de formatos de archivo o hacer exportaciones específicas.

Una opción de publicación realmente excelente es crear una pantalla con zoom dinámico usando la tecnología Seadragon a través de un complemento Seadragon Web Export por separado. (Sin embargo, debido a las limitaciones de scripts entre sitios debido a problemas de seguridad, solo uso esa opción para sitios específicos. Consulte la siguiente sección para la opción Zoom It, basada en Seadragon, para solucionar esa limitación).

Los resultados hablan por sí mismos

Estoy muy satisfecho con los avances en visualización y análisis proporcionados por Gephi. Usando la alternativa Zoom It [3] a Seadragon incrustado, podemos ver nuestro gran ejemplo de ontología con:


  • Todos los 3000 nodos etiquetados, con conexiones mostradas (aunque debe hacer zoom para ver) y
  • Al hacer zoom (use la rueda de desplazamiento o el ícono +) o la panorámica (al mover el mouse hacia abajo), espere unos segundos para obtener la actualización más clara de la imagen:


Nota: a resolución estándar, si este grafo fuera renderizado en tamaño real, ¡sería más grande que 7 pies por 7 pies cuadrados con zoom completo!

Para comparar las opciones de salida, también puede;



Aún así, algunas mejoras serían bienvenidas

Es notable que Gephi aún solo se presenta a sí mismo como un "alfa". Ya existe una robusta comunidad de usuarios con la promesa de que vendrá mucha más tecnología.

Como alfa, Gephi es notablemente estable y bien desarrollado. Aunque claramente útil como es, mido el estado de Gephi contra mi lista completa de funcionalidades deseadas, con estos elementos aún faltantes:

  • Navegación interactiva y en tiempo real: la capacidad de moverse por el grafo de forma interactiva y emitir consultas y descubrir relaciones
  • Números de nodo enormes: tal vez el complemento OpenOrd en cierta forma solucione esta necesidad. Probaremos Gephi contra UMBEL, que es un orden de magnitud más grande que nuestra gran ontología de prueba
  • Mayor control de nodos y enlaces: Cytoscape aún conserva la ventaja en el grado en que los nodos y los bordes se pueden diseñar gráficamente
  • Edición completa: ser capaz de usar Gephi en un modo de edición sería fantástico; la funcionalidad de edición es bastante sencilla, pero la capacidad de ida y vuelta en los formatos adecuados (BÚHO, RDF o de otro tipo) puede ser el mayor punto de fricción.

En última instancia, por supuesto, como expliqué en una presentación anterior sobre un Paisaje normativo para herramientas de ontología, nos gustaría ver un programa grafo completo vinculado directamente con la API OWL. Algunos intentos iniciales se han realizado con el enfoque de visualización no Gephi GLOW, pero aún se encuentra en fases muy tempranas y se desconocen los compromisos en curso. De manera óptima, sería genial ver un complemento Gephi que se vincule directamente con la API OWL.

En cualquier caso, aunque tal vez el desarrollo de Cytoscape se ha estancado un poco con fines de tecnología semántica, Gephi y su complemento SemanticWebImport han llegado a la vanguardia. Este es un fino conjunto de herramientas que promete utilidad por muchos años por venir.

Algunos enlaces adicionales de Gephi

Para aprender más acerca de Gephi, también vea:



Además, para desarrollos futuros en todo el espectro de visualización de grafos, revise la lista de herramientas de visualización general de Wikipedia de forma periódica.

[1] El paquete de matemática y estadísticas de código abierto R es muy rico, aparentemente con algunas capacidades de visualización de grafos, como el Statnet del proyecto de visualización y análisis de red dedicado. rrdf también puede proporcionar un camino interesante para las importaciones de RDF. R y su familia de herramientas pueden ser bastante prometedoras, pero el compromiso necesario para R parece bastante desalentador. A más largo plazo, R puede representar una ruta de actualización más poderosa para nuestros conjuntos de herramientas generales. Neo4j también es una estrella en ascenso en las bases de datos de grafos, con sus propios componentes de visualización. Sin embargo, dado que no queríamos convertir nuestros almacenes de datos subyacentes, tampoco probamos esta opción.
[2] Erwan Demairy es el principal desarrollador y committer de SemanticWebImport. La primera versión se lanzó a mediados de abril de 2011.
[3] Para presentaciones como esta publicación de blog, Seadragon JavaScript impone algunas restricciones de seguridad contra scripts entre sitios. Para superar eso, la opción que seguí fue:

  • Usar la opción de exportación SVG de Gephi
  • Abrir el SVG en Inkscape
  • Expandir el tamaño del diagrama según sea necesario (con dimensiones bloqueadas para evitar la distorsión)
  • Guardar como PNG
  • Ve a Zoom It y envía el archivo de imagen
  • Elija la función de inserción, y
  • Incruste el enlace proporcionado, que es lo que se muestra arriba.

(Aunque Zoom.it también acepta archivos SVG directamente, encontré el rendimiento

sábado, 22 de abril de 2017

Análisis semántico expone falsedades en informaciones rusas sobre incidentes internacionales

Grandes Datos Expone Grandes Falsedades

El análisis de Semantic Visions revela diferencias intrigantes entre los comentarios rusos y occidentales sobre el derribo de un avión en 2014.

De John Pollock | MIT Technology Review 


Cuando Vladimir Putin tomó el poder "unos segundos antes de 2000", la atención del mundo estaba en otra parte. Introduciéndose a sí mismo con un breve comunicado que rezaba: "La libertad de expresión, la libertad de conciencia, la libertad de los medios de comunicación, la libertad de los derechos de propiedad, estos principios básicos de la sociedad civilizada, estarán bajo la protección segura del Estado". Desde entonces, el Kremlin ha estrechado firmemente su ligadura alrededor de los medios rusos. En 2000, Putin firmó la Doctrina de Seguridad de la Información de Rusia. Actualizado en diciembre pasado, ahora es un tercio de la longitud de su predecesor.

"Los dos tercios que faltan son todas las tareas que Rusia emprendió para evitar la influencia externa", dice Keir Giles, un investigador del Centro de Investigación de Estudios sobre Conflictos en el Reino Unido. "Han tenido un par de décadas para poner esto en marcha, y ha habido Una verdadera aceleración en los últimos cuatro años ". Un análisis original realizado para MIT Technology Review por Semantic Visions, una startup checa que genera" inteligencias complejas de código abierto "evaluaciones de riesgo, confirma la iniciativa del Kremlin.

Utilizando la "base de datos semántica más grande del mundo", Semantic Visions exploró el derribo del MH17 en 2014 junto con otras historias importantes en la guerra de Rusia contra Ucrania (ver "Russian Disinformation Technology"). Ellos compararon 328,614,220 artículos de lengua inglesa y 58,207,194 artículos en ruso, con una longitud promedio de 3.000 caracteres, entre enero de 2014 y abril de 2016. Estos son recogidos de más de 25 millones de fuentes que los analistas de Semantic Visions han descubierto y clasificado, de los cuales analizan Alrededor de medio millón diario. Los resultados iluminan los intereses nacionales y extranjeros de la propaganda del Kremlin, y arrojan una luz poco halagüeña sobre aspectos de la cobertura mediática occidental.



Frantisek Vrabel, CEO de Semantic Visions, explica: "Elegimos los Juegos Olímpicos de Sochi políticamente más neutrales como un" control "para mostrar la proporción normal de artículos de idioma ruso (rojo) a inglés (azul) para un evento internacional. El interés ruso en Crimea es sostenido, contrastando con el interés de los medios occidentales. La invasión en el este de Ucrania sigue un patrón similar.




Sin embargo, los datos para el derribo de MH17 son inusuales. "La historia rusa inicial fue que MH17 fue derribado por un caza a reacción de Ucrania, por lo que pensaría que lo usarían para apoyar su versión", dice Vrabel. Pero sabían que habían hecho algo mal. Es casi como si estuvieran intentando minimizarlo ".



Semantic Visions realizó un análisis más detallado hora por hora, trazando la cobertura en las 90 horas siguientes a la tragedia. La diferencia se vuelve aún más marcada en comparación con el vuelo 9268 de Metrojet, que explotó el 31 de octubre de 2015, sobre la Península del Sinaí, con la pérdida de 219 rusos, cuatro ucranianos y un bielorruso. (Aunque la explosión todavía está bajo investigación, tanto Rusia como Egipto sospechan una bomba, reclamada por ISIS).




Aquí los datos en ruso durante las 90 horas siguientes siguen de cerca los resultados globales en inglés, a pesar de que el interés doméstico representa una proporción mayor que en el "control" de Sochi.

Un mes después del derribo del MH17, Rusia llevó a cabo una exitosa operación de información dirigida a los medios occidentales. Afirmando que estaban manejando un convoy humanitario, atrajeron la atención global con cientos de camiones que pretendían ofrecer "asistencia humanitaria". (El Instituto de Análisis de Propaganda llamó a ese "sentirse bien" el lenguaje "generalidades brillantes".) Que los rusos no permitieran Reporteros para ver dentro de la mayoría de los camiones, y que estaban acompañados por helicópteros de ataque, era menos importante que la proximidad de las palabras "ruso", "ayuda" y "humanitaria" en los titulares. Esta charada "no estaba destinada al público ruso, sino a una audiencia global en su guerra informativa", dice Vrabel.



Los datos grandes también tienen otros usos. En enero de 2016, una investigación británica nombró a varios autores del envenenamiento por polonio 210 de Alexander Litvinenko. Los investigadores dijeron que Putin probablemente había aprobado este acto de lo que los servicios de seguridad rusos llaman "wet business" (mokorye delo). Visiones semánticas también rastrearon esta historia, analizando quién la cubrió o la compartió. Vrabel dice que la base de datos resultante de las fuentes les permite identificar "quién está infectado con la propaganda rusa".

viernes, 14 de abril de 2017

La importancia de los grafos de bases de datos en Big Data

Por qué los grafos de bases de datos son tan eficaces en el análisis de Big Data 
Cleverism

Vivimos en una era de datos. La información está en todas partes y se puede acceder de diferentes maneras. La información también se recoge en grandes cantidades. No se puede hacer mucho en el mundo moderno sin que se anote y se almacene en una base de datos.

El gran análisis de datos y las grafos de bases de datos son palabras de moda que más probablemente haya encontrado. Es probable que le hayan dicho que comience a usar grafos de bases de datos en su gran analítica de datos para aumentar su eficiencia organizativa.



Por qué los grafos de bases de datos son tan eficaces en Big Data Analytics
Wikimedia Commons I Hoshi Ludwig (CC BY-SA 4.0)

¿Pero por qué? Veamos los conceptos y las razones por las que los grafos de bases de datos son tan eficaces en grandes datos.

¿Qué son los grandes datos?

A menos que usted haya estado viviendo bajo una roca, usted debe haber oído el término "Big Data" arrojado alrededor. De hecho, es probable que haya escuchado que se menciona en tantos contextos diferentes, descritos de diferentes maneras en que podría ser difícil saber y entender lo que realmente significa el término y cuál es su significado.

Por lo tanto, voy a tratar de explicar el término de forma concisa y le dejo en las razones definitivas que importa.

La definición de grandes datos

Si busca la definición de grandes datos en Google, recibirá más de 10 millones de resultados. La definición del diccionario establece grandes datos como:

"Conjuntos de datos extremadamente grandes que pueden ser analizados computacionalmente para revelar patrones, tendencias y asociaciones, especialmente relacionadas con el comportamiento humano y las interacciones".

Muchas palabras de lujo, ¿verdad? La definición podría no abrir la idea y el propósito detrás del concepto. Podrías afirmar lo anterior de manera un poco más simplista y describir los grandes datos como una gran colección de datos, recopilados de fuentes tradicionales y digitales. Los datos pueden ser recogidos dentro de una organización específica y sus diferentes canales o fuera de la organización. Además, los datos grandes no sólo se recogen sino que se usan para descubrir cosas nuevas y para analizar patrones y procesos existentes.

El punto clave para entender con grandes datos es que los conjuntos de datos recogidos son enormes - no se trata de unos pocos números de teléfono aquí, sino grandes cantidades de diferentes tipos de datos. Además, los datos suelen estar en formato digital, aunque no se deben excluir los conjuntos de datos tradicionales. Los registros financieros, por ejemplo, también forman parte de grandes datos. Además, los grandes datos siempre mezclan datos multi-estructurados y no estructurados. Qué significa eso? Los datos grandes pueden utilizar:

  • Datos no estructurados, que son información que no puede ser fácilmente organizada o interpretada por bases de datos y modelos tradicionales.
  • Datos multi-estructurados, que son diferentes tipos y formatos de datos, derivados de las interacciones entre personas y máquinas.
    Entonces, ¿qué es lo que se ve en la realidad? Un ejemplo de grandes datos sería cómo Wal-Mart recogió datos de sus clientes y el clima. Al combinar estos diferentes conjuntos de datos y puntos de información, la empresa notó que a medida que las tormentas se dirigen hacia la ubicación, los clientes compran más linternas (comprensibles!) Y Pop-Tarts (interesante y algo sorprendente).

Para una rápida recapitulación de lo anterior y una visión del mundo de los grandes datos, debe ver el corto clip a continuación:



¿Por qué los datos importantes importan?

Pero, ¿qué significa lo anterior para una organización? ¿Por qué importa si recopilas y usas datos grandes? Bueno, el ejemplo de Wal-Mart muestra las dos razones principales para utilizar datos grandes:

Revela la información oculta - Usted no necesita saber los patrones del tiempo y el consumo del cliente de ciertas mercancías van de común acuerdo o tiene un acoplamiento. Los datos grandes ayudan a revelar esta información y por lo tanto, usted no necesita saber lo que usted está buscando para encontrar una conexión. Wal-Mart no sabía que está buscando para encontrar un alimento específico aumentar sus ventas antes de una tormenta, pero fue capaz de encontrar esta conexión interesante debido a la gran analítica de datos.
Extrae valor - La información que obtiene ayuda a comprender mejor las conexiones entre acciones y comportamientos. Esto a su vez, le ayudará a aumentar la extracción de valor, ya sea ayudándole a hacer o ahorrar más dinero, o mejorar la eficiencia. En el ejemplo de Wal-Mart, la compañía podría usar la información para promover Pop-Tarts cuando las tormentas se dirigen adentro o hacen las linternas más accesibles fácilmente.

¿Qué son los grafos de bases de datos?

Pero ¿qué pasa con el otro concepto que estamos conectando con el análisis de datos grandes? Con el fin de comprender los beneficios de utilizar grafos de bases de datos en relación con grandes datos, es necesario comprender el significado y la importancia de ellos.

La definición de un grafo de base de datos 

Las definiciones de un grafo de base de datos también vienen en complejidades diferentes. La definición informática del concepto dice que un grafo de base de datos es:

"Una base de datos que utiliza estructuras de grafos para consultas semánticas con nodos, aristas y propiedades para representar y almacenamiento de datos".

Si usted no es un experto en informática o se utiliza para la jerga de la tecnología, lo anterior probablemente fue muy por encima de su cabeza. No se preocupe, hay una manera más práctica de ver el concepto. Un grafo es una ilustración de la información y una base de datos es, naturalmente, un conjunto de información agrupada. Los grafos de bases de datos tienen dos elementos de definición:
  • Un nodo, que representa una entidad. Esto puede ser una persona, un lugar, una cosa y así sucesivamente.
  • Una relación, que es la conexión entre dos nodos separados.
Esencialmente, los grafos de bases de datos son conjuntos de datos que se centran en las conexiones entre diferentes partes de la información y representan estas conexiones de una manera simple y gráfica.

Se puede pensar en ello a través de un ejemplo, como Twitter, que es en sí mismo un enorme grafo de base de datos. Los usuarios serían los nodos y las conexiones o relaciones que los diferentes nodos tienen pueden ser variables y que se representan con 'sigue'. La conexión entre dos usuarios (nodos) podría ser la del nodo 1 después del nodo 2, con el nodo 2 no siguiendo el nodo 1. Tanto el nodo 1 como el 2 también podrían estar siguiendo uno al otro y así sucesivamente. Todos los diferentes usuarios (nodos) y las relaciones que tienen con otros nodos pueden representarse en un enorme grafo de base de datos.



¿Por qué son importantes los grafos de bases de datos?

Pero, ¿por qué un grafo de base de datos facilita el análisis y la comprensión de la información? ¿Cuál es el propósito de representar a los usuarios de Twitter y sus relaciones con un grafo de base de datos? Una organización puede beneficiarse del uso de grafos de bases de datos de tres maneras diferentes, con la base de datos ayudando a:
  • Aumentan el rendimiento - Cada organización tendrá datos y los conjuntos de datos siempre seguirán creciendo. El crecimiento de estos conjuntos de datos también conducirá al crecimiento en las conexiones que tienen los conjuntos de datos. Los grafos de bases de datos están específicamente diseñadas para entender las relaciones entre diferentes partes de datos, lo que significa que el crecimiento de las relaciones no dificultará el rendimiento.
  • Proporcionan flexibilidad: el uso de grafos de bases de datos también es flexible, ya que la base de datos puede cambiar a la misma velocidad que la de su organización. La estructura del modelo se adapta a todo tipo de necesidades y requerimientos.
  • Mejoran la agilidad - Los grafos de base de datos también admite agilidad, que es crucial en un entorno de desarrollo basado en pruebas. A medida que cambian los requisitos de su empresa, la base de datos puede cambiar con ella.

El mundo interconectado de hoy significa que diferentes piezas de información están conectadas entre sí en una serie de formas únicas. El uso de los grafos de bases de datos significa que no sólo entienden la importancia de la información y los datos, sino las relaciones entre ellos.

La comprensión adquirida de las relaciones puede impulsar a su organización en términos de eficiencia y creación de valor - tal como vimos con grandes datos. La información por excelencia conduce a un mejor servicio y un mayor valor, tanto para usted como para el cliente.

¿Por que los grafos de bases de datos funcionan en el análisis de Big Data?

Entonces, ¿qué obtienes cuando implementas grafos de bases de datos en análisis de datos grandes? Una herramienta eficaz y poderosa para crear conexiones y utilizar sus datos. Pero, ¿por qué?

Como se mencionó en la primera sección, los datos grandes generalmente se basan en el lenguaje de consulta estructurada (SQL) para comunicarse con una base de datos. Es el lenguaje de la gestión de bases de datos relacionales, que son bases de datos que se construyen alrededor de tablas y colecciones de filas de atributos.

La comunicación entre las diferentes tablas y filas puede ser lenta y difícil cuando se ponen en cuestión conjuntos de datos enormes e irregulares. Esencialmente, a medida que los datos continúan creciendo y evolucionando, el modelo tradicional de SQL puede llegar a ser insuficiente para comprender las relaciones entre estos diferentes conjuntos de datos.

¿Cómo se resuelven estos problemas? Bueno, los grafos de bases de datos son una parte de la solución. Pertenecen a un movimiento denominado No Only SQL o NoSQL. En lugar de estructurar los datos en el modelo tradicional de tablas y filas, NoSQL permite que el diseño de la base de datos se construya en torno a los requisitos a la mano. Esto puede significar que los datos están estructurados y definidos por:

  • Almacenes de valores clave
  • Documentos
  • Grafos de bases de datos 

El modelo de grafo de base de datos se centra en las relaciones de los diferentes nodos, o puntos de datos. Por lo tanto, en lugar de mirar el valor del punto de datos (que es lo que la base de datos SQL haría), el grafo de base de datos está organizando y analizando los puntos de datos desordenados de acuerdo a las relaciones. El grafo de base de datos agrega otra capa de estructuración y análisis de los datos, aumentando la eficacia de su gran análisis de datos. Simplemente abre más puertas para su organización.

Pero, ¿cuál es la importancia de la relación de nodos en los grandes datos? ¿Por qué es tan eficaz en la adición de la forma de analizar los datos. En pocas palabras, la respuesta es que puede aclarar los datos interconectados con mayor claridad. En lugar de simplemente entender cuál es el valor de los datos específicos, se entiende el valor de la relación entre los datos. Si piensa en el ejemplo de los hallazgos de Wal-Mart, el grafo de base de datos ayudaría a notar la relación entre la tormenta, las decisiones de compra y los clientes que compraron linternas y Pop-Tarts.

Una organización no sólo se basa en los datos cuando se trata de la toma de decisiones. Si desea aumentar las ventas en su librería, no sólo necesita datos sobre los libros que se están vendiendo con el fin de aumentar las ventas. Es necesario comprender cómo los clientes se conectan a los libros, por ejemplo, qué libros tienden a ser comprados por la misma persona y qué tienen en común los compradores de un libro específico. Si descubre estas relaciones, puede aumentar las ventas mucho más fácil. Tal vez encuentres una conexión donde la gente que lee J.K. Rowling también tiende a comprar libros de Terry Pratchett y puede utilizar la información en la comercialización o el posicionamiento de los libros. Por lo tanto, mejorar la forma de interpretar y utilizar los datos. No sólo se centran en el valor específico, pero el valor de la relación. Para cualquier organización, las relaciones entre los puntos de datos son importantes y seguirán creciendo en importancia.

Otro ejemplo de lo anterior podría ser entender por qué el transporte de libros desde el almacén lleva mucho tiempo. Con la ayuda de un grafo de base de datos, puede encontrar la relación entre el almacén, minorista, empresa de entrega y el cliente y encontrar qué conexiones tomar más tiempo o si podría obtener el producto más rápido mediante diferentes relaciones, es decir, los procesos de entrega. Puede solucionar los problemas de su empresa de diferentes maneras, ya que son capaces de ver los datos de una manera diferente al modelo tradicional y encontrar conexiones que no puede realizar con el modelo de SQL. Usted termina creando más valor para la organización y el cliente. Resuelve un problema que puede impedir que un cliente haga compras con usted de nuevo y cree un servicio más eficiente que podría aumentar el valor que puede obtener de los servicios que proporciona.

Además, el modelo de base de datos NoSQL puede ser mucho más eficiente en términos de encontrar estas conexiones de datos. Una base de datos SQL comenzaría su búsqueda comprobando puntos de datos individuales y comparándolos con otro uno por uno. Considere que tiene el punto de datos A y desea encontrar quién está conectado a él. Si utiliza sistemas de base de datos tradicionales, el A se verificará individualmente con B, C, D, E, etc. Por otro lado, con el grafo de base de datos, las conexiones entre A y los diferentes puntos de datos se crearían mucho más rápidamente. Las relaciones se capturan por sí solas y las propiedades de los puntos de datos se comprueban directamente. Esto reduce el tiempo de procesamiento y asegura que pueda acceder a la información más rápidamente. Todo esto asegura una mayor eficiencia. Ryan Boyd, director de relaciones con desarrolladores de Norteamérica para Neo4J, dio un ejemplo de la técnica y el modelo de procesamiento en una entrevista TechRepublic. Boyd dijo,

"Con un grafo de base de datos, encontrará un punto de partida lógico y se ramificará desde allí e identificará las relaciones. Por ejemplo, puede escribir una pregunta que le pregunte, 'Encuentra a todos los amigos de los amigos de John'. En lugar de tener que JOIN muchos índices diferentes, el grafo de base de datos utiliza aritmética de puntero que está en memoria o en caché y realiza la operación. "

Un ejemplo del uso efectivo de los grafos de base de datos en el análisis de grandes datos a la luz de lo anterior es eBay y cómo proporciona un servicio rápido y eficiente a sus clientes. La plataforma de compras utiliza grafos de base de datos para conectar a los compradores con los vendedores locales, creando conexiones localizadas de entrega puerta a puerta. La compañía ha observado cómo las consultas impulsadas por un grafo de base de datos toman 1 / 50th de un segundo para resolver, mientras que las consultas de base de datos tradicionales tomó alrededor de 15 minutos. El ejemplo destaca el poder de crear eficiencia en términos de ahorro de tiempo y recursos de la organización y proporcionar un mejor valor para los clientes.

Uso de grafos de bases de datos

Los grafos de base de datos ofrecen muchas oportunidades para las organizaciones. Los beneficios discutidos anteriormente ya han sido señalados por una serie de industrias, incluyendo:

  • Servicios financieros - Ejemplos de usos incluyen monitorear y prevenir el fraude interno y externo y sus riesgos.
  • Venta al por menor - se puede utilizar para entender las decisiones de compra y para proporcionar recomendaciones a los clientes sobre la base de cómo los diferentes productos se vinculan entre sí.
  • Logística - un ejemplo en la industria sería el uso del grafo de base de datos para la planificación de rutas.
  • Redes y TI - identificación y comprensión del análisis de la causa raíz.

Al comenzar a implementar los grafos de base de datos en su organización, debe tener en cuenta algunas cosas. En primer lugar, hay dos propiedades clave que utilizan las tecnologías de grafos de base de datos:

  • Almacenamiento de grafos: algunas opciones de almacenamiento están diseñadas específicamente para almacenar y administrar grafos, mientras que otras utilizan bases de datos relacionales u orientadas a objetos. Las últimas opciones tienden a ser más lentas.
  • Motor de procesamiento de grafos: el procesamiento nativo o grafo es la forma más eficiente de procesar datos dentro de un grafo. Los motores de procesamiento no nativos tienden a utilizar otros medios de procesamiento, como "crear", "leer" o "borrar".

Encontrar la tecnología adecuada para usar dependerá de sus necesidades y requerimientos específicos. Hay bastantes diferentes tecnologías de grafo de base de datos disponibles, siendo el grafo de base de datos más utilizada Neo4J. El sistema de código abierto es un grafo de base de datos nativa, tanto en términos de almacenamiento como de procesamiento. La base de datos comenzó en desarrollo en 2003, convirtiéndose en sistema disponible públicamente en 2007.

El grafo de base de datos es utilizada por varias organizaciones y empresas de todo el mundo, que representan un gran número de industrias. El sistema se utiliza en la investigación científica, gestión de proyectos y matchmaking. Sus usuarios incluyen organizaciones establecidas como Wal-Mart y Lufthansa, así como start-ups como FiftyThree y CrunchBase.

martes, 27 de agosto de 2013

Grafo de intereses

The Interest Graph

My boys will grow up to a world where work is radically different than what I’ve experienced in my life. The way they’ll coordinate their jobs with others will be much looser and “networky” than in our current organization-centric economy. One of the causes of this shift are changes in the way we find people who share our interests, so this article looks at the technology infrastructure for doing that.

Mapping Our Interests

Thanks to Facebook, most of us already know what a “social graph” is. It’s basically a map of the people you know. Build an Internet service around that graph and you get a social network like Facebook or Google+.
An “interest graph” is also a map, but instead of connecting us to people, it connects us to ideas. For example, among other things, I happen to be interested in business, networks, myth, and music by Michael Franti and Dead Can Dance. We can also look at some of my interests by mapping them on a simple interest graph:
Those lines illustrate my interest in these ideas – not my real-world connections to actual objects and people. The line between me and Thomas Jefferson, for example, shows my interest in what he represents, but (obviously) not the personal relationship you’d see in a social graph. Also, that connection to The Matrix says I’m interested in the movie, but nothing about whether I own a physical copy of it (we’ll leave that to the Internet of Things).
Software engineers are developing lots of different ways to build an interest graph. The most obvious is to simply ask people by allowing them to “like” and “plus” things online. There are also ways to infer our interests that are just as powerful, if a bit more tricky. For example, Google might interpret my search for “Thomas Jefferson” as a sign of potential interest in him; and that signal would get a lot stronger the more frequently I do it.
All this commenting, liking, searching and foraging for information on the web leaves our own unique little “pheromone trails” - while capturing of our interest graphs in the software of today’s Internet giants.

Mapping Our Meaning

When it comes to the interest graph, we really are talking about an interest in concepts – representations of people and things, rather than actual people and things. It’s this distinction that will connect our interests to the emerging semantic web, the next big evolution of the web, aimed at infusing meaning into text and other objects as a way to more easily automate connections between ideas.
There are lots of ways that these connections between ideas are formed, but one of the most promising centers on the way we humans interact with search technologies. When I search for “Benjamin Franklin,” “Monticello” and “Thomas Jefferson” around the same time, it suggests a meaningful connection between these terms, and the more people search for these terms together, the stronger that signal becomes.
Google tracks these semantic connections between ideas in what it calls the knowledge graph - and surfaces them through the “people also search for” section of that box you sometimes see in your search results (see picture). The company is essentially using our searches to connect ideas and build its knowledge graph. That’s not the only way they’re doing it, but it’s a great strategy for them because it will be quite difficult for others to replicate.
By connecting ideas together in this way, Google will soon be able to help us discover interests we didn’t even know we had. I might not know I’m interested in Thomas Paine’s writings, simply because I don’t know about them, but Google knows I’m interested in Jefferson and that he’s semantically connected to Paine.
From a more commercial perspective, how about a search engine that knows that when I search for a nearby park, one of the activities people generally do in parks is have picnics? Given that kind of automated understanding, the search engine might show me ads of nearby delis and bakeries with ads tempting me to buy my picnic supplies. Revolutionary marketing? Not really. Any semi-creative marketer would have thought of that, except that, this wasn’t a marketer. It was a machine, and we’re now headed into a world where more and more of that creative insight will be automated by the semantic web.
Where this all gets really interesting though is when it gets connected to our interest graph.

Mapping Our Shared Interests

Some technology observers stretch the term “interest graph” to include other people who share our interests. I think this muddies the picture though. Just mapping people to their interests is a rich enough problem in its own right. We’ve barely scratched the surface here.
So, to get at this connection with others who share our interests, I like the term shared interest graph” because it clearly states what it is: a map of people who share your interests.
At the most basic level, you use a shared interest graph in two ways: 1) finding new interests; and 2) finding new people
When it comes to using the shared interest graph to find new interests, Facebook’s new Graph Search is a slick example. I’m still assessing how relevant my friends’ tastes in music, shows, and books really are to my own tastes. But it’s worth noting that one of my favorite musicians is Michael Franti, and he is at the top of my friends’ collective music list on Facebook.
As for using the interest graph to find new people, Facebook Groups and Google+ Communities are good, concrete examples. I run a “Good Business” community on Google+,  which has helped me meet lots of people who share my interest in “business as a force for good in the world.”
With a shared interest graph, you can also combine finding new people and finding new interests. Music sites like Pandora show you lists of strangers who share your tastes in music. You can then visit their profiles to find new music that you also might like.

Opening Up the Shared Interest Graph

If none of this sounds particularly new or eye-opening to you, it’s because we’ve been working with aspects of the shared interest graph for a decade or more, even if most of us haven’t  known quite what to call it.
Online retailers like Amazon were actually the pioneers in shared interest graph technologies. These companies used the shared interest graph as a kind of crowd-sourced personal shopper for suggesting products we might like based on what they knew of our tastes, and this gave them a powerful edge over traditional retailers.
These earlier pushes into the interest graph and the shared interest graph were all based on proprietary data standards. Amazon, for example, has very detailed data schemas for describing all kinds of products, which they have painstakingly built over the course of many years. I know a little bit about the difficulties here, having years ago run a product team at Microsoft that annually standardized vehicle specifications for all automobile makes and models available in the United States. It was a massive and messy job, and a source of considerable competitive advantage for our car buying service.
But this world of proprietary data schema is changing, thanks to the rise of the semantic web. Take a look at Schema.org, the collaboration between Google, Microsoft and Yahoo to standardize semantic descriptions of things like products,local businesses and many other things. These are fierce competitors, but they collaborate on this problem because they know that the semantic web and standardized schemas will greatly strengthen search operators at the expense of proprietary data masters like Amazon. It’s usually not a good idea to bet against Amazon, but if the semantic web builds sufficient momentum, it may well be forced to open up its product databases to future semantic search engines – or perhaps drastically shift strategies in order to become the semantic search engine itself.
What this means is that our interest graphs could become much more portable. Today, the music I’ve liked on Facebook can’t easily move with me to Google+ or Amazon. If the semantic web unfolds the way many believe it will, that could well change. It’s hard to imagine all this data commoditizing in ways that would enable that kind of portability – especially when you consider the power these players have today. But the history of industry shows that over time, businesses do commoditize – and the semantic web is likely to be a powerful force for that.
Remember too that the semantic web won’t just free our interest graphs from the proprietary data standards of online retailers, it will also help us build links between our interests and other ideas. Today, much of the way we use the shared interest graph is to connect to new interests – usually in the form of finding new products and services to buy. That’s understandable; shopping is where the money is, and software development efforts have flowed accordingly.
But this same infrastructure – the technology of the shared interest graph – has the potential to help us be much more than just better consumers. It has the potential to connect us with other people who share an interest and a stake in what we care about. And I’m betting that from these same seeds will grow something bigger, something that will affect the very nature of the way we work together.