Mostrando entradas con la etiqueta información. Mostrar todas las entradas
Mostrando entradas con la etiqueta información. Mostrar todas las entradas

jueves, 22 de noviembre de 2018

Bots difunden noticias falsas pero pueden ser combatidos

Los bots difundieron muchas falsificaciones durante las elecciones de 2016. Pero también pueden desacreditarlo.

Por Daniel Funke · Poynter





Desde las elecciones estadounidenses de 2016, ha habido mucha especulación sobre el papel que desempeñaron los robots en la difusión de información errónea en línea. Y ahora, ese papel ha sido cuantificado.

Según un estudio publicado hoy en la revista Nature Communications, las cuentas automáticas de Twitter amplían de manera desproporcionada la información errónea durante las últimas elecciones en los Estados Unidos. Descubrió que, si bien los bots solo representaban alrededor del 6 por ciento de los usuarios de Twitter en el estudio, eran responsables del 34 por ciento de todas las acciones de artículos de fuentes de "baja credibilidad" en la plataforma.

"Este estudio encuentra que los bots contribuyen significativamente a la diseminación de información errónea en línea, y también muestra la rapidez con la que se pueden propagar estos mensajes", dijo Filippo Menczer, profesor de informática y ciencias de la computación en la Universidad de Indiana, y el director del estudio, en un comunicado de prensa. enviado a Poynter.

Los investigadores analizaron 14 millones de tweets y 400,000 artículos compartidos en Twitter entre mayo de 2016 y marzo de 2017. Para determinar si algo era una fuente de baja credibilidad, se basaron en recursos de sitios como PolitiFact (propiedad de Poynter), que ha compilado una lista de sitios web conocidos por difundir información falsa o engañosa en línea.

Esas fuentes abarcan desde sitios satíricos como The Onion hasta sitios de noticias falsas como USAToday.com.co. Esa es una gran brecha, pero en las plataformas sociales como Twitter, la línea entre la desinformación y la sátira es notoriamente borrosa, y los usuarios se dividen cuando uno se convierte en el otro.

Para rastrear cómo los bots amplificaban la información errónea de estas fuentes, los autores del estudio utilizaron dos herramientas de IU: Hoaxy y Botometer. La primera es una plataforma que rastrea la propagación de reclamaciones en línea, mientras que la segunda es un algoritmo de aprendizaje automático que detecta bots en las redes sociales.

El estudio compara principalmente las distribuciones de puntajes de bot de Botometer, que identifican bots basados ​​en miles de otros ejemplos. Los autores mitigaron los falsos positivos y negativos al establecer un umbral de 2.5 / 5, una puntuación que, según Menczer, tenía el mayor grado de precisión en su algoritmo.

Aparte de su papel en la amplificación del alcance de la desinformación, los bots también desempeñan un papel crítico en su despegue en primer lugar. Según el estudio, es probable que los bots amplifiquen los tweets falsos justo después de su publicación, antes de que se vuelvan virales. Luego los usuarios los compartieron porque parecía que mucha gente ya los tenía.

"Las personas tienden a confiar más en los mensajes que parecen provenir de muchas personas", dijo el coautor Giovanni Luca Ciampaglia, profesor asistente de ciencias de la computación en la Universidad del Sur de la Florida, en el comunicado de prensa. "Los bots se aprovechan de esta confianza al hacer que los mensajes parezcan tan populares que se engaña a personas reales para que difundan sus mensajes por ellos".

El estudio sugiere que Twitter reduzca el número de cuentas automatizadas en las redes sociales para reducir la amplificación de la desinformación. La compañía ha logrado algunos avances hacia este fin, suspendiendo más de 70 millones de cuentas solo en mayo y junio. Más recientemente, la compañía derribó una red de bots que impulsó puntos de vista pro saudíes sobre la desaparición de Jamal Khashoggi y comenzó a permitir que los usuarios informen sobre posibles cuentas falsas.

No obstante, los bots siguen causando estragos en Twitter, y algunos no se utilizan para difundir información errónea en absoluto. Entonces, ¿qué deberían hacer los verificadores de datos para combatir su papel en la difusión de información errónea?

Tai Nalon ha pasado la mayor parte del año pasado tratando de responder esa pregunta, y su respuesta es vencer a los robots en su propio juego.

"Creo que la inteligencia artificial es la única forma de abordar la desinformación, y tenemos que crear bots para abordar la desinformación", dijo el director de Aos Fatos, un proyecto brasileño de verificación de hechos. “(Los periodistas) tienen que llegar a las personas donde están leyendo las noticias. Ahora en Brasil, están leyendo en las redes sociales y en WhatsApp. Entonces, ¿por qué no estar allí y automatizar los procesos utilizando las mismas herramientas que usan los malos? "

En el período previo a las elecciones del mes pasado en Brasil, Aos Fatos creó un bot de Twitter que corrige automáticamente a las personas que comparten noticias falsas. Llamada Fátima, la cuenta automatizada aprovecha AI para escanear Twitter en busca de URL que coincidan con las comprobaciones de hechos en la base de datos de artículos de Aos Fatos. Luego, el bot responde al usuario de Twitter con un enlace a la verificación de hechos. (Divulgación: Fátima ganó la donación instantánea de International Fact Checking Network para Brasil).



Desde el lanzamiento de Fátima durante el verano, Nalon le dijo a Poynter que el bot ha escaneado más de 12,000 enlaces y tuiteado casi 2,500 respuestas a una variedad de usuarios. Nalon dijo que eso es importante porque no todos los tweeters que comparten información errónea van a seguir a los verificadores de datos o incluso a las organizaciones de medios verificadas. Bots como Fátima aseguran que todos los usuarios tengan acceso a la información verificada, independientemente de sus propios silos de información.

“Creo que la tecnología puede escalar nuestro trabajo. Nuestro mayor desafío es llegar a las personas que no tienen acceso a la verificación de datos ", dijo Nalon. "Con Fátima, por ejemplo ... cada vez que tuitea un enlace con una respuesta a alguien, mucha gente va allí y le gusta y le dice cosas a las personas que compartieron la información errónea".

Aos Fatos es uno de los pocos medios de verificación de datos para construir un bot de Twitter que corrige automáticamente la información errónea. Y Nalon dijo que uno de sus objetivos para 2019 es extender la herramienta a más verificadores de hechos, comenzando con Chequeado en Argentina.

“Lo que los periodistas necesitan es construir formas de meditar, y no estaremos mediando solo usando las herramientas que Facebook y Twitter nos dan. Tenemos que construir herramientas dentro de Facebook, Twitter y WhatsApp ”, dijo Nalon. "Creo que, si estamos creando conciencia, también podemos aumentar la confiabilidad - y en realidad hackear la forma en que la gente ve a los robots".


miércoles, 7 de marzo de 2018

Qué algoritmo sobre o subajusta cuando se buscan comunidades en redes

Evaluación del sobreajuste y el subajuste en modelos de estructura de comunidad de red

Amir Ghasemian, Homa Hosseinmardi, Aaron Clauset
(Presentado el 28 de febrero de 2018)
arXiv:1802.10582 [stat.ML]


Una tarea común de minería de datos en redes es la detección de comunidades, que busca una descomposición no supervisada de una red en grupos estructurales basada en regularidades estadísticas en la conectividad de la red. Aunque existen muchos métodos, el teorema de No Free Lunch para la detección de comunidades implica que cada uno realiza algún tipo de compensación, y ningún algoritmo puede ser óptimo en todas las entradas. Por lo tanto, diferentes algoritmos superarán o subestimarán las diferentes entradas, encontrando más, menos o solo comunidades diferentes de lo que es óptimo, y los métodos de evaluación que usan una partición de metadatos como verdad fundamental producirán conclusiones engañosas sobre la precisión general. Aquí, presentamos una amplia evaluación de sobreequipamiento en la detección de comunidades, comparando el comportamiento de 16 algoritmos de detección de comunidades de vanguardia en un corpus novedoso y estructuralmente diverso de 406 redes del mundo real. Encontramos que (i) los algoritmos varían ampliamente tanto en el número de comunidades que encuentran como en su composición correspondiente, dado el mismo aporte, (ii) los algoritmos se pueden agrupar en grupos de alto nivel basados ​​en las similitudes de sus resultados en realidades. las redes mundiales, y (iii) estas diferencias inducen una amplia variación en la precisión de las tareas de predicción de enlaces y descripción de enlaces. Presentamos un nuevo diagnóstico para evaluar el sobreajuste y el ajuste insuficiente en la práctica, y lo utilizamos para dividir aproximadamente los métodos de detección de la comunidad en algoritmos de aprendizaje general y especializado. En todos los métodos e insumos, las técnicas bayesianas basadas en el modelo de bloques estocásticos y un enfoque de longitud de descripción mínima para la regularización representan el mejor enfoque general de aprendizaje, pero pueden superarse en circunstancias específicas. Estos resultados introducen un enfoque basado en principios teóricos para evaluar el exceso y el insuficiente ajuste en los modelos de la estructura de la red comunitaria y un punto de referencia realista mediante el cual se pueden evaluar y comparar nuevos métodos.



miércoles, 10 de enero de 2018

Cómo los grafos representan el futuro de la información

El futuro está en forma de grafo

Tim Baker, director global de innovación, finanzas y riesgos, Thomson Reuters
Dr. Tharindi Hapuarachchi Gerente de Asociaciones Técnicas
Bob Bailey Vicepresidente y Arquitecto Jefe de Información, Thomson Reuters




Según Forrester, para 2017, el 25% de las empresas habrá implementado una base de datos de grafos, mientras que Gartner afirma que "el análisis de grafos es posiblemente el diferenciador competitivo más efectivo para las organizaciones que persiguen operaciones y decisiones basadas en datos".

Cuando Microsoft® anunció la adquisición de LinkedIn® - había otra gran pista sobre la importancia futura del grafo - ¡la transcripción de la entrevista entre Satya Nadella y Jeff Weiner mencionó "grafo" nueve veces!

Entonces, ¿qué es una base de datos de grafos, y cómo y por qué está surgiendo de repente como la última aplicación asesina en el "panorama de los grandes datos"? ¿Cuáles son los casos de uso para el grafo, y cómo los clientes pueden sumergirse sin tener que construir un equipo de ciencia e ingeniería de datos de 30 miembros?

Los grafos se están convirtiendo en una herramienta cada vez más popular y útil en el mundo de la información, pero de ninguna manera son nuevos: de hecho, el primer grafo se remonta al problema del puente de Konigsberg que posteriormente fue resuelto por el matemático suizo Leonhard
Euler en 1736.2 Más recientemente, la noción de un grafo como una forma de representar las relaciones entre las personas se popularizó al observar que Kevin Bacon (el actor) es, en promedio, tres grados de separación de cualquier otro actor en la base de datos de IMDb. La teoría matemática y la investigación práctica (por ejemplo, en Facebook®) han demostrado que, en promedio, las personas no tienen más de seis grados de separación entre sí.

Gráfico 1: Sean Connery - Kevin Bacon Number = 2 (nunca han trabajado en la misma película)

Fuentes: IMDb y Thomson Reuters Data Fusion

El algoritmo que permite el cálculo del número mínimo de caminos entre dos personas (su separación real) fue desarrollado en los años 50 por el matemático holandés Edsger Dijkstra, pero no fue hasta el advenimiento del big data y la explosión del poder de la informática barata. que tales algoritmos realmente podrían ponerse a trabajar para casos de uso como el "grafo social" de Facebook, que conecta intereses y amigos para que pueda encontrar restaurantes en Barcelona que les gusten a sus amigos. El PageRank de Google es el algoritmo que de nuevo aprovecha los datos del grafo (que representa los hipervínculos entre las páginas web) para obtener resultados de búsqueda.

Al igual que las listas y tablas, los grafos son un medio para organizar y representar información. Un grafo comprende objetos y relaciones entre esos objetos, de modo que cualquier par de objetos conectados por una relación forman una simple "oración" de información, como "Perro muerde a Pat". Así que uno puede pensar que un grafo es un "mapa" de muchos tales oraciones que involucran un superconjunto de objetos y tipos de relación. Por ejemplo, "Pat trabaja en el Royal Mail" y "El perro pertenece a Alicia" podría estar junto a "Mordeduras de perro Pat", por lo que podemos inferir asociaciones no explícitamente establecidas entre objetos, y seguir "señales" de relación a información relacionada.

Gráfico 2: El perro muerde a Pat


Un método de grafo hace que sea fácil agregar datos de múltiples fuentes que pueden diferir ampliamente en precisión, precisión y significado. Cualquiera puede agregar información nueva a un grafo sin afectar o estar limitado por lo que ya está allí: agregando a la suma del conocimiento. Por el contrario, las listas y tablas se diseñan antes de que se agregue cualquier información para que el conjunto de elementos representados y la información contenida en cada elemento sea clara. Esto tiene el efecto de restringir lo que se puede representar.

Una tabla diseñada para capturar una relación de "mordiscos" no se puede usar para representar una relación de "trabajos en". Las listas y las tablas reducen intrínsecamente el conocimiento disponible para adaptarse a un conjunto de diseños por adelantado, por lo que también se pueden determinar las preguntas que se pueden responder con anticipación. Por otro lado, el mismo grafo se puede usar para responder preguntas con diversos contextos, cualquiera que sean, independientemente de quién creó el grafo o con qué propósito. Ya sea que esté interesado en los peligros de ser cartero o en el comportamiento de las mascotas de Alicia, el grafo anterior puede proporcionar respuestas, incluso si su propósito original era documentar el día de Pat.

En el mundo de los datos financieros, los considerables activos de datos de Thomson Reuters están contribuyendo a la formación de un Grafo de conocimiento de Thomson Reuters. Esto ayudará a nuestros clientes a identificar relaciones inferidas y fácticas previamente desconocidas. Por ejemplo, Thomson Reuters ha estado siguiendo movimientos de oficiales y directores de compañías durante más de 30 años. Nuestra base de datos de ofertas abarca un período de tiempo similar. Mediante el mapeo de organizaciones y personas en ambos conjuntos de datos a identificadores permanentes comunes (PermID), se forma una representación gráfica que explora a qué ejecutivos se asocian con qué se trata en el tiempo. Los grafos como este también se pueden conectar fácilmente a otros grafos, siempre y cuando las bases de datos de grafos compartan algunos estándares comunes, generalmente en relación con la representación de las entidades (como personas o empresas) y las relaciones.

Por ejemplo, aunque el sitio web de IMDb no ha adoptado PermIDs para identificar de manera exclusiva a los actores, un pequeño grupo de individuos en esa base de datos son o han sido funcionarios o directores de compañías que están en las bases de datos de entidades de Thomson Reuters, como tales tienen PermIDs. Por ejemplo, Ashton Kutcher es actor y miembro de la junta directiva de Katalyst Media, la firma que fundó con Jason Goldberg.

Gráfico 3: Cuando dos mundos colisionan

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion
Gráfico 4: Conectar los puntos

Fuentes: Base de datos de películas en Internet, Thomson Reuters Data Fusion

Por lo tanto, al atravesar nodos comunes a los grafos, es posible unir dos conjuntos de datos separados. Luego, la base de conocimiento resultante ("The Graph", como en "The Web") permite a los usuarios un acceso máximo a la información y la capacidad de personalizar individualmente consultas y vistas, sujeto únicamente a derechos y regulaciones en lugar de a la separación técnica y física. Por ejemplo, ¿cuál es la relación entre Qantas y Kevin Bacon? Bueno, el empresario australiano James Packer estaba en la junta directiva de Qantas, y a través de sus nupcias planificadas con Mariah Carey (cantante y actriz ocasional) ella proporciona la conexión esencial entre el mundo de los negocios y el entretenimiento.

Es esta capacidad de conectar grafos lo que realmente impulsó la adquisición de LinkedIn y Microsoft. En ese momento, Jeff Weiner afirmó: "Lo que más nos emociona a Satya y a mí es cuando combinas el grafo corporativo de Microsoft con el grafo profesional de LinkedIn".

Uso de los clientes del grafo

Su naturaleza acumulativa hace que el grafo sea un método especialmente útil cuando se comparten y combinan datos. Si todos en una organización grande, por ejemplo, comparten lo que saben contribuyendo a un grafo, la base de conocimiento resultante se puede utilizar de una manera mucho más matizada y flexible que si todos se hubieran visto obligados a contribuir a una base de datos centralmente prediseñada . El método de grafo marca un cambio en el énfasis de datos que solo se crean y administran para necesidades específicas, a datos que se conectan para formar el conocimiento colectivo de la organización.

Para ampliar el conjunto de preguntas que podrían responderse desde el grafo de los bancos, las relaciones se pueden establecer con otros grafo externos. Estas relaciones conectan el conocimiento entre sí, de modo que al responder a preguntas posteriores se puede utilizar lo que en términos de información ahora es un grafo más grande, compuesto por los más pequeños.

La buena noticia es que Thomson Reuters ha estado trabajando en los componentes fundamentales para establecer tal vez una de las bases de datos de grafos de alta precisión más grandes del mundo profesional. Aprovechando los vastos activos de contenido de la empresa, más la identidad de la entidad de alta definición habilitada por Open PermID: Thomson Reuters planea lanzar un feed que expondrá hasta 30 mil millones de relaciones entre tipos de entidades, incluidos valores, personas, organizaciones y eventos. Conectar esto con su propio grafo organizacional abrirá enormes oportunidades para nuestros clientes, combinando la perspectiva autoritativa global con su propio conocimiento organizacional, generando respuestas y puntos de vista contextualizados y de alto valor.

Recientes compromisos han revelado que muchos clientes ya se han embarcado en su propio viaje por el mundo de los grafos; algunos están investigando, algunos experimentando, y unos pocos han implementado entornos de big data de gran escala optimizados para datos de grafos. Los casos de uso son casi demasiado numerosos para enumerarlos, pero van desde la gestión de relaciones y el desarrollo empresarial hasta la generación alfa y de ideas, y por supuesto, el análisis de riesgos.

El riesgo es quizás la categoría más importante, ya que las bases de datos de grafos ayudan a identificar relaciones ocultas o complejas que van al centro de la detección de fraude, el análisis de riesgo de la cadena de suministro y la exposición a las entidades sancionadas. Los Documentos de Panamá ayudaron a exponer tales conexiones ocultas y la importancia de modelar y conectar datos de entidades como parte del proceso de investigación.

domingo, 8 de octubre de 2017

Visualización: Claves para destacar la información

Visualización gráfica 101: Apoyo perceptual de visualización


Linkurious


Estamos lanzando Graph Viz 101, una serie de publicaciones para enseñar los fundamentos de la visualización gráfica, escrito por Sébastien Heymann en colaboración con Bénédicte Le Grand de la Université de Paris 1. Este es nuestro segundo post, por favor discuta abajo!

La visualización de la información se ha utilizado para apoyar el análisis de redes sociales desde la década de 1930 con el "sociograma" de J. Moreno (Moreno 1937), que es una representación gráfica de los lazos sociales entre un grupo de personas. A pesar del comienzo temprano de las imágenes de la red, tuvimos que esperar hasta los años 90 y la democratización de la computación gráfica para ver el desarrollo del software de visualización interactiva, que ha hecho posible la exploración interactiva de redes complejas. Pajek (Batagelj 1998) es la herramienta más notable, ya que proporciona algoritmos estadísticos y representaciones visuales de las redes sociales. Su libro metodológico titulado "Exploratory Social Network Analysis with Pajek" fue publicado en 2005. La contribución de Information Visualization a la ciencia se expresa en (Fekete 2008):

La visualización de la información está destinada a generar nuevas ideas e ideas que son las semillas de las teorías mediante el uso de la percepción humana como un filtro muy rápido: si la visión percibe algún patrón, podría haber un patrón en los datos que revela una estructura. [...] Por lo tanto, desempeña un papel especial en las ciencias como un método generador de percepción.
De manera más general, la Visualización de Información es una forma de revelar propiedades de datos que no serían trivialmente detectadas de otra manera, para arrojar luz sobre los avances y para compartir la experiencia conmovedora de "Ajá, Ya veo!" (Few 2006) gracias a su aspecto intuitivo. Este campo de investigación contribuye a la aparición de nuevas teorías científicas mejorando la explotación de la cognición humana. Según Card, Mackinlay y Shneiderman (Card 1999), el objetivo principal de la visualización es, de hecho, amplificar la cognición. Los autores enumeraron una serie de maneras clave de hacerlo, mostrando las ventajas de utilizar técnicas de visualización durante la exploración de datos:

  • Reduciendo el tiempo dedicado a buscar información,
  • Mejorando el reconocimiento de patrones,
  • Habilitando las operaciones de inferencia perceptiva,
  • Utilizando mecanismos de atención perceptiva para tareas de monitoreo,
  • Codificando la información en un medio accionable.

En esta entrada del blog ofrecemos una breve introducción al soporte perceptual de la visualización.

La visualización de la información se basa en las propiedades y las capacidades de percepción del sistema visual humano. De acuerdo con la Teoría de la Información, la visión es el sentido que tiene el mayor ancho de banda (100 Mbits / s), lo que lo convierte en el canal más adecuado para transmitir información al cerebro (en contraste, la audición tiene sólo alrededor de 100 bits / s). (Ware 2004). La visualización requiere, por tanto, la construcción y aplicación de un lenguaje visual para codificar la información que se puede leer e interpretar correctamente. Esta operación se denomina mapeo entre variables de datos y variables visuales. Este lenguaje se basa en características visuales como primitivas geométricas, colores y tamaños, y fue teorizado en (Bertin 1967) y (Cleveland 1984), y ampliado en (Mackinlay 1986).

Sin embargo, seleccionar características visuales para transmitir información no es trivial. Uno realmente desea seleccionar los más eficaces, pero evitando malentendidos e interpretaciones excesivas. Las directrices bien establecidas distinguen dos tipos de variables de datos: variables cuantitativas y cualitativas (véase el cuadro siguiente). Las características visuales se pueden seleccionar según el tipo de datos, pero las dificultades permanecen mezclando diversas variables visuales en la misma imagen.


Ejemplo de pautas para el mapeo de variables de datos a variables visuales (Stolte 2002).
Dos teorías psicológicas principales explican cómo la visión se puede utilizar eficientemente para percibir rasgos y formas, según (Ware 2004): la teoría preattentive del proceso, y la teoría de Gestalt.

Algunas características visuales son particularmente eficientes como se demuestra en (Triesman 1985) y (Healey 1995), un efecto llamado procesamiento preatentivo. Las saliencias visuales, es decir, elementos y patrones que se destacan perceptivamente del resto del cuadro y capturan la atención del observador (Itti 2001), pueden percibirse muy rápidamente (en un orden de menos de 250 milisegundos) y pueden reconocerse "al una mirada "sin ningún esfuerzo cognitivo, incluso si se ha encontrado que el nivel de atención juega un papel crítico. Un ejemplo se ilustra en la siguiente figura, donde localizamos las letras rojas entre varias letras oscuras (imagen izquierda), así como localizamos la T entre líneas muy rápidamente (imagen derecha).



Ilustración del impacto del tratamiento preatentivo en la detección de elementos periféricos (Wong 2010). (a) Algunos elementos se pueden ver en una sola mirada, mientras que otros son difíciles de encontrar. (b) Ejemplos de características visuales que hacen que los objetos sean distintos.

Pero mezclar colores y formas nos obliga a prestar una atención específica a cada artículo, como vemos en esta ilustración:




Ilustración del impacto de mezclar características visuales en el efecto de procesamiento preatentivo (Wong 2010): (a) El uso simultáneo de muchas características gráficas puede impedir el ensamblaje visual de los datos. (b) Múltiples vistas de los mismos datos con parámetros limitados trazados pueden comunicar mejor las relaciones específicas.

La teoría de la Gestalt, establecida en (Koffka 1935), explica los principales principios que conducen a la interpretación de las imágenes. (Ware 2004) los resume de la siguiente manera:

  • Proximidad: Las cosas que están muy juntas se agrupan perceptualmente;
  • Similitud: Elementos similares tienden a agruparse;
  • Cercanía: Un contorno cerrado tiende a ser visto como un objeto;
  • Continuidad: Los elementos visuales que están suavemente conectados o continuos tienden a agruparse;
  • Simetría: Dos elementos visuales dispuestos simétricamente tienen más probabilidades de ser percibidos como un todo;

Ilustramos estas leyes en la siguiente tabla (fuente desconocida):


Ley de agrupamientoEstructuraPercepciónIlustración
Proximidad2 componentes cercanos1 componente seimple
SimilaridadComponentes similares Componentes agrupados
CercaníaLímites cercanos Límites unificados
ContinuidadÍtemes vecinosÍtemes agrupados
SimetríaÍtemes simétricosÍtem global
I


viernes, 5 de agosto de 2016

Redes de tráfico de información privilegiada van a la corte

Una maraña de cargos de operaciones de uso ilegal de información privilegiada
Por Diana Henriques y Guilbert Gates - The New York Times


Alguna vez, el abuso de información privilegiada era considerado un crimen de oportunidad - la oportunidad de beneficiarse de una punta inesperada. Hoy en día, los reguladores temen que se ha convertido en un modelo de negocio para algunos fondos de cobertura de Wall Street. En los últimos seis meses, casi dos docenas de personas han sido acusados de participar en un mercado complejo en el que la información privilegiada de compra y vendta con regularidad.

Algunos acusados se han declarado culpables; otros niegan los cargos, diciendo que se beneficiaron de la investigación tenaz, consejos no ilegales.

El gráfico muestra cómo los fiscales describen el flujo de información privilegiada en el caso Galleon Group, y en otros casos relacionados con esta investigación continua.

Haga clic para ir a la página original de la red

viernes, 29 de julio de 2016

La disyuntiva entre diversidad-ancho de banda (Aral y Van Alstyne)

La disyuntiva entre diversidad-ancho de banda

Sinan Aral,
New York University, Stern School of Business 
sinan@stern.nyu.edu
Marshall Van Alstyne,
Boston University, School of Management 
mva@bu.edu




Proponemos una disyuntiva entre la diversidad de red y ancho de banda de las comunicaciones que regula el acceso a información novedosa porque estructura de red más diversas aumentan la novedad al costo de reducir el flujo de información. Entonces la recepción de novedades depende de si (a) la superposición de información entre los alters es lo suficientemente pequeña, (b) el conocimiento del tópico por parte de los alters es superficial, y (c) los niveles de conocimiento de los alters se actualiza lo suficientemente lento como para justificar la reducción de agujeros estructurales. Datos de redes sociales y datos del contenido de correo electrónico de una firma de reclutamiento de ejecutivos muestran que los lazos de puente en realidad pueden ofrecer menos novedades precisamente por estas razones, lo que sugiere que la fuerza de los lazos débiles y agujeros estructurales dependen de entornos de intermediarios de información.


viernes, 27 de marzo de 2015

Tutorial de SEO: Visualización de palabra clave para la optimización de motor de búsqueda

Grafos para SEOs: mejorar la visibilidad de ranking de páginas web

Nodus Labs

   

Red Texto visualización de los resultados de búsqueda de Google puede ser muy útil para chequeos de optimización de motores de búsqueda (SEO). Los fragmentos de texto que los motores de búsqueda muestran en sus resultados de búsqueda son considerados como los más relevantes para la consulta de búsqueda. Por lo tanto, sería muy útil saber qué otras palabras contienen esos fragmentos, para que podamos crear contenido que es más relevante, tanto para Google y para el público.

Vamos a demostrar nuestro enfoque utilizando el ejemplo de este artículo en el análisis de redes de texto y visualización de datos para la optimización de motores de búsqueda.



Paso 1: Identificar las pertinentes consultas de búsqueda - SEO Contexto

Queremos que este artículo sea leído por aquellos que están interesados ​​tanto en SEO, análisis de redes de texto y visualización de datos. Así que el primer paso es entender mejor lo que la gente está realmente buscando cuando están buscando esos términos - el contexto. Una búsqueda rápida en función auto sugerencia Google Palabras clave Herramienta y de Google revela las siguientes frases de búsqueda más importantes se utilizan en este contexto:



en todos los casos los usuarios están buscando
"Herramientas", "técnicas", "software" y "Tutorial"

Por lo tanto, vemos que hay un gran interés para el software y tutoriales relacionados con la optimización del Search Engine, así como la visualización de datos.

Lo que significa que este artículo será escrito específicamente para incluir las palabras clave tanto en su título principal (etiquetas) y destacó en todo el texto.



Paso 2: El texto de análisis de red de los resultados de Google - Visualización de Datos SEO

Ahora que sabemos lo que los usuarios están realmente buscando, tenemos que ver cuáles son los resultados de búsqueda que realmente ven. Esto es importante por dos razones diferentes:

1) Los fragmentos de los resultados de búsqueda contienen el texto que los motores de búsqueda consideran que son relevantes para la consulta de búsqueda. Por lo tanto, vamos a saber qué otras palabras clave de nuestro texto deben incluir a aparecer en los resultados de búsqueda.

2) El uso de la visualización de redes texto vamos a identificar los vacíos - o las zonas vacías entre los grupos de palabras clave que tienden a co-ocurrir en los fragmentos de texto. Estas brechas nos mostrarán lo que falta en los resultados de búsqueda, por lo que podemos incluir aquellas partes que faltan en nuestro texto y asegúrese de que aparece en la parte superior de los resultados de búsqueda de Google.

Vamos a utilizar InfraNodus herramienta de visualización de la red de texto para visualizar fragmentos de texto de diferentes resultados de búsqueda. Este instrumento nos mostrará un gráfico de las palabras que tienden a co-ocurrir junto a la otra en los mismos fragmentos (de las 5 primeras páginas de resultados). También nos mostrará las palabras clave más relevantes que se utilizan con la consulta de búsqueda que estamos estudiando.

Uso de la función "Importar" de InfraNodus creamos una red de visualización de texto de los siguientes términos de búsqueda:

“search engine optimization seo”



Los propios términos de búsqueda son excluidos de la gráfica, por lo que podemos ver el contexto real en que aparecen en los resultados de búsqueda.

Hay tres grupos prominentes en este gráfico, lo que significa que esas palabras tienden a co-ocurrir más a menudo juntos:

1.  "mejorar", "visibilidad", "sitio", "ranking"



2. "optimizar", "google", "rango"



3. "servicio", "marketing", "agencia"



Esto demuestra que los resultados de búsqueda de Google, básicamente, tienen 3 temas principales: mejorar la visibilidad de un sitio web, optimización de rango de página web de Google, así como las proposiciones de / para agencias de marketing.

Lo que significa que si vamos a encajar muy bien en esa constelación con nuestro artículo, tenemos que hacer dos cosas.

En primer lugar, tenemos que incluir todos esos términos en este artículo (en especial en los, y otras etiquetas). Lo hicimos un poco de forma automática, ya que hemos estado escribiendo acerca de esas palabras anteriores.

En segundo lugar, el gráfico muestra lo que los usuarios realmente encontrar. Necesitamos proponerlos algo original, algo que no encuentran todavía. Esto se puede hacer, cerrando las brechas en el gráfico entre los grupos de términos de búsqueda que hemos identificado.

Usted puede jugar con el gráfico por sí mismo utilizando la interfaz de abajo. Haga clic en el icono gráfico superior esquina derecha para eliminar fragmentos de texto, haga clic en los nodos en el gráfico para ver qué resultados de búsqueda que aparecen y cómo se relacionan los unos a los otros.

.











Paso 3: Mejorar la visibilidad y Google Ranking de Tus Páginas Web - Escribir algo original

Es importante notar aquí que Google tiene en cuenta el número de páginas externas enlace a su página y esto afectará el ranking. Sin embargo, las palabras clave, especialmente para los sitios web que ya tienen un alto rango, son muy importantes.

Ahora vamos a demostrar cómo se puede mejorar la visibilidad y la clasificación de esta página

1) cerrando las brechas entre los distintos grupos de palabras clave que aparecen en el gráfico y también
2) proponer algo nuevo (que nuestros competidores en los resultados de búsqueda no escriben sobre).

El primer punto es un tanto completa ya porque este artículo contiene todas las posibles agrupaciones de palabras (contextos) que aparecen en los resultados de búsqueda ya. No vamos a correr el riesgo de repetir una vez más para evitar pena de Google para enviar spam.

En cambio, puede ser interesante mencionar unas cuantas veces más algunos términos que los usuarios están buscando, junto con "seo" y "optimización del Search Engine", pero que no aparecen realmente en los resultados de búsqueda. Estos se mencionarán más adelante.

El segundo punto se cumple también por el hecho de que estamos escribiendo sobre un nuevo tema de visualización de la red de texto de los resultados de búsqueda de Google, que usted no encontrará en ningún otro lugar.

Es importante tener esto en cuenta al crear textos SEO optimizado: cerrando las brechas entre diferentes temas y traer otros nuevos aumentará sus rankings en los motores de búsqueda.

Paso 4: InfraNodus como herramienta SEO - Software para la visualización de la red del texto

Hemos demostrado anteriormente cómo InfraNodus herramienta de visualización de la red de texto se puede utilizar para obtener resultados de búsqueda de Google.

Crea una cuenta (obtener un código de invitación de nosotros), haga clic en "Importar", selecciona "Google Search", escriba su consulta de búsqueda, seleccione el nombre del contexto (la categoría / lista en donde se guardan los resultados), elija el número de los resultados de búsqueda de fragmentos que quieres ver en el gráfico (preferimos 50), haga clic en "Guardar" y visualizar el gráfico.



También puede utilizar el análisis de redes de texto para sus textos, de modo que usted puede ver su pertinencia con respecto a las consultas de búsqueda y resultados de búsqueda en su tema. Para ello, basta con copiar y pegar el texto en InfraNodus (o utilizar la función de importación) y se visualiza como una red:



Si excluimos a los términos como "buscar", "seo", "optimización" que tienen que estar en este texto, vemos que las palabras clave, como "número", "google" y "palabra clave" son los más destacados. Tal vez los dos últimos son bien, pero el primero de ellos, "número", no era prominente en las consultas de búsqueda y en la búsqueda ... err ... respuestas. Así que tendría sentido que pasar por este artículo y eliminar esa palabra clave, así que no es tan prominente.



Paso 5: Salir del filtro burbuja - Mejorar el Discurso Online

Hemos demostrado anteriormente cómo el análisis de redes de texto se puede utilizar para optimizar páginas web para la búsqueda. El enfoque no es nuevo, sin embargo esperamos que las herramientas y técnicas que propusimos serán de utilidad para todos aquellos interesados ​​en SEO y visualización de datos.

Una cosa interesante a añadir es que la mayoría de las páginas en la web son en realidad crean con motores de búsqueda en mente, lo que significa que más a menudo vemos lo que ya esperábamos encontrar. Por lo tanto, si usted está interesado en dar a sus usuarios un poco de un valor añadido y ayudarles a salir de la búsqueda de la burbuja filtro motor tratar de identificar los temas que serían novela al discurso disponibles en línea ya existente. Gráficos de redes de texto pueden ser muy útiles para que y que ofrecen una metáfora visual ordenada para la interacción digital.

domingo, 22 de marzo de 2015

Redes de viñetas para análisis de información




Mejora de la memoria: desde listas de viñetas a grafos de red
Consideremos un ejemplo sencillo: queremos hacer un seguimiento de los fondos de riesgo y la puesta en marcha aceleradores de semillas. ¿Cómo organizar esta información de una manera que siempre podemos recuperarlo y compartirlo con los demás?
El enfoque tradicional - ir a algún sitio, como TechCrunch, elegir los más interesantes, y hacer una lista de viñetas (guardarlo en Evernote después):

• Y Combinator
• Sequoia
• Founders Fund
• Andreessen Horowitz
• Google Ventures,
• Founders Fund
• Index Ventures
• TechStars
• AngelPad
• Primera Ronda de Capital
• Betaworks
• Atlas Ventures,

Esta es una buena lista, pero carece de contexto. Algo que carece de contexto carece de significado.
Por lo general, este problema se resuelve mediante la adición de las categorías, pero esto es una cosa muy difícil de hacer con la mayoría de las cosas hoy en día, especialmente con fondos, que funcionan a través de la diversificación (así, de hecho, un buen fondo debería ser inclasificable).

Otro enfoque - hacer un grafo de la red.


La sola observación de esta imagen ya nos da una buena idea de quién es quién en la industria y hace que sea mucho más fácil de recordar los principales jugadores. Tiene mucho que ver con los efectos de memoria, como cebado (es más fácil de recordar las cosas cuando están relacionados) y el reconocimiento de patrones incrustado en la percepción humana.
El grafo fue recuperado utilizando InfraNodus: encuentra las entidades que la gente busca juntos y los visualiza en el gráfico. Algunas conexiones se han añadido manualmente si los fondos de co-invertidos en la misma empresa.
Los nodos en el gráfico fueron alineados utilizando iterativo algoritmo de fuerza Atlas: los nodos más conectados son empujados el uno del otro, mientras que los nodos conectados a ellos se tiran más cerca. Cuantas más conexiones de los nodos tienen, cuanto más grandes son en el gráfico.
El grafo resultante muestra los fondos, y ofrece dos beneficios adicionales: contexto e importancia relevante de cada elemento.
El contexto se produce a través de las conexiones entre los nodos: podemos ver fácilmente que los fondos con mayor frecuencia se buscó (y mencionó) juntos, así que esto indicará algo acerca de su posición relevante en el mundo del capitalismo de riesgo.
La importancia relevante se produce a través del número de conexiones que cada fondo (nodo) tiene en la red. Cuantas más conexiones, más grande que es. Cuanto más el nodo está conectado a los nodos más conectados en la red, el más central que va a ser.
Por lo tanto, vemos que todos los fondos más conocidos, como Sequoia, Andreessen Horowitz, Google Ventures tienen una alta relevancia y tienen una ubicación céntrica, por lo que tipo de conformar el núcleo del mercado de capital de riesgo.
Entonces tenemos un montón de fondos que aún están en el centro, pero un poco en el lado, como Y Combinator, TechStars, AngelPad y Seedcamp. Quienes tienen una preferencia por las inversiones de semillas y son diferentes de los grandes como Sequoia. Sin embargo, Y Combinator, por ejemplo, a veces también hace inversiones más grandes, por lo que es más cerca del pelotón principal.
Por último, hay algunos fondos en la periferia, como Atomic, Atlas Ventures, Betaworks, Horizon Ventures, así como Yuuwa capitales y Sparkbox ventures. Esos fondos son menos conocidos pero pueden ser interesantes, ya sea debido a su posición geográfica única o una cartera más especializada.
Como podemos ver, una imagen vale sobre 480 palabras (hasta ahora), que ya es un buen resultado.
Una imagen interactiva puede ser aún más interesante. Haga clic en los nodos en el gráfico a continuación para ver cómo los fondos están relacionadas específicamente y que las empresas que financian. Haga clic en la esquina superior derecha para mostrar / ocultar el texto.
.



jueves, 18 de octubre de 2012

Que noticias viajan vía Twitter


BBC vs. Wired: Whose news travels on Twitter?



U. ARIZONA (US) —News from BBC, Mashable, and the New York Times has the maximum reach on Twitter, according to an analysis of a dozen news organizations.


Researchers tracked what happened to a news article after it was tweeted by a news organization. They rendered the data they collected from each organization visually as images showing how the news is diffused. The network visualizations appear something like fireworks, with dots representing individual twitter users and cascade streams from those dots depicting retweets. (Credit: University of Arizona)


Sudha Ram, a professor of management at the University of Arizona, used network analysis to gauge how news agencies use Twitter to share news and how that news spreads via retweets.
Ram, who recently presented her findings at the International Workshop on Business Applications of Social Network Analysis in Istanbul, examined, over a six-month period, the Twitter activity of 12 major news organizations focused on US news, global news, technology news, or financial news.

The Twitter activity network for the New York Times shows a high number of users participating in long chains of tweeeting and retweeting. (Credit: University of Arizona)

The Twitter activity network for Reuters shows a high number of users posting direct retweets of news agencies’ tweets. (Credit: University of Arizona)
All of the agencies selected—the New York Times, Washington Post, BBC, NPR, Reuters, Guardian, Forbes, Financial Times, Mashable, Arstechnica, Wired, and Bloomberg—regularly share news articles on Twitter.
Ram and doctoral student Devi Bhattachary tracked what happened to a news article after it was tweeted by a news organization. Together, they looked at how many people retweeted, or reposted, the article on their own Twitter feeds, then how many times it was subsequently retweeted from those accounts and so forth.
They were then able to evaluate the volume and extend of spread of an article on Twitter, as well as its overall lifespan.
“The goal for a news agency is to have a lot of people reading and following your articles,” says Ram, who is also a professor of computer science. “What we’ve done is use network analysis, which is quite different from just looking at the total number of tweets or total number of retweets. You’re starting to see, over time, how information is spreading.”
Ram and Bhattacharya rendered the data they collected from each organization visually as images showing how the news is diffused. The network visualizations appear something like fireworks, with dots representing individual twitter users and cascade streams from those dots depicting retweets.
The images reveal different diffusion patterns for the different agencies, which can provide clues to those organizations about how their news is spreading and what they might want to focus on to be successful, Ram says.
“This gives them good feedback, and it’s kind of a performance report for them,” Bhattacharya adds. “It gives them an idea about the reading habits of people online and how they like to consume news.”

Of the organizations analyzed, BBC had the maximum reach in terms of affected users and retweet levels. BBC articles also had the highest chance of survival on Twitter, with 0.1 percent of articles surviving, through continual retweets, for three or more days.
The BBC’s high numbers were likely due in large part to the fact that the main “bbcnews” Twitter account also is supported by two other agency accounts—”bbcbreaking” and “bbcworld”—Ram notes.
The New York Times and Mashable had the second highest reach. Articles from Forbes, Wired, and Bloomberg had the shortest Twitter lifespans.
Overall, Ram says the data showed that articles on Twitter dissipate fairly quickly, with retweeting typically ending between 10 and 72 hours after an article is originally shared.
The Twitter study is a jumping off point for further research into how news is disseminated through various social media platforms, Ram adds. In December, Ram will present a follow-up paper at the Workshop on Information Technologies and Systems in Florida on the importance of Twitter-follower engagement for news organizations, as opposed to volume of followers.
“The term ‘social media’ refers to a lot of things. The first thing people think about is Facebook and then Twitter, but it’s so much more than that,” Ram explains. “It’s really all the various forums—the blogs, photo sharing sites, video sharing sites, microblogging, social bookmarking like Digg, Delicious and Reddit, and so on.”
Ram says she hopes to do more extensive research on news sharing and develop partnerships with news agencies to help them answer specific questions about their social media practices and performance.
“The idea is really to see if we can make some predictions,” Ram says. “What are some attributes of these networks that will help us make predictions? Is it number of followers? Is it engagement of followers?
“Is it what time you tweet? Is it who else is tweeting at the same time? Which are the more useful attributes that will help us predict, and therefore will help us give organizations suggestions on how to be more effective in spreading their news?
“Because ultimately their goal is more people reading their articles and talking about them.”