jueves, 15 de octubre de 2015

Herramientas de recolección de datos de Twitter (y otras)

El uso de Twitter como fuente de datos: Una visión general de las herramientas actuales de investigación de medios sociales

Wasim Ahmed - London School of Economics


La popularidad de los sitios de medios sociales y la facilidad con que sus datos está disponible significa que estas plataformas son cada vez más las fuentes primarias para la investigación social. Wasim Ahmed presenta un rápido vistazo a algunas de las herramientas disponibles para los científicos sociales para analizar los datos de los medios de comunicación social y también reflexiona sobre las limitaciones de las plataformas y los métodos utilizados para este tipo de investigación.

Tengo un blog de investigación de medios sociales donde encuentro y escribo acerca de las herramientas que se pueden utilizar para capturar y analizar los datos de las plataformas de medios sociales. Mi doctorado analiza datos de Twitter para la salud, como el brote de Ébola en África Occidental. Me preguntan por qué cada vez que estoy mirando Twitter, y qué herramientas y métodos que hay de capturar y analizar los datos de otras plataformas como Facebook, o plataformas aún menos tradicionales como Amazon reseñas de libros. Lluvia de ideas de un par de respuestas a esta pregunta hablando con miembros de la red de medios de Nueva Ciencias Sociales de Nueva Social, hay por lo menos seis razones:

  1. Twitter es una plataforma popular en términos de la atención mediática que recibe y por lo tanto atrae a más investigaciones debido a su estatus cultural
  2. Twitter hace que sea más fácil encontrar y seguir conversaciones (es decir, tanto por su función de búsqueda y los tweets que aparecen en los resultados de búsqueda de Google)
  3. Twitter tiene normas hashtag que lo hacen más fácil la recolección, clasificación, y la ampliación de la recogida de datos búsquedas
  4. Los datos de Twitter son fáciles de recuperar como los principales incidentes, noticias y eventos en Twitter se tienden a estar centrado en torno a un hashtag
  5. La API de Twitter es más abierta y accesible en comparación con otras plataformas de medios sociales, lo que hace Twitter más favorable a los desarrolladores la creación de herramientas para acceder a los datos. En consecuencia, esto aumenta la disponibilidad de herramientas para los investigadores.
  6. Muchos investigadores sí están utilizando Twitter y debido a sus experiencias personales favorables, se sienten más cómodos con la investigación de una plataforma familiar.

Es probable que una combinación de respuesta de 1 a 6 han dado lugar a más investigaciones en Twitter. Sin embargo, esto plantea otra cuestión distinta pero estrechamente relacionados: cuando la investigación se centra tan fuertemente en Twitter, lo que (si los hay) son las implicaciones de esto en nuestros métodos?



En cuanto a los métodos que se utilizan actualmente en el análisis es decir Twitter de datos, análisis de los sentimientos, el análisis de series de tiempo (el examen de los picos en los tweets), análisis de redes, etc., pueden éstos ser aplicados a otras plataformas o son diferentes herramientas, métodos y técnicas necesarias? Además de los métodos cualitativos, como el análisis de contenido, he utilizado los cuatro métodos siguientes en el análisis de datos de Twitter a los efectos de mi doctorado, a continuación considero si éstos trabajarían para otras plataformas de medios sociales:

  1. El análisis de sentimientos funciona bien con datos de Twitter, como tweets que son consistentes en longitud (es decir, <= 140) haría bien con el trabajo de análisis sentimiento, por ejemplo, los datos de Facebook, donde los mensajes pueden ser más largos?
  2. Los análisis de series de tiempo se utilizan normalmente cuando se examinan los tweets tiempo extra para ver si se puede producir un pico de tweets, que el examen de las marcas de tiempo en los mensajes de Facebook, o mensajes Instagram, por ejemplo, produce los mismos resultados? ¿O es solamente un método viable debido a la naturaleza en tiempo real de los datos de Twitter?
  3. El análisis de redes se utiliza para visualizar las conexiones entre las personas y para comprender mejor la estructura de la conversación. Que este trabajo tan bien en otras plataformas mediante el cual los usuarios no pueden conectarse entre sí, es decir, las páginas públicas de Facebook?
  4. Los métodos de aprendizaje de máquina (machine learning) puede trabajar bien con los datos de Twitter debido a la longitud de tweets (es decir, <= 140) sino que éstos trabajan para mensajes más largos y para las plataformas que no son de texto, es decir basada, Instagram?

Bien puede ser que al menos algunos de estos métodos se pueden aplicar a otras plataformas, sin embargo, pueden no ser los mejores métodos, y pueden requerir la formulación de nuevos métodos, técnicas y herramientas.

Así que, ¿cuáles son algunas de las herramientas disponibles para los científicos sociales para los datos de medios sociales? En la tabla de abajo proporciono una visión general de algunas de las herramientas que he estado usando (que no requieren conocimientos de programación y pueden ser utilizados por los científicos sociales):



* Es recomendable comprobar si una herramienta puede apoyar a otras plataformas como puede ser posible importar datos obtenidos en otros lugares.
** Gané un premio de datos históricos de DiscoverText con hasta 3 meses de acceso gratis, y también he recibido 3 días el valor de los datos Firehose través de tamiz, y esto me ha permitido realizar investigaciones que de otro modo no hubiera sido posible, como la comparación de Twitter API de búsqueda a la API de Firehose. DiscoverText se utiliza ampliamente en la investigación académica, con más de 40 menciones académica y contiene características como la capacidad de filtración de datos y aprendizaje automático avanzados.

También me gustaría mencionar:

  • Gran lista de comisariado de Deen Freelon de herramientas de medios sociales aquí en: http://bit.ly/10NjJYK
  • La iniciativa digital de métodos (herramientas DMI) aquí en: https://wiki.digitalmethods.net/Dmi/ToolDatabase
  • Mi Blog investigación (Wasim Ahmed, un blog sobre mi investigación) aquí en: https://wasimahmed1.wordpress.com/

Mediante la búsqueda de software correspondiente (tal como se documenta en la tabla), me he dado cuenta de que hay muy pocas herramientas que se pueden utilizar para obtener datos de otras plataformas de medios sociales tales como, Pinterest, Goolge +, Tumblr, Instagram, Flickr, Parra, LinkedIn , y Amazon, entre otros. En este sentido, me gustaría ver más programas para los de las ciencias sociales para obtener datos para una amplia gama de plataformas y que incluye una serie de datos, es decir, enlaces web, imágenes y vídeo. En el Masters y el nivel de doctorado debe haber más énfasis en la formación de los estudiantes de ciencias sociales en la utilización eficaz de software existente que se puede utilizar para capturar datos de analizar los datos de las plataformas de medios sociales.

martes, 13 de octubre de 2015

Un ráfaga de discusión política

#VotoUtil vs #VotaComoQuieras


Una breve discusión en Twitter sobre como votar en Octubre en Argentina en las elecciones presidenciales.

A menos de dos semanas de las elecciones presidenciales, Juan José Campanella publicó un mensaje en su cuenta de Twitter una serie de tweets sobre el inminente deber cívico que están por vivir los argentinos y abrió la polémica.

"Sólo hay dos melodías. Kirchnerismo y Cambiemos. Todo lo demás es ruido", escribió en los primeros minutos del martes, refiriéndose a los dos candidatos que encabezan todas las encuestas: Daniel Scioli, del Frente para la Victoria, y Mauricio Macri, del PRO. Con su análisis, instó a no votar por Sergio Massa, Margarita Stolbizer, Nicolás del Caño y Alberto Rodríguez Saá, por considerar que no tendrían chances de llegar a un balotaje.

Esta es la red a las 16:00 horas hoy...



Red dirigida de 45 nodos, 177 enlaces, 1 componente conectado, diámetro de 4 y densidad de 0.073.

Top Hashtags en la red completa de Twitter 
votacomoquieras
cambiemos
macripresidente
stolbizer
votoutil
votàcomoquieras
democracia

Mas mencionados en la red completa del Twitter
juancampanella
rialjorge
joseinasot
argptyt
rbattagion
teleshowcom
juan
aniron76
agusquesada
sergiomassa


Big Data en medios sociales

El impacto de Big Data en los medios sociales

Por Kerry Butters - {201: digital}

Diagrama de lo que podría ser los grandes datos y medios de comunicación social

En estos días, todo lo que hacemos - de hacer una compra, a la visualización de determinados productos - pueden ser rastreados en línea. Los medios sociales son un factor importante en esto. Los sitios populares como Facebook, Instagram, Foursquare, Twitter y Pinterest millones récord de tweets, gustos, y chatear corrientes sobre una base diaria.
El resultado es cantidades masivas de datos que podrían, potencialmente, dar a las organizaciones una mirada detallada en las mentes de sus consumidores. El truco es hacer que de alguna manera el sentido de todo lo que los datos y encontrar la manera de poner este conocimiento para su uso.

El desafío social

Muchos de los datos que las organizaciones ya han se estructura, lo que significa que en realidad puede hacer uso de ella de inmediato. Cosas como datos recogidos de las tarjetas de recompensas, los datos transaccionales, y los consumidores de información personal proporcionan cuando crearon una cuenta en sitios de compras.
Por el contrario, los datos arrojados por los datos de los medios sociales es estructurado. Actividades como el "gusto" una página en Facebook, viendo anuncios en YouTube, descargar aplicaciones gratuitas o el chat en línea con los representantes de servicio al cliente generan enormes extensiones digitales de información.
Archivado en bases de datos masivas, sólo una pequeña fracción de esta conversación social puede ser ni remotamente relevante para la marca de una empresa. Para cortar a través de la charla, las empresas necesitan para filtrar los datos correctos, es decir, la información procesable que impulsa acciones de los consumidores.

El imperativo del Big Data

Las ofertas de la industria Big Data en conjuntos de datos que se puede llegar a muchos cientos de petabytes. Aplicaciones a gran escala al instante traducen conjuntos de datos masivos en información que pueden ser leídos e interpretados por los seres humanos. Este conocimiento puede entonces actuar en consecuencia.
Aplicaciones Big Data Numerosos han sido creados específicamente para dar sentido a los datos de medios sociales. Los vendedores pueden utilizar estas herramientas para determinar el impacto de cada tweet, etiqueta, pin, check-in, y al igual que en su marca.
Sitios web de medios sociales utilizan los datos que almacenan de personalizar fuentes de noticias para que los usuarios están contenidos que realmente quieren ver servidos. Big Data puede ayudar a llevar esto un paso más allá mediante el análisis de las enormes cantidades de datos que fluyen desde las redes sociales y que sugieren cómo pueden enlazar a todo el contacto con puntos de los consumidores tienen con una marca en particular.

Golpeando los puntos de toque

Con acceso a Internet prácticamente ilimitado a la información, ahora más que nunca, el poder recae en el consumidor.
El uso de grandes volúmenes de datos, los consumidores se pueden dirigir con mayor eficacia. Automatización de marketing y gestión de relaciones con clientes (CRM) permiten que los datos generados por los medios de comunicación social que han de adoptarse, analizó rápidamente, luego utiliza para mejores clientes objetivo que puedan convertir.
Las empresas pueden (por ejemplo) de hecho el seguimiento de un cliente y analizar su comportamiento mientras se cambia de gusto una marca en Facebook a ver un anuncio de televisión para esa marca, a la utilización de una aplicación creada por la marca, a la lectura de noticias al respecto en su tableta, a levantar el teléfono para llamar a una línea de servicio al cliente.

Ajustando los datos

El cambio de poder del consumidor significa que los compradores ya no dependen de los representantes de ventas como los guardianes de la información acerca de una marca. En cambio, los compradores hacen su propia investigación en línea y sacar sus propias conclusiones. Los compradores ven claramente la Internet y los medios sociales como fuentes votos e imparciales, y la dependencia de ellos es probable que aumente.
En una determinada transacción, los compradores van a hacer su propia investigación y sentarse a la mesa sabiendo mucho acerca de una empresa, sus ofrendas, y todas las alternativas para su solución. Para mantenerse al día, de marketing y ventas representantes deben conocer la misma información - y también cómo los compradores reaccionan a la información que encuentran.
Análisis de Big Data puede ayudar a entender lo que los compradores piensan y sienten acerca de los productos y servicios de una empresa. Armado con este conocimiento, el representante de ventas puede mostrar empatía con el consumidor y adoptar el papel de asesor valioso - una poderosa posición que gana la confianza del comprador.
Es un cambio en los roles tradicionales que requieren un ajuste correspondiente en otras áreas también.

Cambios culturales

Las empresas tendrán que contratar y capacitar a las personas que pueden dar sentido a los datos de medios sociales. Comercialización de equipos de investigación necesitará una persona fuerte base de datos para poner los datos en formas que pueden ser analizados. Los estadísticos que pueden entender los datos y su impacto deben estar en la mezcla, al igual que las personas hábiles en la comprensión de los datos de comportamiento.
Para completar el cuadro, las empresas tendrán que contratar a personas que saben cómo etiquetar datos y estructura a la misma, por lo que los estadísticos y expertos en bases de datos pueden convertirlo en informes que se pueden traducir en estrategias viables.

Prácticas de trabajo

La interacción de Big Data y medios de comunicación social se caracteriza por:

  • La contratación de las personas adecuadas: En casa de los ingenieros de bases de datos, informáticos y estadísticos, o el uso de soluciones Big Data que ofrece la creación de empresas y grandes corporaciones.
  • Siguiendo las palabras clave: Mirada hacia fuera para las palabras específicas, y el análisis de cuándo y dónde se utilizan. Esto puede ayudar en la identificación de riesgo a los clientes y satisfacer sus necesidades antes de comprar en otro lugar.
  • Medición de compromiso de la marca: Aprender a tener un diálogo con los clientes.
  • La correlación de los hechos: factores como el tráfico del sitio web, las compras de productos, publicidad gasto y consultas de los clientes Teniendo en cuenta, para realizar un seguimiento de la eficacia de las campañas - y para hacer ajustes informadas.
  • Anticipando el futuro: Análisis de datos sobre el comportamiento de los clientes para medir cómo los nuevos productos que le irá en el mercado. Y reaccionar en tiempo real a las necesidades cambiantes de los clientes.



Leer más: http://www.201digital.co.uk/impact-big-data-social-media/#ixzz3o5CKg4Ge

domingo, 11 de octubre de 2015

Redes de crowfunding científico

Análisis de redes del crowdfunding científico

Por Samuel Arbesman - Wired



Los lectores recordarán cuando anuncié el plan de Ethan Perlstein de hacer crowdfunding para su investigación científica. Pues bien, desde entonces, Ethan ha estado combinando dos de mis intereses: formas alternativas de financiación ciencia y la ciencia de la red. En su intento de lograr su meta de recaudar $ 25.000, Ethan ha estado tratando de entender qué condiciones y conexiones producen la mayor cantidad de dinero. Y el análisis de redes es uno de los componentes de este.

Algunos de sus análisis han estudiado las propiedades estadísticas de las donaciones hasta el momento, lo que confirma que las donaciones no llegan a una velocidad constante (a menudo hay una explosión en el comienzo y el final, con un poco de estancamiento en el centro). Además, Ethan me escribió recientemente un análisis sobre la base de sus amigos de Facebook, y que donó y que no lo hicieron:



El amarillo indica un donante, mientras que el azul significa un no donante, y el tamaño nodo corresponde al grado-el número de conexiones a otros en los datos de la red. Como se puede ver, es un poco desordenado. No hay grupos de donación por lo que es difícil determinar el patrón de influencia, en su caso. Sin embargo, es gratificante observar que existe un alto nivel general de la donación (alrededor del 10%).

Cuando se trata de la donación cantidad, que no parece ser mucho en la forma de una relación entre la donación y el grado de red, aunque sí parece que sólo los que tienen muchas conexiones donan grandes cantidades (por supuesto, muchas otras grandes donaciones provienen de los que están fuera de la red de Facebook):



Sea o no hay resultados claros en todos estos análisis, necesitamos más de esto. Aquellos que están tratando de crowdfund proyectos debe seguir siendo abierto acerca de cómo funciona este proceso y cómo no lo hace. Este es un gran primer paso para tratar de entender mejor cómo financiar la investigación científica en una forma de base amplia.

lunes, 5 de octubre de 2015

Cómo funciona el nuevo algoritmo de noticias en Facebook


Su audiencia manda - Cómo el algoritmo de noticias de Facebook realmente funciona

Andrew Hutchinson - Social Media Today



Hace poco asistí a una sesión de educación sobre el algoritmo de alimentación de noticias (News Feed) de Facebook, a cargo de un profesor de medios de comunicación social de la relativamente alta posición en el campo. La sesión sonaba muy bien - una idea de cómo funciona realmente el algoritmo de alimentación de noticias de Facebook, los "cómos" y "porqués" de lo que aparece en su Servicio de Noticias y qué marcas pueden aprender y poner en práctica con el fin de aumentar su alcance orgánico. Todo genial, todo interesante. Excepto, la información presentada estaba en gran medida equivocada.

Esta persona, que habla y presenta a un gran número de personas en los medios de comunicación las mejores prácticas sociales, se refirió a las estrategias que eran o fuera de fecha, mal informados o simplemente incorrecta, sin embargo les declaró como hechos totales. Y como otros asistentes entrecerró los ojos y asintió con la cabeza a lo largo, me sentí como de pie y decir "no, eso no está bien". Pero entonces eso sería suponer que tenía razón, y dado el secretismo en torno a las características específicas del algoritmo News Feed de Facebook y cómo funciona, tal vez yo estaba realmente mal. Tal vez lo que se presenta aquí fue la información correcta.

Con el fin de llegar al fondo del mismo, y aclarar para todos aquellos que buscan maximizar el rendimiento de su contenido de Facebook, hice algunas investigaciones en lo que se conoce acerca de News Feed algoritmo de Facebook y cómo se selecciona el contenido que se muestra a cada usuario. Y aunque no podemos saber cada factor específico que desempeña un papel en cómo el contenido se distribuye en la plataforma, hay un buen número de principios bien establecidos que indican claramente el camino para un mejor rendimiento.

Buscando Atención

En primer lugar, un poco de historia.

Cuando Facebook lanzó News Feed en 2006 fue un sistema de alimentación cronológico hecho y derecho de toda la actividad de sus conexiones.



¿Recuerda eso? Se ven los enlaces azules básicos, los comentarios en verde. El botón 'Me gusta' se introdujo un año más tarde, dando a Facebook su primera idea de lo que los usuarios estaban realmente interesados. A medida que Facebook se hizo más popular, y más gente comenzó a usar el servicio, el News Feed, lógicamente, empezó a ser más desordenado, por lo que Facebook comenzado a usar Likes - junto con otras medidas, como las acciones, los comentarios y los clics - como medida indicativa para mostrar a los usuarios el contenido probable que sean de mayor interés para ellos. Esto funcionó por un tiempo, pero había un par de problemas con este enfoque básico.

El primer problema fue que la gente hace clic en 'Me gusta' por diferentes razones - imágenes divertidas del gato estaban recibiendo un montón de gustos, y por lo tanto, las inundaciones de las noticias, mientras que el contenido más serio que la gente no estaba haciendo clic en 'Me gusta' en adelante, estaba siendo enterrado personas. Titulares estilo publicación para cebar el click se convirtieron en una táctica clave, ya que cosechaba un montón de Me Gusta y clics, empujándolos más alto en el News Feed - finalmente Facebook estaba en riesgo de perder su audiencia porque Feeds simplemente estaban siendo abarrotado de basura y no había manera, bajo ese sistema, por Facebook para filtrar y descubrir mejor, más información relevante para los usuarios. En 2013, Facebook reconoció que tenía un problema en este frente y trató de corregirlo con un nuevo algoritmo que descubrir "alto contenido de calidad ', la primera iteración del algoritmo de Noticias.

El segundo tema fue que Facebook se estaba convirtiendo en muy popular. Las personas fueron sumando más amigos y más dar Like a más páginas, lo que significa que era cada vez más competencia por la atención en el News Feed. Pero la gente sólo tiene tanto tiempo en el día para comprobar sus actualizaciones de Facebook - de acuerdo con Facebook, el usuario promedio de Facebook podría tener 1500 mensajes elegibles para aparecer en su News Feed en un día cualquiera, pero si la gente tiene más conexiones y le gusta, que número podría ser más como 15,000. Simplemente no es posible para los usuarios leer todos los envíos relevante sola, en función de su gráfica de conexión, cada día - El reto de Facebook con el algoritmo era crear un sistema que destapó el mejor contenido, más relevante para ofrecer a los usuarios la mejor experiencia posible con el fin para mantener a su público a volver.

"Si se pudiera valorar todo lo que pasó en la Tierra hoy en día que fue publicado en cualquier lugar por cualquiera de tus amigos, cualquiera de su familia, cualquier fuente de noticias, y luego recoger los 10 que fueron los más significativos para saber hoy, eso sería una muy cool servicio para que construyamos. Eso es realmente lo que aspiran a tener News Feed convertirse. "- Chris Cox, director de producto de Facebook (a la revista Time en julio de 2015)

Estos fueron los dos grandes retos que enfrentan Facebook en el desarrollo del algoritmo de Noticias. Y a pesar de las protestas de las marcas que fueron forzados a quedarse de brazos cruzados como su alcance orgánica disminuyó lentamente (y que son justamente molesto por Facebook para promover Likes como medio de llegar a la audiencia, a continuación, la reducción de su relevancia), los números muestran que el aprendizaje de la máquina de Facebook proceso de curación para el News Feed en realidad está trabajando. En su más reciente informe de ganancias, la red social informó que el compromiso era ahora hasta 46 minutos por día, en promedio, a través de Facebook, Instagram y Messenger, con cifras mensuales de usuarios activos que continúan aumentando.



Dentro de la máquina

Entonces, ¿cómo funciona el algoritmo de Facebook? Si bien la empresa es comprensible hermético sobre los detalles de los cálculos de noticias feeds - en gran parte porque está continuamente en evolución - los fundamentos han sido comunicadas por Facebook varias veces a lo largo de los años.

Ya en 2013, cuando Facebook presentó la primera versión del algoritmo News Feed, anotaron cuatro puntos clave de enfoque para las personas que crean contenido en la plataforma:

  • Realiza tus mensajes oportunos y pertinentes
  • Construir credibilidad y confianza con su público
  • Pregúntese: "¿La gente compartir esto con sus amigos o lo recomendaría a otros?"
  • Piense, "¿Sería mi público quiere ver esto en su Servidor de noticias?"

Esos principios básicos siguen siendo los fundamentos del News Feed - en una entrevista de 2014 con TechCrunch, Facebook News Feed Director de Gestión de Producto Will Cathcart esbozó una lista similar para los "determinantes más poderosos de si un mensaje se muestra en la alimentación ':

  • ¿Qué tan popular (Me gustó, ha comentado, compartida, hace clic) son los mensajes más allá del puesto de creador con todo el mundo?
  • ¿Cómo popular es este post con todo el mundo que ya lo ha visto?
  • ¿Qué tan popular ha sido el post más allá del puesto de creador estado con el espectador?
  • ¿El tipo de post (actualización de estado, foto, video, link) coincide con lo que los tipos han sido populares con el espectador en el pasado
  • ¿Cómo tan recientemente ha sido publicado el post?

Esto condujo a la creación de consejos de esta ecuación, que es una descripción básica de cómo News Feed prioriza contenido:


(Imagen a través de TechCrunch)

Por supuesto, como se ha señalado, hay muchos más factores que éstas en el juego, pero en su forma más básica, esta es la lógica detrás de cómo Facebook muestra contenido a cada usuario. Pero el sistema está siempre siendo refinado.

Esas mejoras son sufragados por necesidad - más personas usando Facebook significa más contenido y más variables a tener en cuenta para garantizar la mejor experiencia de usuario posible para cada individuo. Para tener una idea de lo complejo que es la ecuación, echar un vistazo a la documentación detrás sistema de indexación grafo social de Facebook 'Unicorn'. Mientras Unicorn fue construido para alimentar grafos de motores de búsqueda de Facebook, la forma en que el sistema funciona más destacado cuántos factores pueden entrar en juego cuando se trata de descubrir el contenido más relevante para cada usuario - sobre todo si tenemos en cuenta que la relación gráfica típica de usuario de Facebook parece esta:



En la documentación del Unicorn, Facebook se refiere a los muchos "nodos", que significa gente y las cosas, y 'bordes', lo que representa una relación entre dos nodos.

"Aunque hay muchos miles de millones de nodos en el gráfico social, es muy escasa: un nodo típico tendrá menos de mil bordes de conectarlo a otros nodos. El usuario promedio tiene alrededor de 130 amigos. Las páginas más populares y las aplicaciones tienen decenas de millones de bordes, pero estas páginas representan una pequeña fracción del número total de entidades en la gráfica ".

Incluso sin una plena comprensión de las complejidades técnicas de dichas interconexiones, todavía se puede imaginar lo complejo algoritmo de Facebook tiene que ser para servir el contenido más relevante, y el número de posibles variantes tienen que ser tomadas en cuenta.

Es por esto que es casi imposible de explicar el alcance total de cómo funciona el algoritmo, y por qué Facebook en gran medida evita hacerlo. También les permite hacer cambios sin tener que preocuparse acerca de lo que han dicho anteriormente - si Facebook fuera a decir 'así es como funciona el sistema "y luego hacer un cambio que altera eso, las marcas que habían estructurado su estrategia de Facebook en torno a esa regla sería desfavorecidos (que es más o menos lo que pasó con 'Me gusta' previamente). Como tal, los principios básicos mencionados anteriormente siguen siendo la fuerza motriz y los elementos clave de los vendedores lógicamente deberían centrarse en. Las nuevas complejidades y refinamientos están trabajando para apoyar a estos fundamentos.

Evolución Constante

En línea con esto, Facebook siempre está tratando de perfeccionar y actualizar el algoritmo News Feed para servir mejor a sus usuarios y ofrecer una experiencia cada vez más relevante en la plataforma. La revista Time informó recientemente sobre cómo Facebook utiliza dos dispositivos primarios para ayudar a refinar y mejorar el algoritmo News Feed - un equipo de alrededor de 20 ingenieros y datos científicos que evalúan y evaluar los resultados de las pruebas y actualizaciones para determinar la mejor evolución del sistema, y un grupo de unos 700 revisores, llamado 'Grupo de Calidad de alimentación' de Facebook, que entregan bienes, la retroalimentación humana en sus resultados Noticias de alimentación, que luego ayudan al equipo de datos de tomar decisiones más informadas.

"... [los miembros del Grupo de Calidad de alimentación] escriben explicaciones párrafo larga de por qué les gusta o no les gusta a determinados puestos, que a menudo son revisados ​​en las reuniones semanales de los News Feed ingenieros. Facebook también realiza periódicamente encuestas en línea de una sola vez sobre Noticias Alimente la satisfacción y aporta en promedio de los usuarios de la calle para una demostración de las nuevas características en sus laboratorios de usabilidad ".

A través de este proceso, la combinación de los comentarios de la gente real y la mejora de aprendizaje automático, Facebook está siempre en movimiento el algoritmo News Feed adelante y descubrir las mejores prácticas nuevo sistema - es por eso que vemos tantos cambios y cambios a las reglas del algoritmo. Factores más nuevos como 'el tiempo dedicado a la lectura' son traídos como Facebook aprende de comportamiento de los usuarios - contenido que la gente haga clic en 'Me gusta' de antes de leer, por ejemplo, no se da tan alto de una clasificación como contenido que le ha gustado después de leer, porque si usted ' he tomado el tiempo para leer algo y luego le gustó, eso es un juicio más considerada de calidad que una respuesta instintiva a un titular. Estas mejoras son lógicos y probado a fondo, y Facebook ha ido a los esfuerzos para subrayar que la forma en que el sistema se pondera está totalmente determinada por las acciones y preferencias de cada individuo de los usuarios. La manera el algoritmo de Facebook define 'alta calidad' en este sentido es totalmente guiado por el usuario - si te gusta memes gato, pero los mensajes de odio de The New York Times, se le muestra más de lo primero.

"... Hay una línea que no podemos cruzar, que está decidiendo que una pieza específica de información - ya sea de noticias, política, religiosa, etc. - es algo que deberíamos estar promoviendo. Es sólo una pendiente muy, muy resbaladiza que creo que tenemos que ser muy cuidadosos de no ir hacia abajo. "- Adam Mosseri, Director de Gestión de Proyectos para el News Feed

Debido a esto, le toca a cada marca individual y de negocios para crear contenido que atrae a su público específico, y abastece a las necesidades de ese público.

Vale la pena señalar también, en la consideración de Facebook y cómo llegar a los destapa de sistemas y aspectos más destacados de contenido para los usuarios, que los usuarios de las acciones toman después de la exposición a su contenido son mucho más importantes que los de verlo en el primer lugar.

Esto fue señalado por Facebook experto en marketing Jon Loomer, quien señaló que aunque su alcance Page ha disminuido, eso no es realmente relevante - lo que es relevante es si su sitio web clics también han disminuido como resultado.

"Vamos a suponer por un momento que llegue realmente hizo soltar. Si todo compromiso se mantuvo saludable - incluyendo sitios web clics y conversiones - ¿qué significa que la caída en el alcance? Significaría que Facebook estaba mostrando su contenido a las personas con mayor probabilidad de participar favorable - que es lo que nosotros, como vendedores y usuarios querríamos ".

Puede que sólo sea que, como consecuencia de Facebook mejorar su algoritmo, que su alcance Página inevitablemente caer, debido a que su contenido está siendo mostrado a una audiencia más específica y enfocada en base a sus comportamientos. Lo cual no es necesariamente una mala cosa.

En total, lo más importante centrarse en el fin de maximizar el alcance de Facebook es contenido de calidad, según lo definido por la respuesta del público. El mayor compromiso, más interacción, más utilidad que puede proporcionar para su público, más probable es que van a querer ver más información de usted, que van a indicar a través de sus acciones de Facebook, ya sea aquellos directos (gustos, acciones, comentarios) o indirectos (tiempo de visión pasado). En ese sentido, los fundamentos básicos de contenido de Facebook siguen siendo los mismos como lo hicieron el día que el algoritmo de Noticias RSS se introdujo de nuevo en 2013:


  • Realiza tus mensajes oportuna y pertinente
  • Construir credibilidad y confianza con su público
  • Pregúntese: "¿La gente compartir esto con sus amigos o lo recomendaría a otros?"
  • Piense, "¿Sería mi público quiere ver esto en su Servidor de noticias?"

lunes, 28 de septiembre de 2015

Algoritmo de influencia colectiva para destrucción de redes

La ciencia de red: Destrucción perfeccionada

István Kovács A. y Lászlo Barabási

Nature 524, 38-39 (06 de agosto 2015) doi: 10.1038/524038a
Publicado en Internet el 05 de agosto 2015


Señalando los nodos cuya eliminación más eficaz perturba una red se ha vuelto mucho más fácil con el desarrollo de un algoritmo eficiente. Las aplicaciones potenciales podrían incluir la ciberseguridad y el control de enfermedades. Ver Letter p.65


Una verdad perdurable de la ciencia de la red es que la eliminación de unos pocos nodos altamente conectados, o concentradores, puede romper una red compleja en muchos componentes (1) desconectado. A veces, una red fragmentada e inactivo es más deseable que un funcionamiento una. Consideremos, por ejemplo, la necesidad de eliminar las bacterias mediante la interrupción de su red molecular o mediante la vacunación de unos pocos individuos en una población para romper la red de contacto a través del cual se extiende un patógeno. En una búsqueda para encontrar las balas de plata que pueden desmantelar efectivamente las redes grandes, Morone y Makse (2) (página 65 de esta edición) han desarrollado un algoritmo que logra esto mediante la identificación de conjuntos de nodos de red conocidos como factores de influencia.

No está claro si la focalización y la eliminación de centros de la red - definido como los nodos con el mayor número de enlaces - puede infligir el máximo interrupción en una red. Puede ser más eficaz para eliminar una combinación de hubs y central, pero, bien comunicado menos, los nodos. La eliminación de los centros se prefiere generalmente porque son fáciles de localizar, mientras que identifica el conjunto óptimo de nodos en los que la eliminación causaría un daño máximo es un problema en tiempo polinomial no determinista (NP-hard) (3). Esto significa que es computacionalmente factible sólo para redes pequeñas. Morone y Makse atacan el problema de la interrupción de la red mediante la asignación de la integridad de una red aleatoria en forma de árbol en teoría de la percolación óptima (4,5). A partir de esto, se derivan una función de energía con un mínimo que se corresponde con el conjunto de nodos que deben ser eliminados, para producir una red cuyo grupo más grande es tan pequeño como sea posible. Aunque la identificación de este mínimo es todavía un problema NP-hard, los autores se inspiraron en la forma de la función de energía para encontrar un algoritmo simple que ofrece una solución aproximada.

Para ello, Morone y Makse introducen el concepto de influencia colectiva, que es el producto de grado del nodo reducida (el número de sus enlaces menos uno) y la suma de los reducidos grados de los nodos que son un cierto número de pasos de él (Fig. 1). Influencia colectiva describe cuántos otros nodos se puede llegar desde un nodo dado, en el supuesto de que los nodos de alta influencia colectiva tienen un papel crucial en la red. El algoritmo basado colectiva-influencia, entonces elimina secuencialmente nodos, empezando por los que tienen la mayor influencia colectiva (conocidos como factores de influencia) y volver a calcular la influencia colectiva del resto después de cada operación. Los autores muestran que, para grandes redes, retirar el conjunto de factores de influencia identificados por este algoritmo es más eficaz en la fragmentación de una red de eliminar los cubos, o que la eliminación de nodos que se identifican a través de otros algoritmos, tales como centralidad de PageRank (6) o cercanía (7). El conjunto de factores de influencia identificados por los autores contiene muchos nodos con pocas conexiones. Esto pone de relieve el hecho de que la importancia de un nodo para garantizar la integridad de la red está determinada no sólo por el número de enlaces directos que tiene para otros nodos, sino también por los que otros nodos que está conectado.

Figura 1: demolición de red óptima.

Demolición óptima de red.

Morone y Makse (2) introducen un algoritmo que les permite desmantelar de manera eficiente las redes. Los autores definen la influencia colectiva de un nodo de red como el producto de su grado reducido (el número de sus conexiones más cercanas, k, menos uno), y total reducido el grado de todos los nodos a una distancia d de la misma (que se define como el número de a unos pasos de ella). a, En esta red, para d = 2, el nodo rojo con k = 4 tiene la mayor influencia colectiva, porque total reducido el grado de los nodos en d = 2 de la misma (verde y círculos de color amarillo) es de 21. Esto produce una influencia colectiva de 3 × 21 = 63. El cubo más conectada, con k = 6 (círculo amarillo), tiene una influencia colectiva de 60. b, Quitar los 6 nodos con el mayor k (círculos blancos) causa un daño considerable a la red , pero deja una sub-red que contiene 12 nodos no perturbadas. c, Por el contrario, el algoritmo desarrollado por los autores les permite identificar un conjunto de nodos (conocido como influenciadores) en función de su influencia colectiva. El uso de este, la eliminación de cuatro nodos factor de influencia (círculos blancos) se traduce en una red fragmentada en que el clúster conectado más grande que permanece tiene sólo diez nodos. Esto ilustra la eficacia del algoritmo sobre los métodos convencionales para dar prioridad a la destrucción de la red.

El algoritmo de influencia colectiva es notable por su complejidad computacional, ya que sólo requiere cálculos N2logN para desmantelar una red que contiene un número N de nodos. Su complejidad se reduce a NlogN si, en lugar de nodos individuales, una fracción fija del total se elimina en cada paso de la computación. Los autores comparan su método a las predicciones de la teoría spin-glass, que fue desarrollado originalmente para describir las propiedades de los imanes desordenados y ha encontrado una amplia gama de aplicaciones en el análisis de redes. Concluyen que los nodos priorizados por el algoritmo colectiva-influencia representan una solución aproximada, que tiene un tamaño similar a la de la solución óptima teórica. Sobre la base de la teoría de spin-vidrio, podemos esperar que la solución colectiva influencia tiene sólo una pequeña superposición con la solución óptima, y ​​por lo tanto deben ser tratados con precaución. Sin embargo, los factores de influencia encontrados por influencia colectiva son más eficaces en la destrucción de una red de nodos seleccionados por otros métodos. Así que, aunque el método colectivo-influencia es aproximada, es más rápido y más eficiente.

Como con cualquier nuevo algoritmo, preguntas abiertas abundan. El algoritmo de influencia colectiva tiene un solo parámetro libre - la distancia, expresada en el número de pasos, desde cualquier nodo dado. En distancia cero, la influencia colectiva de un nodo es igual al cuadrado de su grado reducido, y por lo tanto en este caso el algoritmo simplemente elimina los cubos. Para mejorar la precisión del algoritmo, uno debe elegir una distancia distinta de cero - pero uno que no es demasiado grande, ya que para grandes distancias se alcanzan los límites de la red, disminuyendo influencia colectiva de un nodo (la influencia colectiva se aproxima a cero). Aunque Morone y Makse encuentran que cualquier distancia mayor que uno trabaja, un criterio firme para la elección de un valor óptimo es deficiente y que sería deseable. Por último, debido a que los autores diseñaron su algoritmo para trabajar en redes que son localmente más trabajo y pruebas cuantitativas son necesarias en su precisión esperada para redes con bucles, como árbol, tales como la mayoría de las redes sociales.

El algoritmo de influencia colectiva, al igual que los algoritmos similares, elimina un nodo junto con todos sus enlaces. Sin embargo, para muchos sistemas, la extirpación de ganglios es demasiado drástico una intervención. Toques más suaves, como la eliminación o recableado de enlaces específicos, son más manejables y deseables. Por ejemplo, estos enfoques son relevantes para las redes en las células biológicas, en el que muchas enfermedades son causadas por mutaciones que resultan en la supresión de enlaces en lugar de la eliminación completa de nodos (8). La comprensión de los efectos tales "referidos a enlaces", y el diseño de algoritmos que pueden detectar el número mínimo de enlaces eliminar a fin de lograr un resultado determinado, sigue siendo un reto para el trabajo futuro.

La identificación de factores de influencia óptimos, ya sea a nivel del nodo o de enlace, es el primer paso hacia la construcción de redes que podrían ser robusto frente a ambos ataques y fracasos. Dominar los principios de diseño de este tipo de redes super robustas podría tener profundas implicaciones para cualquier cosa, desde la seguridad cibernética para el diseño de una red de energía ataque- y tolerante a errores, y puede incluso nos permitirá desarrollar fármacos que puedan rescatar a una red celular de su estado de enfermedad con efectos secundarios mínimos.

Referencias

  1. Albert, R., Jeong, H. & Barabási, A.-L. Nature 406, 378–382 (2000).
  2. Morone, F. & Makse, H. A. Nature 524, 65–68 (2015).
  3. Garey, M. R. & Johnson, D. S. in Computers and Intractability: A Guide to the Theory of NP-completeness (Freeman, 1979).
  4. Hashimoto, K. Adv. Stud. Pure Math. 15, 211–280 (1989).
  5. Karrer, B., Newman, M. E. J. & Zdeborová, L. Phys. Rev. Lett. 113, 208702 (2014).
  6. Brin, S. & Page, L. Proc. 7th Int. World Wide Web Conf. 30, 107–117 (1998).
  7. Freeman, L. C. Soc. Networks 1, 215–239 (1978–79).
  8. Sahni, N. et al. Cell 161, 647–660 (2015).