viernes, 17 de enero de 2014

Cómo fluye la información en las crisis

Cómo fluye la información durante emergencias
La minería de los datos del teléfono móvil de 10 millones de personas mayores de 4 años revela los sutiles cambios que se producen en el flujo de información cuando ocurre un desastre , dicen los científicos de la red.




Los teléfonos móviles han cambiado la manera como los científicos estudian la humanidad. Los registros electrónicos de estas llamadas ofrecen una visión sin precedentes de la naturaleza de la conducta humana que revela los patrones de viajes, estrategias de reproducción humana e incluso la distribución de la riqueza en el África subsahariana.

Todo ello implica seres humanos que actúan en situaciones ordinarias que han experimentado muchas veces antes. ¿Pero de que manera los seres humanos se comportan en condiciones extraordinarias, como por ejemplo durante los terremotos, conflictos armados o incidentes terroristas?

Ahora Liang Gao en la Universidad Jiaotong de Beijing en China y algunos amigos dicen los registros de teléfonos móviles ofrecen el mismo tipo de lente para el estudio de cómo los seres humanos les fue en estas condiciones extremas . En particular , dicen estos registros muestran que los patrones de comunicación, y por lo tanto la forma en que fluye la información, el cambio de formas sutiles pero importantes en situaciones de emergencia .

Los datos que Liang y coautor del estudio consta de los metadatos asociados a las llamadas de voz y textos de 10 millones de personas de más de 4 años en un país europeo no identificado. Los metadatos incluye la persona que llama y el receptor , una marca de tiempo y la ubicación de la torre que enruta la llamada .

Luego utilizaron las noticias de Google para identificar las emergencias que se produjeron en esta región durante el período objeto de examen y buscaban las llamadas realizadas cerca de estos lugares en esa época. Los expertos estudiaron a tres eventos de emergencia que Liang y co refieren a “Jet Scare”, “Plane Crash” y “Bombing”.

En particular, estudiaron el comportamiento de las comunicaciones o de dos grupos de personas . La primera consiste en la gente lo suficientemente cerca de la situación de emergencia que estar directamente influenciados por él. El segundo es el grupo de personas llamadas por el primer grupo, presumiblemente compuesta en gran parte de los amigos cercanos y familiares .

Dado que la cuestión Liang y co quieren examinar es cómo el comportamiento de la comunicación de ambos grupos cambia durante la emergencia, sino que también estudian cómo las personas se comportan en circunstancias normales, como durante un concierto.

Cuando se produce una emergencia, hay un repunte inmediato en la actividad del primer grupo , como lo llaman o texto a sus amigos y familiares acerca de la situación. Al mismo tiempo, la actividad del segundo grupo también espigas.

Eso es algo de un enigma, ya que sería razonable esperar que este aumento de la actividad a seguir el primer pico después de un breve retraso. "Es un tanto desconcertante que el cambio de volumen de llamada de [el segundo grupo de usuarios] tiene un pico, que es instantánea y muestra casi de inmediato a la subida de [el primer grupo]", dice Liang y co, que no pueden llegar a una explicación.

Más interesante, sin embargo, es lo que sucede después. Es fácil imaginar que lo primero que el grupo de amigos y parientes hacer a continuación es contactar con otras personas para difundir la noticia de que un desastre ha golpeado.

Pero en cambio, la siguiente llamada que hacen tiende a ser directamente de vuelta a la persona involucrada en la situación de emergencia . Esto es completamente diferente al comportamiento normal en el que la probabilidad de devolver una llamada es significativamente menor . De hecho , una llamada realizada durante un concierto es menos probable de lo habitual para conseguir una llamada de vuelta .

Liang y co concluyen que la necesidad de una correspondencia con los testigos es más importante que la difusión de la conciencia de la situación en caso de emergencia ". En otras palabras, el deseo de querer saber más triunfa sobre la necesidad de transmitir lo que ya saben. Al menos en situaciones de emergencia .

Esa es una nueva arruga en nuestra comprensión de los patrones de comunicación. Liang y co dicen que tiene implicaciones para la forma en que la información se propaga durante eventos extraordinarios y puede influir en la forma en que las autoridades deben responder en caso de emergencia.

Ref : arxiv.org/abs/1401.1274 : Cuantificación del flujo de información durante emergencias

MIT Technology Review

miércoles, 15 de enero de 2014

Topología: La cola gorda nos hace ver peor que nuestros amigos

Cómo la paradoja de la amistad hace a sus amigos mejor de lo que usted está
La paradoja la amistad es la observación empírica de que sus amigos tienen más amigos que usted. Ahora los científicos de la red dicen que sus amigos son, probablemente, más ricos y más felices también.




Ya en 1991, el sociólogo de Scott Feld hizo un descubrimiento sorprendente, mientras estudiaba las propiedades de las redes sociales. Feld calculó el número medio de amigos que una persona en la red tiene y los comparó con el número medio de amigos que estos amigos tenían.

Contra todas las expectativas, resultó que el segundo número es siempre más grande que el primero. O en otras palabras, sus amigos tienen más amigos que usted.

Los investigadores ha observado la llamada paradoja de la amistad en una amplia variedad de situaciones. En Facebook, tus amigos tendrán más amigos de los que tu tienes. En Twitter, los seguidores tendrán más seguidores que los que tú tienes. Y en la vida real, sus parejas sexuales se han tenido más parejas que has tenido. Por lo menos, en promedio.

Los científicos de la red han sabido por mucho tiempo que este efecto paradójico es el resultado de la topología de las redes - de cómo están conectados entre sí. Es por eso que las redes similares comparten las mismas propiedades paradójicas.

¿Pero son tus amigos también más felices de lo que tu eres, o más rico o simplemente están mejor? Eso no es tan claro porque la felicidad y la riqueza no están directamente representados en la topología de una red de amistad. Así que una pregunta interesante es hasta dónde llegará la paradoja.

Hoy en día, se obtuvo una respuesta gracias a la obra de Young-Ho Eom en la Universidad de Toulouse en Francia y Hang-Hyun Jo en la Universidad de Aalto en Finlandia. Estos chicos han evaluado las propiedades de diferentes características en las redes y trabajado las condiciones matemáticas que determinan si la paradoja se aplica a ellos o no. Su respuesta corta es sí: ​​sus amigos, probablemente son más ricos de lo que son.

La paradoja surge porque el número de amigos de una persona han se distribuyen de una manera que sigue una ley de potencia en lugar de una relación lineal ordinaria. Así que la mayoría de la gente tiene unos pocos amigos mientras que un pequeño número de personas tienen un montón de amigos.

Es este segundo grupo pequeño que provoca la paradoja. Las personas con un montón de amigos es más probable que cuenten muchos amigos en el primer lugar. Y cuando lo hacen, elevan significativamente el número medio de amigos que sus amigos tienen. Esa es la razón por la que, en promedio, sus amigos tienen más amigos que tú.

Pero ¿qué hay de otras características, como la riqueza y la felicidad, que no están representados por la topología de la red?

Para el estudio de otros tipos de redes, Eorn y Jo miraron dos redes académicas en las que los científicos están vinculadas si han sido coautor de un artículo científico juntos. Cada científico es un nodo de la red y surgen los vínculos entre los científicos que han sido co-autores.

Efectivamente, la paradoja emerge en esta red también. Si usted es un científico, sus co-autores tendrán más co-autores que usted, como se refleja en la topología de red. Pero, curiosamente, también tendrán más publicaciones y más citas que usted también.

Eorn y Jo llaman la "paradoja de la amistad generalizada" y van a derivar las condiciones matemáticas del que forma parte. Dicen que cuando una paradoja surge como resultado de la forma en nodos están conectados entre sí, otras propiedades de estos nodos demuestran la misma naturaleza paradójica, siempre y cuando se correlacionan en cierta manera.

Como resultado, el número de publicaciones y citas cumple con este criterio. Y lo mismo sucede con la riqueza y la felicidad. Así que la respuesta es sí: ​​sus amigos, probablemente son más ricos y más felices que usted.

Esto tiene importantes implicaciones para la forma en que las personas perciben a sí mismos dado que sus amigos siempre parecen más felices, más ricos y más populares de lo que son. Y el problema es probable que sea peor en las redes en que esto sea más fácil de ver. "Esta podría ser la razón por la que los usuarios activos de servicios de redes sociales no están contentos", dicen Eorn y Jo, en referencia a otras investigaciones que han encontrado mayores niveles de descontento entre los usuarios de la red social.

Así que si usted es un usuario activo de Facebook y se siente incómodo e infeliz porque sus amigos parecen estar haciéndolo mejor que usted, recuerde que casi todos los demás en la red se encuentra en una posición similar.

Ref: arxiv.org/abs/1401.1458 : Generalized Friendship Paradox In Complex Networks

MIT Technology Review

martes, 14 de enero de 2014

ARS 101: Medidas de centralidad (financiera) nuevas

Tutorial 4 - Medidas de centralidad
Por SAMANTHA COOK


Para la próxima entrega de nuestra serie de tutoriales FNA, le mostraremos cómo calcular medidas de centralidad en el FNA. En tutoriales anteriores, junto con la documetación completa se puede encontrar en la página de introducción. En las redes financieras, medidas de centralidad se utilizan a menudo para estimar la importancia sistémica de los bancos u otras instituciones financieras. Como las redes financieras siguen siendo cada vez más interconectado, la identificación de los bancos importantes se vuelve más crucial tanto para los reguladores y los inversores, la definición y la investigación de medidas de centralidad es un área activa de investigación en finanzas y ciencia de las redes.



Centralidad puede ser considerada a nivel de nodo o el nivel de enlace , y por lo general se interpreta como la "conexión " o la importancia de un nodo o enlace. FNA puede calcular todas las métricas de centralidad de uso común , así como algunos otros que están en la vanguardia de la investigación de la red. Nos ilustran estas medidas de centralidad que utilizan la red visualizada abajo [archivo de descarga de arcos] , que se presentó en la visualización de papel Red 2009 por Lothar Krempel .



Medidas de centralidad de nivel de nodo

Promedio de la ruta más corta

Camino más corto promedio de un nodo es la duración media de la ruta más corta desde el nodo a cada otro nodo accesible desde él. La apl comando calcula la ruta más corta media para cada nodo y guarda el resultado como una propiedad de nodo denominado apl . Los nodos con los valores más bajos de APL son más central , por esta medida , ya que pueden llegar a los otros nodos de la red en menos pasos .

Centralidad de intermediación

Intermediación centralidad de un nodo es el número de caminos más cortos dirigidos entre todos los otros pares de nodos que pasan por el nodo dado . El bwc comando calcula la centralidad de intermediación de cada nodo y guarda el resultado como una propiedad de nodo denominado bwc . Los nodos con BWC más altos son más central por esta medida .

Distancia de Ego 

El egodistance comando calcula , para un nodo dado , la distancia a cada otro nodo . Los nodos con distancias ego inferior son más central por esta medida . El nodo cuya distancia ego se calculará se especifica por el parámetro - V seguido de ID del nodo .

Excentricidad

Excentricidad de un nodo es el camino más largo a partir de ese nodo a cualquier otro nodo en la red . Un camino es cualquier ruta entre dos nodos donde ningún nodo es visitado más de una vez . La excentricidad de comando calcula la excentricidad de cada nodo y guarda el resultado en una propiedad de nodo llamado excentricidad . Los nodos con menor excentricidad son más centrales por esta medida.

Centralidad del Vector Propio

La centralidad de vector propio de un nodo es la cantidad esperada de tiempo dedicado a visitar ese nodo en una caminata aleatoria infinita en la red. Sólo se puede calcular para las redes que están fuertemente conectados . El comando evc calcula la centralidad del vector propio de cada nodo y guarda el resultado en una propiedad de nodo llamado evc. Los nodos con mayor centralidad del vector propio son más central por esta medida .

PageRank

PageRank de un nodo es la cantidad esperada de tiempo dedicado a visitar ese nodo en una caminata al azar en la red. El parámetro alfa añade una pequeña probabilidad de moverse entre dos pares de nodos , que permite que la métrica que se calcula incluso para redes que no están conectados firmemente . Cuando alfa es igual a cero , PageRank es igual a la centralidad del vector propio estándar . El comando pagerank calcula el PageRank de cada nodo y guarda el resultado como una propiedad de nodo llamado pagerank. Los nodos con mayor PageRank son más centrales por esta medida.

CheiRank

Un nodo de Chei Rango se calcula primero la transposición de la red ( es decir, invirtiendo la dirección de todos los enlaces dirigidos ) y luego calculando su PageRank . El comando cheirank calcula el Chei Rango de cada nodo y guarda el resultado como una propiedad de nodo llamado cheirank . Los nodos con mayor Chei Fila son más centrales por esta medida.

SinkRank

SinkRank de un nodo es el número medio de pasos necesarios para llegar a ese nodo en una caminata al azar en la red, tratando el nodo dado como sumidero (es decir, la eliminación de todos sus enlaces salientes). Es especialmente útil para medir la importancia sistémica de los bancos en las redes de pago, en los bancos en quiebra pueden ser consideradas como sumideros. El sinkrank calcula el SinkRank de cada nodo y guarda el resultado como una propiedad de nodo llamado sinkrank . Los nodos con menor SinkRank son más centrales por esta medida.

SourceRank

SourceRank de un nodo se calcula primero la transposición de la red y luego calcular su SinkRank. El comando sourcerank calcula el SourceRank de cada nodo y guarda el resultado como una propiedad de nodo llamado sourcerank. Los nodos con menor SourceRank son más centrales por esta medida.

Medidas de centralidad de nivel de nodo ponderadas

Con la excepción de centralidad de intermediación , todas las medidas de centralidad de nivel de nodo tienen una propiedad de peso opcional ; cualquier propiedad de arco numérico se puede utilizar como un peso . La propiedad de peso se proporciona añadiendo el parámetro -p seguido del nombre de la propiedad para el comando. Por ejemplo , con los pesos siempre que el algoritmo de promedio de camino más corto sería calcular la longitud de cualquier ruta de acceso como la suma de los pesos de ese camino en lugar de simplemente el número de pasos . Si no se proporciona un parámetro de peso es equivalente a usar los pesos que son siempre igual a uno.

Los comandos siguientes muestran algunos ejemplos de cálculo de medidas de centralidad ponderados utilizando las dos propiedades del vínculo en el archivo de datos de muestra, strength_uniform y strength_skewed . (Utilice el listap comando para ver todas las propiedades de enlace almacenados en una red. ) El strength_uniform propiedad enlace tiene valores que se distribuyen de manera uniforme en los enlaces , mientras que los valores de strength_skewed hacen más grandes moviéndose de izquierda a derecha en la visualización anterior.

apl - p- strength_uniform guardarcomo apl_uniform
pagerank- p - strength_skewed guardarcomo pagerank_skewed

Medidas de centralidad de nivel de enlace

Centralidad de intermediación

Centralidad de intermediación de un enlace es el número de caminos más cortos dirigidos ( además del propio enlace ) que pasan a través del enlace dado . El bwc comando calcula la centralidad de intermediación de cada enlace (así como cada nodo ) y guarda el resultado como una propiedad de enlace llamado bwc . Vínculos con bwc mayores son más centrales por esta medida.

Guión

Además copie o escriba en la línea de comandos FNA , los comandos se pueden almacenar en un script que se ejecute a la vez. Para crear una secuencia de comandos FNA , haga clic en la pestaña Scripts en la parte derecha de la plataforma FNA , haga clic en la cruz verde a la derecha , a continuación, escriba o pegue los comandos en el cuadro de texto que aparece. Los scripts pueden ser ejecutados con la orden de marcha . Los comandos a continuación el cálculo de los indicadores de centralidad que se describen en este tutorial y crear una visualización.

# load arcs file
loada -file tutorial4_arcs.csv -preserve false

# node-level centrality measures
# the results are by default stored with the name of the command,
# if no -saveas -parameter is given
apl
# bwc calculates link-level betweenness centrality as well
bwc
evc
eccentricity
pagerank
cheirank
sinkrank
sourcerank
# some weighted centrality measures
apl -p strength_uniform -saveas apl_uniform
pagerank -p strength_skewed -saveas pagerank_skewed

# create visualization
viz -vlabel vertex_id -fontsize 30 -vtransparencydefault 0.4 -vsize pagerank -saveas tutorial4_viz

Si guarda estos comandos en un script llamado centralidad , que se pueden ejecutar a la vez con el comando siguiente.

run -file centrality

Visualización

El comando es decir facilita la comparación de los diferentes indicadores de centralidad en una sola red. En la visualización de abajo ( creado desde el comando a saber más arriba) , el tamaño del nodo es proporcional al PageRank . Nodo g , lo que parece menos conectado , tiene de hecho el PageRank más bajo. El nodo d altamente central tiene el más alto PageRank . Para hacer que las etiquetas de nodo más fácil de leer, nos propusimos vtransparencydefault a 0,4 para que los nodos más transparente (su valor por defecto es 0.7) y ajustar tamaño del texto a 30 (el valor predeterminado es 14).



Podemos cambiar de forma interactiva las alturas y anchuras de nodos en la visualización para comparar las propiedades del nodo haciendo clic en la rueda en la parte inferior izquierda de la visualización. En la versión a continuación , la altura del nodo es proporcional al PageRank mientras que la anchura de nodo es proporcional a la centralidad de intermediación . Cuanto menos un nodo tiene la forma de un círculo, más el PageRank e intermediación centralidad de ese nodo difieren . Aquí nodo d tiene un alto PageRank y baja centralidad de intermediación mientras que el nodo e tiene PageRank bajo y alta centralidad de intermediación . Nodos eyf tienen una alta centralidad de intermediación porque todos los caminos entre nodos g y cualquiera de los otros nodos deben pasar a través de ellos , estos nodos no están altamente conectados con la mayor parte de la red , sin embargo , lo que explica su baja PageRank .



Sugerencia : Utilice la visualización interactiva de comparar y PageRank PageRank ponderada (guardado como la propiedad de nodo pagerank_skewed) en esta red. Usted puede ver los valores de los pesos de enlace mediante el establecimiento de la etiqueta de Enlace en el panel Asignaciones de propiedades de la visualización .

Financial Network Analysis

lunes, 13 de enero de 2014

Cuestiones que ayudan a un post a ser viral

A Data Scientist Explains What Makes A Viral Reddit Post




Randy Olson is a Computer Science graduate research assistant at Michigan State University. This post originally appeared on his blog.
Today I’m going to tackle the question that’s on all Redditor’s minds: How do I get a highly-upvoted post on Reddit?
I won’t bother covering the basics of making a successful post on Reddit because there are at least a dozen other articles out there that already cover that. Instead, I’m going to walk you through my analysis of over 850,000 top posts from the past year on Reddit from 4,200 of the most active subreddits.
I bolded the big takeaway messages if you’re not feeling like a long read. Give these tips a try for a week or two and report back how well they worked for you in the comments.
Disclaimer: I am only making statements about probability in this post. Following these guidelines will by no means 100% guarantee that you will get a top post. Rather, following these guidelines will maximize your chance of getting a top post.

When to post

It turns out one of the biggest factors affecting the success of your post is the day and time you submit it. In the top graph (below), the shaded area gives an indication of the number of upvotes I am confident a successful post will receive given that it is posted at a given day and time. Similarly, the bottom graph shows the total number of posts that will receive more than 100 upvotes given the day and time they are posted.

Here’s a handy time zone conversion chart so you can convert the UTC time to your local time: http://www.scc-ares-races.org/utcchart.html
Every day around 12 to 1 p.m. UTC (7 to 8 a.m. EST), there is a highly significant spike in both the number of successful posts and the total number of upvotes those successful posts receive. Undoubtedly, this trend is due to office workers in the U.S. coming into work and catching up on Reddit before they start their workday. The key to success here seems to be to (1) post early in the morning before the deluge of new posts comes in and (2) take advantage of your post’s head start and get upvoted out of the /r/new queue before everyone else. If you’ve posted around 12 to 1 p.m. UTC and your post escapes the /r/new queue, then your post is in prime position to be viewed and upvoted by the U.S. workforce coming in to work in the next few hours.
Interestingly, more posts are successful during the weekdays, but the successful posts on the weekends generally receive far more upvotes. What this means for you is that you stand more of a chance of having a successful post on Monday than you do on Saturday, but if your post is successful, it won’t receive as many upvotes on Monday than it would on Saturday.
Here’s what I find amusing in this graph: the number of successful posts peaks on Mondays and then gradually declines over the week, showing that Redditors likely spend more time on Reddit early on in the week when they’re suffering from a bad case of the Mondays. (And Tuesdays... and maybe even Wednesdays.)

What to post

Great, so now you know when to submit your post, but... what kind of content should you post? First off, let me get this one out of the way: Reddit is married to imgur.com as an image hosting service.
If you’re submitting an image post, upload your image to imgur.com and submit that link. Nearly 60% of the top posts from the past year were some form of image or GIF hosted on imgur.com. With that out of the way, let’s move on to the next-most-popular content format.
If it’s not images that you’re looking at on the top posts page, then it’s most likely a YouTube video. Reddit is dominated by image and video content nowadays. In fact, if you look at just the data presented here, at least 2/3 of the top content on Reddit is an image or video. As such, if you have some sort of message you want to share with Reddit, you’re best off trying to communicate it through an image or video.
Quickmeme.com appears to be Reddit’s favorite meme generating website, whereas blogspot.com seems to be the most popular blogging service. What I find surprising is that Facebook and Twitter links appear to be shared equally, even though many subreddits have implemented rules against sharing direct Facebook links. Meanwhile, the Wikimedia/pedia services are Reddit’s go-to websites for free educational content, showing just how much Redditors rely on wikis for their information. Lastly, Reddit’s top news posts most often come from BBC, The Guardian, and The Huffington Post. When it comes to news sources on Reddit, it looks like the U.K. has the U.S. trumped!
If it’s upvotes you’re after, then I have a different story for you. Whereas imgur.com links are by far the most likely to rise to the top, successful /r/AskReddit self-text posts and meme posts are significantly more likely to receive more upvotes. It’s undeniable that Reddit loves sharing stories and jokes via /r/AskReddit, and the patrons of /r/AdviceAnimals freely hand out upvotes to any meme that makes them so much as chuckle. Keep this in mind if you’re more concerned about upvotes than getting your message out there.
Note: quickmeme.com has recently been banned from reddit entirely for vote manipulation, and imgur.com was quick to make a meme generator service to fill the void.
The final thing I’ll note here is that imgur.com ranks 1st in terms of likeliness to reach the top page, and 4th in terms of upvotes. If you’re following along, that means your best bet of reaching the top page and reaping sweet, abundant karma is to submit an imgur.com link early in the morning on the weekend.

Where to post

Alright, so now you know what and when to submit your post to Reddit. Where should you post it?
Surprisingly, the default image subreddits don’t completely dominate the top posts. As this graph shows, the default image subreddits comprise only about 7-8% of the top-ranked posts from the past year. Let this be a heartening discovery: you don’t have to post in a default image subreddit to have a successful post on Reddit. The rest of the subreddits not listed here all accounted for only ~0.25% of Reddit’s top posts (each), so if you don’t pick one from this list, your chances of having a successful post are more or less the same (i.e., low).
However, again, if it’s karma you’re after, I have a very important addendum: the fraction of top posts that come from a subreddit is highly predictive of the number of upvotes your post will receive if it’s successful. Successful posts in /r/funny, /r/AdviceAnimals, and /r/pics by far receive the most upvotes on average. So keep that in mind: the higher you go on the “Fraction of top posts” chart (i.e., smaller fractions), the fewer upvotes your post will potentially receive. The good news is that smaller subreddits have fewer people posting to them, so even though you receive fewer upvotes, your post is far more likely to show up on the front page of anyone subscribed to that subreddit.
(For you stats nerds out there: I also fit this model with all 4,200 subreddits and the relationship is still significantly predictive, even if I remove the extreme outliers on the right of the graph.)

What title to use

Now for the last of the five W’s: Why? (If you didn’t catch it, the first W was “Who?” The answer to that one is you!) Why should someone bother clicking on your post, read it, and upvote it? That’s the purpose of your post’s title. Below is a word cloud of the most-used words in the top posts on Reddit. The larger the word is, the more often it was used.
I’m going to take 40 or so of the most-used words, break them down into categories, then give you some example titles that the words were used in. Please take these example titles as just that: examples. Use them as inspiration to create your own post titles.

X-post

“X-post” is the most-used word in the top posts from last year, and if you’re familiar with Reddit, this should not be a surprise. Cross-posting is huge on Reddit, especially when there are many subreddits with similar interests. Generally, cross-posted links do better because they’re already well-liked in another subreddit before they were cross-posted, and thus were vetted for the poster beforehand. A word of warning: be careful with cross-posting to excess. Reddit can get pissed off pretty quickly if you share a link too much.

Speaking of time...

Some mention of time is commonplace in top Reddit posts. These words seem to be used to make the post relevant to current or past events, and thus make for a more interesting post title.

So I saw this guy the other day...

Mentions of other, non-specific people seem to be extremely common among the top posts. Reddit apparently likes to gossip and share stories about other people.

Puppies and kitties everywhere

Reddit isn’t just all cat lovers any more: cats and dogs are mentioned equally in the top posts from the past year. It’s easy to relate to other people through likable animals like cats and dogs, especially when you’re sharing a cute picture of them.

Gamers unite

Big surprise, Redditors like to talk about games. Video games, specifically.

Talk about what you're posting

As I mentioned before, images and videos are the primary content on Reddit. It turns out it helps if you talk about the image or video you’re posting.

Have a broader perspective

People come on Reddit to escape their daily life and learn something about the world. If you can fill that need for them, they will upvote you for it.

Emotions make people like your post more

If you’re really passionate about what you’re posting, let it shine through! Redditors love it when a post title shows emotion.

A diminutive preoccupation

Reddit loves to talk about little things. I guess it’s because little things are cute.

Talk about Reddit!

Reddit is big on self-referential jokes. If you can get in on those, you’re golden!

Location is key

If it’s relevant, mention a location related to your post. It helps give context to what Redditors are looking at. Amusingly, “work,” “school,” and “home” are the most-used words related to location.
That’s all, folks! Don’t wait for chance to favor you; make chance favor you.


Business Insider







martes, 7 de enero de 2014

Las redes de financiamiento político de los Koch

Koch-backed political coalition, designed to shield donors, raised $400 million in 2012
By Matea Gold, Washington Post

The political network spearheaded by conservative billionaires Charles and David Koch has expanded into a far-reaching operation of unrivaled complexity, built around a maze of groups that cloaks its donors, according to an analysis of new tax returns and other documents.

The filings show that the network of politically active nonprofit groups backed by the Kochs and fellow donors in the 2012 elections financially outpaced other independent groups on the right and, on its own, matched the long-established national coalition of labor unions that serves as one of the biggest sources of support for Democrats.



The resources and the breadth of the organization make it singular in American politics: an operation conducted outside the campaign finance system, employing an array of groups aimed at stopping what its financiers view as government overreach. Members of the coalition target different constituencies but together have mounted attacks on the new health-care law, federal spending and environmental regulations.

Key players in the Koch-backed network have already begun engaging in the 2014 midterm elections, hiring new staff members to expand operations and strafing House and Senate Democrats with hard-hitting ads over their support for the Affordable Care Act.

Its funders remain largely unknown; the coalition was carefully constructed with extensive legal barriers to shield its donors.

But they have substantial firepower. Together, the 17 conservative groups that made up the network raised at least $407 million during the 2012 campaign, according to the analysis of tax returns by The Washington Post and the Center for Responsive Politics, a nonpartisan group that tracks money in politics.

A labyrinth of tax-exempt groups and limited-liability companies helps mask the sources of the money, much of which went to voter mobilization and television ads attacking President Obama and congressional Democrats, according to tax filings and campaign finance reports.

The coalition’s revenue surpassed that of the Crossroads organizations, a super PAC and non­profit group co-founded by GOP strategist Karl Rove that together brought in $325 million in the last cycle.

The left has its own financial muscle, of course; unions plowed roughly $400 million into national, state and local elections in 2012. A network of wealthy liberal donors organized by the group Democracy Alliance mustered about $100 million for progressive groups and super PACs in the last election cycle, according to a source familiar with the totals.

The donor network organized by the Kochs — along with funding an array of longtime pro-
Republican groups such as the U.S. Chamber of Commerce, the National Rifle Association and Americans for Tax Reform — distributed money to a coalition of groups that share the brothers’ libertarian, free-market perspective. Each group was charged with a specialized task such as youth outreach, Latino engagement or data crunching.

The system involved roughly a dozen limited-liability companies with cryptic, alphabet-soup names such as SLAH LLC and ORRA LLC, and entities that dissolved and reappeared under different monikers.

Lloyd Hitoshi Mayer, a University of Notre Dame Law School professor who studies the tax issues of politically active nonprofits, said he has never seen a network with a similar design in the tax-exempt world.

“It is a very sophisticated and complicated structure,” said Mayer, who examined some of the groups’ tax filings. “It’s designed to make it opaque as to where the money is coming from and where the money is going. No layperson thought this up. It would only be worth it if you were spending the kind of dollars the Koch brothers are, because this was not cheap.”

Tracing the flow of the money is particularly challenging because many of the advocacy groups swapped funds back and forth. The tactic not only provides multiple layers of protection for the original donors but also allows the groups to claim they are spending the money on “social welfare” activities to qualify for 501(c)(4) tax-exempt status.

Such maneuvers could be sharply restricted under new regulations proposed by the Internal Revenue Service in November. The new rules seek to rein in nonprofit groups that have increasingly engaged in elections while avoiding the donor disclosure required of political committees.

The donors

It is unclear how much of the network’s funds came directly from the Kochs, who head Koch Industries, one of the largest privately held companies in the country. The brothers, who fund a host of libertarian think tanks and advocacy groups, are heralded on the right and pilloried on the left for their largess.

While “the Koch network” has become a shorthand in political circles, the coalition is financed by a large pool of other conservative donors as well, according to people who participate in the organization.

Through a corporate spokesman, the Kochs declined to comment on what support they give.

“Koch’s involvement in political and public policy activities is at the core of fundamental liberties protected by the First Amendment to the United States Constitution,” Koch Industries spokesman Robert Tappan said in an e-mailed statement. “This type of activity is undertaken by individual donors and organizations on all ends of the political spectrum — on the left, the middle, and the right. In many situations, the law does not compel disclosure of donors to various causes and organizations.”

Tappan added that “Koch has been targeted repeatedly in the past by the Administration and its allies because of our real (or, in some cases, perceived) beliefs and activities concerning public policy and political issues.”

In a rare in-person interview with Forbes in late 2012, Charles Koch defended the need for venues that allow donors to give money without public disclosure, saying such groups provide protection from the kind of attacks his family and company have weathered.

“We get death threats, threats to blow up our facilities, kill our people. We get Anonymous and other groups trying to crash our IT systems,” he said, referring to the computer-hacking collective. “So long as we’re in a society like that, where the president attacks us and we get threats from people in Congress, and this is pushed out and becomes part of the culture — that we are evil, so we need to be destroyed, or killed — then why force people to disclose?”

Since 2003, the Kochs have hosted twice-yearly seminars with like-minded donors at which they collect pledges for groups that share their commitment to deregulation and free markets.

Jack Schuler, a Chicago health-care entrepreneur, attended one of the Kochs’ donor meetings in Beaver Creek, Colo., several years ago and has contributed about $100,000 a year to their efforts since then.

“They came across as guys who are putting a lot of their own money into it,” Schuler said. “They are pretty soft-spoken, not screamers or screechers. They provide the leadership, the staff — without the framework, I wouldn’t do it on my own.”

Many donors get involved because they “value the privacy afforded to them by giving to these entities,” said Phil Kerpen, president of American Commitment, a nonprofit free-market advocacy group that is part of the network.

“There are hundreds and hundreds of very successful and patriotic Americans that take part in the seminars,” Kerpen added. “To suggest that anything that goes through any of these entities is Charles and David Koch is very misleading. There are a significant number of donors involved.”

The money

Much of the money that flowed through the network in the last election cycle originated with two nonprofit groups that served as de facto banks, feeding money to groups downstream, according to an analysis by Center for Responsive Politics researcher Robert Ma­guire, who investigates politically active nonprofits.

The biggest was the Freedom Partners Chamber of Commerce, an Arlington County-based group set up in November 2011 that now functions as the major funding arm of the network, according to people familiar with the operation. The organization, whose board includes current and former Koch Industries officials, brought in nearly $256 million in its first year, “significantly more revenue than was expected,” according to its tax filing.

Nearly $150 million was in the form of dues paid by more than 200 members of the organization, which is structured as a business league. An additional $105.8 million came from something called “SA Fund.”

James Davis, a spokesman for Freedom Partners, said the organization funds groups “based on whether or not they advance the common business interests of our members in promoting economic opportunity and free-market principles.”

Davis said the group has been upfront about its spending and made its tax return available online as soon as it was filed in September.

“Our members are free to disclose their affiliation if they wish,” he said. “We leave that decision with them. Unfortunately, recent IRS and other instances of intimidation and harassment of individuals and groups because of their policy beliefs and activities demonstrate why it’s important to keep such information confidential.”

According to people familiar with the network, Freedom Partners took the place of a now-
defunct group based in Alexandria called TC4 Trust, which raised more than $66 million in three years before it was shuttered in June 2012, according to tax filings.

The same tax preparer — a Kansas City, Mo.-based partner in the accounting firm BKD — did the returns for Freedom Partners and TC4 Trust, as well as for nearly half the other groups in the network and for the nonprofit Charles Koch Institute.

In all, the feeder funds and the groups they financed raised an estimated $407 million in the last election cycle. That figure is a conservative one, since it does not account for the complete revenue of eight groups that have not yet filed their tax returns for the latter half of 2012.

Of the $407 million, $302 million can be traced to Freedom Partners or TC4 Trust.

The sources of the rest of the money remain a mystery, but many donors in the network write checks to the individual groups, according to people familiar with the system. Some of the organizations also have additional funding streams outside the network.

The structure

Freedom Partners and TC4 Trust moved a large share of their funds through an intermediary group, the Phoenix-based Center to Protect Patient Rights, which served as a major cash turnstile for groups on the right during the past two election cycles. It is run by political operative Sean Noble, who served as a Koch consultant in 2012.

Rather than finance CPPR directly, Freedom Partners and TC4 Trust transferred $129 million to limited-liability companies with changing names that are registered in Delaware, a state that requires corporations to disclose little about their operations: Eleventh Edition (which was renamed Corner Table and then Cactus Wren) and American Commitment (which was SDN, then became Meridian Edition).

Their relationship to CPPR was unknown until May, when the Arizona group acknowledged in amended tax filings that the LLCs were its affiliates.

Such LLCs are known as “disregarded entities,” which means that, for IRS purposes, they do not exist. Their revenue is reported on the balance sheets of their parent organizations.

Tax experts said disregarded entities are typically used by nonprofits to, for example, hold a piece of real estate to shield an organization from liability.

But they also can be used to make it harder to trace the movement of funds between groups. In its final tax return, TC4 reported doling out nearly $28 million to 10 organizations with names such as POFN LLC, PRDIST LLC and TRGN LLC. Those are the affiliates of the groups Public Notice, Americans for Prosperity and Generation Opportunity, in that order.

The Post and the Center for Responsive Politics identified the groups that make up the Koch-backed network through an analysis of tax filings, which revealed their shared DNA. Most have affiliated LLCs and received a substantial share of their revenue from the feeder funds.

The makeup of the coalition was corroborated by people familiar with the structure who said the network is ad hoc and will not necessarily remain constant.

A key player is Americans for Prosperity, the Virginia-based advocacy organization that finances activities across the country and ran an early and relentless television ad assault against Obama during the 2012 campaign. More than $44 million of the $140 million the organization raised in that election cycle came from Koch-linked feeder funds.

Other groups in the network included the American Future Fund, a Des Moines-based nonprofit that poured more than $25 million into ads against Obama and congressional Democrats in 2012; Concerned Women for America, a conservative Christian women’s activist group that ran a get-out-the-vote effort aimed at young women; the Libre Initiative Trust, a Texas-based group aimed at Latinos; Generation Opportunity, which seeks to engage millennials; and Themis Trust, which houses the data used by the allied groups.

The network also distributed funds to other independent political players. In the last election, Freedom Partners and CPPR doled out millions of dollars to a wide assortment of groups on the right, including the U.S. Chamber of Commerce ($3 million), the NRA ($6.6 million), the National Federation of Independent Business ($2.5 million) and Heritage Action for America ($500,000).

Obama’s reelection prompted internal reassessments in the network, as it did among many conservative groups that had worked to defeat him in 2012. But there are no signs that the coalition plans to retreat.

Rather, officials are focused on creating a more effective operation aimed at bolstering the conservative movement for the long term. Freedom Partners, which now has nearly 50 employees, is expected to bring many functions in-house and expand beyond grantmaking, according to people familiar with the plans. Groups such as CPPR are expected to play a smaller role going forward.

Others are already engaged in the 2014 fight. Americans for Prosperity is in the midst of a $20-million-plus ad blitz attacking congressional Democrats for their support of the health-care law, while the Libre Initiative has targeted Latinos with similar messages.

“We raised a lot of money and mobilized an awful lot of people, and we lost, plain and simple,” David Koch told Forbes shortly after Election Day. “We’re going to study what worked, what didn’t work, and improve our efforts in the future. We’re not going to roll over and play dead.”


Alice Crites contributed to this report.

sábado, 4 de enero de 2014

Redes de movimiento entre los suburbios y la ciudad de París

El metro, el trabajo, el sueño... y el resto (2): Peri-urbana y urbana - asisten a los mismos lugares?

Por Matthew Drevelle

En un post anterior, describí brevemente presenté los "destinos preferidos" de la población periurbana de acuerdo a sus patrones de movimiento. A cierta distancia funcional entre la ciudad, el lugar de las actividades "necesarias" o poco comunes y el anillo de los suburbios, el lugar de las actividades sociales y domésticas, que entonces era resaltada. Esta nota tiene como objetivo lograr un análisis similar para los habitantes de los centros urbanos de las principales ciudades de Francia (más de 100.000 habitantes, a excepción de París ) y comparar brevemente los "destinos preferidos" urbanas y suburbanas.

Los patrones de movimiento y los destinos "preferidos" para la urbana

La metodología utilizada en el grafo bipartito de destinos de viaje vinculae motivos de desplazamiento con su destino "privilegiada" es idéntica a la del billete de cercanías: un enlace se dibuja entre el motivo y el destino cuando, por esta razón, el destino es sobrerrepresentados en relación con el promedio de todos los movimientos. Un umbral de la representación está unido al atractivo promedio de espacio más el 5 %. Los enlaces retenidos modelo orientado hacia el destino, y luego representar un destino "privilegiado" por un patrón dado. Advertencia, estos destinos preferidos están en subrepresentaciones. De hecho, en valor absoluto, el centro de la ciudad de destino prevalece para todas las unidades (excepto día de fiesta y de segunda residencia).


Atractivo Promedio de los diferentes destinos habitantes de los centros urbanos de las principales ciudades de viaje

El grafo obtenido de este modo son 28 nodos (6 nodos destinos y 22 nodos mofif) y 32 enlaces. El tamaño de los nodos es proporcional a su grado de entrada de destinos. Los colores de los nodos motif se basa en amplias categorías de patrones definidos en ENTD. El grafo fue producido usando el software de visualización gráfica Gephi y retocada en Inskape.


Destinos "privilegiados" por razones de los habitantes de los centros urbanos de las grandes ciudades (click en la imagen para agrandar el gráfico)

La observación del grafo muestra una distancia topológica entre el centro de la ciudad relativamente coherente y otras áreas con la distancia geográfica. Observamos, sin embargo, que la periferia urbana está a la misma distancia topológica del centro de las ciudades pequeñas o la región de París. Si el destino de " centro de la ciudad "tiene lógicamente el más alto grado de entrada es el destino "suburbio", que es el punto central de vista de la centralidad de nodo en las inmediaciones (la más cercana de todas nodo otros nodos) y centralidad de intermediación (nodo bisagra entre el centro de la ciudad y sus terrenos "privilegiados" y otros destinos y razones). Los índices de centralidades se presentan a continuación no están normalizados en la medida normalizaciones "clásicos" no son apropiados para grafos bipartitos (Borgatti, Everett, 1997).


Indegree, centralidades de cercanía y nodos de intermediación "destino"

El grafo también nos permite observar una especialización funcional de los destinos. De este modo, la ciudad central aparece como un espacio de la vida diaria (trabajo, estudios, apoyo, los niños niñera, compras pequeñas, lactando o procedimientos administrativos) y ocio "interior" (asociación de actividades, espectáculos). El atractivo de los suburbios parece estar relacionada con las actividades más intensivas en espacio (deportivas, conferencias, centros de visita de compras...). Las zonas rurales, pueblos de la periferia urbana y pequeñas parecen beneficios relacionados con actividades sociales, vacaciones y ocio "de afuera".

¿Los destinos son diferentes entre los destinos urbanos y suburbanos?

Las representaciones gráficas destinos "preferente" común y específica a las zonas urbanas y peri-urbana permiten entender mejor cómo la gente prefiere o no los mismos lugares para un modelo dado. Estos grafos han sido obtenidas utilizando las herramientas de filtrado de enlaces de Gephi, de un grafo con 28 nodos y 54 enlaces que representan preferidos por razón de los destinos urbanos y suburbanos. El tamaño de los nodos en los grafos a continuación es proporcional a su grado de entrada.


Los gráficos de común y específica a destinos "preferidos" urbanas y periurbanas (click en la imagen para agrandar el gráfico)

Observamos que la ciudad es un centro "privilegiado" común a destino urbano y peri-urbano en relación con el trabajo, el cuidado, el entretenimiento o el acceso a las estaciones y aeropuertos. Esto parece lógico, ya que estos modelos requieren una infraestructura a menudo concentrada en los grandes centros. Las zonas rurales, y en menor medida las pequeñas ciudades y los suburbios son parte del anillo espacios vacaciones y recreación común a zonas urbanas y suburbanas.

Observando los destinos específicos 'privilegiados' de los grafos muestra como era de esperar la importancia de la proximidad geográfica de las actividades comunes: actividades educativas, de apoyo, de niños o asociativos se llevan a cabo en las inmediaciones de la atención residencial. También se señala una serie de diferencias en la percepción de los espacios entre los suburbios y urbano:


  • desde el punto de vista urbano, las coronas peri-urbanas se presentan como un buen momento para comprar un segundo espacio de la casa (la famosa casa de campo). Observado también entre los habitantes de los centros urbanos, más marcada en localidades urbanas con respecto a las vacaciones o segunda preferencia elección hogar;
  • los residentes suburbanos parecen aprovechar activamente los recursos los centros urbanos de la ciudad (restaurantes, monumentos, centros de formación, ferias y centros de entretenimiento...). Sin embargo, se observa que por ciertas razones (servicios, atención), el uso de los recursos en los suburbios es una ruta alternativa para el centro. Por último, los suburbios parecen mantener una fuerte relación con las áreas rurales que en las urbanas, en particular sobre las relaciones sociales (padres, amigos).

Como conclusión sumaria de este breve análisis, podemos decir que sí, periurbana está asistiendo a la misma escena pero con distinta intensidad y no necesariamente por las mismas razones. De hecho, si determinadas actividades se llevan a cabo en los mismos lugares por suburbana y urbana, en la mayoría de los casos, y desde luego para los patrones comunes, áreas urbanas y peri-urbanas preferirán diferente.

Referencias


Borgatti S. P., G. EVERETT (1997), "Network analysis of 2-mode data", Social Networks, 19 (3): 243-269. (Consultar)

Drevelle M. (2012), "Métro, boulot, dodo… et le reste : motifs de mobilité périurbaine et relation à l’agglomération" Carnet de recherche du groupe fmr, http://groupefmr.hypotheses.org/685

Groupe FMR

miércoles, 1 de enero de 2014

ARS 101: Más sobre centralidades

C como centralidad(es)

Por Matthew Drevelle - Groupe fmr

Estas notas tienen por objeto definir con la mayor claridad y precisión posible términos claves del análisis de red. Ellos atienden a un público principiante tanto como sea posible y evitar cualquier formalización matemática.

La centralidad de un vértice en un gráfico en vez regresa a la cumbre en comparación con otros vértices. La centralidad de un vértice puede calcularse de varias maneras de responder a diferentes lógicas de centralidad : número de vecinos , la proximidad a otros picos , importante punto de tránsito ...

Las medidas de centralidad del "vecindario"


Una serie de medidas de considerar la centralidad de un vértice con respecto a sus vecinos inmediatos.

La medición de la centralidad más simple es el grado del vértice ( grado ) , es decir, el número de enlaces con la cumbre como final (o el número de vecinos del vértice ) . El grado puede ser entrante, saliente o ponderada ( véase D. como grado para más detalles) . La medición de la información de grado sobre la importancia de un vértice en el gráfico . Una cumbre con un alto grado se consideran centrales , ya que está directamente conectado con el elevado número de vértices del grafo , por lo que tiene potencial de interacciones directas con otros más importantes que un pico que tiene vértices de grado inferior.

La centralidad de Eigenvector (centralidad de autovector) mide un nodo está conectado a otros vértices muy conectado del grafo. Este índice se basa en el principio de que un enlace conectado con un enlace bajamente conectado "vale" menos que una relación con un vértice altamente conectados. Esta es un tipo que es una extensión de la centralidad de grado, en el que el peso depende de los nodos vecinos de su centralidad.

En el grafo de centralidad de grado, la parte superior de color rojo es la más céntrica, tiene 5 vecinos directos. En el grafo de la centralidad del vector propio, la parte superior roja , y en menor medida, las naranjas son picos centrales porque están fuertemente conectados a los vértices conectados firmemente.

La centralidad también se puede medir mediante la identificación de autoridades (authorities) y concentradores. Las autoridades son vértices que tienen un gran número de enlaces entrantes. Los concentradores son vértices que tienen muchos enlaces salientes a las autoridades. Estas medidas se utilizan sobre todo para el ranking de páginas web para los buscadores.

Medidas de centralidad, teniendo en cuenta el conjunto de vértices


La excentricidad de un vértice (eccentricity) es el número de enlaces necesarios para conectarlo al nodo más lejano. Cuanto mayor es la excentricidad, menor es el nodo central.

El índice de Shimbel (Shimbel distance, farness) es la suma de las longitudes de los caminos más cortos para conectar todos los demás vértices. Identifica el pico más central en la identificación de aquellos que están más cerca de los vértices del grafo. La centralidad de la proximidad (proximidad central) es la inversa del índice de Shimbel, que corresponde a la normalización entre 0 y 1 del índice, donde 1 es una centralidad importante. Estos dos índices se utilizan también para medir la accesibilidad en un gráfico (ver A como accesibilidad).


En el gráfico de la excentricidad, la parte superior de color amarillo es el más central. Hay 2 enlaces que deben ir hasta llegar a cualquier vértice de la gráfica de la misma. En el gráfico de la proximidad , los vértices son de color rojo más cercano a los vértices de la gráfica . Vértices amarillas se eliminan en particular de todos los otros picos

La centralidad de intermediación (betweeness centrality) es el número de caminos más cortos a través del gráfico cada vértice. Esta medida también se puede aplicar a los enlaces del grafo. Una alta centralidad de intermediación no está necesariamente correlacionado con una centralidad de grado significativa: un nodo con un grado bajo que une dos grupos de vértices tendrá una alta centralidad de intermediación. Los nodos con alta centralidad de intermediación son "puntos de pasajes importantes" para conectar rápidamente dos vértices del grafo.


En este grafo, la parte superior de color rojo es central. Debido a su posición entre el lado izquierdo y el lado derecho de la gráfica , un gran número de caminos más cortos que pasan a través de la parte superior.