domingo, 7 de mayo de 2017

Análisis de redes sociales en la historia de Canadá



Historia colonial en la era de las humanidades digitales
Robert Englebert | Early Canadian History
Robert Englebert enseña en el Department of History, University of Saskatchewan. 

Mucho antes de que las humanidades digitales fueran un producto caliente y aparentemente una necesidad para cada solicitud de beca, yo estaba cortando mis dientes como un estudiante graduado y sin darme cuenta me vi involucrado en la historia digital. Trabajando para mi supervisor de doctorado, Nicole St-Onge, de la Universidad de Ottawa, ayudé a manejar un equipo que digitalizó más de 35,000 contratos de comercio de pieles de sirvientes contratados que fueron contratados en Montreal entre las décadas de 1730 y 1830. El proyecto de la Base de Datos de Contratos de Viaje (VCD), aunque lejos de ser totalmente completado, se convirtió rápidamente en la colección más grande de su tipo para el comercio de pieles. Después de mi doctorado, continué como director asistente del proyecto, ayudando a construir y limpiar lo que se había convertido en una base de datos muy grande de mi puesto en la Universidad de Saskatchewan. Uno de los socios del proyecto, Saint-Boniface Historical Society, migró los datos básicos a una plataforma en línea en su sitio web para que investigadores, genealogistas y otras partes interesadas pudieran usar este recurso (http://shsb.mb.ca/en/Voyageurs_database).

Cuando el VCD inició las bases de datos eran pura potencia, incluso si el poder de la tecnología rara vez se explotaba plenamente. Si se trataba de un simple archivo de Excel, Filemaker Pro, Access o algún otro programa, la idea de capturar datos en masa ofrecía la tentadora perspectiva de ir más allá de los límites de los métodos empíricos tradicionales. La mayoría de los historiadores de Nueva Francia están familiarizados con el PRDH y Parchemin, dos poderosas bases de datos que han revolucionado la forma en que los investigadores hacen su trabajo. Del mismo modo, la capacidad de almacenar y clasificar los datos ha tenido un profundo efecto en los enfoques de una serie de temas históricos, sobre todo el comercio transatlántico de esclavos. Además de las bases de datos, la edad del archivo digital ha cambiado drásticamente la naturaleza de la investigación histórica. El número de colecciones de archivos y documentos históricos en línea ha crecido tan rápidamente que ni siquiera es posible mencionar todos los sitios web pertinentes para la historia colonial canadiense y norteamericana temprana. Y sin embargo, al mismo tiempo, sabemos que a pesar de este crecimiento exponencial sólo una fracción de material de archivo ha llegado a la Web. [1]

A pesar de que nos enfrentamos con cada vez más fuentes, sitios web, bases de datos, etc, nuevos enfoques están ganando ascendencia en el mundo de las humanidades digitales. SIG histórico se ha convertido en el pilar de la historia ambiental, mientras que la minería de texto está cambiando la forma en que muchos académicos abordan su investigación. [2] Como todas las metodologías y tecnologías, sin embargo, hay límites a lo que pueden y no pueden hacer. Por ejemplo, la minería de textos se limita en su mayoría a fuentes de impresión y el uso de HGIS es algo dependiente de ciertos tipos de datos históricos cartográficos, demográficos y ambientales. Sin embargo, con todos los nuevos desarrollos en las últimas décadas, se plantea la cuestión de si la historia de la época colonial se puede hacer sin una consideración a fondo de nuevas metodologías vinculadas a las humanidades digitales?

Durante más de una década he estado trabajando en el comercio de pieles del siglo XVIII y en la historia socioeconómica, reconstruyendo las redes comerciales y familiares de comerciantes y viajeros principalmente canadienses-franceses. Estas redes abarcaban grandes porciones de Norteamérica, desde la ciudad de Quebec y Montreal hasta Detroit, Michilimackinac, Kaskaskia, St. Louis y Nueva Orleans. En su apogeo las rutas comerciales alcanzaron hasta la región de Athabasca del norte de Alberta y Santa Fe en el suroeste. A pesar de utilizar bases de datos y métodos cuantitativos, mi doctorado fue principalmente un estudio empírico con tecnología que ayuda en la recopilación de datos y organización. En otras palabras, mientras la tecnología ayudaba en mi capacidad para recopilar y organizar material, no fue una de las fuerzas impulsoras de mi análisis histórico. Simplemente me permitió emplear métodos empíricos para conjuntos de datos más grandes.

Recientemente, al leer un artículo de Thomas Peace sobre el Análisis de Redes Sociales (SNA), se hizo evidente que la tecnología podría impulsar mi análisis, abriendo nuevas preguntas y maneras de examinar el pasado. Me di cuenta de que lo que había estado haciendo empíricamente era esencialmente un análisis rudimentario de redes sociales en la historia colonial.

La mayoría de la historia del comercio de pieles ha tratado tradicionalmente con complejas redes de pueblos franceses, británicos, angloamericanos e indígenas, mostrando vislumbres de complejas interacciones socioeconómicas. En muchos casos, la historiografía del comercio de pieles hace un excelente trabajo para explotar estas redes de comercio, parentesco e interacción social con buenos resultados. Se puede pensar en el trabajo pionero de eruditos como Jennifer Brown, Sylvia Van Kirk y Jacqueline Peterson sobre el papel de las mujeres en el comercio de pieles y la naturaleza de la historia métis / métis. Estudiosos como Tanis Thorne, Heather Devine, Lucy Murphy y Susan Sleeper-Smith, construyeron sobre esta historiografía temprana, examinando una multitud de relaciones sociales a través de redes católicas, estructuras de relación y matrimonio y genealogías complejas.

Sin embargo, a pesar del excelente trabajo de estos y de otros eruditos, siempre parecía que uno estaba mirando unos cuantos hilos de una tela de araña más grande. Era como un horizonte sin fin, con el resto del mundo apenas fuera de la vista. Más recientemente, varios estudiosos han comenzado a emplear el SCN para ampliar nuestra mirada histórica y reorientar nuestro enfoque de la historia colonial. Por ejemplo, el trabajo de Robert Michael Morrissey sobre redes indígenas en Kaskaskia usó el SNA para cuestionar las nociones arraigadas de "Frenchification" derivadas del ejemplo regularmente empleado Marie Rouensa-8canic8e en el País de Illinois. La candidata de doctorado Émilie Pigeon trabajó con Nicole St-Onge y Brenda Macdougall, explotando a SNA para rastrear las relaciones en las brigadas de caza de búfalos Métis y proporcionar una ventana sobre el papel de las mujeres en los grupos vinculados vinculados a la caza.

Para mi propio trabajo, SNA trae una nueva forma de pensar sobre viejas preguntas historiográficas. Por ejemplo, uno puede empezar a repensar algunas de las primeras afirmaciones de Dale Miquelon sobre el comercio francés-canadiense y el capital comercial bajo el régimen británico y reevaluar el trabajo de José Igartua sobre el destino de los mercaderes de Montreal. Utilizando SNA mi trabajo investiga la interrelación entre los comerciantes de Montreal y lo que Jay Gitlin se ha referido recientemente como la frontera burguesa - un corredor criollo francés de Detroit a Nueva Orleans que duró del extremo del régimen francés hasta el siglo XIX temprano. Muestra no sólo la continuidad de viejas redes francesas de comunicación e intercambio, sino que también permite una mejor comprensión de cómo esas redes cambiaron como resultado del cambio de las realidades geopolíticas y demográficas a lo largo de la segunda mitad del siglo XVIII.

Lo siguiente muestra una maqueta muy sencilla y rápida de las relaciones familiares y la correspondencia para el comerciante Gabriel Cerré (1734-1805). La idea, por supuesto, sería vincularlos con otros comerciantes, viajeros, familias, etc. para mostrar el pleno efecto de tales redes.


Robert Englebert, Análisis de redes sociales de Gabriel Cerré (1734-1805)


Las humanidades digitales ofrecen la tentadora perspectiva de los datos de trabajo sobre los comerciantes y viajeros franceses-canadienses - recolectados y ordenados en las bases de datos - a través de SNA y mostrando los resultados en diagramas relacionales. Además, utilizando HGIS, el componente espacial de esas relaciones puede ser mapeado. Estas tecnologías y metodologías ofrecen la oportunidad de comprender las redes móviles de comunicación e intercambio, que hasta entonces habían sido difíciles de captar y representar.

Algunos podrían preguntarse si estos emocionantes nuevos enfoques de la historia colonial podrían de hecho señalar el final del empirismo tradicional. Creo que sería exagerar el aspecto fundamental que la metodología empírica juega para la mayoría de nosotros. En cambio, he llegado a pensar en estos nuevos enfoques como herramientas adicionales para llevar a cabo eficazmente el arte del historiador. No obstante, se pregunta si se puede o si se puede llevar a cabo la historia colonial norteamericana sin tener debidamente en cuenta estos nuevos instrumentos en la era de las humanidades digitales.


Referencias 


[1] Será interesante ver qué sucede con los archivos en línea mientras el dinero se seca para proyectos de digitalización masiva. Aunque lejos de concluir, parece que esto ya está comenzando.

[2] Anne Kelly Knowles y suplemento digital editado por Amy Hillier, eds., Placing History: How Maps, Spatial Data, and GIS Are Changing Historical Scholarship (Redlands, CA: ESRI Press, 2008); Jennifer Bonnell and Marcel Fortin, eds., Historical GIS Research in Canada (Calgary: University of Calgary Press, 2014).

[3] Thomas Peace, “Six Degrees to Phillip Buckner? An Accessible Introduction to Network Analysis and Its Possibilities for Atlantic Canadian History,” Acadiensis 44, no. 1 (2015): 123–44.

[4] Jennifer S. H. Brown, Strangers in Blood: Fur Trade Families in Indian Country (Vancouver: University of British Columbia Press, 1980); Sylvia Van Kirk, “Many Tender Ties”: Women in Fur-Trade Society, 1670-1870 (Winnipeg: Watson & Dwyer, 1980); Jacqueline Peterson, The New Peoples: Being and Becoming Métis in North America (Winnipeg: University of Manitoba Press, 1985); Jacqueline Peterson, “Prelude to Red River: A Social Portrait of the Great Lakes Métis,” Ethnohistory 25, no. 1 (1978): 41–67.

[5] Tanis C. Thorne, The Many Hands of My Relations: French and Indians on the Lower Missouri (Columbia, MO, and London: University of Missouri Press, 1996); Susan Sleeper-Smith, Indian Women and French Men: Rethinking Cultural Encounter in the Western Great Lakes (Amherst: Universty of Massachusetts Press, 2001); Lucy Eldersveld Murphy, Gathering of Rivers: Indians, Métis and Mining in the Western Great Lakes, 1737-1832 (Lincoln, NE, and London: University of Nebraska Press, 2000); Heather Devine, The People Who Own Themselves: Aboriginal Ethnogenesis in a Canadian Family, 1660-1990 (Calgary, AB: University of Calgary Press, 2004).

[6] Robert Michael Morrissey, “Kaskaskia Social Network: Kinship and Assimilation in the French-Illinois Borderlands, 1695-1735,” The William and Mary Quarterly 70, no. 1 (2013): 103–46.

[7] Brenda Macdougall and Nicole St-Onge, “Rooted in Mobility: Metis Buffalo-Hunting Brigades,” Manitoba History 71 (Winter 2013): 16–27.

[8] Dale Miquelon, “The Baby Family in the Trade of Canada, 1750-1820” (MA Thesis, Carleton University, 1966); José Igartua, “A Change in Climate: The Conquest and the Marchands of Montreal,” Historical Papers / Communications Historiques 9, no. 1 (1974): 115–34.

[9] Jay Gitlin, The Bourgeois Frontier: French Towns, French Traders & American Expansion (New Haven: Yale University Press, 2010).

domingo, 30 de abril de 2017

SEO con Gephi: Pagerank y modularidad para grupos de páginas web


Visualizaciones fáciles de PageRank y grupos de páginas con Gephi

Search Engine Land



En abril del año pasado, colaborador Search Engine Land Paul Shapiro ha escrito una entrada brillante sobre el cálculo de PageRank interna. El puesto ha esbozado método para examinar los enlaces internos de un sitio web con el fin de determinar la importancia de las páginas web dans le.

Esto es asombroso de gran alcance, el objetivo Creo que el concepto de Pablo podría ser más fácil de usar. Utilizó R, qui es un lenguaje y entorno de computación estadística, y la salida es básicamente un montón de números.

Quiero que le muestre cómo hacer los Sami en Gephi con sólo pulsar unos pocos botones en lugar de un montón de código - y, con unos pocos clics más, puede visualizar los datos de una manera que se siente orgulloso de mostrar a sus clientes .

Te voy a mostrar cómo obtener este resultado como un ejemplo de cómo Gephi puede ser útil en sus esfuerzos de SEO. Podrás ble para ver qué páginas son las más fuertes es sus páginas web, páginas determinan cómo se pueden agrupar por temas e identificar algunas cuestiones de sitios web comunes, tales como errores de rastreo o pobres de enlaces internos. A continuación voy a describir algunas ideas para Tomando el concepto al siguiente nivel de geek.

¿Qué es Gephi?

Gephi es un software de código abierto se utiliza para representar gráficamente que las redes y se utiliza comúnmente para representar las redes informáticas y redes de medios sociales.

Es un programa de escritorio simple, basada en Java que se ejecuta en Windows, Mac o Linux. Aunque la versión actual de Gephi es 0.9.1, le animo a descargar la versión anterior 0.9.0, o más tarde la versión 0.9.2, en su lugar. De esa manera usted será ble para seguir aquí, y evitará los errores y los dolores de cabeza de la versión actual. (Si no has-hecho recientemente, puede que tenga que instalar Java en su ordenador también.)

1. Para empezar, el rastreo de su sitio web y la recopilación de datos

Normalmente uso Screaming Frog para el rastreo. Dado que estamos interesados ​​en las páginas aquí y no otros archivos, tendrá que excluir cosas de los datos de rastreo.

Para hacer eso, Aquellos de ustedes con la versión de pago de los deberes de software Implementar la configuración que voy a describir a continuación. (Si está utilizando los límites de versión libre que a qui la recogida de 500 URL y no le permiten ajustar la configuración muchos tienen, voy a explicar qué hacer después.)

Ir a “Configuration” > “Spider” y verá algo parecido a la siguiente captura de pantalla. Haga que el suyo que coincida con la mía para los mejores resultados. Normalmente aussi añadir .*(png|jpg|jpeg|gif|bmp)$ a “Configuration” > “Exclude” para deshacerse de las imágenes, qui Screaming Frog deja veces en el retraso de rastreo.



Para iniciar el rastreo, podría URL de su sitio en el espacio en la parte superior izquierda (foto de abajo). A continuación, haga clic en "Inicio" y esperar a que el rastreo hasta el final.



Cuando se termina el rastreo, vaya a “Bulk Export” > “All Inlinks.” Usted querrá cambiar “Files of Type” a “.csv”  y guardar el archivo.

La limpieza de la hoja de cálculo


  • Eliminar la primera fila que contiene “All Inlinks.”
  • Eliminar la primera columna, “Type.”
  • Cambie el nombre del "destino" a la columna "Target".
  • Eliminar todas las demás columnas Además de “Source” y “Target.”.
  • Guardar el archivo editado (y puedes volver a hacer un uso seguro del tipo de archivo es .csv).



Opcionalmente, puede dejar otras columnas como código de estado o de texto de enlace si desea que este tipo de datos es la gráfica. Los dos principales campos que voy a estar explicando cómo utilizar son “Source” y “Target.”

Si está utilizando la versión gratuita de Screaming Frog, tendrá que hacer un montón de trabajo de limpieza para filtrar las imágenes, archivos CSS y JavaScript.

En Excel, si vas a "Insertar" y haga clic en "Tabla", obtendrá una ventana emergente. Haga su caja fuerte de datos ha-ha definido correctamente, haga clic en "Mi TIENE encabezados de tabla", y haga bien. Ahora, seleccione la flecha en la parte superior derecha de la columna "Target", y un cuadro de búsqueda aparecerá. Lo utilizan para filtrar las filas de la tabla para identificar que contienen las extensiones para los diferentes tipos de archivos, como .js o .css.

Una vez que tenga una visión de todas las filas de la tabla que tienen uno infractor tipo de archivo, seleccionar y eliminar toda la información para aquellas filas. Haga esto para cada tipo de archivo de la antes mencionada y presentar cualquier tipo de imágenes como .jpg, .jpeg, .png, .gif, .bmp o cualquier otra cosa. Cuando haya terminado, es necesario guardar el archivo como .csv de nuevo.

2. Uso Gephi para visualizar los datos de rastreo



Importación de nuestros datos


  • En la pantalla emergente que aparece al abrir la aplicación, haga clic en “New Project.”
  • A continuación, seleccione “File” > “Import Spreadsheet.”
  • Elija su archivo .csv y hacer seguro el “Separator” se establece como “Comma” y “As table” se establece como “Edges table.” Si usted tuviera que hacer un montón de limpieza de datos de Excel, haga amargo que ha eliminado cualquier filas en blanco dentro de sus datos antes de importarlo.
  • Haga clic en “Next,” y asegúrese de que “Create missing nodes” se comprueba antes de pulsar "Finish".

Para nuestros propósitos - Visualización de enlaces internos - los "Edges" son los enlaces internos, y "nodos" son diferentes páginas de la web. (Nota: Si se tropieza con un error de memoria, puede aumentar la cantidad de memoria en Asignado por Gephi Siguiendo esta guía).

Si realmente-tienen un amplio conjunto de datos o desea combinar varios conjuntos de datos, puede importar varios archivos en Gephi.

Una vez que todos los datos están en el "Laboratorio de Datos", se puede cambiar a "Información general". A continuación, verá un cuadro negro probable como la de abajo. No se preocupe, vamos a hacer que bonita en un minuto.




El cálculo de PageRank y modularidad

En la pestaña "Estadísticas", ejecute "PageRank" y "Modularidad". (Seleccionar "ventana" y "Estadísticas" si usted no ve la pestaña "Estadísticas").

Recomiendo el uso de la configuración predeterminada de PageRank, el objetivo de modularidad que lo haría destildaría "Use pesos." Esto añadirá los datos acerca de sus páginas en nuevas columnas que serán utilizados para la visualización.




Es posible que tenga que ejecutar modularidad un par de veces para hacer las cosas de la manera deseada 'em. racimos modularidad páginas que están más conectados con one modularidad otra en grupos o clases (cada par représentée un número). Usted tendrá que formar grupos de páginas que son lo suficientemente grande como para ser significativo, pero lo suficientemente pequeño como para obtener su cabeza alrededor.

Estás clustering, después de todo, por lo que la agrupación de todas sus páginas en dos o tres grupos, probablemente, trae un montón de cosas juntos diferencia. Propósito si al final con 200 racimos, eso no es del todo útil, tampoco. En caso de duda, el objetivo de un mayor número de grupos, ya que muchos de los grupos será probablemente muy pequeño y los deberes agrupaciones mano aún ser revelado.

No se preocupe, te voy a mostrar cómo comprobar y ajustar sus grupos en un minuto. (Nota :. Un menor modularidad le dará más grupos y A modularidad Superior le dará grupos Menos Tweak esto mediante fracciones en lugar de números enteros, como un pequeño cambio hace una gran diferencia).

Ajustar su configuración Modularidad

Vamos a ver lo que hemos hecho. Cambiar la pestaña de "Laboratorio de Datos" y mirar a la "Tabla de datos." Allí encontrará sus nuevas columnas para PageRank y Clase modularidad. Los deberes números de PageRank se alinean con los números de artículo mencionado de Paul Shapiro, el objetivo tesis que tienes que hacer sin tener ningún tipo de codificación. (Recuerde, los números de la tesis de PageRank son internos, no lo hemos Consulte lo general a "PageRank").

La modularidad Clase asigna un número a cada página, de modo altamente Eso páginas interconectadas recibe el número de Sami. Utilizar la funcionalidad de filtro en la parte superior derecha para aislar cada página de su grupo, y el globo ocular se examinan algunas de las direcciones URL para ver qué tan cerca están relacionados con la tesis de ser blanco. Si las páginas terminaron en el mal Clase modularidad, es necesario Puede Volver a ajustar la configuración, o podría indicar indicación de que usted no está haciendo un buen trabajo bajo el mecanismo de interconexión feliz.

Recuerde que su modularidad se basa es la vinculación interna, en realidad no el contenido de las páginas, por lo que está identificando aquellas que están normalmente unidos entre sí - Los que no deberías ser unidos entre sí.

En mi caso, he elegido un bufete de abogados y con la configuración predeterminada, que terminó con el desglose siguiente cuando me ordenadas según la modularidad, qui probablemente mejor hecho podría tener con algunos ajustes:

  • Clase 0 = lesión
  • Clase 1 = familia
  • Clase 2 = algunas páginas aleatorias
  • Clase 3 = penal
  • Clase = 4 tráfico
  • Clase 5 = DWI
  • Clase 6 = un par de páginas al azar

Puede volver a la pestaña "general" y continuará haciendo ajustes hasta que esté satisfecho con sus grupos de páginas. Incluso se ejecutan varias veces con modularidad números de la même pueden dar resultados diferentes ligeramente cada vez, por lo que puede llevar algún jugando para llegar a un punto de donde usted está satisfecho con los resultados.

Vamos a hacer una foto con Layout

Te prometí una visualización Más temprano, y es probable que te preguntas cuando llegamos a ese recurso compartido. Vamos a hacer que el cuadrado negro en una visualización real de que es más fácil de entender.

Ir a "Visión general"> "Diseño". En el cuadro desplegable lado izquierdo donde dice ": elija un diseño," seleccionar "ForceAtlas 2."




Ahora sólo tiene que jugar con los ajustes que para conseguir una visualización que se sienta cómodo. (Si alguna vez se pierde, haga clic en la imagen de la lupa poco en el lado izquierdo de la imagen, y que centrarán y el tamaño de la visualización así que todo es visible en la pantalla.) Para el patrón de la estrella por encima, he puesto "Escala" de 1000 y "gravedad" a 0,7, el resto objetivo son valores predeterminados. Los dos principales ajustes que jugar con escalamiento son probable y gravedad.

Escalamiento gobierna el tamaño de la visualización; El Superior se establece, la más escasa su gráfico será. La manera más fácil de entender la gravedad es pensar en los nodos como los planetas. Cuando aumenta la gravedad, esto atrae todo más cerca. Puede ajustar esta marcando la casilla "Más fuerte gravedad" y ajustando el número de gravedad.

Hay algunas otras opciones, y los efectos son de cada interfaz Explicado dans le. No dude en jugar con ellos (siempre se puede cambiar de nuevo) y ver si hay algo que ayuda a que la visualización más clara.

¿Qué queremos mostrar?

En el caso citado, queremos mostrar modularidad Ambos grupos de páginas () y PageRank interna. La mejor manera que he encontrado para hacer esto es para ajustar el tamaño de los nodos se basa PageRank y los colores se basan modularidad. En la ventana "Aspecto", seleccione "nodos", "Tamaño" (el segundo icono), y en la "pestaña" donde hay un desplegable de "Clasificación Elija un atributo," seleccionar "PageRank".

Elija Algunos tamaños y pulsa "Aceptar" hasta que los nodos más importantes son distinguibles de los otros. En la captura de pantalla a continuación, tengo el tamaño mínimo establecido como el 100 y el tamaño máximo en 1.000. Ajuste del tamaño del nodo se basa PageRank le ayuda a identificar fácilmente significativo es sus páginas web - son más grandes.




Para visualizar los grupos de páginas con modularidad, todavía nos queremos estar en la ventana de "Apariencia", el objetivo de este tiempo queremos seleccionar "nodos" "color" (el primer icono), y "Música". En el desplegable hacia abajo para "Elija un atributo," seleccionar "Clase modularidad."

Algunos colores predeterminados están pobladas, meta si desea cambiar ellos, hay un pequeño botón verde de "paleta". En la Paleta, si hace clic en "Generar", puede especificar el número de colores para mostrar basándose se cuántos grupos La modularidad consiguió cuando se ejecuta.

En mi caso, las clases 2 y 6 no eran muy grandes, así que estoy haciendo clic en Cerrar en sus colores y cambiando a em negro. Si desea mostrar sólo un tema específico, cambiar el color de una sola clase modularidad, dejando los otros hicieron comentarios otro color.




Cambio de la visualización

Puede usted desear para etiquetar los nodos de modo que sabemos lo Representan la página. Para agregar una etiqueta con la dirección URL, tenemos que volver a la pestaña "Laboratorio de Datos" y seleccione la tabla de datos. Hay una caja en la parte inferior para "Copiar datos a otra columna," y queremos copiar "ID" para "etiqueta" para obtener las direcciones URL para mostrar. El proceso es similar para los bordes. Si ha guardado el texto de anclaje del rastreo, puede etiquetar cada flanco con el texto del ancla.

De nuevo en la pestaña "Ver", tendrá que seleccionar cómo desea que su visualización que se vea. Normalmente selecciono "Default curvo" en virtud de los ajustes preestablecidos, el objetivo de una gran cantidad de personas como "Straight predeterminado".

Cambiar el tamaño de fuente y el tamaño proporcional para las etiquetas ayudará a visualizar em de manera que se pueden leer en diferentes tamaños. Sólo jugar con la configuración de la ficha de vista previa para conseguir que se muestre la forma que desee.

Para la visualización de abajo, he apagado etiquetas de nodo y el borde de manera que no repartiera la identidad del sitio web de la empresa, salvo derecho particular que he utilizado. En su mayor parte, Han hecho un buen trabajo agrupando sus páginas y que une internamente. Si hubiera dejado columna de texto del ancla en la hoja de cálculo de Screaming Frog, podría haber tenido Cada enlace interno (línea) muestra las TIC con el ancla de texto como un sello de borde y cada página enlazada desde (círculos) como una etiqueta de nodo.


Gephi para los conjuntos de datos más grandes

Para los conjuntos de datos más grandes, todavía se puede utilizar Gephi, AUNQUE su gráfico es probable que se parecen más a un mapa estelar. Me graficada los enlaces internos de Search Engine Land, meta que tuvo que ajustar el escalado a 5000 y gravedad a 0,2 en los ForceAtlas 2 ajuste.

Todavía se puede ejecutar cálculos de PageRank y modularidad, el propósito es probable que necesite cambiar el tamaño de los ganglios a algo grande para ver Cualquier dato que su gráfico. También puede que tenga que añadir más colores a la paleta, como se describió anteriormente, ya que hay muchas clases de modularidad probables más distintivas en un conjunto de datos de este tamaño. Esto es lo que el gráfico de SEL se ve como antes de teñirlo.




¿Por qué esto tiene alguna importancia?

Gephi se puede utilizar para mostrar una variedad de problemas. En una Anteriormente he publicado en mi artículo sobre el futuro de SEO, que mostró una fractura entre HTTPS y HTTP.

Además, se puede descubrir secciones qui puede ser considerado por un cliente significativo que enviaban muy bien conectado internamente. Por lo general, la tesis están más lejos hacia fuera en la visualización debido a la gravedad, y es posible que desee enlazar a ellos más de las páginas de actualidad relacionadas.

Una cosa es decirle a un cliente que necesita más enlaces internos, el objetivo es mucho más fácil para mostrarles que ellos consideran una página a ser significativo En realidad es muy aislado. El cuadro abajo Fue creado por un simple cambio de mi modularidad hasta que sólo tenía dos grupos. Comentarios Este era porque tenía dos enlaces HTTP y HTTPS en mi rastreo, y reduje la modularidad hasta que tenía sólo dos grupos, la mayoría de qui relacionados fueron páginas HTTP > HTTP y páginas HTTPS > HTTPS.




Hay un montón de otras cosas que este tipo de visualización que pueden pista sobre. Busque nodos individuales por sí mismos. Puede usted encontrar tonos de páginas escasas o incluso errores de rastreo. Trampas de araña puede mostrar como una especie de una línea infinita de páginas y páginas que no están en las agrupaciones adecuadas puede significar que enviaban une internamente a partir de ellos las páginas más relevantes.

Un sitio web bien ligado internamente puede parecer más como un círculo que una estrella, y no me parece que es un problema incluso si los colores no siempre se alinean en grupos. Hay que recordar que cada sitio web es única y visualización de cada uno es diferente.




Es difícil de explicar todas las posibilidades, el objetivo si se intenta algunos de estos, usted comenzará a ver los problemas comunes o tal vez incluso algo nuevo y diferente. Estas visualizaciones se permitirá ayudar a los clientes a entender que usted siempre está hablando. Yo te prometí que sus clientes les va a encantar.

Gephi: tiene una serie de opciones para la exportación .png, .svg, .pdf o si desea crear imágenes estáticas. Más divertido es exportar para su uso página web fue por lo que se crea una experiencia interactiva. Para hacer eso, echa un vistazo a los complementos de Gephi - En particular, la exportación y SigmaJS Gexf-JS Web Viewer.

¿Qué más podemos hacer con Gephi?

Añadir información adicional acerca de los vínculos

Si puede-tener un rastreador que identifican el alquiler de los enlaces, se puede ajustar el peso de sus bordes se basa de manera diferente en el alquiler del enlace. Digamos, por ejemplo, que le damos a cada contenido Enlace un valor mayor que, por ejemplo, un sistema de navegación o pie de página de enlaces. Esto nos permite cambiar el cálculo PageRank interno basado en el peso de los enlaces, determinadas por sus alquiler. Que mostraría probable una representación más exacta de cómo Google está valorando probable es que los enlaces en base a su inversión.

Esto nos permite cambiar el cálculo PageRank interno basado en el peso de los enlaces, determinadas por sus alquiler. Que mostraría probable una representación más exacta de cómo Google está valorando probable es que los enlaces en base a su inversión.

Recalando en métricas de terceros para obtener una visión más completa

La visualización que hemos estado trabajando allí hasta el momento ha sido-en base a cálculos internos de PageRank y asume que todas las páginas tienen el mismo peso en la salida. Sabemos, por supuesto, que esta no es la forma en que Google ve las cosas, que cada página habría Enlaces de variable, la fuerza, la clase y la relevancia de ir a ellos desde sitios externos.

Para hacer nuestra visualización más compleja y útil, podemos cambiarlo para tirar en las métricas de terceros más que la fuerza interna PageRank. Hay un número de diferentes fuentes para esta información como sea posible, tales como Moz Page Authority, Ahrefs URL Rating, o Majestic Citation Flow o Trust Flow. Cualquiera de estos deben trabajar, por lo que elegir a su favorito. Los deberes resultado ser una representación más exacta de la página web como los motores de búsqueda lo ven, ya que ahora se tiene en cuenta la fuerza de las páginas.

Podemos empezar con el archivo Sami hemos creado para mostrar encima de PageRank interna. En Gephi, vamos a ir a la pestaña "Laboratorio de Datos" y hacer un uso seguro estamos en la pestaña "nodos". Hay una opción "Exportar tabla", y se puede exportar sus columnas en un archivo .csv de su elección. Abrir ese archivo exportado en Excel y crear una nueva columna con cualquier nombre que desee. Me pasó a llamarlo "CF" ya que estoy usando flujo Cita Majestic en mi ejemplo.

Ahora, vamos a incorporar a los datos de terceros. En la hoja de cálculo que exportan desde Gephi, he copiado los datos de Majestic que tiene la página en una columna de flujo y Cita en el segundo. Ahora tenemos que casarse con estos datos a la primera, y se puede hacer esto utilizando una fórmula BUSCARV.

En primer lugar, seleccionar los datos Majestic - Ambas columnas - y convertirlo en un rango con nombre. Para ello, vaya al menú desplegable Insertar y seleccione Nombre. A partir de ahí, elegir la opción "definir" y nombre de rango de sus datos Majestic lo que quiera. Para nuestro ejemplo, lo llamaremos "majestuosa".

A continuación, volver a la columna "CF" en el conjunto de datos original. Haga clic en la primera celda en blanco y tipée =VLOOKUP(A2,majestic,2,FALSE), A continuación, pulsa "Enter" en su teclado. Copiar esto a todas las otras entradas "CF" haciendo doble clic en el pequeño cuadrado en la parte inferior derecha de la caja. Esta fórmula utiliza los datos en la columna A - la URL - tener una llave, y luego hacerlo coincidir con la dirección URL en los datos Majestic Sami. Luego se dirige a la siguiente columna de datos Majestic - los datos PageRank externa que estamos buscando - y tira de ella hacia la columna de la FQ.

A continuación, tendrá que hacer clic en la letra de la columna en la parte superior de la columna de la CF para seleccionar todo en la columna. Haga clic en "CTRL + C" para copiar, a continuación, haga clic derecho e ir a "Pegado especial" en los que aparece y seleccionar el menú "Valores". Esta es nuestra fórmula para reemplazar a los números reales. Ahora podemos eliminar las filas que se había nuestros datos de terceros y salvar a nuestro archivo de nuevo como .csv.



De vuelta en Gephi y en el "Laboratorio de Datos," queremos hacer clic en "Importar hoja de cálculo" para tirar en la tabla que acaba de hacer. Seleccione el archivo .csv creado. Esta vez, a diferencia con los pasos anteriores, queremos cambiar "como mesa" a "mesa de nodos." Haga clic en "Siguiente" y hacer agrio "nodos de fuerza que ser creado como nuevos" no está marcada, después haga clic en "Finalizar". Esta deberes reemplazar la tabla nodos de datos con nuestra tabla modificada que incluye CF.

En la parte inferior de la pantalla de aplicación, verá un botón de "Copiar datos a otra columna." Simplemente queremos seleccionar "CF" y en el "Copiar a" queremos seleccionar "PageRank". Ahora, en vez PageRank interna de los datos generados, estamos utilizando los datos de PageRank externas de terceros.

De vuelta en la pestaña "Información general", queremos mirar en "Apariencia" y pulsa "Aceptar" una vez más. Ahora nuestros nodos deberías ser de un tamaño basado en la fuerza es a partir de nuestros datos CF Majestic. En mi siguiente gráfico, se puede ver qui son las páginas más fuerte en el sitio web, Teniendo en cuenta las medidas externas de la fuerza de las páginas.





Se puede decir mucho sólo de esta imagen de uno. Cuando se enciende en las etiquetas, se puede ver en cada páginas quien representa cada círculo. El color indica agrupación a cual se agrupa, y el tamaño de círculo indica la fuerza relativa de la página.

La tesis de la parte superior más lejos puntos son, al menos las páginas están vinculadas internamente. Se puede decir por el número de nodos de cada color qué categorías que el cliente ha creado en su mayor feliz y lo que ha sido exitoso para ellos en la atracción de los enlaces externos. Por ejemplo, se puede ver que hay una gran cantidad de puntos de color púrpura, lo que indica que es probable indicación área significativa práctica el año para la empresa y que están creando una gran cantidad de feliz a su alrededor.

El problema es mayor Que la púrpura puntos están más lejos del centro, indicando indicación de que no están bien comunicados internamente. Sin dar demasiado lejos, te puedo decir que muchos de los puntos lejanos a cabo son las entradas del blog. Y mientras lo hacen un buen trabajo de los blogs con enlaces a otras páginas, hacer un trabajo pobre Ellos, por la promoción de sus entradas de blog en el sitio web.

Conclusión

Espero que hayan disfrutado jugando junto con sus propios datos y ha conseguido un buen sentido de cómo Gephi puede ayudar a visualizar grandes datos procesables para usted y para sus clientes.

miércoles, 26 de abril de 2017

ARS se debe adaptar al Big Data

Adaptación del análisis de redes sociales a la era de los grandes datos

Michael Todd | Methodspace

Song Yang


"Las redes sociales", reza un pasaje del nuevo libro, Social Network Analysis: Methods and Examples, "han sido un rasgo definitorio de la sociedad desde los albores de la humanidad: la gente siempre ha interactuado entre sí o ha hecho amigos de enemigos. "Pero el uso generalizado del término" red social "es una criatura de Internet, incluso si el análisis académico de las redes sociales -pensamos en Simmel y Durkheim- es anterior a su llegada a la lengua vernácula. La primera edición del "pequeño libro verde" de SAGE sobre análisis de redes sociales, por ejemplo, surgió en 1982.

Independientemente de sus raíces, el análisis de estas redes sociales -como estas conexiones humanas afectan las percepciones, creencias y comportamientos de individuos, grupos y organizaciones- ha encontrado una amplia aplicabilidad a través de una gama de esfuerzos, tanto en las ciencias sociales como en las no académicas Como la seguridad nacional, las finanzas y la gestión.

Song Yang, el autor principal de ese nuevo libro sobre análisis de redes sociales, aquí responde a algunas preguntas sobre el análisis de redes sociales, sus aplicaciones y cómo enseñar su uso. Yang es profesor de sociología en el Department of Sociology and Criminal Justice de la Universidad de Arkansas. Sus intereses de investigación han incluido durante mucho tiempo un enfoque en el análisis de redes sociales, y en 2007 él y David Knoke co-autor de una segunda edición de ese "pequeño libro verde" - el nombre coloquial para los trabajos cortos en las aplicaciones cuantitativas en las Ciencias Sociales serie - en análisis de redes sociales. Yang, también titular de la profesión de Qianren en la Escuela de Sociología y Ciencias Políticas de la Universidad de Shanghai, respondió a nuestras preguntas durante el período sabático en China.

¿Cuáles son los puntos fuertes del análisis de redes sociales? ¿Cuáles son sus debilidades?

Fortaleza: La gente toma decisiones, encuentra las mejores ofertas, conduce negocios diarios e incluso mantiene la salud mental usando sus contactos de redes sociales. Los modelos tradicionales de las ciencias sociales no explican el contexto de la red social para explicar los comportamientos de las personas, perdiendo un importante marco explicativo. El análisis de redes sociales (ARS) ofrece argumentos convincentes para arrojar luz sobre las opciones y acciones de las personas. El desarrollo del ARS es impulsado por crecimientos explosivos en la metodología, lo cual se debe principalmente a 1) colaboraciones interdisciplinarias, 2) computadoras de gran alcance y baratas, y 3) desarrollos de redes sociales soportados por computadora.

Debilidad: El ARS se utiliza indistintamente de referencias metafóricas al modelado matemático formal. Para el público en general, puede ser confuso, ya que muchos asumen que las redes sociales son los mismos que los contactos de Facebook, mientras que otros lo relacionan con personas con las que cenan. El uso mixto del ARS por los académicos, al tiempo que fortalece el desarrollo académico del ARS, no ayuda a presentar una versión aclarada del ARS al público en general.

Otra cuestión que enfrentan los académicos del ARS es la causalidad de la ambigüedad - ¿uno tiene amigos que fuman primero, luego forman redes con sus amigos fumadores (el comportamiento provoca la formación de redes)? ¿O se tiene una red social de amigos que son fumadores, entonces él / ella se convierte en un fumador (la red causa comportamiento)? En la medida en que la ambigüedad de la causalidad es un problema para la investigación en ciencias sociales en general, es un tema particularmente desafiante al que se enfrentan los especialistas en redes sociales. Yo llamaría esto no sólo desafío, sino también una oportunidad para desarrollar soluciones, mejorando así el marco de ARS.

Las redes sociales, e incluso el estudio académico de ellas, existieron mucho antes del surgimiento de lo que el público podría considerar como redes sociales, es decir, Facebook o Twitter. Pero, ¿cómo afectaron esas entidades al análisis de las redes sociales? ¿Cómo afectan los grandes datos el ARS?

Llamamos a esas redes como Facebook y Twitter 'red social soportada por computadora' (RSSC) o 'red de medios sociales' (RMS). El desarrollo del RSSC / RMS ayudó al ARS, ya que el público en general comenzó a prestar mucha atención al ARS. Sin embargo, tan pronto como miran el SCN, se dan cuenta de que no es lo que esperaban que el ARS fuera. Ciertamente, la situación cambia, ya que muchos académicos del ARS intentan analizar los datos de RSSC o RMS, donde encuentran desafíos de recolección de datos, minería de datos, almacenamiento de datos y análisis de datos. Aquí se necesita un esfuerzo interdisciplinario que involucra a científicos sociales y científicos duros (informática / EE) para facilitar las capacidades de minería de datos y análisis de datos.

Lo mismo puede decirse de los grandes datos, un concepto que comenzó en su mayoría en informática. Su crecimiento se superpone con el ARS, ya que RSSC y RMS genera comúnmente miles de millones de mensajes que conectan a miles de millones de usuarios. Los grandes datos son a la vez un reto y una oportunidad para colaboraciones interdisciplinarias para ahondar en; Pienso que ofrece una trayectoria brillante para que el ARS continúe creciendo y para estar en el centro del paradigma de la ciencia social.


Su nuevo libro con Franziska Keller y Lu Zheng incluye la palabra 'ejemplos' en el título. ¿Podría dar un ejemplo que demuestre la utilidad y el poder del análisis de redes sociales?

Estoy fascinado con el concepto de liderazgo. Por supuesto, ser un líder da un poder autoritario para ordenar a sus subordinados a hacer su trabajo. La lógica subyacente es la amenaza - si el subordinado se niega, puede ser despedido. Pero ¿con qué frecuencia los líderes invocan tal lógica para ejercer el liderazgo? De hecho, cuando los líderes invocan amenazas para asegurarse de que sus mandamientos están siendo obedecidos, el liderazgo se acerca a su fin.

Aquí, el análisis de redes sociales ofrece una explicación alternativa convincente al ejercicio del liderazgo. Por ejemplo, otra forma de influir en las conductas de las personas es a través de las relaciones de consulta, en contraposición a las amenazas autorizadas. Un líder necesita conectarse con los subordinados, no con las relaciones autoritativas (verticales), sino con los lazos de asesoramiento entre pares. Mucha gente respondería muy positivamente cuando percibiera que el líder les está ofreciendo el mejor consejo en sus situaciones, y reaccionarán bastante negativamente cuando piensan que el líder los está comandando con barras autoritativas.

Hay varios libros sobre análisis de redes sociales, incluyendo su propio "pequeño libro verde" sobre el tema desde 2007. ¿Qué ofrece el análisis de redes sociales: métodos y ejemplos que extiende o mejora la beca existente?

El "pequeño libro verde" de nuestro libro del ARS ofrece una breve descripción sucinta sobre el ARS. Llega a los puntos muy rápidamente, pero muchos temas se mencionan sin mucha elaboración. Para los académicos del ARS, nuestro pequeño libro verde de ARS es suficiente para el diseño, la implementación y el análisis de las redes sociales. Sin embargo, para muchos entrantes, es posible que desee ver algo que cubre ARS mucho más completo en cada uno de los temas mencionados. Nuestro libro, Social Network Analysis: Methods and Examples, debería alcanzar un rango más amplio de público en general que el pequeño libro verde.

Además, una característica única de nuestro Social Network Analysis: Methods and Examples de ARS es que ofrece cuatro capítulos sustantivos que ilustran cómo los académicos de diversos campos (administración, justicia penal, salud pública y ciencia política) pueden aplicar con éxito el ARS para extender sus respectivos Análisis. Hasta donde yo sé, este es el primer libro que discute las extensas aplicaciones del ARS en diversas áreas académicas.

En cuanto a la metodología del ARS, ¿hay algo con lo que los estudiantes a menudo luchan? ¿Cómo aborda eso?

Dos cosas que los estudiantes luchan mucho: 1) análisis de datos, y 2) conectar los puntos.

  1. El análisis de datos ha sido un tema difícil para los estudiantes de ciencias sociales en general, y por supuesto el SCN no es una excepción. Mientras que los métodos descriptivos del SCN (densidad, centralidad, etc.) todavía plantean algunos retos a los estudiantes, uno nuevo como el modelado exponencial del gráfico aleatorio (ERGM) requiere la formación avanzada en la estadística y la informática, presentando grandes desafíos a estudiantes y profesores por igual. Parece que la disociación entre el avance de la metodología en la investigación del SCN y la enseñanza en el aula persiste - o incluso se expande - presentando grandes desafíos a las metodologías de enseñanza.
  2. En el segundo punto, muchos de mis estudiantes están aturdidos cuando paso del uso metafórico de la red social al diseño concreto, recopilación y análisis de datos de redes sociales. Luego la clase salta a la aplicación de ARS en diversas áreas de investigación. Aunque en el diseño curricular, éstos son ingredientes integrales del tema del ARS, en la enseñanza en el aula, los estudiantes pueden tener dificultades para ver las conexiones entre esos elementos. Es muy importante que los profesores presenten el "panorama general" a los estudiantes todo el tiempo.


Su propia educación incluye una maestría en ingeniería informática. ¿Cuánta capacidad técnica necesito para participar en análisis de redes sociales? ¿Qué herramientas necesito?

Ciencias de la computación tiene un capítulo sobre "teoría de grafos", que se ocupa de la optimización de la red (en sus campos, las computadoras son nodos, las redes son los vínculos que conectan las computadoras). Sin embargo, la idea básica es algo similar entre los dos campos. En términos de preparación técnica para participar en los estudios del ARS, requiere más aclaración conceptual que la preparación técnica. Sin duda necesita material técnico, pero saber qué hacer en cada paso del proceso ARS es clave para verlo a través. Actualmente, el software que facilita el ARS son UCINET y SIENA, etc., lo que hace cada vez más importante la clarificación conceptual.

Muchas disciplinas y profesionales utilizan análisis de redes sociales, tanto en ciencias sociales como en el gobierno y la industria. ¿Difiere el ARS de la manera en que un sociólogo la usa en comparación con cómo una figura de seguridad nacional (u otro no académico) podría usarla?

No sé mucho acerca de ARS en el gobierno o el uso de la industria. Una diferencia clave entre el académico y el gobierno en el ARS es que mientras los académicos alientan el foro público de intercambios libres de ideas y discusiones abiertas de varios métodos, el gobierno a menudo lleva a cabo operaciones encubiertas usando el ARS. Supongo que es porque tienen diferentes misiones - académicos enfatizan la función educativa, el gobierno quiere su utilidad.

¿Qué predecir para el futuro del ARS?

Datos grandes (Big Data).

Sé que se ha convertido en una palabra de moda que todo el mundo está hablando. Sin embargo, los datos grandes tienen coincidencia significativa con SNA, especialmente en los dominios de RSSC o RMS. Las personas pasan cada vez más tiempo en sus computadoras o teléfonos inteligentes para diversas funciones, las redes sociales son una parte significativa de este uso de la tecnología por parte de la población en general. Es un agujero demasiado grande para ser pasado por alto por los científicos sociales. Pero nuevamente, la minería de datos, el almacenamiento y el análisis presentan un gran desafío y oportunidades para los científicos sociales que trabajarán con científicos de ingeniería de computadoras / electricidad para explorar esta enorme área.

domingo, 23 de abril de 2017

Redes de ingredientes revelan secretos de los sabores

Conectividad
Las redes del sabor revelan el principio universal detrás de recetas acertadas

Cadenas ocultas de sabores entre los ingredientes explican lo que hace que algunos platos sabor mejor que otros, dicen los científicos de alimentos.

MIT Technology Review



En este grafo que representa los 100 ingredientes principales en la red global del sabor, los nodos son ingredientes, los bordes representan sabores compartidos, y los colores del nodo representan los racimos de ingredientes ligados.

Dado el número de ingredientes que los seres humanos comen, el número total de maneras de combinarlos es del orden de 10 a la potencia 15. Y sin embargo, el número real de recetas que comemos es de alrededor de un millón, una pequeña fracción del total. Eso sugiere fuertemente un principio organizador que, en términos de receta, clasifica el trigo de la paja.

Por lo tanto, un desafío continuo para los científicos de alimentos es descubrir las leyes que rigen las combinaciones de sabores y utilizarlas para crear nuevas recetas que aún no han sido experimentadas por las papilas gustativas humanas.

Hoy en día, Tiago Simas en Telefónica Research en Barcelona, ​​España, y unos cuantos amigos dicen haber descubierto un principio importante de combinación de sabores al estudiar alimentos de diferentes culturas. Esta nueva visión podría ayudar a crear nuevas recetas.

El trasfondo del descubrimiento de este grupo es la hipótesis de apareamiento de alimentos desarrollada por los chefs Francois Benzi y Heston Blumenthal. A primera vista, los alimentos como el chocolate y el queso azul pueden parecer tan diferentes como es posible para los alimentos. Y sin embargo, estos alimentos comparten 73 diferentes moléculas de sabor.

Es por eso que en algunos restaurantes de alta gama, a veces encontrará queso azul y chocolate en los mismos platos. El pensamiento es que cuando los ingredientes contienen las mismas moléculas de sabor, pueden ser emparejados con éxito. La idea es que los sabores compartidos ayudan a mezclar los ingredientes más eficazmente. El emparejamiento de los alimentos sugiere inmediatamente una nueva forma de crear nuevas recetas, por lo que rápidamente ganó influencia entre una cierta raza de gastrónomos.

Luego, en 2011, una curiosa investigación reveló que el emparejamiento de alimentos era sólo parte de la explicación detrás de las recetas exitosas. En este trabajo, un equipo de la Universidad de Harvard en Cambridge, Massachusetts, analizó la red de enlaces entre ingredientes en recetas de todo el mundo. En esta red, los ingredientes son nodos en una red, vinculados cuando comparten las moléculas de sabor.

Este enfoque convirtió la hipótesis de apareamiento de alimentos en su cabeza. Cuando las recetas de América del Norte y Europa Occidental son analizadas de esta manera, las redes revelan que el emparejamiento de alimentos es un factor importante. Pero cuando el equipo analizó recetas de Asia oriental (Corea y Japón, por ejemplo), encontraron exactamente lo contrario. Estas cocinas parecen combinar los mismos alimentos que no comparten ingredientes de sabor. Es evidente que la hipótesis de apareamiento de alimentos es sólo parte de un panorama más amplio y en la necesidad de una actualización seria.

Entre Simas y sus colegas. Estos chicos han mirado un poco más difícil en la web de sabores detrás de las recetas y descubrió un principio más profundo en el trabajo. La idea básica es que cuando dos ingredientes no comparten sabores, el equipo busca un tercer ingrediente con sabores en común con cada uno de los primeros pares. De esta manera, fueron capaces de identificar las cadenas de sabor y explorar cómo recetas en diferentes partes del mundo los utilizan.

Por ejemplo, el albaricoque y el whisky no comparten sabores entre sí, pero tienen sabores en común con el tomate. Esto crea una cadena de sabor que une los tres ingredientes, haciéndolos adecuados para ser utilizados en la misma receta.

El equipo llama a este puente de comida. La definen como "la capacidad de conectar un par de ingredientes, que pueden o no tener una conexión directa, a través de un camino de ingredientes no repetitivos".

Esto tiene un impacto importante en las recetas. Mientras que el emparejamiento de los alimentos intensifica el sabor mezclando ingredientes en una receta con compuestos químicos similares, el alimento que puentea suaviza cualquier contraste entre los ingredientes, diga Simas y coautores.

Entonces, ¿qué papel juega la comida en las recetas de diferentes culturas? Para averiguar, Simas y co examinaron las redes de sabor de cocinas de diversas partes del mundo y luego analizaron los respectivos papeles de emparejamiento de alimentos y comida puente en cada cocina.

En América Latina, por ejemplo, las recetas explotan el emparejamiento de alimentos y el establecimiento de puentes alimentarios, mientras que los alimentos de Asia oriental parecen evitar ambos principios. Las cocinas del Sudeste Asiático como el tailandés y el vietnamita parecen depender sólo de la comida que puentea, mientras que los alimentos de América del Norte y Europa occidental usan sólo el emparejamiento de alimentos.

Es un trabajo interesante que extiende los principios detrás de la forma en que creamos recetas. De hecho, revela que el emparejamiento de los alimentos es realmente un caso especial de alimentación puente en la que el número de nodos en la cadena de sabor es 0.

Una mejor comprensión de estos principios debería ayudar a los chefs a crear nuevas recetas en estilos específicos. Pero no es de ninguna manera el ser-todo y el final-todo de la cocina. Recetas de éxito tienen una amplia gama de diferentes parámetros, además de sabor. No es la textura de la comida, su temperatura, su boca se sienten, y su color, por nombrar sólo unos pocos.

Los puentes alimentarios ciertamente pueden ayudar con nuevas recetas. Pero una herramienta verdaderamente universal para la creación de recetas tendrá que ser mucho más amplia para incorporar estos otros factores en su modelo. Eso requerirá un trabajo significativo.

Pero paso a paso, los científicos de los alimentos están aprendiendo cómo los humanos podan la lista de todas las combinaciones posibles de alimentos para producir las combinaciones que realmente terminan comiendo.


Ref: arxiv.org/abs/1704.03330 : Food-Bridging: A New Network Construction To Unveil The Principles Of Cooking


sábado, 22 de abril de 2017

Análisis semántico expone falsedades en informaciones rusas sobre incidentes internacionales

Grandes Datos Expone Grandes Falsedades

El análisis de Semantic Visions revela diferencias intrigantes entre los comentarios rusos y occidentales sobre el derribo de un avión en 2014.

De John Pollock | MIT Technology Review 


Cuando Vladimir Putin tomó el poder "unos segundos antes de 2000", la atención del mundo estaba en otra parte. Introduciéndose a sí mismo con un breve comunicado que rezaba: "La libertad de expresión, la libertad de conciencia, la libertad de los medios de comunicación, la libertad de los derechos de propiedad, estos principios básicos de la sociedad civilizada, estarán bajo la protección segura del Estado". Desde entonces, el Kremlin ha estrechado firmemente su ligadura alrededor de los medios rusos. En 2000, Putin firmó la Doctrina de Seguridad de la Información de Rusia. Actualizado en diciembre pasado, ahora es un tercio de la longitud de su predecesor.

"Los dos tercios que faltan son todas las tareas que Rusia emprendió para evitar la influencia externa", dice Keir Giles, un investigador del Centro de Investigación de Estudios sobre Conflictos en el Reino Unido. "Han tenido un par de décadas para poner esto en marcha, y ha habido Una verdadera aceleración en los últimos cuatro años ". Un análisis original realizado para MIT Technology Review por Semantic Visions, una startup checa que genera" inteligencias complejas de código abierto "evaluaciones de riesgo, confirma la iniciativa del Kremlin.

Utilizando la "base de datos semántica más grande del mundo", Semantic Visions exploró el derribo del MH17 en 2014 junto con otras historias importantes en la guerra de Rusia contra Ucrania (ver "Russian Disinformation Technology"). Ellos compararon 328,614,220 artículos de lengua inglesa y 58,207,194 artículos en ruso, con una longitud promedio de 3.000 caracteres, entre enero de 2014 y abril de 2016. Estos son recogidos de más de 25 millones de fuentes que los analistas de Semantic Visions han descubierto y clasificado, de los cuales analizan Alrededor de medio millón diario. Los resultados iluminan los intereses nacionales y extranjeros de la propaganda del Kremlin, y arrojan una luz poco halagüeña sobre aspectos de la cobertura mediática occidental.



Frantisek Vrabel, CEO de Semantic Visions, explica: "Elegimos los Juegos Olímpicos de Sochi políticamente más neutrales como un" control "para mostrar la proporción normal de artículos de idioma ruso (rojo) a inglés (azul) para un evento internacional. El interés ruso en Crimea es sostenido, contrastando con el interés de los medios occidentales. La invasión en el este de Ucrania sigue un patrón similar.




Sin embargo, los datos para el derribo de MH17 son inusuales. "La historia rusa inicial fue que MH17 fue derribado por un caza a reacción de Ucrania, por lo que pensaría que lo usarían para apoyar su versión", dice Vrabel. Pero sabían que habían hecho algo mal. Es casi como si estuvieran intentando minimizarlo ".



Semantic Visions realizó un análisis más detallado hora por hora, trazando la cobertura en las 90 horas siguientes a la tragedia. La diferencia se vuelve aún más marcada en comparación con el vuelo 9268 de Metrojet, que explotó el 31 de octubre de 2015, sobre la Península del Sinaí, con la pérdida de 219 rusos, cuatro ucranianos y un bielorruso. (Aunque la explosión todavía está bajo investigación, tanto Rusia como Egipto sospechan una bomba, reclamada por ISIS).




Aquí los datos en ruso durante las 90 horas siguientes siguen de cerca los resultados globales en inglés, a pesar de que el interés doméstico representa una proporción mayor que en el "control" de Sochi.

Un mes después del derribo del MH17, Rusia llevó a cabo una exitosa operación de información dirigida a los medios occidentales. Afirmando que estaban manejando un convoy humanitario, atrajeron la atención global con cientos de camiones que pretendían ofrecer "asistencia humanitaria". (El Instituto de Análisis de Propaganda llamó a ese "sentirse bien" el lenguaje "generalidades brillantes".) Que los rusos no permitieran Reporteros para ver dentro de la mayoría de los camiones, y que estaban acompañados por helicópteros de ataque, era menos importante que la proximidad de las palabras "ruso", "ayuda" y "humanitaria" en los titulares. Esta charada "no estaba destinada al público ruso, sino a una audiencia global en su guerra informativa", dice Vrabel.



Los datos grandes también tienen otros usos. En enero de 2016, una investigación británica nombró a varios autores del envenenamiento por polonio 210 de Alexander Litvinenko. Los investigadores dijeron que Putin probablemente había aprobado este acto de lo que los servicios de seguridad rusos llaman "wet business" (mokorye delo). Visiones semánticas también rastrearon esta historia, analizando quién la cubrió o la compartió. Vrabel dice que la base de datos resultante de las fuentes les permite identificar "quién está infectado con la propaganda rusa".

viernes, 21 de abril de 2017

Nuevo algoritmo para atacar redes (criminales) basado en abejas


Los científicos desarrollan un nuevo algoritmo inspirado en colonias de abejas para ayudar a desmantelar redes sociales criminales
Phys.org



 Los científicos desarrollan un nuevo algoritmo inspirado en colonias de abejas para ayudar a desmantelar redes sociales criminales

Investigadores de la Universidad de Granada (UGR) han diseñado un algoritmo, inspirado en el comportamiento inteligente y social de las colonias de abejas, que permite a las fuerzas del orden atacar y desmantelar cualquier tipo de red social que suponga una amenaza, ya sean redes sociales físicas o virtuales vinculadas al crimen organizado y al terrorismo yihadista.

Las posibles aplicaciones de este nuevo algoritmo bio-inspirado, que ayuda a tomar decisiones óptimas para desmantelar cualquier tipo de red social, son muchas y variadas: desde desmantelar una red criminal hasta facilitar el diseño de estrategias de vacunación capaces de contener la difusión de una pandemia.
La herramienta diseñada por los investigadores de la UGR detecta e identifica automáticamente a los actores o nodos más peligrosos dentro de una determinada red social y la densidad de las relaciones interconectadas entre ellos, lo que puede ayudar a las autoridades a tomar sus decisiones y actuar de la manera más eficiente posible.
Según lo explicado por uno de los autores de este artículo, Manuel Lozano Márquez, del Departamento de Informática e Inteligencia Artificial de la UGR, "las abejas forman sociedades bastante bien organizadas, en las que cada miembro tiene un papel específico. : Las abejas exploradoras que buscan fuentes de alimento, las abejas obreras que recolectan alimentos y las abejas supervisoras que esperan en la colonia ".
El intercambio de datos y los procesos de comunicación se establecen entre esas tres funciones, lo que hace que el rendimiento general de la colonia sea muy rentable. Los científicos de la UGR han simulado este comportamiento utilizando abejas in silico con el fin de encontrar estrategias efectivas y eficientes para desmantelar redes. Los resultados de los experimentos indican que la técnica propuesta mejora significativamente, desde un punto de vista estadístico, la estrategia clásica utilizada para atacar y desmantelar las redes sociales.

Redes sociales

Muchos sistemas complejos de interacción relacionados con la naturaleza y relacionados con la humanidad están estructurados en una red compleja, es decir, están formados por una serie de actores interrelacionados. Las redes sociales son un ejemplo muy reciente de esto. Algunas redes son perniciosas debido a su potencial para causar daño a las personas, las infraestructuras críticas y los intereses económicos.
El método clásico (y también el más natural e intuitivo) para desmantelar una red es identificar a sus principales actores y actuar sobre ellos. Sin embargo, esta estrategia no garantiza que la red resultante esté totalmente desprovista de poder organizativo y reconstructivo, y puede seguir causando daño.

"Para encontrar la forma más efectiva de desmantelar una red es necesario desarrollar y poner en marcha un proceso de optimización que analiza una multitud de situaciones y selecciona la mejor opción en el menor tiempo posible Es similar a lo que un programa de ajedrez Lo hace al identificar, predecir y comprobar los posibles pasos o caminos que pueden ocurrir en un juego de ajedrez a partir de un momento dado y el movimiento ", dice Humberto Trujillo Mendoza del Departamento de Metodología de las Ciencias del Comportamiento de la UGR y uno de los autores de la papel.

Como explican los autores, "la sutileza con que grupos o colonias de seres vivos relativamente simples (hormigas, termitas, abejas, etc.) son capaces de resolver problemas vitales para sobrevivir es una prueba de la eficacia de la evolución". A través de ciertas interrelaciones entre los miembros de una colonia, surge un comportamiento colectivo de esa colonia, que les permite reaccionar de manera eficiente a situaciones ambientales problemáticas. Esa tarea, aplicada por la UGR al campo de la inteligencia artificial, sería imposible de realizar por los miembros individuales de la colonia.

En la actualidad, este grupo de investigación está trabajando en el desarrollo de otros algoritmos similares a los descritos. Esta vez lo están haciendo para determinar los nodos de la red social a los que deben conectarse ciertos "infiltrados" para aumentar la cantidad y calidad de la información recopilada para mejorar el conocimiento de las relaciones entre los otros actores, optimizando así al desmantelamiento de la red.


La literatura sobre los ataques de red

La mayor parte de la investigación sobre los ataques de red se basa en la idea de nodos críticos, lo que permite caracterizar la vulnerabilidad y robustez de una determinada red con respecto a la remoción de nodos, causada por vallas adversarias, fallas aleatorias o desastres naturales. Esta clase de problemas, CNP, ha sido ampliamente estudiada en la última década (Walteros y Pardalos, 2012), y diferentes casos han sido analizados según los intereses particulares.
Arulselvan et al. (2009) y Pullan (2015) se centraron en la minimización del número total de pares de vértices conectados. Shen et al. (2012) con el objetivo de maximizar el número de componentes conectados y minimizar el tamaño del más grande. Ortiz-Arroyo (2010) trabajó en la maximización de la entropía de información gráfica. Veremyev et al. (2015) analizaron la minimización de una medida de conectividad basada en la distancia, como la eficiencia gráfica, el índice de Harary, la longitud de la trayectoria característica y la cercanía residual. Gunasekara et al. (2015) también abordaron casos CNP multiobjetivos que enfatizaron la maximización de la centralidad del vector propio medio y la distancia entre nodos críticos.
Sin embargo, la mayor parte de la atención en la literatura CNP se ha centrado en el caso particular definido por Arulselvan et al. (2009), donde el ataque óptimo fragmenta al máximo la red y simultáneamente minimiza la varianza entre el número de vértices en los componentes conectados resultantes. Es decir, la red residual contiene un conjunto relativamente grande de componentes conectados, cada uno con un número similar de vértices (Ventresca y Aleman, 2015a). Esta instancia CNP se referenciará como CNP-A. Arulsel van et al. (2009) presentó un modelo de programación lineal entera (ILP) y un enfoque heurístico basado en un algoritmo codicioso acoplado con una fase de búsqueda local para el CNP-A. Posteriormente, la naturaleza NP-completa de este problema (Arulselvan et al., 2009) promovió la aplicación de metaheurísticas para obtener soluciones casi óptimas dentro de tiempos computacionales razonables: Ventresca (2012) propuso un modelo de aprendizaje incremental basado en población y un apareamiento simulado, Pullan (2015) diseñó un algoritmo codicioso de varios arranques, y Aringhieri et al. (2015) presentó un enfoque de búsqueda de vecindario variable.
Los ataques basados ​​en la centralidad (Crucitti et al., 2004, Iyer et al., 2013) son otra alternativa para abordar CNPs, que apuntan a los vértices a ser removidos de acuerdo a una medida de centralidad dada y una de las siguientes estrategias:

  • En ataques simultáneos dirigidos, la medida de centralidad se calcula para todos los vértices de la red, y los k con los valores más altos se eliminan a la vez.
  • En los ataques segmentados secuenciales, sólo el vértice con la medida de centralidad más alta se elimina a la vez y el proceso se repite k veces. Dado que cada remoción probablemente modifica los valores de centralidad de los vértices restantes, la métrica se calcula una vez para el gráfico inicial y de nuevo después de cada eliminación para los vértices restantes.

Iyer et al. (2013) investigaron el efecto de los ataques basados ​​en la centralidad con diferentes esquemas de remoción y medidas de centralidad, como el grado, BC, la cercanía y el autovector en una amplia gama de redes.
Encontraron que la eliminación secuencial del vértice con BC más alto era el método más efectivo para degradar la estructura de la red. Esta conclusión también fue apoyada por Ventresca y Aleman (2015b), quienes analizaron los efectos de acuerdo a seis métricas de centralidad.


Referencias


  • Aringhieri, R., Grosso, A., Hosteins, P., Scatamacchia, R., 2015. VNS solutions for the critical node problem. Electronic Notes in Discrete Mathematics 47, 37–44.
  • Arulselvan, A., Commander, C. W., Elefteriadou, L., Pardalos, P. M., 2009. Detecting critical nodes in sparse graphs. Computers & Operations Research 36 (7), 2193–2200.
  • Crucitti, P., Latora, V., Marchiori, M., Rapisarda, A., 2004. Error and attack tolerance of complex networks. Physica A: Statistical Mechanics and its Applications 340 (1), 388–394
  • Iyer, S., Timothy, K., Bala, S., Zhen, W., 04 2013. Attack robustness and centrality of complex networks. PLoS ONE 8 (4), e59613.
  • Ortiz-Arroyo, D., 2010. Computational Social Network Analysis: Trends, Tools and Research Advances. Springer London, London, Ch. Discovering sets of key players in social networks, pp. 27–47.
  • Pullan, W., 2015. Heuristic identification of critical nodes in sparse real-world graphs. Journal of Heuristics 21 (5), 577–598.
  • Shen, S., Smith, J. C., Goli, R., 2012. Exact interdiction models and algorithms for disconnecting networks via node deletions. Discrete Optimization 9 (3), 172–188.
  • Ventresca, M., Aleman, D., 2014. A derandomized approximation algorithm for the critical node detection problem. Computers & Operations Research 43, 261–270.
  • Veremyev, A., Prokopyev, O. A., Pasiliao, E. L., 2015. Critical nodes for distance-based connectivity and related problems in graphs. Networks 66 (3), 170–195.
  • Walteros, J. L., Pardalos, P. M., 2012. Applications of Mathematics and Informatics in Military Science. Springer New York, New York, NY, Ch. Selected topics in critical element detection, pp. 9–26.



Más información: Manuel Lozano et al. Optimizing network attacks by artificial bee colony, Information Sciences (2017). DOI: 10.1016/j.ins.2016.10.014


martes, 18 de abril de 2017

Un contacto que no se debe cortar de Facebook: Un cliente satisfecho

Esta es una persona a la que nunca debe cortar la amistad en Facebook ...
La fea verdad sobre unfriending antes de comenzar un nuevo año: También puede ser muy divertido
Quentin Fottrel | Market Watch



Estimado Dinerologista,

Soy un recién establecido, único-profesional de las relaciones públicas que acaba de ganar su primer cliente, y este es un contrato bastante grande. La persona que me contrató es un amigo de Facebook. ¿Debo "contar el contacto" con ella en Facebook ahora que estamos en una relación profesional? ¿Establecer una relación de LinkedIn tiene más sentido ahora?

Cortar la amistad en Facebook es un negocio cobarde. Para aquellos en el extremo receptor, es como las cinco etapas de la pena: Choque, disgusto, cólera y un breve período de ciberacoso antes de la aceptación. La fea verdad acerca del cortar el contacto es que - siempre y cuando usted no es el que está sin amigos y le ha dado cuidado antes de golpear el botón "Eliminar de mis amigos" - también es muy divertido. Es muy poderoso para librarse de alguien de su vida para siempre o liberarse de ver sus fotos de vacaciones, o escucharlos en su rabieta fanática durante la temporada política.

El hacha de "Eliminar de mis amigos" de Facebook cae en algunas cabezas más que en otras, según dos estudios publicados en 2014 por investigadores de la Universidad de Colorado. Amigos de la escuela secundaria, "otro" - estoy asumiendo que podría ser un conocido con pasado romántico - amigo de un amigo, amigo del trabajo. En un giro irónico, ambos estudios utilizaron más de 1.000 personas encontradas en Twitter. Las personas son vencidas más a menudo por publicar comentarios polarizantes sobre la religión o la política o por puestos poco interesantes.

Cortar la amistad en Facebook es un negocio cobarde. Para aquellos en el extremo receptor, es como las cinco etapas de la pena: shock, disgusto, cólera y un breve período de ciberacoso antes de la aceptación.
El Moneyologist
Tengo algunos loquitos de las mascotas cuando se trata de Facebook. Y, si somos honestos (y siempre debemos ser honestos) probablemente molestamos a otros de vez en cuando. Pero mi persona menos favorita es aquella cuyas notificaciones hacen que su sangre se enfríe. Con esta persona, sólo sabes que va a ser algo increíblemente inapropiado, pasivo-agresivo o simple. Trato de alejarme de decir cosas negativas en Facebook y esperar que otros hagan lo mismo. (Los estudios sugieren que las personas solitarias comparten de más en Facebook, un recordatorio de que tal vez deberíamos acercarnos a ellos en vez de esconder sus mensajes).

Hay otros tipos molestos de Facebook: El fabuloso lifer que se inspira en Martha Stewart, el vaguebooker ("estoy devastado"), el uber-tagger (hey, tal vez no quiero una foto de mi diente astillado por toda la Internet), la Debbie Downer que no se da cuenta de que él o ella es el denominador común durante todas esas historias de suerte. Y no olvidemos el implacable liker: Un estudio de 2012 de la California State University evaluó a 800 miembros activos de Facebook y encontró que los que más a menudo ponían "Me Gusta" los mensajes de otras personas muestran síntomas de "manía" y "compulsividad".

Lo último que quieres hacer es ofender a un nuevo cliente eliminándolos de tu lista de amigos de Facebook, pero Facebook te permite usar diferentes sombreros para diferentes amigos. Usted puede restringir la gente de ver cualquier cosa menos sus publicaciones públicas y puede crear grupos para otros - amigos cercanos, conocidos, contactos profesionales. Hay muchas opciones para evitar herir los sentimientos de alguien. Desamparar a alguien en Facebook es realmente un último recurso, y mejor reservado para aquellos con quienes comparten lazos sociales débiles. Con este cliente, tus lazos se fortalecieron.

Así que no lo hagas. De hecho, esta es la única persona que no debe cortar la amistad en Facebook. (La otra persona es tu madre.) La gente da contratos a los que les gusta y confía y esta es una oportunidad para que ustedes puedan unir sus lazos. LinkedIn puede ser muy seco con la gente publicar artículos sobre cosas como las cinco estrategias de marketing más eficaces, pero los Facebookers puede obtener en su patio de juegos. Evite ambos. Este es un lugar donde usted puede potencialmente brillar y, por lo menos, saber que esta persona es un amigo de Facebook podría hacer que usted piense cuidadosamente antes de publicar.