sábado, 9 de diciembre de 2017

Redes de innovación mediante enlaces de patentes

Red de innovación
Daron Acemoglu, Ufuk Akcigit, y William R. Kerr
PNAS

Significado
Describimos la fuerza y la importancia de la red de innovación que une los campos de la tecnología de patentes. Cuantificamos que los avances tecnológicos salen de campos individuales y enriquecen el trabajo de las tecnologías vecinas, pero estos efectos indirectos también están localizados y no son universales. Así, los avances de la innovación en una parte de la red pueden afectar significativamente a las disciplinas cercanas, pero rara vez a las muy lejanas. Comprobamos la fuerza y la importancia estable de la red de innovación mostrando cómo las innovaciones pasadas pueden predecir futuras innovaciones en otros campos en horizontes de 10 años. Esta mejor comprensión de cómo ocurre el progreso científico y de cómo los inventos construyen sobre sí mismos es una entrada importante a nuestras representaciones del proceso acumulativo de la innovación y de sus consecuencias del crecimiento económico.
Resumen
El progreso tecnológico se basa en sí mismo, con la expansión de la invención en un dominio propulsando el trabajo futuro en campos vinculados. Nuestro análisis utiliza 1,8 millones de patentes de EE.UU. y sus propiedades de citación para mapear la red de innovación y su fuerza. Las estructuras de la red de innovación pasada se calculan usando patrones de citación en las clases de tecnología durante 1975-1994. La interacción de esta estructura de red preexistente con el crecimiento patentado en los campos tecnológicos de la corriente ascendente tiene poder predictivo fuerte sobre la innovación futura después de 1995. Este patrón es consistente con la idea de que cuando haya más innovación anterior para una clase de tecnología en particular, Tecnología innova más.

Introducción

El progreso tecnológico y científico impulsa el crecimiento económico y el bienestar a largo plazo. Las teorías prominentes describen este proceso como un proceso acumulativo en el que las nuevas innovaciones se basan en los logros del pasado, utilizando la frase descriptiva de Newton de "pararse sobre los hombros de los gigantes" (por ejemplo, las referencias 1 y 2). Varios estudios proporcionan evidencia que respalda este punto de vista y, más generalmente, el desarrollo del conocimiento está incrustado en un paisaje de científicos individuales, institutos de investigación, actores del sector privado y agencias gubernamentales que modelan la tasa fundamental y la dirección de nuevos descubrimientos. A pesar de esta creciente literatura, nuestra comprensión de cómo el progreso en un área tecnológica está vinculada a los avances previos en los campos tecnológicos de la corriente ascendente es limitada. Las cuestiones abiertas, pero importantes, incluyen la estabilidad a largo plazo de cómo se comparte el conocimiento a través de los campos tecnológicos, el ritmo y el momento de la transferencia de conocimiento, y cómo deben estar conectados los campos ascendentes para tener un impacto material en una tecnología focal. Este documento proporciona algunas pruebas cuantitativas sobre estas y otras cuestiones relacionadas.

Mostramos que una "red de innovación" estable actúa como un conducto de este proceso acumulativo de progreso tecnológico y científico. Analizamos 1.8 millones de patentes estadounidenses y sus propiedades de citación para mapear la red de innovación y su fuerza. Las estructuras de la red de innovación pasada se calculan usando patrones de citación en las clases de tecnología durante 1975-1994. La interacción de esta estructura de red preexistente con el crecimiento de patentes en los campos tecnológicos "aguas arriba" tiene un fuerte poder predictivo sobre la innovación futura "posterior" después de 1995. Destaca que el 55% de la variación agregada en los niveles de patentes entre tecnologías para 1995-2004 puede explicarse por Variación en las patentes de aguas arriba; Este poder explicativo es de 14% cuando se utiliza la variación de panel dentro de cada campo (el valor R2 de las regresiones se tabula a continuación). Los sectores detallados que han visto un crecimiento más rápido de las patentes en sus campos de tecnología en los últimos 10 años son mucho más propensos a patentar hoy.

Este patrón es consistente con la idea de que cuando hay más innovación pasada para que una clase de tecnología particular se base en, entonces esa clase de tecnología innova más. Como ejemplo, utilizando subcategorías de patentes definidas a continuación, "Químicos: Revestimiento" y "Nuclear y rayos X" muestran tasas de patentes similares en 1975-1984. Antes de 1995, los patrones de citas indican que "Nuclear & X-ray" atrajo alrededor del 25% de sus insumos de innovación de "Measurement & Testing Electrical", mientras que "Chemicals: Coating" tenía una dependencia similar de "Chemicals Misc. El campo de aguas arriba creció sustancialmente menos durante 1985-1994 que el segundo en términos de nuevas patentes. En el período de 10 años después de 1995, "Chemicals: Coating" exhibe el doble de crecimiento de "Nuclear & X-rays." La heterogeneidad de la red indica que el desarrollo del conocimiento no es global, en el sentido de que los campos comparten un pool agregado de Conocimiento, ni local, en el sentido de que cada campo se construye sólo sobre sí mismo.

Es útil motivar nuestro enfoque con los modelos estándar de crecimiento endógeno y progreso tecnológico en la economía, que postulan una función de producción de nuevas ideas de la forma

ΔN(t)=f(N(t),R(t)),

donde N (t) es la reserva de ideas,ΔN (t) es el flujo de nuevas ideas producidas, y R (t) son los recursos que se utilizan para producir estos nuevos ideas (p. ej., científicos). Aunque algunos estudios estiman el impacto del inventario de ideas, N (t), sobre el flujo de nuevas ideas (por ejemplo, si hay rendimientos crecientes o externalidades de "pesca"), la mayoría de la literatura toma la entrada en la función de producción de nuevas ideas en cada campo para ser su propio inventario de ideas o un conjunto de conocimiento agregado que abarca todos los campos. Damos un paso hacia la apertura de esta caja negra y la medición de la dependencia heterogénea de la creación de nuevas ideas sobre el stock existente de ideas mediante el estudio de redes de innovación.

Suponemos que las nuevas innovaciones en tecnología j∈ {1,2, ..., J} dependen de innovaciones pasadas en todos los demás campos a través de una red de innovación. Suprimiendo la variable de recursos R (t) por simplicidad y asumiendo una forma lineal, podemos escribir

ΔNJ×1(t)=αMJ×JNJ×1(t),

donde ΔNJ×1(t)  NJ×1(t) son, respectivamente, el vector J × 1 de tasas de innovación y el stock de conocimiento en las clases de tecnología J en el tiempo t, y  
es una matriz J × J que representa la red de innovación: la cantidad que una clase construye sobre las reservas de conocimiento de otras clases. Dado el escalar α y nuestro enfoque en el crecimiento relativo de las tecnologías, podemos normalizar las sumas de fila de 
a uno. El caso en el que las nuevas innovaciones dependen simétricamente de un stock de tecnología para toda la economía está representado por todas las entradas en 
que son iguales a 1 / J; el caso en el que los campos solo se basan en su propio stock de conocimiento está dado por la matriz de identidad.

Analizamos patentes de utilidad otorgadas entre 1975-2009 por la Oficina de Patentes y Marcas de los Estados Unidos (USPTO). Cada registro de patente proporciona información sobre la invención (por ejemplo, clasificaciones de tecnología, citas de patentes sobre las que se basa la invención actual) y los inventores que presentan la solicitud. Analizamos 1.8 millones de patentes solicitadas en 1975-2004 con al menos un inventor viviendo en un área metropolitana de los EE. UU. La fecha de finalización de 2004 permite una ventana de 5 años para revisiones de patentes. En nuestros datos, el 98% de las revisiones de patentes se completan dentro de esta ventana.

La Fig. 1 describe la red de innovación 1975-1984 en forma de matriz. [Hall et al. (14) describen más detalladamente los datos de patente. Los estudios de los efectos secundarios intersectoriales datan al menos de Scherer (15) y Verspagen (16). Schnitzer y Watzinger (17) proporcionan un ejemplo reciente.] La restricción de año se refiere a las fechas de las patentes citadas, y se requiere que las patentes de citación futura estén dentro de los 10 años de la patente citada. La ventana de 10-y para citas hacia adelante mantiene un número constante de observaciones por edad de difusión. Las tecnologías de USPTO a menudo se agrupan en una jerarquía de tres niveles: 6 categorías, 36 subcategorías y 484 clases. Esta matriz enumera subcategorías y sus categorías principales; nuestro análisis empírico considera la variación a nivel de subcategoría y clase.


Figura 1.
Matriz de citas 1975-1984. Cada fila describe la composición de campo de las citas hechas por la subcategoría de tecnología indicada en el lado izquierdo. Las entradas en los campos de tecnología citados para cada subcategoría de tecnología de citas suman al 100%. Las diagonales -citas del propio campo, la mayoría de las citas- se excluyen del cálculo, pero se les da sombreado oscuro para referencia. El Apéndice SI, Fig. 1 muestra la red 1975-2004 y subperíodos adicionales.

Cada fila proporciona la composición de las citas realizadas por el campo de tecnología de referencia, que se suman al 100% en la fila. Las citas propias (citas que hacen los campos) representan la mayoría de las citas y, para fines visuales, se les da un sombreado oscuro en la Fig. 1. En nuestro trabajo empírico, nos enfrentamos a un dilema: una contabilidad de crecimiento completa incluye cómo acumulativa el progreso tecnológico en un campo afecta el propio desarrollo futuro del campo. De hecho, los derrames de tecnología propia suelen ser el canal más importante de desarrollo acumulativo de conocimientos y también se conectan con el concepto de capacidad de absorción, donde la investigación en el propio campo prepara a uno para absorber el conocimiento externo de otros campos (por ejemplo, referencias 18 y 19). ) Sin embargo, es muy difícil establecer convincentemente la importancia de la red de innovación cuando se mira dentro de los campos individuales, porque el progreso tecnológico para un campo a lo largo del tiempo puede estar relacionado endógenamente con su progreso pasado y futuro, así como con factores externos, y también mostrar correlación por otras razones (p. ej., aumento de los niveles de financiamiento del gobierno, condiciones dinámicas de la industria). Una contribución de nuestro análisis basado en red que usa el progreso de la tecnología upstream fuera de un campo individual, moderado por una estructura de red preexistente, para predecir la innovación futura es demostrar la importancia de este proceso de desarrollo de conocimiento en un entorno empírico que minimiza esta difícil identificación desafíos.

Por lo tanto, presentamos nuestros hallazgos a continuación de dos maneras. Una ruta es considerar solo la red externa, que excluye las citas propias y los derrames dentro del campo para aislar mejor las propiedades de la red. Escribimos nuestras próximas ecuaciones para este caso. Para ofrecer la perspectiva de crecimiento completa, también informamos los resultados de la red completa que incluye los derrames propios. Formalmente, una entrada en la matriz  a partir de una tecnología de citación j (fila) a una tecnología citada j '(columna) es

mjj'=Citationsjj'kjCitationsjk.

En esta representación, la notación jj 'designa una cita de patente de la tecnología j a j', que a su vez significa conocimiento que fluye de la tecnología j' a j. Para el cálculo completo de la red, la suma del denominador incluye k = j.

La Fig. 1 destaca la heterogeneidad en los flujos de tecnología. Las diagonales del bloque indican que las subcategorías dentro de cada categoría principal tienden a estar relacionadas entre sí, pero estos flujos varían sustancialmente en intensidad y muestran asimetrías importantes. Por ejemplo, las patentes en "Computadoras: periféricos" tienden a sacar más de "Computadoras: Comunicaciones" que a la inversa, porque "Computadoras: Comunicaciones" se basa más en subcategorías eléctricas y electrónicas. También hay ejemplos prominentes de conexiones entre categorías de tecnología, como el enlace entre "Compuestos orgánicos" y "Drogas". La figura 2 representa esta información en un formato de red, que agrupa en el espacio 2D las relaciones más fuertes en una proximidad más cercana.



Figura 2.
Red de innovación 1975-1984. Mapeo de red del sistema de patentes utilizando subcategorías de tecnología. Los nodos de color similar se extraen de la misma categoría del sistema USPTO. El ancho de las líneas de conexión indica la fuerza de los flujos tecnológicos, con flechas que se utilizan en casos de fuerte asimetría. Las conexiones deben representar al menos el 0.5% de las citas salientes realizadas por una subcategoría tecnológica. SI Apéndice, Figs. 2-6 muestra variaciones y propiedades de red.

La red de innovación es bastante estable. Calculando  para los períodos de 10 años de 1975-1984, 1985-1994 y 1995-2004, las correlaciones y correlaciones de rangos de los valores de las celdas en horizontes de 10 y están por encima de 0.9; en un horizonte de 20 y, ambos están por encima de 0.8. SI Apéndice, Figs. 1-3 muestran estructuras de red comparables cuando se usan umbrales más estrictos para incluir enlaces / conexiones de red, cuando se examinan citas sin la normalización de modo que las citas salientes de cada tecnología se ponderan por igual y cuando se usan horizontes de datos más largos. SI Apéndice, Figs. 4-6 muestran tres diagnósticos frecuentemente calculados para los nodos de la red: importancia en grados, cercanía e interinidad. Un tema común, que también es evidente en la Fig. 2, es que muchas áreas de tecnología de alto perfil (por ejemplo, "Drogas") están en la periferia de la red de innovación. Tecnologías como "Dispositivos eléctricos" y "Procesamiento / manejo de materiales" ocupan posiciones más centrales.

Aprovechamos la considerable heterogeneidad en la velocidad a la que se difunde el conocimiento: ¿cuántos años después de la invención las patentes en tecnología j' reciben típicamente citas de la tecnología j? Construimos nuestra matriz de red de innovación para modelar separadamente cada año del proceso de difusión:

CiteFlowjj',a=Citationsjj',aPatentsj',


donde CiteFlow cuantifica la velocidad a la que las patentes en tecnología jitan patentes en j () para cada uno de los primeros 10 años después de la invención de esta última. * Esta estructura aumentada amplía el modelo teórico simple descrito con la matriz M para permitir procesos de difusión de conocimiento más complejos que dependen de la edad de la invención. †

Para predecir patentes futuras, combinamos la red preexistente con el desarrollo de tecnología que ocurre dentro de una ventana de 10 años antes del año focal t. Defínase a Pj, tP ^ j, t como la patente esperada en tecnología j para un año t después de 1994. Nuestra estimación de 
 combina patentes hechas en los 10 años anteriores con un retardo de difusión adicional de a = [ 1,10] a = [1,10] años,

Pˆj,t=kja=110CiteFlowjk,aPk,ta,

donde es la patente en la tecnología k en un retraso de difusión del año t. Como ejemplo, para una patente de la tecnología j' solicitada en 1990, modelamos su impacto para la tecnología j en 1997 al observar el impacto promedio que ocurrió con un retraso de difusión de 7 años durante el preperíodo. La suma doble en el cálculo de P ^ j, t repite este proceso para cada clase potencial de tecnología ascendente y retraso de difusión. Además de la red que se estima a partir de las interacciones de preperíodo, nuestro cálculo requiere que las patentes anteriores preceden a las predicciones aguas abajo en al menos 1 año (es decir, a≥1a≥1). Para el cálculo completo de la red, el primer término de suma incluye de nuevo k = j.

La primera fila de la Fig. 3A informa la fuerte relación de niveles entre los valores predichos ( y los valores reales () utilizando la variación de subcategoría en un formato de registro. Esta estimación incluye 360 ​​observaciones a través del análisis de 36 subcategorías en cada año durante 1995-2004; cada subcategoría está ponderada por su nivel inicial de patentamiento. Un aumento del 10% en las patentes esperadas se asocia con un aumento del 8% en las patentes reales cuando se considera la red externa. Divulgamos SE que son robustos contra la correlación serial dentro de una subcategoría. Esta especificación explica alrededor del 55% de la variación agregada en los niveles de patentamiento de 1995-2004. La fuerza empírica de la estimación de la red completa es aún más fuerte, con un aumento del 10% en las patentes esperadas asociadas con un aumento del 9% en las patentes reales.



Fig. 3
Análisis de la red de innovación. (A) Regresiones de las patentes reales durante 1995-2004 sobre las patentes previstas calculadas utilizando la red de innovación de 1975-1994 y el crecimiento en las subcategorías de tecnología aguas arriba anterior al año focal. El análisis de "Controles de campo y tiempo" informa un análisis de datos de panel donde primero eliminamos los promedios de cada subcategoría y cada año de los valores reales y predichos. En los análisis de "red externa solamente", consideramos las patentes previstas debido a las patentes anteriores a la subcategoría de patentes focales. (B) Repetición del análisis para clases de patentes detalladas que mantienen más de cinco patentes por año. (C) Regresiones utilizando la muestra de clase de patente, donde calculamos las patentes acumulativas reales y predictivas durante 1995-2004 para una clase de patente. Después de informar los efectos iniciales en el formato acumulativo, contrastamos el efecto ascendente focal con un efecto descendente inverso. A continuación, desglosamos el estímulo para demostrar los efectos indirectos localizados.

Aunque poderoso, hay varias preocupaciones potenciales con el enfoque simple. En primer lugar, la persistencia en los tamaños relativos de los campos tecnológicos puede llevar a una exageración de la importancia de la red. Del mismo modo, las fluctuaciones agregadas en las tasas anuales de patentes de todos los campos podrían dar lugar a un énfasis excesivo en la importancia de los campos en sentido ascendente. Para abordar, consideramos una regresión de panel que incluye controles de campo y tiempo,

ln(Pj,t)=βln(Pˆj,t)+ϕj+ηt+εj,t,

donde  y  son tasas reales y esperadas de patentes para la tecnología j en el año t (
 es un término de error). La estimación incluye efectos fijos para las subcategorías () que eliminan sus tamaños a largo plazo; asimismo, los efectos fijos por años () eliminan los cambios agregados en las tasas de subvención USPTO comunes a todas las tecnologías, de modo que la identificación del parámetro β proviene únicamente de variaciones dentro de los campos. Intuitivamente, β capta si el patentamiento real en la tecnología j es anormalmente alto en relación con su tasa a largo plazo cuando se predice que está basado en las tasas de innovación anteriores. Una estimación β de uno indicaría una relación de uno a uno entre el patentado previsto y el real después de condicionar estos controles.

Estimamos en la segunda fila de la Fig. 3A un valor estadísticamente significativo y económicamente sustancial de β: 0,85 (SE = 0,17) 0,17). Aunque es menor que 1, el coeficiente estimado muestra una relación muy fuerte entre el patentado previsto y el real. El Apéndice SI, Fig. 7 proporciona representaciones visuales de estas estimaciones a nivel de subcategoría. Esta figura muestra que nuestros resultados no están impulsados ​​por valores atípicos o estrategia de ponderación.

La Fig. 3B muestra patrones muy similares cuando se usa la variación entre clases de patentes más detalladas. Consideramos en esta estimación 353 clases de patentes que mantienen al menos cinco patentes por año. La variación de niveles es muy similar a la encontrada usando subcategorías en la Fig. 3A. Las estimaciones del panel son más pequeñas, lo que sugiere un aumento del 3-4% en las patentes por cada aumento del 10% en las patentes esperadas, pero siguen siendo bastante importantes económica y estadísticamente. SI Apéndice, Figs. 8-9 proporcionan representaciones visuales de estas estimaciones a nivel de clase.

La Fig. 3C muestra un segundo enfoque para cuantificar la fuerza de la red de innovación. Hacemos una regresión de las patentes acumulativas reales durante 1995-2004 para cada clase en su valor esperado basado en la red de innovación y un control para niveles históricos de patentes,

ln(P9504j)=βln(Pˆ9504j)+γln(P8594j)+εj.


Este enfoque permite una mayor variación en la forma en que la estructura de retraso de la red de innovación impacta el cambio tecnológico actual; ahora estimamos que un aumento del 10% en la innovación ascendente corresponde a un aumento del 3,5% en las patentes futuras. El Apéndice SI, Fig. 10 proporciona una representación visual.

Este enfoque acumulativo es una buena plataforma para verificaciones y extensiones de robustez. Nuestro primer control es comparar nuestro crecimiento de patentes esperado debido al estímulo aguas arriba con una métrica paralela desarrollada utilizando estímulos aguas abajo. Nuestra cuenta enfatiza las contribuciones ascendentes que fluyen a través de la red de innovación, pero es natural preocuparse de si nuestras estimaciones están recogiendo choques locales amplios en la tecnología o un tirón del lado de la demanda. Debido a que la red de innovación es asimétrica, podemos probar esta posibilidad directamente, y confirmamos en la figura 3 que los flujos ascendentes están jugando un papel central. El Apéndice SI, Tabla 1, documenta muchos controles de robustez adicionales: controlando las tendencias de la tecnología parental, ajustando los pesos de las muestras, usando formulaciones de crecimiento, considerando la difusión de segunda generación, § y más. Los resultados son sólidos para descartar una sola subcategoría, aunque dependen de que al menos se retengan algunos campos de computadora y comunicación. También encontramos estos resultados cuando usamos el sistema de Clasificación Internacional de Patentes.

Finalmente, al introducir la matriz , notamos dos casos polares comunes a la literatura: todas las entradas son iguales a 1 / J (campos que se basan en un stock de conocimiento común) o la matriz de identidad (campos que se basan únicamente en conocimiento propio). La fila inferior de la Fig. 3 y el Apéndice SI, Tabla 2, cuantifican que la verdad se encuentra entre las tecnologías basadas en unas pocas clases clave que les proporcionan estimulantes de la innovación. Encontramos una conexión robusta de innovación a las 10 clases de patentes aguas arriba más importantes, que luego disminuye. Esta relación también se muestra utilizando la estructura de categoría de subcategoría, aunque este enfoque es más cruda dado el conocimiento fluye a través de los límites tecnológicos. Esta heterogeneidad de red indica que el desarrollo de conocimiento no es global, en el sentido de que los campos comparten colectivamente un conjunto agregado de conocimiento. ni local, en el sentido de que cada campo se construye solo sobre sí mismo.

Para concluir, nuestra investigación descubre que los desarrollos tecnológicos preliminares juegan un papel importante y mensurable en el ritmo y la dirección futuros de las patentes. Una mejor explicación de la red de innovación y sus flujos asimétricos nos ayudará a modelar el proceso acumulativo de descubrimiento científico de una manera más nítida. Una mejor comprensión de estas características puede ser una ayuda para los responsables políticos. Por ejemplo, el descubrimiento de que la investigación aguas arriba es muy importante para el crecimiento implica que si la investigación y el desarrollo disminuyen en un período, los efectos se sentirán años después. Este documento ha enfocado estos temas en un entorno que considera todas las patentes e invenciones, cuyo desarrollo podría considerarse ciencia e innovación normal o regular. Un camino interesante para futuras investigaciones es considerar si los saltos grandes se comportan en un formato similar al que se muestra aquí. También creemos que este enfoque puede ser empujado a considerar la variación a nivel regional y de la empresa, lo que puede ayudarnos a comprender el impacto causal de patentar en los resultados económicos y comerciales.

Notas a pie de página

1 A quién debe dirigirse la correspondencia. Correo electrónico: daron@mit.edu.
Contribuciones del autor: D.A., U.A., y W.R.K. realizó investigaciones, analizó datos y escribió el documento.

Revisores: B.F.J., Northwestern University; y P.S., Georgia State University.

Los autores declaran no tener conflicto de intereses.

* Los retrasos de tiempo amplían consistentemente el impacto de la tecnología descendente. Un año después de la invención, el 81% de las referencias bibliográficas pertenecen a la misma categoría (el 62% pertenece a la misma clase de patentes, el 10% pertenece a otra clase de patentes dentro de la misma subcategoría y el 9% a otra categoría dentro de la misma categoría). Después de 10 años, el 75% de las citas se producen dentro de la misma categoría de patente (respectivamente, 51%, 12% y 12%).

† Considerando que las Figs. 1 y 2 están normalizados para sumar 100% para una tecnología de citas que usa la matriz de red M, dejamos esta medida relativa a las patentes de línea de base para permitir el uso directo con las tasas de patentes futuras por tecnología. Las patentes difieren sustancialmente en el número de citas que hacen, y ponderamos las citas de manera que cada patente citada recibe la misma importancia. Nuestros resultados son robustos a diferentes enfoques para tratar con patentes que no hacen citas e instancias donde las patentes enumeran múltiples tecnologías.

‡ Para las estimaciones de panel, graficamos en estas figuras del apéndice los valores residuales de las patentes reales contra las patentes previstas. Los valores residuales se calculan como las partes no explicadas de una regresión de ln (Pj, t) ln (Pj, t) en los efectos fijos φjφj y ηtηt (un proceso similar para las series de patentes pronosticadas). Convenientemente, la pendiente de la línea de tendencia en esta figura es igual a β.

§Como algunos análisis de red consideran las relaciones de alto orden (por ejemplo, Leontief inverso en la teoría de la producción), las relaciones de primer orden son suficientes cuando se observan directamente los resultados de intermediación. Como ejemplo, considere j → j '→ kj → j' → k, con la tecnología k arriba de j'j '. Debido a que modelamos directamente el patentamiento en tecnología j'j 'para los resultados posteriores en j, ya hemos incluido cualquier posible estímulo ascendente de k. SI Apéndice, la Tabla 1 muestra resultados similares usando difusión de segundo orden cuando se excluye la relación de primer orden.

¶Las 20 principales categorías ascendentes representan el 80% de las citas y son distintas de las subcategorías. Entre los 10 mejores, el 27% de las citas provienen de la misma subcategoría y otro 27% proviene de otras subcategorías dentro de la misma categoría. Entre los próximos 10, estas cifras son 16% y 30%, respectivamente.

Este artículo contiene información de respaldo en línea en www.pnas.org/lookup/suppl/doi:10.1073/pnas.1613559113/-/DCSupplemental.


Referencias

  1. Romer P (1990) Endogenous technological change. J Polit Econ 98(5):1002–1037. Google Scholar 
  2. Aghion P, Howitt P  (1992) A model of growth through creative destruction. Econometrica 60(2):323–351. CrossRef  Web of Science  Google Scholar
  3. Fleming L (2001) Recombinant uncertainty in technological search. Manage Sci 47(1):117–132. CrossRef  Google Scholar
  4. Wuchty S,  Jones BF,  Uzzi B  (2007) The increasing dominance of teams in production of knowledge.Science 316(5827):1036–1039. Abstract/FREE Full Text
  5. Azoulay P, Ding W, Stuart T (2009) The impact of academic patenting on the rate, quality and direction of (public) research output. J Ind Econ 57(4):617–676. Google Scholar
  6. Furman J,  Stern S  (2011) Climbing atop the shoulders of giants: The impact of institutions on cumulative research. Am Econ Rev 101(5):1933–1963. CrossRef Google Scholar
  7. Lerner J,  Stern S  (2012) The Rate and Direction of Inventive Activity Revisited (National Bureau of Economics, Cambridge, MA). Google Scholar
  8. Franzoni C,  Scellato G,  Stephan P  (2012) Foreign-born scientists: Mobility patterns for 16 countries.Nat Biotechnol 30(12):1250–1253. CrossRef Medline Google Scholar 
  9. Bloom N, Schankerman M, Van Reenen J  (2013) Identifying technology spillovers and product market rivalry. Econometrica 81(4):1347–1393. CrossRef Web of Science Google Scholar
  10. Williams HL (2010) Intellectual property rights and innovation: Evidence from the human genome. J Polit Econ 121(1):1–27. Medline Google Scholar
  11. Freeman RB, Huang W (2014) Collaboration: Strength in diversity. Nature 513(7518):305. CrossRef Medline Google Scholar
  12. Konig M,  Liu Z, Zenou Y (2014) R&D networks: Theory, empirics and policy implications. Working Paper No. 142 (University of Zurich, Zurich). Available at www.econ.uzh.ch/dam/jcr:a8bc201d-da15-4249-8ea6-9e4c1681049b/paper_rnd_sub.pdf.
  13. Glasso A, Schankerman M (2015) Patents and cumulative innovation: Causal evidence from the courts. Q J Econ 130(1):317–369. Abstract/FREE Full Text
  14. Hall B,  Jaffe A, Trajtenberg M  (2001) The NBER patent citations data file: Lessons, insights, and methodological tools. NBER Working Paper No. 8498 (National Bureau of Economic Research, Cambridge, MA). Available at www.nber.org/papers/w8498.
  15. Scherer FM (1984) in Using Linked Patent Data and R&D Data to Measure Technology Flows. R & D, Patents and Productivity, ed Griliches Z (Univ of Chicago Press, Chicago), pp 417–464. Google Scholar
  16. Verspagen B (1997) Measuring intersectoral technology spillovers: Estimates from the European and US patent office databases. Econ Sys Res 9(1):47–65.  CrossRef  Google Scholar
  17. Schnitzer M, Watzinger M (2014) Measuring the spillovers of venture capital, Annual Conference 2014: Evidence-based Economic Policy, September 7–10, 2014, Hamburg, Germany. Available at econpapers.repec.org/paper/zbwvfsc14/100318.htm.
  18. Cohen W, Levinthal D  (1990) Absorptive capacity: A new perspective on learning and innovation.Adm Sci Q 35(1):128–152. CrossRef Web of Science Google Scholar
  19. Belderbos R, Mohen P (2013) Intersectoral and international R&D spillovers. SIMPATIC Working Paper 02 (Bruegel, Brussels). Available at simpatic.eu/intersectoral-and-international-rd-spillovers.
.

jueves, 7 de diciembre de 2017

Análisis de datos y sitios para funciones de SEO

SEO: cómo los datos pueden revelar errores y oportunidades ...
Virgile Juhan | JDN





La explotación de datos para mejorar el SEO fue uno de los principales temas de SEO Camp'us. Al final del día, dos retroalimentaciones instructivas, incluida la de Priceminister..

La explosión de datos también concierne a los SEO, y la explotación de este depósito de información está comenzando a madurar y tiene un fuerte impacto en la gestión del SEO. Esta es una de las lecciones que se pueden aprender de SEO Camp'us, el evento estrella de SearchBridge el 9 y 10 de marzo de 2017, del cual JDN fue socio.

"Los datos pueden provenir de Google y sus herramientas, como su webmaster. Pero también hay herramientas de terceros, tales Botify, Yooda o Majestic que puede proporcionar aún más datos. Cruzarlos a continuación, utilizando todos estos datos se utiliza para salir de una lógica empírica para la construcción de las estrategias impulsadas por datos-, "observó Olivier Tassel, consultor de NetBooster en su precisión en base a este tema de la conferencia (" empíricamente SEO a SEO de datos centrada en cómo su estrategia corporativa en 2017? "). Este especialista también señala que todos estos datos pueden ser monitorizados con soluciones personalizables de cuadros de mando muy flexibles y potentes, además de código abierto, como Superserie, desarrollado por Airbnb. Arriba: hábilmente explotados todos estos datos se pueden alimentar los sistemas de aprendizaje automático, y por lo tanto abierto a la senda predictiva.

Un DataViz para la detección de un fallo de funcionamiento

Para tomar un ejemplo la primera base, los datos de una herramienta útil SEO pueden ser explotadas por una solución DataViz para extraer rápidamente la atención a un problema importante. El caso fue presentado por Simon Georges, consultor de Makina Corpus. Este experto SEO Drupal y utilizó por primera vez el rastreo Screaming Frog herramienta para navegar por un sitio como Google haría. Gritando rana está en la lista que incluye las direcciones URL visitadas dentro de este sitio web. entonces esta lista se ha subido a la herramienta DataViz Gephi de código abierto. Y luego, sorpresa: si el sitio se supone que tiene tres secciones, una cuarta apareció muy claramente en el gráfico. la respuesta del propietario del sitio: "se ve como un tumor". Y eso es todo, de hecho.


DataViz realizado por Gephi que muestra 4 colores correspondientes a las cuatro partes de un sitio ... que se supone que hace que el recuento 3! © Simon Georges

Lo que pasa es que el sitio de la casa incluye un calendario de eventos. En esta agenda, no eran tan absolutamente clásico, un enlace "próximo mes" y "mes anterior". El rastreador se vio envuelto en un sinfín de estos enlaces. Volvió décadas atrás, y lo mismo antes. Esta es la cuarta sección del sitio, que aparece muy visual (púrpura aquí-contra) en Gephi, y por lo tanto en realidad corresponde a ... un calendario. "Luego, cuando se estudió el verdadero rastreo robot de Google, se confirmó que estaba tomando exactamente el mismo camino que el robot Screaming Frog. Por lo tanto, Google desperdiciando su tiempo para rastrear páginas sin ningún interés, mientras que para otras páginas con un gran potencial de SEO fueron descuidados o no del todo exploradas", lo que lleva Simon Georges.

SEO predictivo en PriceMinister

También hay ejemplos mucho más avanzadas en el campo de la minería de datos, predictivo y tendiendo a. SEO Priceminister Cecile Beroni, ha compartido su trabajo en el campo de datos grandes. Su entorno es uno de los sitios con alto volumen, un sitio con no menos de 24 millones de páginas, incluyendo 17 millones indexadas en Google. Por supuesto, SEO es altamente estratégica, con 30 a 40% de las visitas SEO (excluyendo consultas decir "marca", navegación).


Cécile Beroni, Priceminister SEO para SEO Camp'us © 2017 JDN

"Queríamos utilizar los primeros datos disponibles para mejorar la indexación de Google. El propósito era específicamente para aumentar el número de páginas indexadas o mejorar la rotación de URL rastreadas," resume SEO. Para este primer proyecto, el rastreo de Google es estudiado en profundidad, y cambios en el sitio para ayudar a guiar robots de Google ayudaron mucho mejor predecir qué páginas serán cubiertos. Un algoritmo de casa, confidencial, se ha desarrollado.

"Ahora sabemos que el 80% de las URL que Google rastree, mientras que en el principio era el 61%," dice SEO. "Al final, el número de páginas que se arrastró en realidad no ha aumentado. Especialmente la rotación viajó URL que ha sido mejorado." PriceMinister puede entonces "empujar" y almacenar millones de URL estratégicas - una cifra que tiende a limitar su caché solución sin barniz. "Anteriormente, Google podría obtener más de seis meses para recorrer todo el catálogo, ahora Google puede tener acceso a un mayor número de direcciones URL en un tiempo bastante corto. Este fue nuestro principio", recuerda Cécile Béroni.

Luego fue el blanco de una mejor predicción de palabras clave estratégicas "las principales palabras clave",. Para este proyecto, el sitio era capaz de confiar en un equipo interno (SEO, inteligencia de negocios, grandes volúmenes de datos), sino también en un proveedor de servicios externo, Authoritas, que proporciona gran cantidad de datos. Entre ellos: las palabras clave sobre la que se colocan Priceminister con su volumen de búsquedas y competidores que también están en sus resultados de búsqueda, entre otros. "Era necesario poner de relieve las oportunidades", dijo Seo. Ellos tomaron la forma de una lista bastante cruda de 2,4 millones de palabras clave que podrían apuntar sitio de comercio electrónico.

"A continuación, tuvo que trabajar en la lista, respondiendo a varias preguntas: ¿Tenemos el producto afectado por palabra clave ¿Cuál es la competencia para esa palabra clave, la presencia de Google Shopping también puede dar pistas interesantes de este tema ", detalla el empleado PriceMinister. Una vez que estos filtros producen, 1,4 millones de nuevas páginas de destino fueron creados o mejorados. El resultado anunciado por el sitio del comerciante es espectacular: 40% más de visibilidad en los resultados de reensamblaje de Google, según la herramienta de Searchmetrics.

domingo, 3 de diciembre de 2017

Pajek: Análisis y visualización de comunidades (2/2)

Visualizando Comunidades

Parte 2/2

Pajek

2. Visualizando comunidades usando 2D Pivot MDS

El algoritmo de diseño rápido Pivot MDS se implementa en Pajek 3.03 o posterior.
El Pivot MDS nos permite visualizar redes mucho más grandes que los springs embedders.
Redes que contienen aprox. 100.000 vértices se pueden visualizar en pocos segundos.

Secuencia de pasos en Pajek


Visualizando usando pivotes aleatorios (sin tomar en cuenta a las comunidades)


 Ejecute Layout/Pivot MDS/Random Pivots/2D para el diseño en un plano.
En el caso de redes grandes (y pantallas pequeñas), las comunidades obtenidas ocupan un área demasiado amplia. Podemos aplicar Options/Transform/Resize Cluster Area con un factor de tamaño menor a 1 (0.1 parece estar bien) para hacerlo más pequeño.

Diseño obtenido (25069 vértices, 100 pivotes aleatorios, tiempo necesario para calcular el diseño = 1 segundo)



Diseño obtenido (25069 vértices, 500 pivotes aleatorios, tiempo necesario para calcular el diseño = 15 segundos)




Diseño obtenido (25069 vértices, 500 pivotes aleatorios, líneas ocultas)




Diseño obtenido (25069 vértices, 500 pivotes aleatorios, líneas ocultas, ampliación)




Visualizar usando pivots computados (tomando en cuenta a las comunidades)


Pero podemos mejorarlo teniendo en cuenta las comunidades obtenidas por el método de Louvain. En lugar de tomar pivotes aleatorios, podemos usar representantes de las comunidades como pivotes. En nuestro caso, obtuvimos 500 comunidades, y podemos seleccionar aleatoriamente un vértice de cada comunidad para su representante:
Aplicar Partition/Make Cluster/Random Representatives of each Cluster en la partición de la comunidad obtenida.
Como resultado obtenemos un nuevo Cluster con 500 vértices (representantes de la comunidad).
Luego calcule el diseño ejecutando: Layout/Pivot MDS/Pivots from Cluster/2D
Finalmente aplique Options/Transform/Resize Cluster Area para reducir el área de clusters.

Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, tiempo necesario para calcular el diseño = 16 segundos)



Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, líneas ocultas)



Diseño obtenido (25069 vértices, 500 representantes de la comunidad como pivotes, líneas ocultas, ampliación)





3. Visualizar comunidades usando 3D Pivot MDS


Descargar archivo de red de muestra (15606 vértices, 45878 enlaces).

Aplique

  • Layout / Pivot MDS / Random Pivots / 3D usando diferentes números de pivotes aleatorios
  • Layout/Pivot MDS/Pivots from Cluster/3D usando representantes de la comunidad como pivotes

Diseño 3D obtenido (15606 vértices, 5 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)




Diseño 3D obtenido (15606 vértices, 10 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)



Diseño 3D obtenido (15606 vértices, 100 pivotes aleatorios, tiempo necesario para calcular el diseño = 0 segundos)




Diseño 3D obtenido (15606 vértices, 500 pivotes aleatorios, tiempo necesario para calcular el diseño = 8 segundos)




Diseño 3D obtenido (15606 vértices, 1097 representantes de la comunidad como pivotes, tiempo necesario para calcular el diseño = 35 segundos)

jueves, 30 de noviembre de 2017

Pajek: Análisis y visualización de comunidades (1/2)

Detectando comunidades con el método de agrupamiento de Louvain y VOS


Pajek

Detectando comunidades (Pajek y PajekXXL)


El algoritmo de detección de la comunidad de Louvain está disponible en Pajek y PajekXXL 3.02 o posterior.
A partir de la versión 3.04, la implementación ofrece el parámetro de resolución. De esta forma, los usuarios tienen control sobre el tamaño y la cantidad de comunidades encontradas (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
En esta versión, el algoritmo estándar de Louvain fue reemplazado por el algoritmo Multi-Level Coarsening + Multi-Level Refinement.

A partir de la versión 3.05 activada, se incluye el número de parámetro de reinicios. Eso permite ejecutar la optimización varias veces y seleccionar la mejor partición en todas las ejecuciones.

A partir de la versión 3.05, está disponible otro algoritmo de detección de comunidad (VOS Clustering). El uso es muy similar al uso del método de Louvain, por lo tanto, explicaremos el uso solo del método de Louvain. En Louvain, la modularidad del método se optimiza en VOS Clustering VOS quality. La comparación de los resultados obtenidos por ambos métodos se puede encontrar aquí.

Ambos algoritmos son muy rápidos y se pueden aplicar a enormes redes dispersas que contienen cientos de millones de vértices. Los valores de las líneas (si los hay) también se tienen en cuenta en ambos algoritmos.
Hay dos algoritmos disponibles (para más información, consulte: Algoritmos de búsqueda local multinivel para clústeres de modularidad):

  1. Multi-Level Coarsening + Single Refinement: realiza solo el refinamiento de la partición obtenida en el último nivel (la partición más grosera).
  2. Multi-Level Coarsening + Multi-Level Refinement - realiza iterativamente la fase de engrosamiento y refinamiento para cada nivel obtenido.

Secuencia de pasos en Pajek


  1. Descargue el archivo de red de muestra (25069 vértices, 62608 bordes) y cárguelo en Pajek / PajekXXL.
  2. Comience la búsqueda en la comunidad:  Network/Create Partition/Communities/Louvain Method
  3. Por lo general, se necesitan varios niveles. Pajek devuelve la mejor partición de acuerdo a todos los niveles.
    El número de conglomerados (NC) en niveles disminuye (los conglomerados más pequeños se fusionan con los más grandes en niveles posteriores).
    Por otro lado, aumenta la modularidad (Q) (o calidad VOS) de la partición (que se informa junto con la cantidad de clústeres).
    Pruebe el algoritmo con diferentes valores de parámetro de resolución (la resolución 1 significa el método estándar de Louvain, las resoluciones más altas producen un mayor número de clústeres, las resoluciones más bajas producen un menor número de clústeres).
    Para encontrar soluciones tan buenas (y tantas) como sea posible en los vértices del algoritmo se tienen en cuenta de forma aleatoria. Debido a eso, el algoritmo generalmente arroja resultados diferentes en cada ejecución. Por lo tanto, se recomienda ejecutar el algoritmo con varios reinicios que seleccionan la mejor partición de todos los reinicios.
  4. Recomendación: Compare las particiones obtenidas en dos ejecuciones con el mismo parámetro de resolución (usando Partitions / Info / Cramer's V, Rajski, Adjusted Rand Index). Si la correlación de las dos particiones es pequeña, es probable que el número de comunidades no sea el correcto, por lo tanto, sugerimos probar el algoritmo con otro valor (más grande o más pequeño) de parámetro de resolución.
    En nuestro caso obtenemos los siguientes resultados para los valores del parámetro de resolución 1.00, 0.50 y 40.00 respectivamente:
    Resolution: 1.00. Modularity: 0.935506. Number of Communities: 166.
    Resolution: 0.50. Modularity: 0.938871. Number of Communities: 105.
    Resolution: 40.00. Modularity: 0.852442. Number of Communities: 500.

    La correlación entre las particiones obtenidas con el mismo valor de parámetro de resolución es la más alta para resolución = 40.00 (Cramer's V = 0.998) por lo tanto usaremos estas comunidades como las correctas (aunque la modularidad es la más pequeña para este valor de parámetro de resolución).
    Importante: la modularidad se puede usar solo para comparaciones de particiones obtenidas con el mismo valor de parámetro de resolución.
  5. Podemos ajustar el Maximum Number of Iterations in each Restart, Maximum Number of Levels in each Iteration (Número Máximo de Iteraciones en cada Reinicio, el Número Máximo de Niveles en cada iteración) permitida y el Maximum Number of Repetitions in each Level (Número Máximo de Repeticiones en cada Nivel) permitido. Los valores predeterminados (20, 20 y 50 respectivamente) funcionan bien para la mayoría de las redes.
    Tenga en cuenta que el primer nivel lleva la mayor parte del tiempo, los niveles posteriores se realizan muy rápidamente, especialmente si el número de clústeres identificados en el primer nivel ya es bajo según el número de vértices (el algoritmo se ejecuta en redes reducidas en niveles posteriores).
  6. Podemos usar Operations/Network+Partition/Info para calcular la modularidad de la red según la partición o la calidad de VOS de la partición. Se puede usar en cualquier partición (no solo en particiones obtenidas por el método de Louvain o VOS Clustering).
  7. En el caso de una red firmada (al menos un valor de línea es negativo) se llama una versión especial del algoritmo de Louvain (maximizando la suma de las líneas positivas positivas y minimizando las negativas dentro de las comunidades).
    Por otro lado, en VOS Clustring, todos los valores de línea se consideran positivos (se tienen en cuenta los valores de línea absolutos).

Visualizando Comunidades


1. Visualizar comunidades usando VOS Mapping y Spring Embedders

Si el número de comunidades y el tamaño de la comunidad más grande no son demasiado altos, podemos utilizar las comunidades obtenidas para obtener una imagen aproximada de toda la red.
Estimación: las redes con hasta 100.000 vértices se pueden visualizar si el número de comunidades no es mayor que 10000, y el tamaño de la comunidad más grande no es mayor que 1000 al mismo tiempo. Esta es solo una estimación aproximada que depende de la memoria de la computadora disponible y su velocidad también. Y, por supuesto, cuánto tiempo estamos listos para esperar;)
En nuestro caso tenemos aprox. 25,000 vértices, 500 comunidades y el tamaño de la comunidad más grande está por debajo de 80.
Para ver el tamaño de la comunidad más grande, podemos ordenar la partición obtenida en orden decreciente (Partition/Canonical Partition/with Decreasing Frequencies) y aplicar Partition/Info a la partición resultante (la primera comunidad es ahora la más grande).

Secuencia de pasos en Pajek

  1. Reducir las comunidades (Operations/Network+Partition/Shrink Network) y dejar respuestas predeterminadas cuando se solicite una entrada. Como resultado, obtenemos una red reducida donde los vértices representan a las comunidades y el valor entre dos comunidades representa el valor total de las líneas que conectan los vértices pertenecientes a las dos comunidades. También obtenemos un bucle para cada comunidad, el valor significa la suma de valores de línea dentro de la comunidad.
  2. Primero visualizaremos la red contraída obtenida. En esta red, los valores de las líneas son muy importantes (queremos que las comunidades que son más similares se acerquen entre sí). Por lo tanto, debemos usar algún algoritmo de diseño que tenga en cuenta los valores de las líneas como similitudes. El mapeo de VOS y el dibujo de energía son adecuados para este propósito:
    1. Corra VOS Mapping en el que los valores son line siempre se tienen en cuenta (como similitudes).
    2. Si queremos aplicar el dibujo de energía, primero debemos verificar las Options/Values of Lines/Similarities (en la ventana Draw). Luego ejecuta cualquier dibujo de energía, p. Fruchterman-Reingold (recomendado) o Kamada-Kawai.
Como resultado, obtenemos un diseño de conexiones entre las comunidades.

Red encogida (500 comunidades)


3. Ahora aplicamos las coordenadas de la red contraída a toda la red. Para hacer eso:
- seleccione la red encogida (500 vértices) como la primera red,
- seleccione la red original (25069 vértices) como segunda red,
- seleccione la partición utilizada para la reducción (con dimensión igual a la red original, 25069 en nuestro caso).
Luego ejecute: Networks/Shrink Coordinates (First to Second)/Partition.
En el diseño resultante, los vértices que pertenecen a la misma comunidad se dibujan distribuidos aleatoriamente cerca de su vértice reducido.
Antes de dibujar una red de tal tamaño, es posible que primero necesite aumentar la red más grande que Pajek está dispuesto a dibujar utilizando: Options/Read-Write/Max Vertices to draw

Disposición obtenida (25069 vértices)


4. Puede dibujar vértices dentro de las comunidades también en círculos (Layout/Circular/UsingPartition). Si los círculos son demasiado grandes o demasiado pequeños, puede cambiar su tamaño usando Options/Transform/Resize Cluster Area.

5. Ahora permitamos optimizar vértices y líneas dentro de clusters solamente.
Nuestra red original no está ponderada (todos los valores de línea son 1), por lo tanto, primero le ordenamos a Pajek que no tenga en cuenta los valores de las líneas durante la optimización: Options/Values of lines/Forget 
(La optimización sin tener en cuenta los valores de línea es mucho más rápida, especialmente Kamada-Kawai).
Para optimizar los vértices y las líneas dentro de los clusters solamente, use Layout/Energy/Kamada-Kawai/Optimize Inside Clusters only
Ahora debemos esperar hasta que el contador en la esquina superior derecha de la ventana Dibujar alcance la cantidad total de comunidades.
En la imagen obtenida puede acercar seleccionando un rectángulo con el botón derecho del mouse.
Si los vértices dentro de los conglomerados están demasiado cerca o muy lejos ('nubes' demasiado pequeñas o demasiado grandes) puede cambiar el tamaño del área de los conglomerados utilizando Options/Transform/Resize Cluster Area.

Diseño final (25069 vértices)


6. En el caso de redes grandes, es mejor eliminar líneas y mostrar solo vértices para ver 'nubes'.
Para hacerlo, desmarque Options/Lines/Draw Lines/Edges.

Diseño final sin líneas (25069 vértices)


Diseño final sin líneas (25069 vértices, ampliado):




Diseños finales en EPS o SVG sin líneas (25069 vértices)

lunes, 27 de noviembre de 2017

Analizando las redes del Boston colonial con Mathematica

Analizar las redes sociales de los revolucionarios de Boston con el lenguaje de Wolfram

Swede White, Especialista en Medios y Comunicaciones
Wolfram Blog




A medida que se acerca el 4 de julio, muchos en América celebrarán 241 años desde que los fundadores de los Estados Unidos de América firmaron la Declaración de Independencia, su propia y revolucionaria empresa revolucionaria. Antes de la independencia, los colonos celebraban el nacimiento del rey. Sin embargo, después de la Guerra Revolucionaria estalló en abril de 1775, algunos colonos comenzaron a celebrar funerales simulados del Rey Jorge III. Además, las hogueras, los cañonazos festivos y el fuego de mosquetes y los desfiles eran comunes, junto con las lecturas públicas de la Declaración de Independencia. También había ron.
Hoy, a menudo celebramos con barbacoa, fuegos artificiales y una serie de otras festividades. Como aspirante a nerd de datos y sociólogo, pensé que usaría Wolfram Language para explorar la Declaración de Independencia usando un procesamiento básico del lenguaje natural.
Usando metadatos, también exploraré una red política de colonos con especial atención prestada a Paul Revere, utilizando las funciones integradas de Wolfram Language y la ciencia de redes para descubrir algunas verdades ocultas sobre el Boston colonial y sus actores clave antes de la firma de la Declaración de la independencia.

La Declaración de Independencia y el repositorio de datos de Wolfram

Wolfram Data Repository se anunció recientemente y contiene una creciente colección de recursos interesantes para resultados fácilmente computables.




Da la casualidad que el repositorio de datos de Wolfram incluye el texto completo de la Declaración de Independencia. Exploremos el documento con WordCloud, tomándolo primero del Repositorio de Datos.



Interesante, pero esto no es muy patriótico por tema, así que use ColorFunction y luego use DeleteStopwords para eliminar a los firmantes del documento.



Como podemos ver, Wolfram Language ha eliminado los nombres de los firmantes y ampliado las palabras en función de su frecuencia en la Declaración de Independencia. Lo que destaca es que las palabras "leyes" y "personas" aparecen con mayor frecuencia. Esto no es terriblemente sorprendente, pero echemos un vistazo al uso histórico de esas palabras usando la funcionalidad incorporada de WordFrequencyData y DateListPlot para la visualización. Siguiendo con un tema patriótico, usemos también PlotStyle para hacer que la trama sea roja y azul.




Lo que es increíblemente interesante es que podemos ver un pico de uso alrededor de 1776 en ambas palabras. La divergencia entre el uso de las dos palabras a lo largo del tiempo también me parece interesante.

Una red social de Boston colonial

Según los textos históricos, el Boston colonial era un lugar fascinante a fines del siglo XVIII. La monografía de David Hackett Fischer, El viaje de Paul Revere, presenta una imagen completa de las facciones políticas que estaban impulsando el movimiento revolucionario. De particular interés son las logias masónicas y grupos de caucus que fueron políticamente activos y centrales para la Guerra Revolucionaria.
Aquellos de nosotros que crecimos en los Estados Unidos probablemente recordaremos a Paul Revere de nuestras primeras clases de historia en Estados Unidos. Él famoso cabalgó un caballo a través de lo que ahora es la gran área de Boston advirtiendo a la milicia colonial de las tropas británicas entrantes, conocido como su "paseo de medianoche", notablemente capturado en un poema de Henry Wadsworth Longfellow en 1860.
Hasta la exploración de Fischer de las asociaciones políticas y membresías de las bancadas de Paul Revere, los historiadores argumentaron que el movimiento rebelde colonial estaba controlado por élites políticas de alto rango lideradas por Samuel Adams, y muchos concluyeron que Revere era simplemente un mensajero. Eso era, pero a través de ese mensaje y otras actividades, fue clave para unir grupos políticos que de otro modo podrían no haberse comunicado, como mostraré a través del análisis de redes.
Da la casualidad que esta vez el año pasado estuve en la Wolfram Summer School, actualmente en curso en Bentley University. Uno de los aspectos más destacados de mi tiempo fue una conferencia sobre análisis de redes sociales, dirigida por Charlie Brummitt, que utilizó metadatos para analizar rebeldes coloniales en Boston.
El sociólogo de la Universidad de Duke, Kieran Healy, tiene una fantástica publicación en el blog que explora el tema "Uso de metadatos para encontrar a Paul Revere" de la cual se deriva la conferencia. Voy a recrear algunos de sus análisis con Wolfram Language y llevar las cosas un poco más allá con visualizaciones más avanzadas.

"Recuerda a las mujeres"

En primer lugar, sin embargo, como sociólogo, mis estudios e investigaciones a menudo se refieren a las desigualdades, el poder y los grupos marginados. Sería negligente si no hubiera pensado en la correspondencia de Abigail Adams con su esposo John Adams el 31 de marzo de 1776, en la que ella le instruyó a "recordar a las damas" en las actas del Congreso Continental. Hice una WordCloud de la carta aquí.



Los datos que estamos utilizando se refieren exclusivamente a hombres y datos de membresía de organizaciones sociales y políticas exclusivamente masculinas. Vale la pena señalar que durante el período Revolucionario, y durante bastante tiempo después, a las mujeres se les prohibió legalmente participar en la mayoría de los asuntos políticos. Las mujeres podían votar en algunos estados, pero entre 1777 y 1787, esos derechos fueron despojados en todos los estados excepto Nueva Jersey. No fue hasta el 18 de agosto de 1920 cuando se aprobó la 19ª Enmienda, lo que garantizó el derecho de las mujeres a votar de manera inequívoca.
Con ese fin, según el derecho consuetudinario inglés, las mujeres eran tratadas como fem encubiertas, lo que significaba que los derechos de las mujeres casadas eran absorbidos por sus maridos. No solo no se les permitía votar, las leyes de cobertura dictaban que el esposo y la esposa eran una sola persona, ya que el primero tenía la autoridad exclusiva para tomar decisiones políticas, así como la capacidad de comprar y vender propiedades y ganar salarios.
Después de la Revolución Americana, Estados Unidos estuvo libre de la tiranía del Rey Jorge III; sin embargo, las mujeres seguían estando sumisas a los hombres legal y culturalmente. Por ejemplo, Hannah Griffitts, una poeta conocida por su trabajo sobre las Hijas de la Libertad, "The Female Patriots", expresada en un diario de 1785, sentimientos de entrada comunes entre muchas mujeres coloniales:
The glorious fourth—again appears
A Day of Days—and year of years,
The sum of sad disasters,
Where all the mighty gains we see
With all their Boasted liberty,
Is only Change of Masters.
Hay pocas dudas de que sin el trabajo doméstico y emocional de las mujeres, a menudo invisible en la historia, estos hombres, los llamados Padres Fundadores, habrían sido menos exitosos y expeditos en el logro de sus objetivos de independencia de Gran Bretaña. Así que hoy, recordamos a las mujeres, los marginados y los privados de derechos.

Grupos políticos del Boston colonial: obtención de datos y análisis exploratorio

Convenientemente, cargué una matriz de asociación limpia de miembros de grupos políticos en Boston colonial como ResourceObject para el Repositorio de Datos. Importaremos con ResourceData para proporcionarnos un buen marco de datos con el que trabajar.





Podemos ver que tenemos 254 colonos en nuestro conjunto de datos. Echemos un vistazo a los grupos coloniales rebeldes de los que Samuel Adams era miembro, ya que es conocido en la actualidad por ser un ingrediente clave en las celebraciones del 4 de julio, la cerveza.



Nuestros valores True/False indican membresía en una de las siete organizaciones políticas: St. Andrews Lodge, Loyal Nine, North Caucus, Long Room Club, Tea Party, Boston Committee of Correspondence y London Enemies.
Podemos ver que Adams fue miembro de cuatro de estos. Echemos un vistazo a las membresías de Revere.




Como podemos ver, Revere fue un poco más involucrado, ya que es miembro de cinco grupos. Podemos graficar fácilmente su membresía en estas organizaciones políticas. Para aquellos de ustedes que no están familiarizados con el funcionamiento de una red, los nodos representan a los agentes y las líneas entre ellos representan algún tipo de conexión, interacción o asociación.



Hay siete organizaciones en total, así que veamos cómo están conectadas destacando las organizaciones políticas como nodos rojos, con individuos conectados a cada nodo.




Podemos ver que Tea Party y St. Andrews Lodge tienen muchos más miembros que Loyal Nine y otros, que ahora exploraremos más a fondo en el nivel micro.

Red de personas en organizaciones políticas: cercanía y centralidad

Lo que hemos hecho hasta ahora es bastante macro y exploratorio. Analicemos detenidamente la conexión de cada individuo entre sí a través de la membresía compartida en estos diversos grupos. Esencialmente, estamos eliminando nuestros nodos de organización política y centrándonos en los colonos individuales. Utilizaremos Tooltip para ayudarnos a identificar a cada actor en la red.



Ahora usamos un método de red social llamado BetweennessCentrality que mide la centralidad de un agente en una red. Es la fracción de las rutas más cortas entre pares de otros agentes que pasan a través de ese agente. Dado que el actor puede intermediar información entre los otros agentes, por ejemplo, esta medida se vuelve clave para determinar la importancia de un nodo particular en la red midiendo cómo se encuentra un nodo entre pares de actores sin nada que se encuentre entre un nodo y otros actores.
Primero crearemos una función que nos permitirá visualizar no solo BetweennessCentrality, sino también EigenvectorCentrality y ClosenessCentrality.




Comenzamos con un breve código para BetweennessCentrality que utiliza la función ColorData definida para mostrarnos qué actores tienen la mayor capacidad para transmitir recursos o información a través de la red, junto con la información sobre herramientas que se definió previamente.



Y he aquí, Paul Revere parece tener una puntuación de interinidad mucho más alta que cualquier otra persona en la red. Significativamente, John Adams está en el centro de nuestro gráfico radial, pero no parece tener mucho poder en la red. Tomemos los números.





Revere tiene casi el doble del puntaje del siguiente colono más alto, Thomas Urann. Lo que esto indica es la importancia esencial de Revere en la red como intermediario de información. Como él es miembro de cinco de los siete grupos, esto no es terriblemente sorprendente, pero de lo contrario hubiera pasado desapercibido sin este tipo de investigación.
La cercanía La centralidad varía de la intermedia en que nos preocupamos por la longitud de la ruta a otros actores. Estos agentes que pueden llegar a un gran número de otros actores a través de trayectos cortos pueden diseminar información o incluso ejercer el poder de manera más eficiente que los agentes en la periferia de la red. Ejecutamos nuevamente nuestra función en la red y miremos a ClosenessCentrality para ver si Revere todavía se encuentra en la posición más alta.



Revere aparece clasificado como el más alto, pero no es tan dramático como su puntaje de intermediación y, de nuevo, John Adams tiene un puntaje bajo. Tomemos las medidas para un análisis posterior.



Como indica nuestra coloración del mapa de calor de los nodos, otros colonos no se quedan atrás de Revere, aunque sin duda es el mejor clasificado. Si bien hay otras personas importantes en la red, Revere es claramente el intermediario más eficiente de recursos, poder o información.
Una medida final que podemos examinar es EigenvectorCentrality,, que utiliza un algoritmo más avanzado y tiene en cuenta la centralidad de todos los nodos y la cercanía e incrustación de un actor individual entre los agentes altamente centrales.



Parece haber dos contendientes principales para la puntuación más alta del vector propio. Volvamos a calcular las medidas en una tabla para su examen.



Nathaniel Barber y Revere tienen puntajes casi idénticos; sin embargo, Revere todavía encabeza la lista. Tomemos ahora los cinco primeros puntajes de cercanía y creemos una red sin ellos para ver cómo podría cambiar la cohesión de la red.
.


Vemos un cambio bastante dramático en el gráfico de la izquierda con nuestros jugadores clave eliminados, lo que indica que aquellos con los cinco primeros puntajes de cercanía son bastante esenciales para unirse a estas siete organizaciones políticas juntas. Joseph Warren parece ser una de las pocas personas que puede actuar como un puente entre grupos dispares de conexiones. Básicamente, sería difícil que la información se distribuyera libremente a través de la red de la izquierda en oposición a la red de la derecha que incluye a Paul Revere.

Conclusión

Como hemos visto, podemos usar la ciencia de redes en la historia para descubrir o exponer ideas preconcebidas sobre la importancia de una figura en eventos históricos, según los metadatos de membresía grupal. Antes del análisis de Fischer, muchos pensaban que Revere era solo un mensajero, y no una figura importante. Sin embargo, lo que he podido mostrar es la importancia de Revere para unir grupos políticos dispares. Esto revela aún más que el movimiento Revolucionario fue pluralista en sus objetivos. En última instancia, la red estuvo unida por el desdén por la tiranía del rey Jorge III, las injustas acciones militares británicas y las políticas que llevaron a una sangrienta revuelta, no necesariamente una directiva descendente de las elites políticas.
Más allá de la historia, la ciencia de la red y el procesamiento del lenguaje natural tienen muchas aplicaciones, como descubrir agentes de información, recursos y poder, es decir, capital social ocultos. Uno puede imaginar fácilmente cómo esto podría ser útil para el marketing computacional o las relaciones públicas.
¿Cómo utilizará la ciencia de la red para descubrir ideas ocultas que de otra manera revolucionarán e interrumpirán su trabajo o sus intereses?