viernes, 17 de abril de 2015

Redes de citas en revistas estadísticas

Red de revistas de estadísticas 
16 de abril 2015
 Por Julyan Arbel - R bloggers
(Este artículo fue publicado por primera vez en la satisfacción »R, y amablemente contribuyó a R-bloggers)

Amistad revistas de Estadística (clic para el formato SVG)

Xian escribió en su blog recientemente en el RSS entrante leer papel: Statistical Modelling of Citation Exchange Between Statistics Journals, por Cristiano Varin, Manuela Cattelan y David Firth. Después de la última trabajo de JRSS B leído por uno de nosotros! Los datos que se utilizan en el papel (y se pueden descargar aquí) son bastante fascinante para nosotros, los académicos fascinados por graduaciones académicas, para bien o para mal (irónico aquí). Consisten en citas cruzadas cuenta ) durante 47 Estadísticas revistas (ver la relación y abreviaturas página 5):  es el número de citas de artículos publicados en la revista j en 2010 a artículos publicados en la revista i en la década 2001-2010. La elección de la lista de revistas se discute en el papel. Las principales revistas desaparecidos incluyen Bayesian Analysis (publicado a partir de 2006), The Annals of Applied Statistics (publicados desde 2007).
Miré a la proporción del total de citas recibidas por Total de citas hechas. Esta es una estadística descriptiva super simple que le suceda a parecer algo similar a la figura 4, que representa gráficamente la exportación Decenas de modelo de Stigler (no puedo decir más sobre él, no lo he leído en detalle). Los cinco primeros es el mismo modulo el canje entre Annals of Statistics y Biometrika. Por supuesto una gran diferencia es que la relación Citado / Cita no está dotado de una medida de la incertidumbre (abajo a la izquierda es mi decisión, derecho está Fig. 4 en el papel).



 Me sorprendió no ver una representación gráfica / red de los datos en el documento. Da la casualidad de que quería probar el software Gephi para dibujar gráficos, utilizados por ejemplo por François Caron y Emily Fox en su papel grafos dispersos. Tengo el gráfico anterior, donde:
  • para los datos, he utilizado la matriz de citas C renormalizado por el número total de citas que se hacen, que denotamos por  . Esta es una manera de explicar el tamaño (número de trabajos publicados) de la revista. Esto es sólo una aproximación, aunque ya el número real de artículos publicados por la revista no está disponible en los datos. Sin esa corrección, CSDA está por delante de todos los demás.
  • el tamaño de los nodos representa la relación Citado / Citando
  • la anchura del borde representa la renormalizado . No estoy seguro de lo que Gephi hace aquí, ya que convierte mi grafo dirigido en un grafo no dirigido. Supongo que sólo muestra el más grande de los dos bordes  y .
  • para una mejor visibilidad Seguí sólo el primer decil de bordes más pesadas.
  • los grupos identificados por cuatro colores son clases modularidad obtenidos por el método de Lovaina.

Algunas observaciones

Las dos revistas de software incluidos en el conjunto de datos son valores atípicos bastantes:

  • Journal of Statistical Software (JSS) es desconectado de los otros, lo que significa que no tiene citaciones normalizadas  en el primer decil. A excepción de sus autocitas que son bastante grandes y lo convierten en el factor de impacto cuarto de la lista total en 2010 (y al parecer el primero en 2015).
  • el mayor  es el autocitas del STATA Diario (StataJ).

Centralidad:


  • CSDA es la revista más central en el sentido de la más alta (no ponderado) grado.

Algunos pensamientos más

Todo lo que es sólo por el gusto de hacerlo. Como se ha mencionado por los autores, el número de citas son de cola pesada, lo que significa que sólo unos papeles representan gran parte de las citas de una revista mientras que la mayoría de los periódicos representan pocas citas. Como cuestión de hecho, el total de citas recibidas se debe principalmente a unos cuantos papeles de super-citado, y también es la  matriz  de Citado / Citas que utilizo en todo para la construcción de la gráfica. Una de las razones se podría plantear sobre por qué jrss B lo hace tan bien es los trabajos de lectura: por ejemplo, Spiegelhalter et al. (2002), DIC, recibieron solo el 11,9% de todas las citas JRSS B en 2010. ¿Quién iba a apostar el número de citas de este nuevo trabajo de lectura (JRSS A) recibirá?

No hay comentarios:

Publicar un comentario en la entrada