sábado, 26 de noviembre de 2016

ARS 101: Redes de co-ocurrencia

Redes de co-ocurrencia 
Wikipedia

Las redes de co-ocurrencia se usan generalmente para proporcionar una visualización gráfica de relaciones potenciales entre personas, organizaciones, conceptos u otras entidades representadas dentro del material escrito. La generación y visualización de redes de co-ocurrencia se ha vuelto práctico con el advenimiento del texto almacenado electrónicamente que es susceptible a la minería de texto.

A modo de definición, las redes de co-ocurrencia son la interconexión colectiva de términos basados ​​en su presencia emparejada dentro de una unidad de texto especificada. Las redes se generan conectando pares de términos usando un conjunto de criterios que definen la co-ocurrencia. Por ejemplo, se puede decir que los términos A y B "co-ocurren" si ambos aparecen en un artículo particular. Otro artículo puede contener términos B y C. Vincular A a B y B a C crea una red de co-ocurrencia de estos tres términos. Las reglas para definir la co-ocurrencia dentro de un corpus de texto se pueden establecer de acuerdo con los criterios deseados. Por ejemplo, un criterio más estricto para la co-ocurrencia puede requerir un par de términos para aparecer en la misma oración.



Una red de co-occurrencia creada con KH Coder

Métodos y desarrollo

Las redes de co-ocurrencia pueden ser creadas para cualquier lista de términos (cualquier diccionario) en relación con cualquier colección de textos (cualquier corpus de texto). Los pares co-occurrentes de términos se pueden llamar "vecinos" y éstos agrupan a menudo en "barrios" basados ​​en sus interconexiones. Los términos individuales pueden tener varios vecinos. Los barrios pueden conectarse entre sí a través de al menos un término individual o pueden permanecer desconectados.

Los términos individuales son, en el contexto de la minería de textos, representados simbólicamente como cadenas de texto. En el mundo real, la entidad identificada por un término normalmente tiene varias representaciones simbólicas. Por tanto, es útil considerar los términos como representados por un símbolo primario y hasta varios símbolos sinónimos alternativos. La ocurrencia de un término individual se establece mediante la búsqueda de cada representación simbólica conocida del término. El proceso puede ser aumentado a través de algoritmos de procesamiento de lenguaje natural (NLP) que interrogan segmentos de texto para posibles alternativas como orden de palabras, espaciado y separación de palabras. La PNL también se puede usar para identificar la estructura de oraciones y categorizar las cadenas de texto de acuerdo con la gramática (por ejemplo, categorizar una cadena de texto como un sustantivo basado en una cadena de texto anterior conocida como un artículo).

La representación gráfica de las redes de co-ocurrencia permite visualizarlas e inferencias sobre las relaciones entre entidades en el dominio representado por el diccionario de términos aplicados al corpus de texto. Una visualización significativa requiere normalmente simplificaciones de la red. Por ejemplo, las redes pueden ser dibujadas de manera que el número de vecinos que se conectan a cada término sea limitado. Los criterios para limitar los vecinos podrían basarse en el número absoluto de co-ocurrencias o criterios más sutiles como la "probabilidad" de co-ocurrencia o la presencia de un término descriptivo intermedio.

Los aspectos cuantitativos de la estructura subyacente de una red de coinoconducción también pueden ser informativos, como el número total de conexiones entre entidades, el agrupamiento de entidades que representan subdominios, la detección de sinónimos [1], etc.

Aplicaciones y uso

Algunas aplicaciones de trabajo del enfoque de co-ocurrencia están disponibles para el público a través de Internet. PubGene es un ejemplo de una aplicación que se ocupa de los intereses de la comunidad biomédica mediante la presentación de redes basadas en la co-ocurrencia de la genética relacionados con los términos que aparecen en los registros de MEDLINE [2] [3] El sitio web NameBase es un ejemplo de cómo las relaciones humanas se pueden inferir mediante el examen de redes construidas a partir de la co-ocurrencia de nombres personales en los periódicos y otros textos (como en Ozgur et al [4]).

Las redes de información también se utilizan para facilitar los esfuerzos para organizar y centrar la información disponible públicamente para fines de aplicación de la ley y de inteligencia (llamada "inteligencia de código abierto" o OSINT). Las técnicas conexas incluyen las redes de co-citación, así como el análisis del hipervínculo y la estructura del contenido en Internet (como en el análisis de sitios web relacionados con el terrorismo [5]).


Véase también

  • Takada H, Saito K, Yamada T, Kimura M: “Analysis of Growing Co-occurrence Networks” SIG-KBS (Journal Code:X0831A) 2006, VOL.73rd;NO.;PAGE.117-122 Language;Japanese
  • Liu, Chua T-S; “Building semantic perceptron net for topic spotting.” Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, 2001; 378 - 385

Referencias

  1. Cohen AM, Hersh WR, Dubay C, Spackman, K: “Using co-occurrence network structure to extract synonymous gene and protein names from MEDLINE abstracts” BMC Bioinformatics 2005, 6:103
  2. Jenssen TK, Laegreid A, Komorowski J, Hovig E: "A literature network of human genes for high-throughput analysis of gene expression. " Nature Genetics, 2001 May; 28(1):21-8. PMID 11326270
  3. Grivell L: “Mining the bibliome: searching for a needle in a haystack? New computing tools are needed to effectively scan the growing amount of scientific literature for useful information.” EMBO reports 2001 Mar;3(3):200-3: doi:10.1093/embo-reports/kvf059 PMID 11882534
  4. Ozgur A, Cetin B, Bingol H: “Co-occurrence Network of Reuters News” (15 Dec 2007) http://arxiv.org/abs/0712.2491
  5. Zhou Y, Reid E, Qin J, Chen H, Lai G: "US Domestic Extremist Groups on the Web: Link and Content Analysis" http://doi.ieeecomputersociety.org/10.1109/MIS.2005.96

1 comentario:

  1. Hola,

    Yo he creado un SW para ayudar a construir redes de co-ocurrencia obtenidas desde texto en español

    https://textanalyticsman.github.io/social_network_analysis/GneratingANetworkFromText/

    ResponderEliminar