Análisis de sentimiento en Twitter con NodeXL Pro
Mat de Medium
Vamos a bucear en el pozo de la desesperación. Vamos a ver qué piensa acerca de Twitter Donald Trump (#topical). ¿Estás listo? Estoy listo.
Arranca NodeXL Pro. Es posible que desee leer mi artículo anterior acerca del mapeo para conseguir un acercamiento a los fundamentos de la ingestión de datos y limitaciones, pero para nuestros propósitos esto es bastante fácil.
Para esto, estoy más interesado en los tweets que incluyen el término "realdonaldtrump," que yo con él y su red de seguidores, por lo que vamos a ir a la importación:
Y seleccione "From Twitter Search Network,", que le conseguirá esto:
Que el Señor nos ayude
Eso va a chug por un tiempo dependiendo de qué término de búsqueda que ha decidido utilizar. Recuerde que puede utilizar operadores de búsqueda avanzada de Twitter aquí, por lo que puede hacer estallar en algo así como "q = realdonaldtrump% 20near% 3A" Washington% 2C% 20DC "% 20within% 3A15mi & src = typd & lang = es" tirar Tweets cerca de Washington, DC, que incluir la cadena "realdonaldtrump."
Este es un buen punto como cualquier otro para llamar su atención a las herramientas integradas de análisis de los sentimientos de Twitter - :), :(, y lo hacen básicamente lo que dice en la lata, pero también son una especie de caja de negro?. . Hacer esto en NodeXL le da un control más fino.
En cualquier caso, usted va a terminar con algo que se parece a lo siguiente:
38000 filas, no estamos con grandes datos aún
Una vez que se importan los datos, ir a Graph Metrics, así:
Y desplazarse hacia abajo para marcar la casilla de "Words and Word Pairs" en el cuadro que aparece.
La cabeza en las opciones y seleccionar el botón de radio junto a "On the Edges worksheet," y elija "Tweet". NodeXL se verá en esta columna para parejas sentimiento palabra y palabra. Por defecto, se utiliza el léxico conclusiones, pero si usted está usando esto para identificar una determinada palabra o frase que es positiva o negativa, o una expresión coloquial que significa algo único, que tendrá que añadir manualmente que a la lista.
Un breve interludio de matemáticas, con muy poco de matemáticas: "prominencia" básicamente calcula la "importante" la palabra es - la frecuencia con que se presenta para toda la columna, y la "información mutua" mira pares de palabras y calcula cómo relacionada ese par de palabras es. Los números pequeños son pares de palabras poco comunes, los números más grandes son más comunes.
Un interludio lingüística aún más breve - Sé mucho menos acerca de esto que yo acerca de las matemáticas, la advertencia justa: que estamos viendo pares de palabras aquí, que son "Bigramas."
Tome una frase como "La Escuela McCourt de Políticas Públicas es la escuela noveno y más reciente en la Universidad de Georgetown." Restar las palabras de relleno ( "el", "de", "y", "a"), y poner el resto de esas palabras en una bolsa.
En esa bolsa, tiene 10 unigrams. “McCourt,” “School,” “Public,” “Policy,” “is,” “ninth,” “newest,” “school,” “Georgetown,” “University.”.
Tiene 9 Bigramas: “McCourt School,” “School Public,” “Public Policy,” “Policy is,” “is ninth,” “ninth newest,” “newest school,” “school Georgetown,” “Georgetown University.”
Tiene 8 trigramas: "McCourt School Public" y así sucesivamente. La agrupación de palabras en conjuntos más grandes le da más información, pero se obtiene hasta el punto en que se está metiendo frases únicas muy rápidamente, y frases únicas son difíciles de analizar.
Hay un montón de explorar en lingüística computacional y procesamiento del lenguaje natural, pero estamos tratando de obtener las bases. Una vez que los parámetros han terminado de calcular, obtendrá dos nuevas hojas: Las palabras y los pares de palabras.
La hoja de Palabras, se muestra a continuación, es donde se puede ver el análisis de los sentimientos por palabra.
Por "realdonaldtrump," las palabras marcan sentimientos positivos y negativos son más o menos iguales para esta muestra de 10.310 tweets a 10.558, con excepción de la palabra "trompeta", independiente, se menciona 1.533 veces y es parte de la lista sentimiento positivo. Los chillidos. Al restar 1.533 de 10.310 nos da 8.777 a 10.558 para una final positiva a la relación de sentimiento negativo de 0,83.
La hoja par de palabras nos muestra los Bigramas más comunes en esta muestra de tweets:
"rt" y "realdonaldtrump" es el par de palabras más común - para la gente que todavía están retweeting manualmente, bendiga sus corazones. Podría ser útil para recortar cualquier par que incluye nombres de usuario obvias. Con 28 días a la izquierda en la elección, "28" aparece un par de veces. "Aparejado" y "sistema" y "donar" y "grande" ambos muestran hasta varios cientos de veces, mostrando que más o menos donde la gente mencionar "realdonaldtrump" tener la cabeza ante, aquí el 10 de octubre de 2016.
Así es como se hace el análisis de opiniones utilizando NodeXL. Bastante sencillo, y los puntos de vista son un poco más digerible que los vectores propios y medidas de centralidad cuando se trata de explicar la cartografía. Por otra parte buena es que estos datos son mucho más amigable para exportar a Tableau, PowerBI, o lo que su herramienta de visualización de datos de elección es, y puede ofrecer un muy amplio conjunto de información acerca de lo que la gente piensa acerca de su búsqueda de una frase de interés es.
Preguntas, quejas, ofertas de trabajo solicitados, pío me @sabrmattrics: - ¡Soy todo oídos.
No hay comentarios:
Publicar un comentario