Última alteração: 2020-10-30
Resumo
Este artigo descreve o treinamento de um classificador Naive Bayes, baseado em tweets previamente classificados quanto a sua polaridade, o qual é utilizado para realizar uma análise de sentimento sobre textos gerados em stream, provenientes da rede social Twitter. O objetivo deste estudo é realizar uma análise de sentimento em tempo real, sobre tweets publicados por veículos de notícias especializados no mercado de ações brasileiro. O desenvolvimento do analisador de sentimento requereu 6 fases: armazenamento da base de tweets manualmente rotulados; pré-processamento, utilizando métodos de limpeza do texto, tokenização e remoção de stopwords; aplicação do método Term Frequency–Inverse Document Frequency (TF-IDF); treinamento do classificador; coleta dos novos tweets em streaming e; análise de sentimento em tempo real. Após o desenvolvimento das fases citadas anteriormente, o analisador de sentimento atingiu uma acurácia de 76,8 por cento.
p { margin-bottom: 0.21cm; direction: ltr; color: #00000a; line-height: 100%; text-align: justify; orphans: 0; widows: 0 } p.western { font-family: "Times New Roman", serif; font-size: 12pt; so-language: it-IT } p.cjk { font-family: "Times New Roman"; font-size: 12pt; so-language: pt-BR } p.ctl { font-family: "Times New Roman"; font-size: 10pt } a:link { color: #0563c1 }Este artigo descreve o treinamento de um classificador Naive Bayes, baseado em tweets previamente classificados quanto a sua polaridade, o qual é utilizado para realizar uma análise de sentimento sobre textos gerados em stream, provenientes da rede social Twitter. O objetivo deste estudo é realizar uma análise de sentimento em tempo real, sobre tweets publicados por veículos de notícias especializados no mercado de ações brasileiro. O desenvolvimento do analisador de sentimento requereu 6 fases: armazenamento da base de tweets manualmente rotulados; pré-processamento, utilizando métodos de limpeza do texto, tokenização e remoção de stopwords; aplicação do método Term Frequency–Inverse Document Frequency (TF-IDF); treinamento do classificador; coleta dos novos tweets em streaming e; análise de sentimento em tempo real. Após o desenvolvimento das fases citadas anteriormente, o analisador de sentimento atingiu uma acurácia de 76,8 por cento.