Detectando linguagem ofensiva em tweets utilizando modelos Transformer

Marcos Aurélio Hermógenes Boriola; Gustavo Henrique Paetzold

Portal de Eventos Científicos da UTFPR (EVIN), XXVI Seminário de Iniciação Científica e Tecnológica da UTFPR

Marcos Aurélio Hermógenes Boriola, Gustavo Henrique Paetzold

Última alteração: 2021-10-18

Resumo

Devido a facilidade de uso e grande número de acessos em plataformas de redes sociais é cada vez mais comum a presença de publicações que contenham algum tipo ataque, ameaça, ódio, palavras de baixo calão e afins, estes tipos de publicações são exemplos de textos com linguagem ofensiva. No intuito de controlar este tipo de conteúdo, sistemas de classificação são criados para detectar automaticamente linguagem ofensiva em textos e, no caso deste trabalho em específico, um sistema de classificação foi desenvolvido a partir de modelos baseados em Transformer. Os modelos foram refinados a partir de conjuntos de dados contendo tweets na língua inglesa rotulados como ofensivos (OFF) ou não ofensivos (NOT) e para avaliar o desempenho obtido as métricas Macro F1-score, Precisão e Revocação foram utilizadas. No total foram 11 modelos analisados onde o modelo de melhor performance superou os resultados obtidos pelo estado da arte na tarefa compartilhada OffensEval 2020.

Palavras-chave

Classificação de Texto; Processamento de Linguagem Natural; Redes Neurais Artificiais; Modelos Transformer.

Texto completo: PDF