Portal de Eventos Científicos da UTFPR (EVIN), XXVI Seminário de Iniciação Científica e Tecnológica da UTFPR

Tamanho da fonte: 
Sumarização multi-documento para o português com modelos BERT
Giordano Pydd Berwanger, Gustavo Henrique Paetzold

Última alteração: 2021-10-18

Resumo


Em decorrência da quantia abundante de informações que temos disponível na Internet, encontrar formas de sintetizar conteúdos para obter apenas o cerne de um documento é essencial para auxiliar no processamento de grandes volumes de dados. A sumarização automática consiste na tarefa de gerar automaticamente versões condensadas de textos fontes denominadas sumários, que são textos expressos em forma reduzida mantendo apenas as partes necessárias sem perder o sentido nem o contexto original do texto. Mesmo com avanços substanciais realizados nessa área na língua inglesa, a escassez de estudos e esforços para pesquisa e desenvolvimento de sumarizadores multi-documento com ênfase na língua portuguesa são aspectos que motivam o presente trabalho. Com a ascensão dos modelos BERT e seus excelentes resultados, nos últimos anos tem crescido muito a sua utilização em várias tarefas de PLN, incluindo a sumarização de documentos. A aplicação dos modelos bidirecionais explorados no BERT possibilitam o desenvolvimento de sumarizadores abstrativos que aprendem com as relações contextuais entre as palavras, gerando assim, sumarizadores mais precisos e estruturados. O presente trabalho visa explorar o uso de modelos BERT aplicados a tarefa de sumarização multi-documento na língua portuguesa e investigar o comportamento e os resultados obtidos ao utilizar algumas ferramentas e técnicas de simplificação textual e sumarização.

Palavras-chave


Modelos BERT; Sumarização automática; Sumarização multi-documento

Texto completo: PDF