Portal de Eventos Científicos da UTFPR (EVIN), XXII Seminário de Iniciação Científica e Tecnológica da UTFPR

Tamanho da fonte: 
Compilação de um Córpus para Classificação Automática de Textos em Níveis Crescentes de Dificuldade
Paula Freddo Zanini, Arnaldo Candido Junior

Última alteração: 2018-06-09

Resumo


Para este trabalho ser executado foi necessário digitalizar o dicionário Caldas Aulete utilizando o OCR - Reconhecimento Ótico de Caracteres e, após revisá-lo extrair as partes principais para a pesquisa utilizando a linguagem de programação Python. Também foi feito um classificador de palavras fáceis e difíceis utilizando uma Lista de Frequências de Utilização das palavras. Posteriormente foi feito um crawler que extrai definições de palavras classificadas como difíceis no Wikipédia.

 


Palavras-chave


Crawler; Texto; OCR;