Compilação de um Córpus para Classificação Automática de Textos em Níveis Crescentes de Dificuldade

Paula Freddo Zanini; Arnaldo Candido Junior

Portal de Eventos Científicos da UTFPR (EVIN), XXII Seminário de Iniciação Científica e Tecnológica da UTFPR

Paula Freddo Zanini, Arnaldo Candido Junior

Última alteração: 2018-06-09

Resumo

Para este trabalho ser executado foi necessário digitalizar o dicionário Caldas Aulete utilizando o OCR - Reconhecimento Ótico de Caracteres e, após revisá-lo extrair as partes principais para a pesquisa utilizando a linguagem de programação Python. Também foi feito um classificador de palavras fáceis e difíceis utilizando uma Lista de Frequências de Utilização das palavras. Posteriormente foi feito um crawler que extrai definições de palavras classificadas como difíceis no Wikipédia.

Palavras-chave

Crawler; Texto; OCR;