Tamanho da fonte:
Compilação de um Córpus para Classificação Automática de Textos em Níveis Crescentes de Dificuldade
Última alteração: 2018-06-09
Resumo
Para este trabalho ser executado foi necessário digitalizar o dicionário Caldas Aulete utilizando o OCR - Reconhecimento Ótico de Caracteres e, após revisá-lo extrair as partes principais para a pesquisa utilizando a linguagem de programação Python. Também foi feito um classificador de palavras fáceis e difíceis utilizando uma Lista de Frequências de Utilização das palavras. Posteriormente foi feito um crawler que extrai definições de palavras classificadas como difíceis no Wikipédia.
Palavras-chave
Crawler; Texto; OCR;