Reconhecimento de fonemas utilizando redes neurais artificiais alimentadas por MFCCs

EVERTON FERNANDES DA CUNHA

Portal de Eventos Científicos da UTFPR (EVIN), XXIII Seminário de Iniciação Científica e Tecnológica da UTFPR

EVERTON FERNANDES DA CUNHA

Última alteração: 2018-12-11

Resumo

Este trabalho apresenta a aplicação de redes neurais artificiais (RNA) no reconhecimento fonético da língua inglesa utilizando MFCC (Mel-Frequency Cepstral Coefficients) como técnica de pré-processamento. Faz-se o uso do banco de dados TIMIT - Acoustic-Phonetic Continuous Speech Corpus, que apresenta gravações de voz provenientes de 630 pessoas, de 8 principais dialetos regionais dos EUA, contendo 10 sentenças foneticamente ricas, totalizando 6300 sentenças gravadas. Estes dados foram produzidos e organizados sob encomenda do DARPA numa produção conjunta do MIT, SRI International e Texas Instruments, sendo um banco de dados bem estabelecido na literatura em trabalhos relacionados a processamento de linguagem natural. Neste trabalho, utilizou-se da linguagem computacional Python na implementação de todas as rotinas necessárias, tanto na extração dos MFCCs quanto para a organização e preparação dos dados para o reconhecimento. As redes neurais foram baseadas em Python e em algumas de suas bibliotecas, como as de processamento científico, Numpy e Scipy, e a de Deep Learning da Google, Tensorflow. Utilizou-se de 1 milhão, 405 mil e 316 exemplares de fonemas para a etapa de treinamento da RNA e 510 mil e 283 para a etapa de teste. Implementou-se diversas configurações da arquitetura Multilayer Perceptron alterando o número de neurônios e camadas escondidas. Utilizando uma taxa de aprendizagem de 0,001, foi encontrado uma acurácia de 0,3816 na época 200 do treinamento.

Palavras-chave

MFCC; Rede neural artificial; Tensorflow; Processamento de voz; Multilayer perceptron