Portal de Eventos Científicos da UTFPR (EVIN), XXVI Seminário de Iniciação Científica e Tecnológica da UTFPR

Tamanho da fonte: 
Pipeline baseado em aprendizado de máquina para análises de RNAs circulares
Alvaro Pedroso Queiroz, Danilo Sipoli Sanches

Última alteração: 2021-10-18

Resumo


O avanço da pesquisa na área de bioinformática tem sido emergente. O tamanho dos dados acumulados em vários projetos de sequenciamento está aumentando exponencialmente, e assim, técnicas computacionais envolvendo algoritmos de classificação foram propostos para reduzir as dificuldades encontradas em métodos experimentais. Um dos campos que atrai uma quantidade crescente de atenção é o estudo de RNAs não codificantes, mais precisamente os RNAs circulares e os longos não codificantes. Foi confirmado que eles participam de muitos processos biológicos e as diferenças entre essas duas classes de RNAs não codificantes não foram totalmente descobertas. Logo, a diferenciação entre essas classes é uma tarefa complexa. O pipeline proposto utiliza 8 técnicas de extração de características diferentes, com descritores matemáticos e convencionais, aplicados em dados de sequências biológicas para alimentar um modelo de aprendizado de máquina, selecionado a partir de uma técnica de AutoML. Os experimentos preliminares apresentaram resultados promissores, com alta acurácia (0,9530), precisão (0,9416), revocação (0,9435), f1-score (0,9425) e AUC (0,9897) para sequências de RNAs circulares e longos não codificantes humanos. Também é apresentado a importância das características utilizadas no modelo criado e como a hibridização de técnicas matemáticas e convencionais apresentou resultados positivos para a predição.

Palavras-chave


Pipeline; Aprendizado de máquina; RNAs circulares

Texto completo: PDF