Aprendizagem de Máquina para Classificação de Tipos Textuais: Estudo de Caso em Textos escritos em Português Brasileiro-Reference-Cited by-同舟云学术

Aprendizagem de Máquina para Classificação de Tipos Textuais: Estudo de Caso em Textos escritos em Português Brasileiro

Published:2022-11-16 Issue: Volume: Page:
ISSN:
Container-title:Anais do XXXIII Simpósio Brasileiro de Informática na Educação (SBIE 2022)
language:
Short-container-title:

Author:

Barbosa Gabriel A.,Batista Hyan H. N.,Miranda Péricles^ORCID,Santos Jário,Isotani Seiji^ORCID,Cordeiro Thiago,Bittencourt Ig Ibert^ORCID,Ferreira Mello Rafael^ORCID

Abstract

A classificação de textos considerando tipos textuais é de suma importância para algumas aplicações de Processamento de Linguagem Natural (PLN). Nos últimos anos, algoritmos de aprendizado de máquina têm obtido bons resultados nesta tarefa considerando textos em inglês. No entanto, pesquisas voltadas para a detecção de tipos textuais escritos em português ainda são escassas, e ainda há muito a ser estudado e descoberto nesse contexto. Assim, este artigo propõe um estudo experimental que investiga o uso de algoritmos de aprendizado de máquina para classificar textos em português considerando tipos textuais. Para isso, propomos um novo corpus composto por textos em português de dois tipos textuais: narrativo e dissertativo. Três algoritmos de aprendizado de máquina tiveram seu desempenho avaliado no corpus criado em termos de precisão, revocação e pontuação F1. Além disso, também foi realizada uma análise dos atributos envolvidos no processo para identificar quais características textuais são mais importantes na tarefa atual. Os resultados mostraram que é possível alcançar altos níveis de precisão e rememoração na classificação de textos narrativos e dissertativos. Os algoritmos obtiveram níveis de métricas semelhantes, demonstrando a qualidade das características extraídas.

Publisher

Sociedade Brasileira de Computação - SBC

Cited by 1 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Automatic Detection of Narrative Rhetorical Categories and Elements on Middle School Written Essays;Lecture Notes in Computer Science;2024