Análise Comparativa de Métodos de Undersampling em Classificação Automática de Texto Baseada em Transformers-Reference-Cited by-同舟云学术

Análise Comparativa de Métodos de Undersampling em Classificação Automática de Texto Baseada em Transformers

Published:2024-06-28 Issue:1 Volume:22 Page:1-10
ISSN:1519-8219
Container-title:Revista Eletrônica de Iniciação Científica em Computação
language:
Short-container-title:REIC

Author:

Fonseca Guilherme,Cunha Washington,Rocha Leonardo

Abstract

Classificação Automática de Texto (CAT) em bases de dados desbalanceadas é um desafio comum em aplicações do mundo real. Nesse cenário, uma das classes é sub-representada, podendo provocar um viés no processo de aprendizado. Este trabalho investiga o efeito de métodos de undersampling, que visam reduzir instâncias da classe majoritária, no desempenho de estratégias de CAT recentes, baseada em transformers. Avaliamos 15 estratégias existentes de undersampling e uma proposta nesse trabalho. Nossos resultados sugerem que as abordagens de undersampling são importantes para melhorar o desempenho de métodos de classificação em coleções desbalanceadas, não apenas reduzindo o viés de aprendizado, mas também reduzindo o custo de treinamento.

Publisher

Sociedade Brasileira de Computacao - SB

Reference17 articles.

1. Cunha, W., França, C., Fonseca, G., Rocha, L., and Gonçalves, M. A. (2023a). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In Proceedings of the 46th ACM SIGIR.

2. Cunha, W., Viegas, F., França, C., Rosa, T., Rocha, L., and Gonçalves, M. A. (2023b). A comparative survey of instance selection methods applied to nonneural and transformer-based text classification. ACM Computing Surveys.

3. Czarnowska, P., Vyas, Y., and Shah, K. (2021). Quantifying social biases in nlp: A generalization and empirical comparison of extrinsic fairness metrics. TACL.

4. Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

5. Han, H., Wang, W.-Y., and Mao, B.-H. (2005). Borderline-smote: a new over-sampling method in imbalanced data sets learning. In International conference on intelligent computing, pages 878–887. Springer.