Comparing Different Oversampling Methods in Predicting Multi-Class Educational Datasets Using Machine Learning Techniques-Reference-Cited by-同舟云学术

Comparing Different Oversampling Methods in Predicting Multi-Class Educational Datasets Using Machine Learning Techniques

Published:2023-11-01 Issue:4 Volume:23 Page:199-212
ISSN:1314-4081
Container-title:Cybernetics and Information Technologies
language:en
Short-container-title:

Author:

Tariq Muhammad Arham¹,Sargano Allah Bux²,Iftikhar Muhammad Aksam²,Habib Zulfiqar²

Affiliation:

1. 1 University of Central Punjab , Department of Computer Science , Lahore , Pakistan

2. 2 COMSATS University Islamabad , Department of Computer Science , Lahore , Pakistan

Abstract

Abstract Predicting students’ academic performance is a critical research area, yet imbalanced educational datasets, characterized by unequal academic-level representation, present challenges for classifiers. While prior research has addressed the imbalance in binary-class datasets, this study focuses on multi-class datasets. A comparison of ten resampling methods (SMOTE, Adasyn, Distance SMOTE, BorderLineSMOTE, KmeansSMOTE, SVMSMOTE, LN SMOTE, MWSMOTE, Safe Level SMOTE, and SMOTETomek) is conducted alongside nine classification models: K-Nearest Neighbors (KNN), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Support Vector Machine (SVM), Logistic Regression (LR), Extra Tree (ET), Random Forest (RT), Extreme Gradient Boosting (XGB), and Ada Boost (AdaB). Following a rigorous evaluation, including hyperparameter tuning and 10 fold cross-validations, KNN with SmoteTomek attains the highest accuracy of 83.7%, as demonstrated through an ablation study. These results emphasize SMOTETomek’s effectiveness in mitigating class imbalance in educational datasets and highlight KNN’s potential as an educational data mining classifier.

Publisher

Walter de Gruyter GmbH

Subject

General Computer Science

Link

https://www.sciendo.com/pdf/10.2478/cait-2023-0044

Reference33 articles.

1. Kustitskaya, T. A., A. A. Kytmanov, M. V. Noskov. Early Student-at-Risk Detection by Current Learning Performance and Learning Behavior Indicators. – Cybernetics and Information Technologies, Vol. 22, 2022, No 1, pp. 117-133. https://doi.org/10.2478/cait-2022-0008.

2. Atahua, A. S., J. V. Guerrero, L. Andrade-Arenas, C. M. Huerta. Data Mining: Application of Digital Marketing in Education. – Advances in Mobile Learning Educational Research, Vol. 3, 2023, pp. 621-629.

3. Abouzinadah, E., O. Rabie, A. Bessadok. Exploring Students Digital Activities and Performances through Their Activities Logged in Learning Management System Using Educational Data Mining Approach. – Interactive Technology and Smart Education, Vol. 20, 2023, pp. 58-72.

4. Asif, R., N. G. Haider, K. Mahboob. Quality Enhancement at Higher Education Institutions by Early Identifying Students at Risk Using Data Mining. – Mehran University Research Journal of Engineering and Technology, Vol. 42, 2023, pp. 120-136.

5. SouzaNeto, P. A., I. Silva, L. A. Guedes, T. M. Barros. Predictive Models for Imbalanced Data: A School Dropout Perspective. – Education Sciences, Vol. 9, 2019.

Cited by 1 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Enhancing algorithmic assessment in education: Equi-fused-data-based SMOTE for balanced learning;Computers and Education: Artificial Intelligence;2024-06