Affiliation:
1. TÜRKİYE İSTATİSTİK KURUMU
2. VAN YÜZÜNCÜ YIL ÜNİVERSİTESİ, İKTİSADİ VE İDARİ BİLİMLER FAKÜLTESİ
Abstract
Bilgisayar teknolojilerindeki gelişmelere paralel olarak veri madenciliği algoritmaları ile yapılan çalışmalarda artış yaşanmaktadır. Sınıflandırma algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması algoritmaların performansında önemli rol oynamaktadır. Bu çalışmada veri kalitesini bozan etmenlerden birisi olan çoklu doğrusal bağlantının veri setinde bulunması durumunda sınıflandırma algoritmalarının performansının nasıl etkilendiği incelenmiştir. Çoklu doğrusal bağlantının varlığını tespit etmek için veri setlerine ait korelasyon grafikleri incelenmiş daha sonrasında ise koşul endeksi ile çoklu doğrusal bağlantının derecesi belirlenmiştir. Sınıflandırma algoritmalarından olan Naive Bayes (NB), Lojistik Regresyon (LR) ve K-En Yakın Komşu Algoritması (kNN), Destek Vektör Makineleri (SVM) ve Aşırı Gradyan Arttırma Algoritması (XGBoost) ile uygulamalar gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için simülasyon çalışması ve gerçek veri setleri ile uygulamalar yapılmış, sonuçlar tablolar halinde sunulmuştur. Analiz sonuçlarına göre, çoklu doğrusal bağlantı varlığında büyük örneklem hacimli veri setlerinde doğruluk ve F-ölçütü metriklerine göre XGBoost algoritmasının diğer algoritmalardan dikkate değer performans farklılığı gösterdiği belirlenmiştir. Çoklu doğrusal bağlantından performansı en olumsuz etkilenen algoritmanın ise Naive Bayes olduğu gözlenmiştir.
Publisher
Nicel Bilimler Dergisi based at ESOGU Istatistik Danismanlik Uygulama ve Arastirma Merkezi
Reference42 articles.
1. Alin, A. (2010), Multicollinearity, Wiley Interdisciplinary Reviews Computational Statistics, 2(3), 370-374.
2. Alpar, R. (2013), Çok değişkenli istatistiksel yöntemler, Detay Yayıncılık: Ankara, Türkiye.
3. Asselman, A., Khaldi, M. and Aammou, S. (2021), Enhancing the prediction of student performance based on the machine learning xgboost algorithm, Interactive Learning Environments, 1–20.
4. Batista, G. E. A. P. A. and Monard, M. C. (2002), A study of k-nearest neighbour as an imputation method. In Abraham, A., Solar, J.R., Köppen, M. (Ed.), Frontiers in artificial intelligence and applications, 87, 251–260, IOS Press.
5. Blommaert, A., Hens, N. and Beutels, P. (2014), Data mining for longitudinal data under multicollinearity and time dependence using penalized generalized estimating equations, Computational Statistics & Data Analysis, 71(0), 667–680.