Affiliation:
1. GAZİ ÜNİVERSİTESİ, BİLİŞİM ENSTİTÜSÜ
2. GAZİ ÜNİVERSİTESİ, TEKNOLOJİ FAKÜLTESİ
Abstract
Bu çalışmada makine öğrenmesi teknikleri ve konvolüsyonel sinir ağları (KSA) tabanlı bir derin öğrenme modeli kullanılarak iki farklı Türkçe metin veri kümesi sınıflandırılmıştır. Metin sınıflandırma çalışmasında Rastgele Orman (RO), Naive Bayes (NB), Destek Vektör Makineleri (DVM), K-En Yakın Komşu (KNN) Algoritmaları ve geliştirilen KSA tabanlı derin öğrenme modeli seçilen veri kümelerine uygulanmıştır. Türkçe dilinde seçilen veri kümeleri, metin ve sınıf adedi olarak birbirinden farklı yapıda tercih edilmiş böylece kelime vektör boyutunun aynı deney ortamında sınıflandırma başarısına etkisi araştırılmıştır. Kelime temsil yöntemi olarak Terim Frekansı-Ters Doküman Frekansı (TF-IDF) belirlenmiş olup, sınıflandırma işlemi öncesi veri kümelerine uygulanan durdurma kelimeleri filtreleme ve kök bulma önişlemlerinin de sınıflandırma sonuçlarına katkısı değerlendirilmiştir. Ayrıca kelime temsil vektörlerine öznitelik seçimi uygulanarak boyutları düşürülmüş, böylece nihai vektör boyutunun da sonuçlara etkisi araştırılmıştır. Bahsedilen tüm ön işlemlerin farklı birleşimleri uygulanarak ortaya çıkan kelime vektörlerinin sınıflandırması sonucunda doğruluk ve F1-skor değerleri karşılaştırılmıştır. Karşılaştırmalar her bir sınıflandırma algoritması özelinde ayrı tablolar halinde sunulmuştur. Ayrıca tüm algoritmaların birbiri ile karşılaştırmasını içeren tablolar oluşturularak sonuçlar analiz edilmiştir.
Publisher
International Journal of Informatics Technologies
Reference22 articles.
1. R. Aşlıyan, K. Günel, “Metin İçerikli Türkçe Dokümanların Sınıflandırılması'', Akademik Bilişim Konferansı,529-535, 2010.
2. Y. F. Muliono, F. Tanzil, “A Comparison of Text Classification Methods k-NN, Naïve Bayes, and Support Vector Machine for News Classification”, Jurnal Informatika: Jurnal Pengembangan IT, 3(2), 157-160, 2018.
3. J. Liu, J. Li, L. Liu, W. Kang, “A Semantics Aware Random Forest for Text Classification”, 28th ACM International Conference, 1061-1070, 2019.
4. H. Chen, W. Jiang, C. Li, R. Li, “A Heuristic Feature Selection Approach for Text Categorization by Using Chaos Optimization and Genetic Algorithm”, Hindawi Publishing Corporation Mathematical Problems in Engineering, 2013(1), 1-6, 2013.
5. B. Xu, X. Guo, Y. Ye, J. Cheng, “An Improved Random Forest Classifier for Text Categorization”, Journal of Computers, 7(12), 2913-2920, 2012.