Affiliation:
1. Sivas cumhuriyet üniversitesi
Abstract
Teknoloji ve bilişim alanındaki yenilikler ile elde edilen verinin büyüklüğü ve çeşitliliği artarak bu verilerin kaydedilmesi ve paylaşılması da kolaylaşmıştır. İnsan eli ile analiz edilmesi oldukça zor olan bu verilerin analizinde bilgisayarlar ve özellikle makine öğrenmesi algoritmaları büyük rol oynamaktadır. Bu analiz sürecinde veri ön işleme aşaması veri üzerinde yapılan çalışmalarda kilit rol oynamaktadır. Veri ön işleme aşamasında eksik verilerin tamamlanması ve veri ölçekleme işlemi gerçekleştirilmektedir. Literatürde eksik veri tamamlaması ile veri ölçekleme yöntemlerinin algoritmalar üzerindeki etkisini ayrı ayrı gösteren çalışmalar bulunmaktadır. Fakat bu iki önemli aşamanın bir arada değerlendirilmesi de gerekmektedir. Bu çalışmada Hepatoselüler Karsinoma (HCC) hastalığı veri seti üzerinde eksik verilerin tamamlanması ve veri ölçekleme yaklaşımlarının Yapay Sinir Ağları, Destek Vektör Makinaları ve Rassal Orman Algoritmalarının sınıflandırma başarılarına etkisi araştırılmıştır. Araştırma sonucunda en iyi sınıflandırmanın eksik verilerin tamamlanmasında ortalama yaklaşımı kullanılması ve min-max veri ölçeklemesi ile gerçekleştiği tespit edilmiştir. Ayrıca sınıflandırma açısından Rassal Orman algoritmasının diğer algoritmalara göre daha başarılı olduğu tespit edilmiştir
Publisher
Duzce Universitesi Bilim ve Teknoloji Dergisi
Reference28 articles.
1. [1] E. Sezgin and Y. Çelik, “Veri madenciliğinde kayıp veriler için kullanılan yöntemlerin
karşılaştırılması,” XV. Akademik Bilişim Konferansı Bildirileri, Antalya, Türkiye, 2013, ss.194-198.
2. [2] T. Jayalakshmi and A. Santhakumaran, “Statistical Normalization and Back Propagationfor Classification”, International Journal of Computer Theory and Engineering vol.3, no.1, pp.793-8201, 2011
3. [3] S. H. Caldwell, D. M. Crespo, H. S. Kang, and A. M. S. Al-Osaimi, “Obesity and hepatocellular carcinoma”, In Gastroenterology, vol. 127, no.5, pp.97–103, 2004.
4. [4] J. Jose, G.K. Vishwakarma, A. Bhattacharjee, “Illustration of missing data handling technique generated from hepatitis C induced hepatocellular carcinoma cohort study”, Journal of King Saud University - Science. vol.33, no.4, 2021.
5. [5] M. Yumus, M. Apaydin, A. Degirmenci, O. Karal, “Missing data imputation using machine learning based methods to improve HCC survival prediction”, 28th Signal Processing and Communications Applications Conference (SIU), Gaziantep, Türkiye, 2020, ss.1-4.