Abstract
Veri, bilgiyi edinebilmek için ihtiyaç duyduğumuz temel yapıdır. Geçmişten günümüze teknoloji ile gelişen veri tabanları eğitim ve iş dünyası başta olmak üzere her alanda önemini arttırmakta ve özellikle sensörlerin hayatımızın her adımında yer almaya başlamasıyla attığımız adımlardan yapmayı tercih ettiğimiz alışverişlere kadar hayatımızdaki her şey birer veriye dönüşmektedir. Veriyi anlamlı hale getirebilmek için ise veri ön işleme mekanizmaları devreye sokularak elimizdeki verilerin kullanabileceğimiz şekilde anlamlı olması sağlanmaktadır. Bir veri tabanını ön işleme tabi tuttuğumuzda karşılaştığımız en büyük sorunlardan biri eksik verilerin varlığıdır. Bu sorunun çözümü için kullanılan geleneksel istatistiksel yöntemler günümüz veri yığınlarıyla başa çıkamamakta, gelişen teknolojiyle yerini yapay zekaya bırakmaktadır. Bu makale, veri setlerindeki nümerik eksik verilerin etkili bir şekilde tahmin edilmesi amacıyla geliştirilmiş olan Python tabanlı bir masaüstü uygulamasını ele almaktadır. Uygulama, rastgele orman regresyonu algoritması ve yinelemeli tamamlayıcı modülünü birleştirerek, eksik veri tahmininde güçlü ve yenilikçi bir yaklaşım sunmaktadır. Uygulama dört farklı veri seti üzerinde test edilmiş ve %57 ile %79 arasında bir doğrulukla tahmin yapılmıştır. Bu önemli araç, veri madenciliği ve veri ön işleme konularında uzman olmayan kullanıcılar için dahi kullanımı kolay bir arayüz sunarak, eksik verilerin tahminini optimize etmeyi amaçlamaktadır.
Funder
Atatürk Üniversitesi Bilimsel Araştırma Proje Koordinasyon Birimi
Reference11 articles.
1. H. T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information and Management, vol. 50, no. 1, pp. 43–58, 2013, doi: 10.1016/j.im.2012.10.001.
2. H.-T. Moges, K. Dejaeger, W. Lemahieu, and B. Baesens, “A multidimensional analysis of data quality for credit risk management: New insights and challenges,” Information & Management, vol. 50, no. 1, pp. 43–58, Jan. 2013, doi: 10.1016/j.im.2012.10.001.
3. K. Veriler et al., “The Effects of Different Methods Used for Value Imputation Instead of Missing Values on Model Data Fit Statistics,” 2015.
4. Y. Celik, “Comparison of Data Used For Loss Of Data Mining Methods,” 2013. [Online]. Available: https://www.researchgate.net/publication/348787393
5. F. Arslan et al., “Yapay Zekâ Tabanlı Büyük Veri Yönetim Aracı.”