R Programlama Dili ile Kümeleme Analizi

Author:

GÜRLER Cem1

Affiliation:

1. YALOVA ÜNİVERSİTESİ

Abstract

Kümeleme analizi sıklıkla kullanılan, temelde, birbirine benzeyen gözlemleri bir araya gruplamayı amaçlayan çok değişkenli bir istatistik yöntemidir. Kümeleme analizi, hiyerarşik ve hiyerarşik olmayan algoritmalar şeklinde iki ana başlık altında toplanabilir. Bu iki başlık arasındaki farklardan biri, hiyerarşik olmayan algoritmaların, analiz öncesinde küme sayısına ihtiyaç duymasıdır. Ayrıca, hiyerarşik algoritmalarla oluşan küme üyelikleri nihaidir ve değişmezler. Hiyerarşik olmayan algoritmalarda ise, küme üyelikleri, sabit kalana kadar değişmektedir. İstatistiksel yöntemlerde, özellikle son yıllarda açık kaynak kodlu programların ve programlama dillerinin kullanımı yaygınlaşmıştır. Mevcut çalışmada, R programlama dili kullanılarak, hiyerarşik ve hiyerarşik olmayan kümeleme algoritmalarına yönelik uygulamaların gösterilmesi amaçlanmıştır. Ayrıca, kümeleme analizi öncesinde küme sayısının nasıl belirlenebileceği de R programlamayla gösterilmiştir. Küme sayısının belirlenmesi için literatürde sıklıkla kullanılan Elbow, ortalama Silhouette ve GAP istatistiği yöntemleri kullanılmıştır. Çalışmada analizler için factoextra() ve cluster() paketleri kullanılmıştır. Ayrıca çalışmada kullanılan kodların ve görsellerin gösterimi RMarkdown’da üretilmiştir. Kümeleme sonuçlarının nasıl yorumlandığının gösterimi için k-ortalamalar sonucunda oluşan kümeler yorumlanmıştır.

Publisher

Anadolu Universitesi Sosyal Bilimler Dergisi

Subject

General Medicine

Reference23 articles.

1. Arora, P., Deepali, D. ve Varshney, S. (2016). Analysis of k-means and k-medoids algorithm for big data. Procedia Computer Science, 78, 507-512. doi: 10.1016/j.procs.2016.02.095

2. Berry, M. J. ve Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and customer relationship management. New York: John Wiley & Sons.

3. Bholowalia, P.ve Kumar, A. (2014). EBK-means: A clustering technique based on elbow method and k-means in WSN. International Journal of Computer Applications, 105(9), 17-24. Erişim adresi: https://research.ijcaonline.org/volume105/number9/pxc3899674.pdf

4. Brock, G., Pihur, V., Datta, S. ve Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-22. Erişim adresi: https://www.jstatsoft.org/article/view/v025i04

5. Celebi, M. E., Kingravi, H. A. ve Vela, P. A. (2013). A comparative study of efficient initialization methods for the k-means clustering algorithm. Expert systems with applications, 40(1), 200-210. doi:10.1016/j.eswa.2012.07.021

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3