The Performance of Clustering Approach with Robust MM–Estimator for Multiple Outlier Detection in Linear Regression

Author:

Mohd. Azmi Nurulhuda Firdaus,Midi Habshah,Fairus Ismail Noranita

Abstract

Pengenalpastian cerapan data yang terpencil daripada kelompok cerapan merupakan langkah asas dalam membina model regresi. Oleh kerana cerapan data yang terpencil ini memberi kesan kepada model yang dibangunkan, pelbagai ukuran terhadap pengenalpastian cerapan data yang terpencil telah dibina. Sebagai contoh, ukuran residual dan ukuran matrik identiti bagi hat matrix. Walau bagaimanapun, ukuran-ukuran ini hanya dapat mengukur dengan baik jika di dalam set data itu terkandung hanya satu atau sedikit cerapan data yang terpencil, walhal jika data dicerap berdasarkan kepada persekitaran sebenar berkemungkinan terdapat lebih banyak cerapan data yang terpencil. Kertas kerja ini mencadangkan pendekatan alternatif iaitu penggunaan teknik kelompok bersama penganggar statistik tegap di dalam pengenalpastian kumpulan cerapan data terpencil. Penganggar statistik tegap yang dicadangkan ialah penganggar MM. Penilaian terhadap kebolehupayaan pendekatan kelompok bersama penganggar cadangan, diuji melalui perbandingan dengan penganggar klasik Least Square (LS) dan penganggar statistik tegap yang lain iaitu Least Trimmed Square (LTS). Pengujian dilakukan melalui analisis pada kumpulan set data terpencil klasik yang diperolehi daripada kajian literatur dan kumpulan set data yang diperolehi daripada simulasi. Sebagai tambahan, kebolehupayaan bagi ketiga-tiga penganggar ini seterusnya diuji berdasarkan nilai punca kuasa dua ralat (RMSE) dan kebarangkalian liputan bagi selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa) bagi menentukan penganggar yang terbaik. Hasil analisis menunjukkan bahawa penganggar yang dicadangkan memberi prestasi yang baik diikuti dengan penganggar LTS dan LS di dalam pengenalpastian kumpulan cerapan data yang terpencil bagi kumpulan set data terpencil klasik dan data simulasi dengan sebarang nilai peratus cerapan terpinggir, bilangan pembolehubah regreasi dan bilangan saiz data. Selain itu, hasil daripada analisis juga menunjukkan nilai punca kuasa dua ralat (RMSE) bagi penganggar cadangan adalah kecil berbanding dengan kedua jenis penganggar yang lain. Manakala, bagi analisis terhadap kebarangkalian liputan selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa) ia menunjukkan bahawa selang keyakinan penganggar MM adalah yang terbaik kerana ia mempunyai kebarangkalian liputan yang baik, equatailness yang baik dan purata jarak keyakinan yang pendek, diikuti dengan penganggar LTS and LS. Kata kunci: Cerapan terpencil berganda, regresi linear, penganggar teguh, penganggar MM, selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa) Identifying outlier is a fundamental step in the regression model building process. Outlying observations should be identified because of their potential effect on the fitted model. As a result of the need to identify outliers, numerous outlying measures such as residuals and hat matrix diagonal are built. However, these outlying measures works well when a regression data set contains only a single outlying point and it is well established that regression real data sets may have multiple outlying observations that individually are not easy to identify by the same measures. In this paper, an alternative approach is proposed, that is clustering technique incorporated with robust estimator for multiple outlier identification. The robust estimator proposes is MM-Estimator. The performance of clustering approach with proposed estimator is compared with other estimator that is the classical estimator namely Least Square (LS) and other robust estimator that is Least Trimmed Square (LTS). The evaluation of the estimator performance is carried out through analyses on a classical multiple outlier data sets found in the literature and simulated multiple outlier data sets. Additionally, the analysis of Root Mean Square Error (RMSE) value and coverage probabilities of Bootstrap Bias Corrected and Accelerated (BCa) confidence interval are also being conducted to identify the best estimator in identification of multiple outliers. From the analysis, it has been revealed that the MM-Estimator performed excellently on the classical multiple outlier data sets and a wide variety of simulated data sets with any percentage of outliers, any number of regressor variables and any sample sizes followed by LTS and LS. The analysis also showed that the value of RMSE of the proposed estimator is always smaller than the other two estimators. Whereupon, the coverage probabilities of BC a confidence interval also conclude that the MM-Estimator confidence interval have all the criteria’s to be the best estimator since it has a good coverage probabilities, good equatailness and the shortest average confident length followed by LTS and LS. Key words: Multiple outliers, linear regression, robust estimator, MM-Estimator, Bootstrap Bias Corrected and Accelerated (BCa) confidence interval

Publisher

Penerbit UTM Press

Subject

General Engineering

Cited by 1 articles. 订阅此论文施引文献 订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3