Author:
Mohd. Azmi Nurulhuda Firdaus,Midi Habshah,Fairus Ismail Noranita
Abstract
Pengenalpastian cerapan data yang terpencil daripada kelompok cerapan merupakan langkah asas dalam membina model regresi. Oleh kerana cerapan data yang terpencil ini memberi kesan kepada model yang dibangunkan, pelbagai ukuran terhadap pengenalpastian cerapan data yang terpencil telah dibina. Sebagai contoh, ukuran residual dan ukuran matrik identiti bagi hat matrix. Walau bagaimanapun, ukuran-ukuran ini hanya dapat mengukur dengan baik jika di dalam set data itu terkandung hanya satu atau sedikit cerapan data yang terpencil, walhal jika data dicerap berdasarkan kepada persekitaran sebenar berkemungkinan terdapat lebih banyak cerapan data yang terpencil. Kertas kerja ini mencadangkan pendekatan alternatif iaitu penggunaan teknik kelompok bersama penganggar statistik tegap di dalam pengenalpastian kumpulan cerapan data terpencil. Penganggar statistik tegap yang dicadangkan ialah penganggar MM. Penilaian terhadap kebolehupayaan pendekatan kelompok bersama penganggar cadangan, diuji melalui perbandingan dengan penganggar klasik Least Square (LS) dan penganggar statistik tegap yang lain iaitu Least Trimmed Square (LTS). Pengujian dilakukan melalui analisis pada kumpulan set data terpencil klasik yang diperolehi daripada kajian literatur dan kumpulan set data yang diperolehi daripada simulasi. Sebagai tambahan, kebolehupayaan bagi ketiga-tiga penganggar ini seterusnya diuji berdasarkan nilai punca kuasa dua ralat (RMSE) dan kebarangkalian liputan bagi selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa) bagi menentukan penganggar yang terbaik. Hasil analisis menunjukkan bahawa penganggar yang dicadangkan memberi prestasi yang baik diikuti dengan penganggar LTS dan LS di dalam pengenalpastian kumpulan cerapan data yang terpencil bagi kumpulan set data terpencil klasik dan data simulasi dengan sebarang nilai peratus cerapan terpinggir, bilangan pembolehubah regreasi dan bilangan saiz data. Selain itu, hasil daripada analisis juga menunjukkan nilai punca kuasa dua ralat (RMSE) bagi penganggar cadangan adalah kecil berbanding dengan kedua jenis penganggar yang lain. Manakala, bagi analisis terhadap kebarangkalian liputan selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa) ia menunjukkan bahawa selang keyakinan penganggar MM adalah yang terbaik kerana ia mempunyai kebarangkalian liputan yang baik, equatailness yang baik dan purata jarak keyakinan yang pendek, diikuti dengan penganggar LTS and LS.
Kata kunci: Cerapan terpencil berganda, regresi linear, penganggar teguh, penganggar MM, selang keyakinan Bootstrap Bias Corrected and Accelerated (BCa)
Identifying outlier is a fundamental step in the regression model building process. Outlying observations should be identified because of their potential effect on the fitted model. As a result of the need to identify outliers, numerous outlying measures such as residuals and hat matrix diagonal are built. However, these outlying measures works well when a regression data set contains only a single outlying point and it is well established that regression real data sets may have multiple outlying observations that individually are not easy to identify by the same measures. In this paper, an alternative approach is proposed, that is clustering technique incorporated with robust estimator for multiple outlier identification. The robust estimator proposes is MM-Estimator. The performance of clustering approach with proposed estimator is compared with other estimator that is the classical estimator namely Least Square (LS) and other robust estimator that is Least Trimmed Square (LTS). The evaluation of the estimator performance is carried out through analyses on a classical multiple outlier data sets found in the literature and simulated multiple outlier data sets. Additionally, the analysis of Root Mean Square Error (RMSE) value and coverage probabilities of Bootstrap Bias Corrected and Accelerated (BCa) confidence interval are also being conducted to identify the best estimator in identification of multiple outliers. From the analysis, it has been revealed that the MM-Estimator performed excellently on the classical multiple outlier data sets and a wide variety of simulated data sets with any percentage of outliers, any number of regressor variables and any sample sizes followed by LTS and LS. The analysis also showed that the value of RMSE of the proposed estimator is always smaller than the other two estimators. Whereupon, the coverage probabilities of BC a confidence interval also conclude that the MM-Estimator confidence interval have all the criterias to be the best estimator since it has a good coverage probabilities, good equatailness and the shortest average confident length followed by LTS and LS.
Key words: Multiple outliers, linear regression, robust estimator, MM-Estimator, Bootstrap Bias Corrected and Accelerated (BCa) confidence interval
Cited by
1 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献