Evaluasi Kinerja MLLIB APACHE SPARK pada Klasifikasi Berita Palsu dalam Bahasa Indonesia

Author:

Kurniawan Antonius Angga,Mustikasari Metty

Abstract

<p>Machine learning digunakan untuk menganalisis, mengklasifikasikan, atau memprediksi data. Untuk melakukan tugas dari machine learning diperlukan alat bantu dengan kinerja serta lingkungan yang kuat demi mendapatkan akurasi dan efisiensi waktu yang baik. MLlib Apache Spark adalah library machine learning yang memiliki kemampuan dan kecepatan yang sangat baik. Hal ini dikarenakan dalam melakukan pemrosesan data, MLlib berjalan di atas memori. Penelitian ini menggunakan MLlib Apache Spark untuk melakukan klasifikasi berita palsu berbahasa Indonesia dengan jumlah data sebanyak 1786 yang diperoleh dari situs penyedia berita palsu dan fakta, yaitu TurnBackHoax.id. Algoritma klasifikasi yang diterapkan adalah Naïve Bayes, Gradient-Boosted Tree, SVM dan Logistic Regression. Keempat algoritma dipilih karena kemampuannya yang sudah terbukti baik dalam melakukan klasifikasi dan beberapa algoritma yang jarang digunakan namun memiliki kemampuan yang baik juga dalam hal klasifikasi. Tahap pengolahan data diantaranya adalah preprocessing, feature extraction, penerapan algoritma. Evaluasi dilakukan berdasarkan accuracy, test error, f1-score, confusion matrix, dan running time. Hasil menunjukkan bahwa MLlib Apache Spark terbukti memiliki kinerja yang cepat dan baik karena dalam melakukan pemrosesan machine learning, running time tercepat yang didapat adalah 6.46 detik dengan menggunakan algoritma Logistic Regression. Akurasi yang didapat juga cukup baik dengan rata-rata test error dari keempat algoritma hanya 0.180. F1-score yang diperoleh pada keempat algoritma juga cukup baik dengan rata-rata sebesar 0.818. Confusion matrix yang dihasilkan juga baik, karena jumlah prediksi benar jauh lebih banyak dibandingkan dengan jumlah yang salah.</p><p> </p><p><em><strong>Abstract</strong></em></p><p class="Judul2"><em>Machine learning is used to analyze, classify, or predict data. To do the task of machine learning, we need tools with a strong performance and environment to get good accuracy and time efficiency. MLlib Apache Spark is a machine learning library that has excellent capabilities and speed. This is because in performing data processing, MLlib runs on memory. This research uses MLlib Apache Spark to classify fake news in Indonesian language with 1786 data that were obtained from fake news and fact provider sites, TurnBackHoax.id. The classification algorithm applied was Naïve Bayes, Gradient-Boosted Tree, SVM and Logistic Regression. The four algorithms were chosen because of their proven ability to classify and several algorithms that are rarely used but have good abilities in terms of classification. Data processing stages include preprocessing, feature extraction, and algorithm implementation.  Evaluation was done based on accuracy, error test, f1-score, confusion matrix, and running time.  The results showed that MLlib Apache Spark was proven to have a fast and good performance because in doing machine learning processing, the fastest running time was 6.46 seconds using the Logistic Regression algorithm. The accuracy obtained was also quite good with an average test error of the four algorithms of only 0.180.  F1-scores obtained on the four algorithms were also quite good with an average of 0.818. The result of confusion matrix was also good, because the number of correct predictions was far more than the number of incorrect ones.</em></p><p><em><strong><br /></strong></em></p><p><em><strong><br /></strong></em></p>

Publisher

Fakultas Ilmu Komputer Universitas Brawijaya

Subject

General Medicine

Cited by 1 articles. 订阅此论文施引文献 订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3