Integration of MFCCs and CNN for Multi-Class Stress Speech Classification on Unscripted Dataset

Author:

Zainal Nur AishahORCID,Asnawi Ani Liza,Jusoh Ahmad Zamani,Ibrahim Siti NoorjannahORCID,Mohd. Ramli Huda Adibah

Abstract

Stress is an interaction between individuals and their environment, where perceived threats can lead to serious consequences if prolonged and consistently linked to adverse physical and mental health outcomes. Our study explores methods for stress classification via speech, utilizing an unscripted dataset from an experimental study that was able to show the spontaneous reactions of stressed individuals. Mel-Frequency Cepstral Coefficients (MFCCs) emerge as promising speech features, adept at representing the power spectrum crucial to human auditory perception, especially in stress speech recognition. Leveraging deep learning technology, specifically Convolutional Neural Network (CNN), our research optimally combines speech features and CNN algorithms for stress classification. Despite the scarcity of publications on unscripted datasets and multi-class stress classifications, our study advocates their adoption, aiming to enhance performance metrics and contribute to research expansion. The proposed system shows that MFCCs achieve an accuracy of 95.67% in distinguishing among three stress classes (low-stress, medium-stress, and high-stress), surpassing the prior unscripted dataset study by 81.86%. This highlights the efficacy of the proposed MFCCs-CNN system in stress classification. ABSTRAK: Tekanan merupakan interaksi antara individu dan persekitaran, di mana ancaman akan membawa kepada akibat serius jika berlarutan, dan secara konsisten dikaitkan dengan kesan kesihatan fizikal dan mental yang buruk. Kajian ini mengkaji kaedah pengelasan tekanan melalui pertuturan, menggunakan set data tanpa skrip yang diperoleh daripada kajian eksperimen, iaitu mampu menunjukkan tindak balas spontan individu tertekan. Pekali Septral Frekuensi-Mel (MFCCs) muncul sebagai ciri pertuturan berpotensi, iaitu mahir dalam menunjukkan secara ringkas spektrum kuasa penting bagi persepsi pendengaran manusia, terutama ketika pengecaman pertuturan bertekanan. Memanfaatkan teknologi pembelajaran mendalam, khususnya Rangkaian Neural Lingkaran (CNN), kajian ini menggabungkan ciri pertuturan dan algoritma CNN secara optimum bagi pengelasan tekanan. Walau terdapat kekurangan penerbitan pada set data tanpa skrip dan klasifikasi tekanan pelbagai kelas, kajian ini meningkatkan penggunaannya, bertujuan bagi meningkatkan metrik prestasi dan menyumbang kepada keluasan penyelidikan. Sistem yang dicadangkan ini menunjukkan bahawa MFCC mencapai ketepatan 95.67% dalam membezakan antara tiga kelas tekanan (tekanan rendah, tekanan sederhana dan tekanan tinggi), mengatasi kajian dataset tanpa skrip terdahulu sebanyak 81.86%. Ini menunjukkan keberkesanan sistem MFCCs-CNN dalam pengelasan tekanan.

Funder

Ministry of Higher Education, Malaysia,Ministry of Higher Education, Malaysia

Publisher

IIUM Press

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3