Performance Comparison of Pre-trained Models for Speech-to-Text in Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M-Reference-Cited by-同舟云学术

Performance Comparison of Pre-trained Models for Speech-to-Text in Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M

Published:2023-11-20 Issue:2 Volume:16 Page:109-116
ISSN:1305-8991
Container-title:Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi
language:
Short-container-title:

Author:

MERCAN Öykü Berfin¹^ORCID,ÇEPNİ Sercan²^ORCID,TAŞAR Davut Emre³^ORCID,OZAN Şükrü²^ORCID

Affiliation:

1. ADRESGEZGİNİ YAZILIM TASARIM BİLİŞİM İLETİŞİM VE REKLAM HİZMETLERİ SANAYİ VE TİCARET ANONİM ŞİRKETİ

2. AdresGezgini A.Ş.

3. DOKUZ EYLÜL ÜNİVERSİTESİ

Abstract

Bu çalışmada konuşmadan metne çeviri için önerilmiş ve çok sayıda dille ön eğitilmiş iki model olan Whisper-Small ve Wav2Vec2-XLS-R-300M modellerinin Türkçe dilinde konuşmadan metne çevirme başarıları incelenmiştir. Çalışmada açık kaynaklı bir veri kümesi olan Türkçe dilinde hazırlanmış Mozilla Common Voice 11.0 versiyonu kullanılmıştır. Az sayıda veri içeren bu veri kümesi ile çok dilli modeller olan Whisper-Small ve Wav2Vec2-XLS-R-300M ince ayar yapılmıştır. İki modelin konuşmadan metne çeviri başarımı değerlendirilmiş ve Wav2Vec2-XLS-R-300M modelinin 0,28 WER değeri Whisper-Small modelinin 0,16 WER değeri gösterdiği gözlemlenmiştir. Ek olarak modellerin başarısı eğitim ve doğrulama veri kümesinde bulunmayan çağrı merkezi kayıtlarıyla hazırlanmış sınama verisiyle incelenmiştir.

Funder

TÜBİTAK TEYDEB 1501

Publisher

Turkiye Bilisim Vakfi

Reference29 articles.

1. Özlan, B., Haznedaroğlu, A., Arslan, L. M., Automatic fraud detection in call center conversations, In 2019 27th Signal Processing and Communications Applications Conference (SIU), 2019, pp. 1-4.

2. Dhanjal, A. S., Singh, W. An automatic machine translation system for multi-lingual speech to Indian sign language. multimedia Tools and Applications, 2022, pp.1-39.

3. Ballati, F., Corno, F., De Russis, L., Assessing virtual assistant capabilities with Italian dysarthric speech, In Proceedings of the 20th International ACM SIGACCESS Conference on Computers and Accessibility, 2018, pp. 93-101.

4. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., Kingsbury, B., Deep neural networks for acoustic modeling in speech recognition: The shared views of four research Groups, IEEE Signal processing magazine, 2012, 29(6), pp.82-97.

5. Sainath, T. N., Vinyals, O., Senior, A., Sak, H. Convolutional, long short-term memory, fully connected deep neural networks, IEEE international conference on acoustics, speech and signal processing (ICASSP), 2015, pp. 4580-4584.