Affiliation:
1. BURSA TEKNİK ÜNİVERSİTESİ, MÜHENDİSLİK VE DOĞA BİLİMLERİ FAKÜLTESİ
Abstract
Bu çalışmada, konuşma işaretlerini sıkıştırmak için derin öğrenme tabanlı oto kodlayıcı ve artık vektör nicemlemesini temel alan sıkıştırma yöntemi önerilmiştir. Önerilen sıkıştırma yönteminde, öncelikle giriş konuşma işaretini daha düşük boyutlu bir uzaya atayan oto kodlayıcı kullanılmakta ve ardından oto kodlayıcı çıkışı, artık vektör nicemlemesi ile daha da sıkıştırılmaktadır. Sıkıştırma yöntemi, birbirine paralel çalışan iki farklı kod çözücü yapısı ve iki kod kitapçığı sayesinde farklı oranlarda sıkıştırma oranı sunmaktadır. Yöntemin başarımı konuşma kalitesini algısal değerlendirme metriği kullanılarak TIMIT veri kümesi ile test edilmiştir. Önerilen konuşma sıkıştırma yöntemi, 1.25 ve 2.5 kbps iletim hızları için sırasıyla 1.665 ve 1.985 konuşma kalitesini algısal değerlendirme skorları elde etmiştir.
Funder
Bursa Teknik Üniversitesi
Publisher
Bandirma Onyedi Eylul University
Reference28 articles.
1. P.K. Mongia, and R.K. Sharma, “Estimation and statistical analysis of human voice parameters to investigate the influence of psychological stress and to determine the vocal tract transfer function of an individual,” Journal of Computer Networks and Communications, vol. 2014, no. 17, pp. 1-17, 2014.
2. T.F. Quatieri, “Discrete-time speech signal processing: principles and practice,” Pearson Education India, 2002.
3. P. Warkade, and A. Mishra, “Lossless Speech Compression Techniques: A Literature Review,” International Journal of Innovative Research in Computer Science & Technology, vol. 3, pp. 25-32, 2015.
4. T. Ogunfunmi, and M. Narasimha, “Principles of speech coding.” CRC Press, 2010.
5. L. Rabiner, and R. Schafer, “Theory and applications of digital speech processing.” Prentice Hall Press, USA, 2010.