Abstract
Bu makalede, literatürdeki bazı konuşma aktivite dedektörleri (VAD) değişen akustik gürültü koşullarına göre dayanıklılık performanslarını etkileyen faktörleri ölçmek amacıyla incelenmiş ve değişen gürültü koşullarına göre doğru tespit oranlarındaki değişimleri test edilerek ölçülmüştür. Bu kapsamda, VAD metotlarındaki karar aşamasında kullanılan eşik değerin sabit yada uyarlamalı olması, analiz penceresinin kısa yada uzun olması, birden fazla özellik vektörünün birlikte kullanımı gibi durumların sonuç performansa etkisi değerlendirilmiş ve karşılaştırmalı olarak analiz edilmiştir. Bu makalede incelenen dört farklı VAD dedektörünün üçü, karar sonucu üretirken kısa süreli analiz penceresi içerisindeki özellik vektörlerini kullanmakta iken, biri uzun vadeli spektral vektörlerin ölçüm sonucuna göre karar üretmektedir. Yine VAD detektörlerinin ikisi karar aşamasında sabit eşik kullanırken, diğer ikisi gürültüye göre uyarlamalı eşik kullanmaktadır. Analiz edilen VAD'lerin etkinliği, onları hem farklı akustik koşullar altında değerlendirmek ve hemde literatürde yer almış olan bir test verisi üzerinde test edebilmek için NOIZEUS corpus üzerinde test edilmiştir. Analiz edilen VAD'lerin testi sırasında, restoran, araba, sokak veya istasyon gibi [15-0dB] arasında çevresel arka plan gürültülerine sahip farklı türde giriş gürültülü konuşma sinyalleri test edilmiştir. Testler objektif test ölçüm metotları kullanılarak yapılmış ve herbir VAD metodunun tespit doğruluk oranı ölçülmüştür. Sonuçlar, herbir yöntemin, olumsuz çevresel koşullarda farklı dayanıklılık performansı verdiğini göstermiştir.
Publisher
Journal of the Faculty of Engineering and Architecture of Gazi University
Subject
General Engineering,Architecture
Reference55 articles.
1. Javier Ramírez, Juan M Gorriz, José C. Segura, “Voice Activity Detection. Fundamentals and Speech Recognition System Robustness” DOI: 10.5772/4740, In book: Robust Speech Recognition and Understanding, Edited by Michael Grimm, I-Tech Education and Publishing, June 2007, ISBN: 978-3-902613-08-0
2. Javier Ramı́rez, José C Segura, Carmen Benı́tez, Ángel de la Torre, Antonio Rubio, “Efficient voice activity detection algorithms using long-term speech information”, Speech Communication, Volume 42, Issues 3–4,2004, Pages 271-287, ISSN 0167-6393,https://doi.org/10.1016/j.specom.2003.10.002.
3. L. R. Rabiner; M. R. Sambur, An algorithm for determining the endpoints of isolated utterances, The Bell System Technical Journal ( Volume: 54, Issue: 2, Feb. 1975 ), pp. 297 – 315, Feb. 1975, (ISSN: 0005-8580), DOI: 10.1002/j.1538-7305.1975.tb02840.x
4. A. Benyassine, E. Shlomot, Huan-Yu Su and E. Yuen, "A robust low complexity voice activity detection algorithm for speech communication systems," 1997 IEEE Workshop on Speech Coding for Telecommunications Proceedings, PA,USA, 1997, pp.97-98, doi: 10.1109/SCFT.1997.623914
5. K.Sakhnov, E.Verteletskaya and B. Simak (2009), Dynamical Energy-Based Speech/Silence Detector for Speech Enhancement Applications, Proceedings of the World Congress on Engineering 2009 Vol I, WCE 2009, July 1 - 3, London, U.K., ISBN: 978-988- 17012-5-1