Tạo Phụ Đề Video Dựa Trên Kỹ Thuật Nhận Dạng Giọng Nói: Thử Nghiệm Cho Một Số Chương Trình Tại VTV

Author:

Nguyễn Hữu Phong,Võ Nguyễn Quốc Bảo,Trần Minh Trung

Abstract

Bài báo này trình bày kết quả thử nghiệm công cụ nhận dạng giọng nói Speech-To-Text (STT) cho các nội dung VOD (Video On Demand) trên hệ thống VTVgo của Đài THVN. Để đánh giá độ chính xác của công cụ STT, tỷ lệ lỗi từ (WER: Word Error Rate) được sử dụng để đo hiệu suất của hệ thống nhận dạng giọng nói tự động, dịch máy. Kết quả thử nghiệm thực hiện 10 thể loại chương trình truyền hình khác nhau với 1065 giờ video. Tỉ lệ WER thấp nhất là 2.8% đến 4.3% đạt được với một số thể loại chương trình thời sự và tin tức, dự báo thời tiết, ở đó phần lớn người nói, người dẫn chương trình (MC) đọc giọng chuẩn trong Studio và lời thoại từ một người nói, ít bị nhiễu bởi tạp âm bên ngoài. Bên cạnh đó, để minh họa ứng dụng phụ đề video, chúng tôi tiến hành thử nghiệm trên hệ thống VTVgo, tích hợp công cụ hiển thị phụ đề tùy chọn vào ứng dụng VTVgo app. Nền tảng thử nghiệm là SmartTV và SmartPhone Android, nhằm minh họa khả năng ứng dụng phụ đề video trên nền tảng phân phối nội dung số OTT (Over The Top).

Publisher

Ho Chi Minh City University of Technology and Education

Reference24 articles.

1. G. Galvez, "Closed Captioning and Subtitling for Social Media," in SMPTE 2017 Annual Technical Conference and Exhibition, 2017.

2. C. J. Hughes and M. Armstrong, "Automatic retrieval of closed captions for web clips from broadcast TV content," in National Association of Broadcasters Conference, 2015, pp. 318-324.

3. A. Lambourne, J. Hewitt, C. Lyon, and S. J. I. J. o. S. T. Warren, "Speech-based real-time subtitling services," vol. 7, no. 4, pp. 269-279, 2004.

4. N. Nitta and N. Babaguchi, "Automatic Story Segmentation of Closed-Caption Text for Semantic Content Analysis of Broadcasted Sports Video," in Multimedia information systems, 2002, pp. 110-116.

5. T. Imai, S. Homma, A. Kobayashi, T. Oku, and S. Sato, "Speech recognition with a seamlessly updated language model for real-time closed-captioning," in Eleventh Annual Conference of the International Speech Communication Association, 2010.

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3