Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring-Reference-Cited by-同舟云学术

Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring

Published:2023-06 Issue: Volume: Page:
ISSN:
Container-title:2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
language:
Short-container-title:

Author:

Hong Joanna¹,Kim Minsu¹,Choi Jeongsoo¹,Ro Yong Man¹

Affiliation:

1. KAIST,Image and Video Systems Lab

Funder

National Research Foundation of Korea (NRF)

Institute of Information & communications Technology Planning & Evaluation (IITP)

Publisher

IEEE

Link

Reference78 articles.

1. Multi-grained spatio-temporal modeling for lipreading;wang;ArXiv Preprint,2019

3. Visual context-driven audio feature enhancement for robust end-to-end audiovisual speech recognition;hong;ArXiv Preprint,2022

Cited by 8 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Enhancing Robustness in Audio Visual Speech Recognition: A preprocessing approach with Transformer and CTC Loss;2024 International Conference on Advances in Modern Age Technologies for Health and Engineering Science (AMATHE);2024-05-16

3. MLCA-AVSR: Multi-Layer Cross Attention Fusion Based Audio-Visual Speech Recognition;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14

4. Sound3DVDet: 3D Sound Source Detection using Multiview Microphone Array and RGB Images;2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV);2024-01-03