Time-Domain Audio-Visual Speech Separation on Low Quality Videos-Reference-Cited by-同舟云学术

Time-Domain Audio-Visual Speech Separation on Low Quality Videos

Published:2022-05-23 Issue: Volume: Page:
ISSN:
Container-title:ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
language:
Short-container-title:

Author:

Wu Yifei¹,Li Chenda¹,Bai Jinfeng²,Wu Zhongqin²,Qian Yanmin¹

Affiliation:

1. Shanghai Jiao Tong University,MoE Key Lab of Artificial Intelligence, AI Institute X-LANCE Lab,Department of Computer Science and Engineering,Shanghai,China

2. TAL Education Group,China

Publisher

IEEE

Link

http://xplorestaging.ieee.org/ielx7/9745891/9746004/09746866.pdf?arnumber=9746866

Reference32 articles.

1. ESPnet-SE: End-To-End Speech Enhancement and Separation Toolkit Designed for ASR Integration

2. End-to-End Audiovisual Speech Recognition

3. Combining Residual Networks with LSTMs for Lipreading;stafylakis;Proc ISCA Interspeech,2017

4. Attention Is All You Need In Speech Separation

5. Single Channel Target Speaker Extraction and Recognition with Speaker Beam

Cited by 5 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Unified Cross-Modal Attention: Robust Audio-Visual Speech Recognition and Beyond;IEEE/ACM Transactions on Audio, Speech, and Language Processing;2024

2. Scenario-Aware Audio-Visual TF-Gridnet for Target Speech Extraction;2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU);2023-12-16

3. ImagineNet: Target Speaker Extraction with Intermittent Visual Cue Through Embedding Inpainting;ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2023-06-04

4. Audio-Visual End-to-End Multi-Channel Speech Separation, Dereverberation and Recognition;IEEE/ACM Transactions on Audio, Speech, and Language Processing;2023

5. USEV: Universal Speaker Extraction With Visual Cue;IEEE/ACM Transactions on Audio, Speech, and Language Processing;2022