DyViSE: Dynamic Vision-Guided Speaker Embedding for Audio-Visual Speaker Diarization-Reference-Cited by-同舟云学术

DyViSE: Dynamic Vision-Guided Speaker Embedding for Audio-Visual Speaker Diarization

Published:2022-09-26 Issue: Volume: Page:
ISSN:
Container-title:2022 IEEE 24th International Workshop on Multimedia Signal Processing (MMSP)
language:
Short-container-title:

Author:

Wuerkaixi Abudukelimu¹,Yan Kunda¹,Zhang You¹,Duan Zhiyao²,Zhang Changshui¹

Affiliation:

1. Institute for Artificial Intelligence, Tsinghua University (THUAI),State Key Lab of Intelligent Technologies and Systems, Beijing National Research Center for Information Science and Technology (BNRist),Department of Automation,Beijing,P.R.China

2. University of Rochester,Department of Electrical and Computer Engineering,Rochester,NY,USA

Funder

National Science Foundation (NSF)

Publisher

IEEE

Link

http://xplorestaging.ieee.org/ielx7/9948698/9948704/09948860.pdf?arnumber=9948860

Reference34 articles.

1. Audio-Visual Deep Neural Network for Robust Person Verification

2. NIST RT'05S evaluation: Pre-processing techniques and speaker di-arization on multiple microphone meetings;istrate;Int Workshop Mach Learn Multimodal Interact,2005

3. End-to-End Neural Speaker Diarization with Self-Attention

4. VoxCeleb2: Deep Speaker Recognition

5. Audiovisual diarization of people in video content

Cited by 3 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Late Audio-Visual Fusion for in-the-Wild Speaker Diarization;2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW);2024-04-14

2. Seeing Through The Conversation: Audio-Visual Speech Separation Based on Diffusion Model;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14

3. Joint Training or Not: An Exploration of Pre-trained Speech Models in Audio-Visual Speaker Diarization;Communications in Computer and Information Science;2024