Multimodal Transformer Distillation for Audio-Visual Synchronization-Reference-Cited by-同舟云学术

Multimodal Transformer Distillation for Audio-Visual Synchronization

Published:2024-04-14 Issue: Volume:2 Page:7755-7759
ISSN:
Container-title:ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
language:
Short-container-title:

Author:

Chen Xuanjun¹,Wu Haibin¹,Wang Chung-Che²,Lee Hung-Yi²,Jang Jyh-Shing Roger²

Affiliation:

1. National Taiwan University,Graduate Institute of Communication Engineering

2. National Taiwan University,Department of Computer Science and Information Engineering

Funder

National Science and Technology Council

Publisher

IEEE

Link

Reference33 articles.

Cited by 2 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Lip and Speech Synchronization using Supervised Contrastive Learning and Cross-Modal Attention;2024 IEEE 18th International Conference on Automatic Face and Gesture Recognition (FG);2024-05-27

2. Multimodal Synchronization Detection: A Transformer-Based Approach Using Deep Metric Learning;2024 3rd International Conference on Artificial Intelligence For Internet of Things (AIIoT);2024-05-03