MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing-Reference-Cited by-同舟云学术

MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing

Published:2022-10-10 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 30th ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Yu Jiashuo¹,Cheng Ying¹,Zhao Rui-Wei¹,Feng Rui¹,Zhang Yuejie¹

Affiliation:

1. Fudan University, Shanghai, China

Funder

National Natural Science Foundation of China

Science and Technology Commission of Shanghai Municipality

SPMI Innovation and Technology Fund Projects

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3503161.3547869

Reference51 articles.

1. Triantafyllos Afouras , Andrew Owens , Joon Son Chung, and Andrew Zisserman . 2020 . Self-Supervised Learning of Audio-Visual Objects from Video. In ECCV. Triantafyllos Afouras, Andrew Owens, Joon Son Chung, and Andrew Zisserman. 2020. Self-Supervised Learning of Audio-Visual Objects from Video. In ECCV.

2. Jean-Baptiste Alayrac , Adrià Recasens , Rosalia Schneider , Relja Arandjelovi?, Jason Ramapuram , Jeffrey De Fauw , Lucas Smaira, Sander Dieleman, and Andrew Zisserman. 2020 . Self-supervised multimodal versatile networks. arXiv preprint arXiv:2006.16228 (2020). Jean-Baptiste Alayrac, Adrià Recasens, Rosalia Schneider, Relja Arandjelovi?, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, and Andrew Zisserman. 2020. Self-supervised multimodal versatile networks. arXiv preprint arXiv:2006.16228 (2020).

3. Humam Alwassel , Dhruv Mahajan , Bruno Korbar , Lorenzo Torresani , Bernard Ghanem , and Du Tran . 2020 . Self-supervised learning by cross-modal audio-video clustering . In NeurIPS , Vol. 33 . Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, and Du Tran. 2020. Self-supervised learning by cross-modal audio-video clustering. In NeurIPS, Vol. 33.

4. Relja Arandjelovic and Andrew Zisserman. 2017. Look listen and learn. In ICCV. 609--617. Relja Arandjelovic and Andrew Zisserman. 2017. Look listen and learn. In ICCV. 609--617.

5. Jimmy Lei Ba , Jamie Ryan Kiros, and Geoffrey E Hinton . 2016 . Layer normalization. arXiv preprint arXiv:1607.06450 (2016). Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. 2016. Layer normalization. arXiv preprint arXiv:1607.06450 (2016).

Cited by 17 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. CMAF: Cross-Modal Augmentation via Fusion for Underwater Acoustic Image Recognition;ACM Transactions on Multimedia Computing, Communications, and Applications;2024-01-11

2. Audio-Visual Segmentation by Leveraging Multi-scaled Features Learning;MultiMedia Modeling;2024

3. SVMFI: speaker video multi-frame interpolation with the guidance of audio;Multimedia Tools and Applications;2023-12-12

4. Dynamic interactive learning network for audio-visual event localization;Applied Intelligence;2023-11-18

5. A Privacy-aware Framework for Assessing and Recommending Short Video Advertisement;2023 IEEE International Symposium on Product Compliance Engineering - Asia (ISPCE-ASIA);2023-11-04