Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning-Reference-Cited by-同舟云学术

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Jiang Chen¹^ORCID,Liu Hong²^ORCID,Yu Xuzheng²^ORCID,Wang Qing²^ORCID,Cheng Yuan³^ORCID,Xu Jia²^ORCID,Liu Zhongyi²^ORCID,Guo Qingpei⁴^ORCID,Chu Wei²^ORCID,Yang Ming²^ORCID,Qi Yuan³^ORCID

Affiliation:

1. Artificial Intelligence Innovation and Incubation Institute, Fudan University & Ant Group, Shanghai, China

2. Ant Group, Hangzhou, China

3. Artificial Intelligence Innovation and Incubation Institute, Fudan University, Shanghai, China

4. Ant Group, Beijing, China

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3612006

Reference57 articles.

1. An information-theoretic perspective of tf–idf measures

2. Max Bain , Arsha Nagrani , Gül Varol , and Andrew Zisserman . 2021 . Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV). 1708--1718 . Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. 2021. Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV). 1708--1718.

3. Simion-Vlad Bogolin , Ioana Croitoru , Hailin Jin , Yang Liu , and Samuel Albanie . 2021 . Cross Modal Retrieval with Querybank Normalisation. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 5184--5195 . Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, and Samuel Albanie. 2021. Cross Modal Retrieval with Querybank Normalisation. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 5184--5195.

4. David L. Chen and William B. Dolan. 2011 . Collecting Highly Parallel Data for Paraphrase Evaluation. In Annual Meeting of the Association for Computational Linguistics. David L. Chen and William B. Dolan. 2011. Collecting Highly Parallel Data for Paraphrase Evaluation. In Annual Meeting of the Association for Computational Linguistics.

5. Shizhe Chen , Yida Zhao , Qin Jin , and Qi Wu . 2020 . Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10635--10644 . Shizhe Chen, Yida Zhao, Qin Jin, and Qi Wu. 2020. Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 10635--10644.

Cited by 4 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. GDPR-compliant Video Search and Retrieval System for Surveillance Data;Proceedings of the 19th International Conference on Availability, Reliability and Security;2024-07-30

2. M ² -RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval;Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval;2024-07-10

3. Video Frame-wise Explanation Driven Contrastive Learning for Procedural Text Generation;Computer Vision and Image Understanding;2024-04

4. RCAT: Retentive CLIP Adapter Tuning for Improved Video Recognition;Electronics;2024-03-02