CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning-Reference-Cited by-同舟云学术

CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning

Published:2022-10 Issue: Volume:508 Page:293-304
ISSN:0925-2312
Container-title:Neurocomputing
language:en
Short-container-title:Neurocomputing

Author:

Luo Huaishao,Ji Lei,Zhong Ming,Chen Yang,Lei Wen,Duan Nan,Li Tianrui

Funder

National Natural Science Foundation of China

Publisher

Elsevier BV

Subject

Artificial Intelligence,Cognitive Neuroscience,Computer Science Applications

Reference67 articles.

1. A. Torabi, N. Tandon, L. Sigal, Learning language-visual embedding for movie understanding with natural-language, arXiv preprint arXiv:1609.08124.

2. R. Kiros, R. Salakhutdinov, R.S. Zemel, Unifying visual-semantic embeddings with multimodal neural language models, arXiv preprint arXiv:1411.2539.

3. H. Yu, J. Wang, Z. Huang, Y. Yang, W. Xu, Video paragraph captioning using hierarchical recurrent neural networks, in: CVPR, 2016, pp. 4584–4593.

4. D. Kaufman, G. Levi, T. Hassner, L. Wolf, Temporal tessellation: A unified approach for video analysis, in: ICCV, 2017, pp. 94–104.

5. Y. Yu, H. Ko, J. Choi, G. Kim, End-to-end concept word detection for video captioning, retrieval, and question answering, in: CVPR, 2017, pp. 3261–3269.

Cited by 227 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Text-guided distillation learning to diversify video embeddings for text-video retrieval;Pattern Recognition;2024-12

2. Multi-scale features with temporal information guidance for video captioning;Engineering Applications of Artificial Intelligence;2024-11

3. Exploiting Instance-level Relationships in Weakly Supervised Text-to-Video Retrieval;ACM Transactions on Multimedia Computing, Communications, and Applications;2024-09-12

4. CLIP2TF:Multimodal video–text retrieval for adolescent education;Displays;2024-09

5. Transferable dual multi-granularity semantic excavating for partially relevant video retrieval;Image and Vision Computing;2024-09