LocVTP: Video-Text Pre-training for Temporal Localization-Reference-Cited by-同舟云学术

LocVTP: Video-Text Pre-training for Temporal Localization

Author:

Cao Meng,Yang Tianyu,Weng Junwu,Zhang Can,Wang Jue,Zou Yuexian

Publisher

Springer Nature Switzerland

Link

Reference77 articles.

5. Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? arXiv (2021)

Cited by 17 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Automatic Text-based Clip Composition for Video News;Proceedings of the 2024 9th International Conference on Multimedia and Image Processing;2024-04-20

2. Video Referring Expression Comprehension via Transformer with Content-conditioned Query;Proceedings of the 1st International Workshop on Deep Multimodal Learning for Information Retrieval;2023-10-29

4. Verbs in Action: Improving verb understanding in video-language models;2023 IEEE/CVF International Conference on Computer Vision (ICCV);2023-10-01

5. Exploring Temporal Concurrency for Video-Language Representation Learning;2023 IEEE/CVF International Conference on Computer Vision (ICCV);2023-10-01