HierVL: Learning Hierarchical Video-Language Embeddings-Reference-Cited by-同舟云学术

HierVL: Learning Hierarchical Video-Language Embeddings

Published:2023-06 Issue: Volume: Page:
ISSN:
Container-title:2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
language:
Short-container-title:

Author:

Ashutosh Kumar¹,Girdhar Rohit²,Torresani Lorenzo²,Grauman Kristen¹

Affiliation:

1. UT Austin

2. FAIR Meta AI

Publisher

IEEE

Link

Reference107 articles.

2. Decoupled weight decay regularization;loshchilov;ArXiv Preprint,2017

4. Univl: A unified video and language pre-training model for multimodal understanding and generation;luo;ArXiv Preprint,2020

5. Mvitv 2: Improved multiscale vision transformers for classification and detection;li;Proc IEEE Conf Computer Vision and Pattern Recognition,0

Cited by 5 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

2. A Sound Approach: Using Large Language Models to Generate Audio Descriptions for Egocentric Text-Audio Retrieval;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14

3. Programming-by-Demonstration for Long-Horizon Robot Tasks;Proceedings of the ACM on Programming Languages;2024-01-05

4. EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone;2023 IEEE/CVF International Conference on Computer Vision (ICCV);2023-10-01

5. NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory;2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR);2023-06