Multi-modal Alignment using Representation Codebook-Reference-Cited by-同舟云学术

Multi-modal Alignment using Representation Codebook

Published:2022-06 Issue: Volume: Page:
ISSN:
Container-title:2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
language:
Short-container-title:

Author:

Duan Jiali¹,Chen Liqun¹,Tran Son¹,Yang Jinyu²,Xu Yi¹,Zeng Belinda¹,Chilimbi Trishul¹

Affiliation:

1. Amazon

2. University of Texas at Arlington

Publisher

IEEE

Link

http://xplorestaging.ieee.org/ielx7/9878378/9878366/09878982.pdf?arnumber=9878982

Reference49 articles.

1. Grad-cam: Visual explanations from deep networks via gradient-based localization;ramprasaath;Proceedings of the IEEE International Conference on Computer Vision,0

2. Representation learning with contrastive predictive coding;van den oord;ArXiv Preprint,2018

3. 12-in-1: Multi-Task Vision and Language Representation Learning

4. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks;lu;ArXiv Preprint,2019

Cited by 19 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Cross-Modal Concept Learning and Inference for Vision-Language Models;Neurocomputing;2024-05

2. A survey of multimodal hybrid deep learning for computer vision: Architectures, applications, trends, and challenges;Information Fusion;2024-05

3. Domain Aligned CLIP for Few-shot Classification;2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV);2024-01-03

4. Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation;2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV);2024-01-03

5. Cross-Modal Graph Semantic Communication Assisted by Generative AI in the Metaverse for 6G;Research;2024-01