Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation-Reference-Cited by-同舟云学术

Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation

Published:2023-12-06 Issue: Volume: Page:1-8
ISSN:
Container-title:ACM Multimedia Asia 2023
language:
Short-container-title:

Author:

wang lin¹^ORCID,Zhang Hongyi²^ORCID,wang xingfu¹^ORCID,xiong yan¹^ORCID

Affiliation:

1. USTC, ??

2. Huawei, CN

Funder

the Innovation Team and Talents Cultivation Program of the National Administration

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3595916.3626413

Reference48 articles.

1. Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds Roman Ring Eliza Rutherford Serkan Cabi Tengda Han Zhitao Gong Sina Samangooei Marianne Monteiro Jacob Menick Sebastian Borgeaud Andrew Brock Aida Nematzadeh Sahand Sharifzadeh Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman and Karen Simonyan. 2022. Flamingo: a Visual Language Model for Few-Shot Learning. In Advances in Neural Information Processing Systems Alice H. Oh Alekh Agarwal Danielle Belgrave and Kyunghyun Cho (Eds.). https://openreview.net/forum?id=EbMuimAbPbs Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds Roman Ring Eliza Rutherford Serkan Cabi Tengda Han Zhitao Gong Sina Samangooei Marianne Monteiro Jacob Menick Sebastian Borgeaud Andrew Brock Aida Nematzadeh Sahand Sharifzadeh Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman and Karen Simonyan. 2022. Flamingo: a Visual Language Model for Few-Shot Learning. In Advances in Neural Information Processing Systems Alice H. Oh Alekh Agarwal Danielle Belgrave and Kyunghyun Cho (Eds.). https://openreview.net/forum?id=EbMuimAbPbs

2. Cross-Modal Coherence for Text-to-Image Retrieval

3. TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

4. Dense Events Grounding in Video

5. Sihan Chen , Handong Li , Qunbo Wang , Zijia Zhao , Mingzhen Sun , Xinxin Zhu , and Jing Liu . 2023 . VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset. arxiv:2305.18500 [cs.CV] Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun, Xinxin Zhu, and Jing Liu. 2023. VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset. arxiv:2305.18500 [cs.CV]