Filling in the Blank: Rationale-Augmented Prompt Tuning for TextVQA-Reference-Cited by-同舟云学术

Filling in the Blank: Rationale-Augmented Prompt Tuning for TextVQA

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Zeng Gangyan¹^ORCID,Zhang Yuan²^ORCID,Zhou Yu³^ORCID,Fang Bo³^ORCID,Zhao Guoqing⁴^ORCID,Wei Xin⁴^ORCID,Wang Weiping⁵^ORCID

Affiliation:

1. Communication University of China & Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China

2. Communication University of China, Beijing, China

3. Institute of Information Engineering, Chinese Academy of Sciences & School of Cyber Security, University of Chinese Academy of Sciences, Beijing, China

4. Mashang Consumer Finance Co., Ltd., Beijing, China

5. Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China

Funder

the Key Research Program of Frontier Sciences, CAS

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3612520

Reference63 articles.

1. Flamingo: a visual language model for few-shot learning;Alayrac Jean-Baptiste;NeurIPS,2022

2. Badr AlKhamissi , Millicent Li , Asli Celikyilmaz , Mona Diab , and Marjan Ghazvininejad . 2022. A review on language models as knowledge bases. arXiv preprint arXiv:2204.06031 ( 2022 ). Badr AlKhamissi, Millicent Li, Asli Celikyilmaz, Mona Diab, and Marjan Ghazvininejad. 2022. A review on language models as knowledge bases. arXiv preprint arXiv:2204.06031 (2022).

3. Ali Furkan Biten , Ron Litman , Yusheng Xie , Srikar Appalaraju , and R Manmatha . 2022 . Latr: Layout-aware transformer for scene-text vqa. In CVPR. 16548--16558. Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, and R Manmatha. 2022. Latr: Layout-aware transformer for scene-text vqa. In CVPR. 16548--16558.

4. Ali Furkan Biten Ruben Tito Andres Mafla Lluis Gomez Marcc al Rusinol Ernest Valveny CV Jawahar and Dimosthenis Karatzas. 2019. Scene text visual question answering. In ICCV. 4291--4301. Ali Furkan Biten Ruben Tito Andres Mafla Lluis Gomez Marcc al Rusinol Ernest Valveny CV Jawahar and Dimosthenis Karatzas. 2019. Scene text visual question answering. In ICCV. 4291--4301.

5. Fedor Borisyuk , Albert Gordo , and Viswanath Sivakumar . 2018 . Rosetta: Large scale system for text detection and recognition in images. In SIGKDD. 71--79. Fedor Borisyuk, Albert Gordo, and Viswanath Sivakumar. 2018. Rosetta: Large scale system for text detection and recognition in images. In SIGKDD. 71--79.