A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA-Reference-Cited by-同舟云学术

A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA

Published:2022-10-10 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 30th ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Guo Yangyang¹,Nie Liqiang²,Wong Yongkang¹,Liu Yibing³,Cheng Zhiyong⁴,Kankanhalli Mohan¹

Affiliation:

1. National University of Singapore, Singapore, Singapore

2. Harbin Institute of Technology (Shenzhen), Shenzhen, China

3. City University of Hong Kong, Hong Kong, China

4. Qilu University of Technology (Shandong Academy of Sciences), Jinan, China

Funder

National Research Foundation, Singapore under its Strategic Capability Research Centres Funding Initiative

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3503161.3547870

Reference37 articles.

1. VQA: Visual Question Answering

2. Peter Anderson , Xiaodong He , Chris Buehler , Damien Teney , Mark Johnson , Stephen Gould , and Lei Zhang . 2018. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering . In Computer Vision and Pattern Recognition . IEEE , 6077--6086. Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. 2018. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In Computer Vision and Pattern Recognition. IEEE, 6077--6086.

3. Hedi Ben-younes, Rémi Cadène , Matthieu Cord , and Nicolas Thome . 2017 . MUTAN: Multimodal Tucker Fusion for Visual Question Answering. In International Conference on Computer Vision. IEEE, 2631--2639 . Hedi Ben-younes, Rémi Cadène, Matthieu Cord, and Nicolas Thome. 2017. MUTAN: Multimodal Tucker Fusion for Visual Question Answering. In International Conference on Computer Vision. IEEE, 2631--2639.

4. Tom B. Brown , Benjamin Mann , Nick Ryder , Melanie Subbiah , Jared Kaplan , Prafulla Dhariwal , Arvind Neelakantan , Pranav Shyam , Girish Sastry , Amanda Askell , Sandhini Agarwal , Ariel Herbert-Voss , Gretchen Krueger , Tom Henighan , Rewon Child , Aditya Ramesh , Daniel M. Ziegler , Jeffrey Wu , Clemens Winter , Christopher Hesse , Mark Chen , Eric Sigler , Mateusz Litwin , Scott Gray , Benjamin Chess , Jack Clark , Christopher Berner , Sam McCandlish , Alec Radford , Ilya Sutskever , and Dario Amodei . 2020 . Language Models are Few-Shot Learners . In Conference on Neural Information Processing Systems. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. In Conference on Neural Information Processing Systems.

5. Jacob Devlin , Ming-Wei Chang , Kenton Lee , and Kristina Toutanova . 2019 . BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In North American Chapter of the Association for Computational Linguistics. ACL , 4171--4186. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In North American Chapter of the Association for Computational Linguistics. ACL, 4171--4186.

Cited by 19 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Prompting Large Language Models with Knowledge-Injection for Knowledge-Based Visual Question Answering;Big Data Mining and Analytics;2024-09

2. Prompting large language model with context and pre-answer for knowledge-based VQA;Pattern Recognition;2024-07

3. Coordinating explicit and implicit knowledge for knowledge-based VQA;Pattern Recognition;2024-07

4. HKFNet: Fine-Grained External Knowledge Fusion for Fact-Based Visual Question Answering;2024 International Joint Conference on Neural Networks (IJCNN);2024-06-30

5. A Multimodal Contrastive Network with Unbiased Distillation for Knowledge-based VQA;2024 International Joint Conference on Neural Networks (IJCNN);2024-06-30