Answer-Based Entity Extraction and Alignment for Visual Text Question Answering-Reference-Cited by-同舟云学术

Answer-Based Entity Extraction and Alignment for Visual Text Question Answering

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Yu Jun¹^ORCID,Jing Mohan¹^ORCID,Liu Weihao²^ORCID,Luo Tongxu¹^ORCID,Zhang Bingyuan¹^ORCID,Lu Keda¹^ORCID,Lei Fangyu¹^ORCID,Sun Jianqing³^ORCID,Liang Jiaen³^ORCID

Affiliation:

1. University of Science and Technology of China, Hefei, China

2. University of Science and Technology Beijing, Hefei, China

3. Unisound AI Technology Co.,Ltd, Beijing, China

Funder

Natural Science Foundation of China

Anhui Province Key Research and Development Program

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3612850

Reference25 articles.

1. Fusion of Detected Objects in Text for Visual Question Answering

2. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

3. Hangbo Bao , Wenhui Wang , Li Dong , Qiang Liu , Owais Khan Mohammed , Kriti Aggarwal, Subhojit Som, Songhao Piao, and Furu Wei. 2022 . VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts. In Advances in Neural Information Processing Systems . 32897--32912. Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Songhao Piao, and Furu Wei. 2022. VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts. In Advances in Neural Information Processing Systems. 32897--32912.

4. Kang Chen and Xiangqian Wu . 2023 . VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning. arXiv preprint arXiv:2303.02635 (2023). Kang Chen and Xiangqian Wu. 2023. VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning. arXiv preprint arXiv:2303.02635 (2023).

5. Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng and Jingjing Liu. 2020. Large-Scale Adversarial Training for Vision-and-Language Representation Learning. In Advances in Neural Information Processing Systems. 6616--6628. Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng and Jingjing Liu. 2020. Large-Scale Adversarial Training for Vision-and-Language Representation Learning. In Advances in Neural Information Processing Systems. 6616--6628.

Cited by 3 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Relation-Aware Heterogeneous Graph Network for Learning Intermodal Semantics in Textbook Question Answering;IEEE Transactions on Neural Networks and Learning Systems;2024-09

2. A common-specific feature cross-fusion attention mechanism for KGVQA;International Journal of Data Science and Analytics;2024-04-13

3. A Comprehensive Survey on Deep Learning Multi-Modal Fusion: Methods, Technologies and Applications;Computers, Materials & Continua;2024