Multi-modal co-attention relation networks for visual question answering-Reference-Cited by-同舟云学术

Multi-modal co-attention relation networks for visual question answering

Published:2022-10-29 Issue: Volume: Page:
ISSN:0178-2789
Container-title:The Visual Computer
language:en
Short-container-title:Vis Comput

Author:

Guo Zihan^ORCID,Han Dezhi

Funder

National Natural Science Foundation of China

Natural Science Foundation of Shanghai

Publisher

Springer Science and Business Media LLC

Subject

Computer Graphics and Computer-Aided Design,Computer Vision and Pattern Recognition,Software

Link

https://link.springer.com/content/pdf/10.1007/s00371-022-02695-9.pdf

Reference65 articles.

1. Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhutdinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: neural image caption generation with visual attention. ICML. 37, 2048–2057 (2015)

2. Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. CVPR. 1, 3156–3164 (2015)

3. Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.: VQA: visual question answering. ICCV. 1, 2425–2433 (2015)

4. Noh, H., Seo, P.H., Han, B.: Image question answering using convolutional neural network with dynamic parameter prediction. CVPR. 1, 30–38 (2016)

5. Malinowski, M., Fritz, M.: A multi-world approach to question answering about real-world scenes based on uncertain input. NIPS. 1, 1682–1690 (2014)

Cited by 6 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Visual question answering on blood smear images using convolutional block attention module powered object detection;The Visual Computer;2024-04-09

2. ITContrast: contrastive learning with hard negative synthesis for image-text matching;The Visual Computer;2024-02-15

3. The multi-modal fusion in visual question answering: a review of attention mechanisms;PeerJ Computer Science;2023-05-30

4. Multiscale Feature Extraction and Fusion of Image and Text in VQA;International Journal of Computational Intelligence Systems;2023-04-11

5. DAAPS: A Deformable-Attention-Based Anchor-Free Person Search Model;Computers, Materials & Continua;2023