Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering-Reference-Cited by-同舟云学术

Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering

Published:2016 Issue: Volume: Page:451-466
ISSN:0302-9743
Container-title:Computer Vision – ECCV 2016
language:
Short-container-title:

Author:

Xu Huijuan,Saenko Kate

Publisher

Springer International Publishing

Link

http://link.springer.com/content/pdf/10.1007/978-3-319-46478-7_28

Reference33 articles.

1. Tu, K., Meng, M., Lee, M.W., Choe, T.E., Zhu, S.C.: Joint video and text parsing for understanding events and answering queries. IEEE MultiMedia 21(2), 42–70 (2014)

2. Lasecki, W.S., Zhong, Y., Bigham, J.P.: Increasing the bandwidth of crowdsourced visual question answering to better support blind users. In: Proceedings of the 16th International ACM SIGACCESS Conference on Computers and Accessibility, pp. 263–264. ACM (2014)

3. Donahue, J., Hendricks, L.A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. arXiv preprint arXiv:1411.4389 (2014)

4. Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. arXiv preprint arXiv:1411.4555 (2014)

5. Karpathy, A., Joulin, A., Li, F.F.F.: Deep fragment embeddings for bidirectional image sentence mapping. In: Advances in Neural Information Processing Systems, pp. 1889–1897 (2014)

Cited by 428 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Overcoming language priors in visual question answering with cumulative learning strategy;Neurocomputing;2024-12

2. Structural prior-driven feature extraction with gradient-momentum combined optimization for convolutional neural network image classification;Neural Networks;2024-11

3. PGCL: Prompt guidance and self-supervised contrastive learning-based method for Visual Question Answering;Expert Systems with Applications;2024-10

4. Interpretable medical image Visual Question Answering via multi-modal relationship graph learning;Medical Image Analysis;2024-10

5. Relation-Aware Heterogeneous Graph Network for Learning Intermodal Semantics in Textbook Question Answering;IEEE Transactions on Neural Networks and Learning Systems;2024-09