Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering-Reference-Cited by-同舟云学术

Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering

Published:2023-08-28 Issue:1 Volume:132 Page:185-207
ISSN:0920-5691
Container-title:International Journal of Computer Vision
language:en
Short-container-title:Int J Comput Vis

Author:

Jiang Jingjing^ORCID,Liu Ziyi,Zheng Nanning

Funder

National Natural Science Foundation of China

Publisher

Springer Science and Business Media LLC

Subject

Artificial Intelligence,Computer Vision and Pattern Recognition,Software

Link

https://link.springer.com/content/pdf/10.1007/s11263-023-01858-y.pdf

Reference100 articles.

1. Agarwal, V., Shetty, R., & Fritz, M. (2020). Towards causal vqa: Revealing and reducing spurious correlations by invariant and covariant semantic editing. In IEEE conference on computer vision and pattern recognition (pp. 9690–9698).

2. Agrawal, A., Kajić, I., Bugliarello, E., Davoodi, E., Gergely, A., Blunsom, P., & Nematzadeh, A. (2022). Rethinking evaluation practices in visual question answering: A case study on out-of-distribution generalization. arXiv preprint arXiv:2205.12191.

3. Ahuja, K., Caballero, E., Zhang, D., Bengio, Y., Mitliagkas, I., & Rish, I. (2021). Invariance principle meets information bottleneck for out-of-distribution generalization. In Neural information processing systems (pp. 3438–3450).

4. Alayrac, J. B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., Lenc, K., Mensch, A., Millican, K., & Reynolds, M., et al. (2022). Flamingo: A visual language model for few-shot learning. In Neural information processing systems (pp. 23716–23736).

5. Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., & Zhang, L. (2018). Bottom-up and top-down attention for image captioning and visual question answering. In IEEE conference on computer vision and pattern recognition (pp. 6077–6086).

Cited by 5 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Measuring scientific inquiry ability related to hands-on practice: An automated approach based on multimodal data analysis;Education and Information Technologies;2024-08-28

2. Vision-Language Alignment Learning Under Affinity and Divergence Principles for Few-Shot Out-of-Distribution Generalization;International Journal of Computer Vision;2024-03-18

3. Semantically Enhanced Scene Captions with Physical and Weather Condition Changes;2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW);2023-10-02

4. Unseen And Adverse Outdoor Scenes Recognition Through Event-based Captions;2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW);2023-10-02

5. Dynamic Texts From UAV Perspective Natural Images;2023 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW);2023-10-02