Equivariant and Invariant Grounding for Video Question Answering-Reference-Cited by-同舟云学术

Equivariant and Invariant Grounding for Video Question Answering

Published:2022-10-10 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 30th ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Li Yicong¹,Wang Xiang²,Xiao Junbin¹,Chua Tat-Seng¹

Affiliation:

1. National University of Singapore, Singapore, Singapore

2. University of Science and Technology of China, Hefei, Singapore

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3503161.3548035

Reference54 articles.

1. Peter Anderson , Qi Wu , Damien Teney , Jake Bruce , Mark Johnson , Niko Sünderhauf , Ian D. Reid , Stephen Gould , and Anton van den Hengel . 2018. Vision-and- Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments . In IEEE CVPR. 3674--3683. Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sünderhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. 2018. Vision-and- Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments. In IEEE CVPR. 3674--3683.

2. Martín Arjovsky Léon Bottou Ishaan Gulrajani and David Lopez-Paz. 2019. Invariant Risk Minimization. Martín Arjovsky Léon Bottou Ishaan Gulrajani and David Lopez-Paz. 2019. Invariant Risk Minimization.

3. Chaofan Chen , Oscar Li , Alina Barnett , Jonathan Su , and Cynthia Rudin . 2018. This looks like that: deep learning for interpretable image recognition. CoRR ( 2018 ). Chaofan Chen, Oscar Li, Alina Barnett, Jonathan Su, and Cynthia Rudin. 2018. This looks like that: deep learning for interpretable image recognition. CoRR (2018).

4. Long Chen , Xin Yan , Jun Xiao , Hanwang Zhang , Shiliang Pu , and Yueting Zhuang . 2020. Counterfactual Samples Synthesizing for Robust Visual Question Answering . In IEEE CVPR. 10797--10806. Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, and Yueting Zhuang. 2020. Counterfactual Samples Synthesizing for Robust Visual Question Answering. In IEEE CVPR. 10797--10806.

5. Elliot Creager , Jörn-Henrik Jacobsen , and Richard S . Zemel . 2021 . Environment Inference for Invariant Learning. In ICML (Proceedings of Machine Learning Research) . 2189--2200. Elliot Creager, Jörn-Henrik Jacobsen, and Richard S. Zemel. 2021. Environment Inference for Invariant Learning. In ICML (Proceedings of Machine Learning Research). 2189--2200.

Cited by 7 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Contrastive Video Question Answering via Video Graph Transformer;IEEE Transactions on Pattern Analysis and Machine Intelligence;2023-11-01

2. ATM: Action Temporality Modeling for Video Question Answering;Proceedings of the 31st ACM International Conference on Multimedia;2023-10-26

3. Mixup-Augmented Temporally Debiased Video Grounding with Content-Location Disentanglement;Proceedings of the 31st ACM International Conference on Multimedia;2023-10-26

4. Visual Causal Scene Refinement for Video Question Answering;Proceedings of the 31st ACM International Conference on Multimedia;2023-10-26

5. Discovering Spatio-Temporal Rationales for Video Question Answering;2023 IEEE/CVF International Conference on Computer Vision (ICCV);2023-10-01