Reservoir Computing Transformer for Image-Text Retrieval-Reference-Cited by-同舟云学术

Reservoir Computing Transformer for Image-Text Retrieval

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Li Wenrui¹^ORCID,Ma Zhengyu²^ORCID,Deng Liang-Jian³^ORCID,Wang Penghong¹^ORCID,Shi Jinqiao⁴^ORCID,Fan Xiaopeng¹^ORCID

Affiliation:

1. Harbin Institute of Technology, Harbin, China

2. Peng Cheng Laboratory, Shenzhen, China

3. University of Electronic Science and Technology of China, Sichuan, China

4. Beijing University of Posts and Telecommunications, Beijing, China

Funder

National Natural Science Foundation of China

National Key Research and Development Program of China

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3611758

Reference57 articles.

1. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

2. Liang Peng , Yang Yang , Zheng Wang , Zi Huang , and Heng Tao Shen . Mra-net : Improving vqa via multi-modal relation attention network . In TPAMI , 2020 . Liang Peng, Yang Yang, Zheng Wang, Zi Huang, and Heng Tao Shen. Mra-net: Improving vqa via multi-modal relation attention network. In TPAMI, 2020.

3. Peter Anderson , Qi Wu , Damien Teney , Jake Bruce , Mark Johnson , Niko Sünderhauf , Ian Reid , Stephen Gould , and Anton Van Den Hengel . Vision-and-language navigation : Interpreting visually-grounded navigation instructions in real environments . In CVPR , 2018 . Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sünderhauf, Ian Reid, Stephen Gould, and Anton Van Den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, 2018.

4. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

5. Comprehensive Feature-Based Robust Video Fingerprinting Using Tensor Model