Hierarchical attention-based multimodal fusion for video captioning-Reference-Cited by-同舟云学术

Hierarchical attention-based multimodal fusion for video captioning

Published:2018-11 Issue: Volume:315 Page:362-370
ISSN:0925-2312
Container-title:Neurocomputing
language:en
Short-container-title:Neurocomputing

Author:

Wu Chunlei,Wei Yiwei,Chu Xiaoliang,Weichen Sun,Su Fei,Wang Leiquan^ORCID

Funder

National Natural Science Foundation of China

Publisher

Elsevier BV

Subject

Artificial Intelligence,Cognitive Neuroscience,Computer Science Applications

Reference33 articles.

1. C. Xiong, J. Lu, D. Parikh, R. Socher., Knowing when to look: adaptive attention via a visual sentinel for image captioning, arXiv preprint 2016 arXiv:1612.01887.

2. Image captioning with semantic attention.;You,2016

3. Show, attend and tell: Neural image caption generation with visual attention.;Xu,2015

4. P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, L. Zhang., Bottom-up and top-down attention for image captioning and visual question answering., arXiv preprint arXiv:1707.07998v2.

5. Describing videos using multi-modal fusion.;Jin;ACM Multim. Conf.,2016

Cited by 27 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Deep Multimodal Data Fusion;ACM Computing Surveys;2024-04-24

2. Adaptively Forget with Crossmodal and Textual Distillation for Class-Incremental Video Captioning;2024

3. A Hierarchical Graph-Based Approach for Recognition and Description Generation of Bimanual Actions in Videos;2024

4. Exploring deep learning approaches for video captioning: A comprehensive review;e-Prime - Advances in Electrical Engineering, Electronics and Energy;2023-12

5. Multi-sentence video captioning using spatial saliency of video frames and content-oriented beam search algorithm;Expert Systems with Applications;2023-10