Efficient Video Transformers with Spatial-Temporal Token Selection-Reference-Cited by-同舟云学术

Efficient Video Transformers with Spatial-Temporal Token Selection

Published:2022 Issue: Volume: Page:69-86
ISSN:0302-9743
Container-title:Lecture Notes in Computer Science
language:
Short-container-title:

Author:

Wang Junke^ORCID,Yang Xitong^ORCID,Li Hengduo^ORCID,Liu Li,Wu Zuxuan^ORCID,Jiang Yu-Gang^ORCID

Publisher

Springer Nature Switzerland

Link

https://link.springer.com/content/pdf/10.1007/978-3-031-19833-5_5

Reference76 articles.

1. Abernethy, J., Lee, C., Tewari, A.: Perturbation techniques in online learning and optimization. Perturbations, Optimization, and Statistics (2016)

2. Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lučić, M., Schmid, C.: ViViT: a video vision transformer. In: ICCV (2021)

3. Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML (2021)

4. Berthet, Q., Blondel, M., Teboul, O., Cuturi, M., Vert, J.P., Bach, F.: Learning with differentiable perturbed optimizers. arXiv preprint arXiv:2002.08676 (2020)

5. Bhardwaj, S., Srinivasan, M., Khapra, M.M.: Efficient video classification using fewer frames. In: CVPR (2019)

Cited by 22 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. MA-VLAD: a fine-grained local feature aggregation scheme for action recognition;Multimedia Systems;2024-05-03

2. Efficient Video Transformers via Spatial-temporal Token Merging for Action Recognition;ACM Transactions on Multimedia Computing, Communications, and Applications;2024-01-11

3. Scalable frame resolution for efficient continuous sign language recognition;Pattern Recognition;2024-01

4. Efficient Video Understanding;Wireless Networks;2024

5. Video Action Recognition Based on Spatiotemporal Sampling;Artificial Intelligence and Robotics Research;2024