CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery-Reference-Cited by-同舟云学术

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

Published:2023 Issue: Volume: Page:397-407
ISSN:0302-9743
Container-title:Lecture Notes in Computer Science
language:
Short-container-title:

Author:

Bai Long,Islam Mobarakol,Ren Hongliang

Publisher

Springer Nature Switzerland

Link

https://link.springer.com/content/pdf/10.1007/978-3-031-43996-4_38

Reference29 articles.

1. Allan, M., et al.: 2018 robotic scene segmentation challenge. arXiv preprint arXiv:2001.11190 (2020)

2. Allan, M., et al.: 2017 robotic instrument segmentation challenge. arXiv preprint arXiv:1902.06426 (2019)

3. Arevalo, J., Solorio, T., Montes-y Gómez, M., González, F.A.: Gated multimodal units for information fusion. arXiv preprint arXiv:1702.01992 (2017)

4. Bai, L., Islam, M., Seenivasan, L., Ren, H.: Surgical-VQLA: transformer with gated vision-language embedding for visual question localized-answering in robotic surgery. arXiv preprint arXiv:2305.11692 (2023)

5. Ben-Younes, H., Cadene, R., Cord, M., Thome, N.: MUTAN: multimodal tucker fusion for visual question answering. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2612–2620 (2017)

Cited by 5 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Surgical-VQLA++: Adversarial contrastive learning for calibrated robust visual question-localized answering in robotic surgery;Information Fusion;2025-01

2. Prior-Posterior Knowledge Prompting-and-Reasoning for Surgical Visual Question Localized-Answering;2024 International Joint Conference on Neural Networks (IJCNN);2024-06-30

3. LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery;2024 IEEE International Conference on Robotics and Automation (ICRA);2024-05-13

4. OSSAR: Towards Open-Set Surgical Activity Recognition in Robot-assisted Surgery;2024 IEEE International Conference on Robotics and Automation (ICRA);2024-05-13

5. Dual modality prompt learning for visual question-grounded answering in robotic surgery;Visual Computing for Industry, Biomedicine, and Art;2024-04-22