Towards Accurate Lip-to-Speech Synthesis in-the-Wild-Reference-Cited by-同舟云学术

Towards Accurate Lip-to-Speech Synthesis in-the-Wild

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Hegde Sindhu¹^ORCID,Mukhopadhyay Rudrabha²^ORCID,Jawahar C.V²^ORCID,Namboodiri Vinay³^ORCID

Affiliation:

1. University of Oxford, Oxford, United Kingdom

2. IIIT Hyderabad, Hyderabad, India

3. University of Bath, Bath, United Kingdom

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3611787

Reference36 articles.

1. Triantafyllos Afouras , Joon Son Chung , Andrew Senior, Oriol Vinyals, and Andrew Zisserman. 2018 c. Deep audio-visual speech recognition. IEEE transactions on pattern analysis and machine intelligence (2018). Triantafyllos Afouras, Joon Son Chung, Andrew Senior, Oriol Vinyals, and Andrew Zisserman. 2018c. Deep audio-visual speech recognition. IEEE transactions on pattern analysis and machine intelligence (2018).

2. Triantafyllos Afouras , Joon Son Chung, and Andrew Zisserman . 2018 a. Deep Lip Reading: a comparison of models and an online application. In INTERSPEECH. Triantafyllos Afouras, Joon Son Chung, and Andrew Zisserman. 2018a. Deep Lip Reading: a comparison of models and an online application. In INTERSPEECH.

3. Triantafyllos Afouras , Joon Son Chung, and Andrew Zisserman . 2018 b. LRS 3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496 (2018). Triantafyllos Afouras, Joon Son Chung, and Andrew Zisserman. 2018b. LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496 (2018).

4. Hassan Akbari , Himani Arora , Liangliang Cao , and Nima Mesgarani . 2017 . Lip2Audspec: Speech Reconstruction from Silent Lip Movements Video . 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2017), 2516--2520. Hassan Akbari, Himani Arora, Liangliang Cao, and Nima Mesgarani. 2017. Lip2Audspec: Speech Reconstruction from Silent Lip Movements Video. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2017), 2516--2520.

5. Yannis M Assael , Brendan Shillingford , Shimon Whiteson , and Nando De Freitas . 2016 . Lipnet: End-to-end sentence-level lipreading. arXiv preprint arXiv:1611.01599 (2016). Yannis M Assael, Brendan Shillingford, Shimon Whiteson, and Nando De Freitas. 2016. Lipnet: End-to-end sentence-level lipreading. arXiv preprint arXiv:1611.01599 (2016).