Text-to-Audio Generation using Instruction Guided Latent Diffusion Model-Reference-Cited by-同舟云学术

Text-to-Audio Generation using Instruction Guided Latent Diffusion Model

Published:2023-10-26 Issue: Volume: Page:
ISSN:
Container-title:Proceedings of the 31st ACM International Conference on Multimedia
language:
Short-container-title:

Author:

Ghosal Deepanway¹^ORCID,Majumder Navonil¹^ORCID,Mehrish Ambuj¹^ORCID,Poria Soujanya¹^ORCID

Affiliation:

1. Singapore University of Technology and Design, Singapore, Singapore

Funder

Ministry of Education, Singapore

Publisher

ACM

Link

https://dl.acm.org/doi/pdf/10.1145/3581783.3612348

Reference43 articles.

1. Andrea Agostinelli , Timo I Denk , Zalán Borsos , Jesse Engel , Mauro Verzetti , An-toine Caillon, Qingqing Huang , Aren Jansen , Adam Roberts , Marco Tagliasacchi , et al. Musiclm: Generating music from text. arXiv preprint arXiv:2301.11325 , 2023 . Andrea Agostinelli, Timo I Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, An-toine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, et al. Musiclm: Generating music from text. arXiv preprint arXiv:2301.11325, 2023.

2. Nanxin Chen , Yu Zhang , Heiga Zen , Ron J Weiss , Mohammad Norouzi , and William Chan . Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713 , 2020 . Nanxin Chen, Yu Zhang, Heiga Zen, Ron J Weiss, Mohammad Norouzi, and William Chan. Wavegrad: Estimating gradients for waveform generation. arXiv preprint arXiv:2009.00713, 2020.

3. Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay William Fedus Eric Li Xuezhi Wang Mostafa Dehghani Siddhartha Brahma Albert Webson Shixiang Shane Gu Zhuyun Dai Mirac Suzgun Xinyun Chen Aakanksha Chowdhery Sharan Narang Gaurav Mishra Adams Yu Vincent Zhao Yanping Huang Andrew Dai Hongkun Yu Slav Petrov Ed H. Chi Jeff Dean Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le and Jason Wei. Scaling instruction-finetuned language models 2022. URL https://arxiv.org/abs/2210.11416. Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay William Fedus Eric Li Xuezhi Wang Mostafa Dehghani Siddhartha Brahma Albert Webson Shixiang Shane Gu Zhuyun Dai Mirac Suzgun Xinyun Chen Aakanksha Chowdhery Sharan Narang Gaurav Mishra Adams Yu Vincent Zhao Yanping Huang Andrew Dai Hongkun Yu Slav Petrov Ed H. Chi Jeff Dean Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le and Jason Wei. Scaling instruction-finetuned language models 2022. URL https://arxiv.org/abs/2210.11416.

4. Damai Dai , Yutao Sun , Li Dong , Yaru Hao , Zhifang Sui , and Furu Wei . Why can gpt learn in-context? language models secretly perform gradient descent as meta-optimizers. ArXiv, abs/2212.10559 , 2022 . Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, and Furu Wei. Why can gpt learn in-context? language models secretly perform gradient descent as meta-optimizers. ArXiv, abs/2212.10559, 2022.

5. Audio Set: An ontology and human-labeled dataset for audio events

Cited by 12 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. ID.8: Co-Creating Visual Stories with Generative AI;ACM Transactions on Interactive Intelligent Systems;2024-08-02

2. JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models;2024 IEEE Conference on Artificial Intelligence (CAI);2024-06-25

3. VoiceLDM: Text-to-Speech with Environmental Context;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14

4. Enhancing Semantic Communication with Deep Generative Models: An Overview;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14

5. Retrieval-Augmented Text-to-Audio Generation;ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);2024-04-14