Bibliography (8):

https://valle-demo.github.io/
GPT-3: Language Models are Few-Shot Learners
https://danielpovey.com/files/2015_icassp_librispeech.pdf
AudioLM: a Language Modeling Approach to Audio Generation
Wikipedia Bibliography: