Bibliography (5):

https://www.wikipedia.org/
Generating Diverse High-Fidelity Images with VQ-VAE-2
https://openai.com/blog/dall-e/
Unigram LM: Byte Pair Encoding is Suboptimal for Language Model Pretraining
WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training