Bibliography (3):

Language Models are Unsupervised Multitask Learners
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
BERTese: Learning to Speak to BERT