Bibliography (3):

GPT-3: Language Models are Few-Shot Learners
FLAN: Finetuned Language Models Are Zero-Shot Learners
mT5: A massively multilingual pre-trained text-to-text transformer