Bibliography (3):

MMLU: Measuring Massive Multitask Language Understanding
GPT-3: Language Models are Few-Shot Learners
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models