Bibliography (6):

MegatronLM: Training Billion+ Parameter Language Models Using GPU Model Parallelism
2021-junseong-hyperclova.html
GPT-3: Language Models are Few-Shot Learners
Wikipedia Bibliography: