Bibliography (12):

The Pile: An 800GB Dataset of Diverse Text for Language Modeling
GPT-3: Language Models are Few-Shot Learners
CPM: A Large-scale Generative Chinese Pre-trained Language Model
UNITER: UNiversal Image-TExt Representation Learning
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
GPT Understands, Too
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
Controllable Generation from Pre-trained Language Models via Inverse Prompting
https://fastmoe.ai/
Wikipedia Bibliography:
1. Akaike information criterion