Bibliography (17):

https://github.com/openai/LHOPT
Chinchilla: Training Compute-Optimal Large Language Models
Proximal Policy Optimization Algorithms
ImageNet Large Scale Visual Recognition Challenge
GPT-3: Language Models are Few-Shot Learners
Decoupled Weight Decay Regularization
SGDR: Stochastic Gradient Descent with Warm Restarts
Cyclical Learning Rates for Training Neural Networks
Human-level performance in 3D multiplayer games with population-based reinforcement learning
2021-almeida-figure3-lhoptlearnedhyperparameteroptimizationongpt2largewikitext103speedupdouble.jpg
Language Models are Unsupervised Multitask Learners
Pointer Sentinel Mixture Models
Scaling Laws for Neural Language Models
Wikipedia Bibliography: