Bibliography (6):

https://github.com/microsoft/DeepSpeed
https://www.microsoft.com/en-us/research/project/ai-at-scale/
ZeRO-Offload: Democratizing Billion-Scale Model Training
Attention Is All You Need
1-bit Adam: Communication Efficient Large-Scale Training with Adam’s Convergence Speed
Wikipedia Bibliography:
1. Volta (microarchitecture) § Products :
  
  https://en.wikipedia.org/wiki/Volta_(microarchitecture)#Products