Bibliography (8):

Proximal Policy Optimization Algorithms
https://github.com/ml-jku/rudder
https://www.youtube.com/playlist?list=PLDfrC-Vpg-CzVTqSjxVeLQZy3f7iv9vyY
Wikipedia Bibliography:
1. Reinforcement learning
2. Markov decision process
3. Variance
4. Monte Carlo method
5. Monte Carlo tree search