Bibliography (7):

Proximal Policy Optimization Algorithms
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Openai/gym: A Toolkit for Developing and Comparing Reinforcement Learning Algorithms.
https://mujoco.org/
Wikipedia Bibliography:
1. https://en.wikipedia.org/wiki/Google_JAX :
  
  https://en.wikipedia.org/wiki/Google_JAX
2. Reinforcement learning