Bibliography (6):

‘end-to-end’ directory
Playing Atari with Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning
Wikipedia Bibliography:
1. Reinforcement learning
2. Differentiable function
3. Softmax function