Bibliography (9):

The Value Equivalence Principle for Model-Based Reinforcement Learning
Value Iteration Networks
The Predictron: End-To-End Learning and Planning
Value Prediction Network
TreeQN & ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning
MuZero: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Proper Value Equivalence
Wikipedia Bibliography:
1. Reinforcement learning
2. Maximum likelihood estimation