Bibliography (4):

MuZero: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
https://github.com/YeWR/EfficientZero
Wikipedia Bibliography:
1. Monte Carlo tree search