Bibliography (10):

https://x.com/rm_rafailov/status/1781145338759533016
V-STaR: Training Verifiers for Self-Taught Reasoners
Diffusion Model Alignment Using Direct Preference Optimization
Wikipedia Bibliography:
1. Reinforcement learning
2. Markov decision process
3. Q-learning
4. https://en.wikipedia.org/wiki/Bellman_equation :
  
  https://en.wikipedia.org/wiki/Bellman_equation
5. Monte Carlo tree search
6. Beam search
7. End-to-end principle