Bibliography (9):

Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Decision Transformer: Reinforcement Learning via Sequence Modeling
ODT: Online Decision Transformer
https://mujoco.org/
The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
Trust Region Policy Optimization in Multi-Agent Reinforcement Learning
https://sites.google.com/view/multi-agent-transformer
Wikipedia Bibliography:
1. Reinforcement learning