‘RL scaling’ directory

Annotations sorted by machine learning into ⁠inferred 'tags'⁠. This provides an alternative way to browse: instead of by date order, one can browse in topic order. The 'sorted' list has been automatically clustered into multiple sections & auto-labeled for easier browsing.

Beginning with the newest annotation, it uses the embedding of each annotation to attempt to create a list of nearest-neighbor annotations, creating a progression of topics. For more details, see the link.

Wikipedia

Jürgen Schmidhuber⁠
Moravec’s paradox⁠

Miscellaneous

Bibliography

https://arxiv.org/abs/2502.04327: “Value-Based Deep RL Scales Predictably ”⁠, Oleh Rybkin, Michal Nauman, Preston Fu …, Charlie Snell⁠, Pieter Abbeel⁠, Sergey Levine⁠, Aviral Kumar
link-bibliography⁠
https://arxiv.org/abs/2502.06807#openai: “Competitive Programming With Large Reasoning Models ”⁠, Ahmed El-Kishky, Alexander Wei, Andre Saraiva …, Borys Minaev, Daniel Selsam⁠, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Łukasz Kaiser⁠, ⁠Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese⁠, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou
link-bibliography⁠
https://arxiv.org/abs/2410.07095#openai: “MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering ”⁠, Jun Shern Chan, Neil Chowdhury, Oliver Jaffe …, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, ⁠Lilian Weng, ⁠Aleksander Madry
link-bibliography⁠
https://yellow-apartment-148.notion.site/AI-Search-The-Bitter-er-Lesson-44c11acd27294f4495c3de778cd09c8d: “AI Search: The Bitter-Er Lesson ”, Aidan McLaughlin
link-bibliography⁠
https://arxiv.org/abs/2402.04494#deepmind: “Grandmaster-Level Chess Without Search ”⁠, Anian Ruoss, Grégoire Delétang, Sourabh Medapati …, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
link-bibliography⁠
https://arxiv.org/abs/2401.05566#anthropic: “Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training ”⁠, Evan Hubinger, Carson Denison, Jesse Mu …, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, ⁠Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, ⁠Deep Ganguli, Fazl Barez, ⁠Jack Clark⁠, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai⁠, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky⁠, Paul Christiano⁠, ⁠Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, ⁠Ethan Perez
link-bibliography⁠
https://arxiv.org/abs/2311.10090: “JaxMARL: Multi-Agent RL Environments in JAX ”⁠, Alexander Rutherford⁠, Benjamin Ellis, Matteo Gallici …, Jonathan Cook⁠, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu⁠, Jakob Nicolaus Foerster
link-bibliography⁠
https://arxiv.org/abs/2308.09175#deepmind: “Diversifying AI: Towards Creative Chess With AlphaZero (AZ_db) ”⁠, Tom Zahavy, Vivek Veeriah, Shaobo Hou …, Kevin Waugh, Matthew Lai, Edouard Leurent, Nenad Tomasev, Lisa Schut⁠, Demis Hassabis⁠, Satinder Singh⁠
link-bibliography⁠
https://arxiv.org/abs/2301.04104#deepmind: “DreamerV3: Mastering Diverse Domains through World Models ”⁠, Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap⁠
link-bibliography⁠
https://arxiv.org/abs/2210.10760#openai: “Scaling Laws for Reward Model Overoptimization ”⁠, Leo Gao⁠, ⁠John Schulman, ⁠Jacob Hilton
link-bibliography⁠
https://arxiv.org/abs/2209.14500: “SAP: Bidirectional Language Models Are Also Few-Shot Learners ”⁠, Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli …, Noah Constant⁠, ⁠Colin Raffel, Chris Callison-Burch
link-bibliography⁠
https://arxiv.org/abs/2209.12892: “g.pt: Learning to Learn With Generative Models of Neural Network Checkpoints ”⁠, William Peebles, Ilija Radosavovic, Tim Brooks …, Alexei A. Efros⁠, Jitendra Malik⁠
link-bibliography⁠
https://arxiv.org/abs/2209.07550#deepmind: “Human-Level Atari 200× Faster ”⁠, Steven Kapturowski, Víctor Campos, Ray Jiang …, Nemanja Rakićević, Hado van Hasselt⁠, Charles Blundell⁠, Adrià Puigdomènech Badia
link-bibliography⁠
https://www.anthropic.com/red_teaming.pdf: “Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned ”⁠, ⁠Deep Ganguli, Liane Lovitt, ⁠Jackson Kernion …, ⁠Amanda Askell, Yuntao Bai⁠, Saurav Kadavath⁠, Ben Mann, ⁠Ethan Perez, Nicholas Schiefer, Kamal Ndousse, ⁠Andy L. Jones, ⁠Samuel R. Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, ⁠Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield Dodds, Tom Henighan, Danny Hernandez⁠, Tristan Hume, Josh Jacobson, Scott Johnston⁠, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei⁠, Tom B. Brown⁠, Nicholas Joseph, Sam McCandlish⁠, Chris Olah, Jared Kaplan, ⁠Jack Clark⁠
link-bibliography⁠
https://arxiv.org/abs/2208.01448#amazon: “AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model ”⁠, Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald …, Rahul Gupta⁠, Wael Hamza, Haidar Khan⁠, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan
link-bibliography⁠
https://arxiv.org/abs/2206.11795#openai: “Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos ”⁠, Bowen Baker, Ilge Akkaya, Peter Zhokhov …, Joost Huizinga, Jie Tang⁠, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, ⁠Jeff Clune
link-bibliography⁠
https://arxiv.org/abs/2205.15241#google: “Multi-Game Decision Transformers ”⁠, Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang …, Lisa Lee⁠, Daniel Freeman⁠, Winnie Xu, Sergio Guadarrama⁠, Ian Fischer, ⁠Eric Jang, Henryk Michalewski, Igor Mordatch⁠
link-bibliography⁠
https://arxiv.org/abs/2205.12393: “CT0: Fine-Tuned Language Models Are Continual Learners ”⁠, Thomas Scialom, Tuhin Chakrabarty, Smaranda Muresan
link-bibliography⁠
https://arxiv.org/abs/2205.06175#deepmind: “Gato: A Generalist Agent ”⁠, Scott Reed, Konrad Zolna, Emilio Parisotto …, Sergio Gomez Colmenarejo, Alexander Novikov⁠, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay⁠, Jost Tobias Springenberg, Tom Eccles⁠, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess⁠, Yutian Chen⁠, Raia Hadsell, Oriol Vinyals⁠, Mahyar Bordbar, Nando de Freitas⁠
link-bibliography⁠
https://arxiv.org/abs/2204.03514#facebook: “Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale ”⁠, Ram Ramrakhya, Eric Undersander, Dhruv Batra, Abhishek Das
link-bibliography⁠
https://arxiv.org/abs/2204.01691#google: “Do As I Can, Not As I Say (SayCan): Grounding Language in Robotic Affordances ”⁠, Michael Ahn, Anthony Brohan, Noah Brown …, Yevgen Chebotar, Omar Cortes⁠, Byron David, Chelsea Finn⁠, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, ⁠Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J. Joshi, Ryan Julian⁠, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine⁠, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia⁠, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan
link-bibliography⁠
https://arxiv.org/abs/2204.00598#google: “Socratic Models: Composing Zero-Shot Multimodal Reasoning With Language ”⁠, Andy Zeng, Adrian Wong, Stefan Welker …, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, Pete Florence
link-bibliography⁠
https://arxiv.org/abs/2202.05008#google: “EvoJAX: Hardware-Accelerated Neuroevolution ”⁠, Yujin Tang, Yingtao Tian, ⁠David Ha
link-bibliography⁠
https://arxiv.org/abs/2201.03544: “The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models ”⁠, Alexander Pan, Kush Bhatia, ⁠Jacob Steinhardt
link-bibliography⁠
https://arxiv.org/abs/2112.09332#openai: “WebGPT: Browser-Assisted Question-Answering With Human Feedback ”⁠, Reiichiro Nakano, ⁠Jacob Hilton, Suchir Balaji …, Jeff Wu Long Ouyang, Christina Kim⁠, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger⁠, Kevin Button, Matthew Knight, Benjamin Chess, ⁠John Schulman
link-bibliography⁠
https://openai.com/research/webgpt: “WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing ”⁠, ⁠Jacob Hilton, Suchir Balaji, Reiichiro Nakano, ⁠John Schulman
link-bibliography⁠
https://arxiv.org/abs/2111.09259#deepmind: “Acquisition of Chess Knowledge in AlphaZero ”⁠, Thomas McGrath, Andrei Kapishnikov, Nenad Tomašev …, Adam Pearce⁠, Demis Hassabis⁠, Been Kim, Ulrich Paquet, Vladimir Kramnik⁠
link-bibliography⁠
https://arxiv.org/abs/2111.01587#deepmind: “Procedural Generalization by Planning With Self-Supervised World Models ”⁠, Ankesh Anand, Jacob Walker, Yazhe Li …, Eszter Vértes, Julian Schrittwieser, Sherjil Ozair, Théophane Weber, Jessica B. Hamrick
link-bibliography⁠
https://arxiv.org/abs/2109.10862#openai: “Recursively Summarizing Books With Human Feedback ”⁠, Jeff Wu, Long Ouyang, Daniel M. Ziegler …, Nisan Stiennon, Ryan Lowe, ⁠Jan Leike, Paul Christiano⁠
link-bibliography⁠
https://proceedings.mlr.press/v139/vicol21a.html: “PES: Unbiased Gradient Estimation in Unrolled Computation Graphs With Persistent Evolution Strategies ”⁠, Paul Vicol, Luke Metz⁠, Jascha Sohl-Dickstein⁠
link-bibliography⁠
https://arxiv.org/abs/2106.13281#google: “Brax—A Differentiable Physics Engine for Large Scale Rigid Body Simulation ”⁠, C. Daniel Freeman, Erik Frey, Anton Raichuk …, Sertan Girgin, Igor Mordatch⁠, Olivier Bachem
link-bibliography⁠
https://arxiv.org/abs/2105.12196#deepmind: “From Motor Control to Team Play in Simulated Humanoid Football ”⁠, Siqi Liu, Guy Lever⁠, Zhe Wang …, Josh Merel, S. M. Ali Eslami, Daniel Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas Haarnoja, Brendan D. Tracey, Karl Tuyls, ⁠Thore Graepel, Nicolas Heess⁠
link-bibliography⁠
https://www.sciencedirect.com/science/article/pii/S0004370221000862#deepmind: “Reward Is Enough ”⁠, David Silver⁠, Satinder Singh⁠, Doina Precup⁠, Richard S. Sutton⁠
link-bibliography⁠
https://arxiv.org/abs/2104.06272#deepmind: “Podracer Architectures for Scalable Reinforcement Learning ”⁠, Matteo Hessel, Manuel Kroiss, Aidan Clark …, Iurii Kemaev, John Quan⁠, Thomas Keck, Fabio Viola, Hado van Hasselt⁠
link-bibliography⁠
https://arxiv.org/abs/2104.06294#deepmind: “MuZero Unplugged: Online and Offline Reinforcement Learning by Planning With a Learned Model ”⁠, Julian Schrittwieser, Thomas Hubert, Amol Mandhane …, Mohammadamin Barekatain, Ioannis Antonoglou, David Silver⁠
link-bibliography⁠
https://arxiv.org/abs/2012.05672#deepmind: “Imitating Interactive Intelligence ”⁠, Josh Abramson⁠, Arun Ahuja, Arthur Brussee …, Federico Carnevale, Mary Cassin, Stephen Clark, Andrew Dudzik, Petko Georgiev, Aurelia Guy, Tim Harley, ⁠Felix Hill, Alden Hung, Zachary Kenton, Jessica Landon, Timothy Lillicrap⁠, Kory Mathewson, Alistair Muldal, Adam Santoro⁠, Nikolay Savinov, Vikrant Varma, Greg Wayne, Nathaniel Wong, Chen Yan, Rui Zhu
link-bibliography⁠
https://arxiv.org/abs/2102.04881: “Measuring Progress in Deep Reinforcement Learning Sample Efficiency ”⁠, Anonymous
link-bibliography⁠
https://deepmind.google/discover/blog/agent57-outperforming-the-human-atari-benchmark/: “Agent57: Outperforming the Human Atari Benchmark ”⁠, Adrià Puigdomènech, Bilal Piot, Steven Kapturowski …, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell⁠
link-bibliography⁠
https://openreview.net/forum?id=SyxrxR4KPS#deepmind: “Deep Neuroethology of a Virtual Rodent ”⁠, Josh Merel, Diego Aldarondo, Jesse Marshall …, Yuval Tassa, Greg Wayne, Bence Olveczky
link-bibliography⁠
https://openai.com/research/procgen-benchmark: “Procgen Benchmark: We’re Releasing Procgen Benchmark, 16 Simple-To-Use Procedurally-Generated Environments Which Provide a Direct Measure of How Quickly a Reinforcement Learning Agent Learns Generalizable Skills ”⁠, Karl Cobbe, Christopher Hesse, ⁠Jacob Hilton, ⁠John Schulman
link-bibliography⁠
https://arxiv.org/abs/1911.00357#facebook: “DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames ”⁠, Erik Wijmans, Abhishek Kadian, Ari Morcos …, Stefan Lee, Irfan Essa⁠, Devi Parikh⁠, Manolis Savva, Dhruv Batra
link-bibliography⁠
2019-vinyals.pdf#deepmind: “Grandmaster Level in StarCraft II Using Multi-Agent Reinforcement Learning ”⁠, Oriol Vinyals⁠, Igor Babuschkin, Wojciech M. Czarnecki …, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H. Choi, Richard Powell, Timo Ewalds⁠, Petko Georgiev, Junhyuk Oh, Dan Horgan, Manuel Kroiss, Ivo Danihelka, Aja Huang⁠, Laurent Sifre⁠, Trevor Cai, John P. Agapiou, Max Jaderberg, Alexander S. Vezhnevets, Rémi Leblond, Tobias Pohlen, Valentin Dalibard, David Budden, Yury Sulsky, James Molloy⁠, Tom L. Paine, ⁠Caglar Gulcehre, Ziyu Wang, Tobias Pfaff, ⁠Yuhuai Wu, Roman Ring, Dani Yogatama, Dario Wünsch, Katrina McKinney, Oliver Smith, Tom Schaul, Timothy Lillicrap⁠, Koray Kavukcuoglu⁠, Demis Hassabis⁠, Chris Apps⁠, David Silver⁠
link-bibliography⁠
https://openai.com/research/emergent-tool-use#surprisingbehaviors: “Emergent Tool Use from Multi-Agent Interaction § Surprising Behavior ”⁠, Bowen Baker, Ingmar Kanitscheider, Todor Markov …, Yi Wu⁠, Glenn Powell, Bob McGrew⁠, Igor Mordatch⁠
link-bibliography⁠
https://lilianweng.github.io/lil-log/2019/06/23/meta-reinforcement-learning.html#openai: “Meta Reinforcement Learning ”⁠, ⁠Lilian Weng
link-bibliography⁠
2019-jaderberg.pdf#deepmind: “Human-Level Performance in 3D Multiplayer Games With Population-Based Reinforcement Learning ”⁠, Max Jaderberg, Wojciech M. Czarnecki, Iain Dunning …, Luke Marris, Guy Lever⁠, Antonio Garcia Castañeda, Charles Beattie⁠, Neil C. Rabinowitz, Ari S. Morcos, Avraham Ruderman, Nicolas Sonnerat, Tim Green, Louise Deason, Joel Z. Leibo, David Silver⁠, Demis Hassabis⁠, Koray Kavukcuoglu⁠, ⁠Thore Graepel
link-bibliography⁠
https://arxiv.org/abs/1904.01201#facebook: “Habitat: A Platform for Embodied AI Research ”⁠, Manolis Savva, Abhishek Kadian, Oleksandr Maksymets …, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian Straub, Jia Liu⁠, Vladlen Koltun⁠, Jitendra Malik⁠, Devi Parikh⁠, Dhruv Batra
link-bibliography⁠
http://www.incompleteideas.net/IncIdeas/BitterLesson.html: “The Bitter Lesson ”, Rich Sutton⁠
link-bibliography⁠
https://openai.com/research/how-ai-training-scales: “How AI Training Scales ”⁠, Sam McCandlish⁠, Jared Kaplan, Dario Amodei⁠
link-bibliography⁠
https://openai.com/research/ai-and-compute: “AI and Compute ”⁠, Dario Amodei⁠, Danny Hernandez⁠, Girish Sastry …, ⁠Jack Clark⁠, Greg Brockman⁠, Ilya Sutskever⁠
link-bibliography⁠
https://web.archive.org/web/20230718144747/https://frc.ri.cmu.edu/~hpm/project.archive/robot.papers/2004/Predictions.html: “Robot Predictions Evolution ”⁠, Hans Moravec⁠
link-bibliography⁠