‘preference learning’ directory

Annotations sorted by machine learning into ⁠inferred 'tags'⁠. This provides an alternative way to browse: instead of by date order, one can browse in topic order. The 'sorted' list has been automatically clustered into multiple sections & auto-labeled for easier browsing.

Beginning with the newest annotation, it uses the embedding of each annotation to attempt to create a list of nearest-neighbor annotations, creating a progression of topics. For more details, see the link.

Wikipedia

Miscellaneous

Bibliography

https://arxiv.org/abs/2502.10248#stepfun: “Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model ”⁠, Guoqing Ma, Haoyang Huang, Kun Yan …, Liangyu Chen, Nan Duan, Shengming Yin, Changyi Wan, Ranchen Ming, Xiaoniu Song, Xing Chen, Yu Zhou, Deshan Sun, Deyu Zhou, Jian Zhou⁠, Kaijun Tan, Kang An, Mei Chen, Wei Ji, Qiling Wu, Wen Sun⁠, Xin Han, Yanan Wei, Zheng Ge, Aojie Li, Bin Wang, Bizhu Huang, Bo Wang, Brian Li, Changxing Miao, Chen Xu, Chenfei Wu, Chenguang Yu, Dapeng Shi, Dingyuan Hu, Enle Liu, Gang Yu, Ge Yang⁠, Guanzhe Huang, Gulin Yan, Haiyang Feng, Hao Nie, Haonan Jia, Hanpeng Hu, Hanqi Chen, Haolong Yan, Heng Wang, Hongcheng Guo, Huilin Xiong, Huixin Xiong, Jiahao Gong, Jianchang Wu, Jiaoren Wu, Jie Wu⁠, Jie Yang⁠, Jiashuai Liu, Jiashuo Li, Jingyang Zhang, Junjing Guo, Junzhe Lin, Kaixiang Li, Lei Liu, Lei Xia, Liang Zhao, Liguo Tan, Liwen Huang, Liying Shi, Ming Li⁠, Mingliang Li, Muhua Cheng, Na Wang, Qiaohui Chen, Qinglin He, Qiuyan Liang, Quan Sun, Ran Sun, Rui Wang, Shaoliang Pang, Shiliang Yang, Sitong Liu, Siqi Liu, Shuli Gao, Tiancheng Cao, Tianyu Wang, Weipeng Ming, Wenqing He, Xu Zhao, Xuelin Zhang, Xianfang Zeng, Xiaojia Liu, Xuan Yang, Yaqi Dai, Yanbo Yu, Yang Li, Yineng Deng, Yingming Wang, Yilei Wang, Yuanwei Lu, Yu Chen, Yu Luo, Yuchu Luo, Yuhe Yin, Yuheng Feng, Yuxiang Yang, Zecheng Tang, Zekai Zhang, Zidong Yang, Binxing Jiao, Jiansheng Chen, Jing Li, Shuchang Zhou, Xiangyu Zhang, Xinhao Zhang, Yibo Zhu, Heung-Yeung Shum, Daxin Jiang
link-bibliography⁠
https://arxiv.org/abs/2407.11969: “Does Refusal Training in LLMs Generalize to the Past Tense? ”⁠, Maksym Andriushchenko, Nicolas Flammarion
link-bibliography⁠
https://arxiv.org/abs/2406.09279: “Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback ”⁠, Hamish Ivison, ⁠Yizhong Wang, Jiacheng Liu …, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert⁠, Noah Smith⁠, Yejin Choi⁠, ⁠Hannaneh Hajishirzi
link-bibliography⁠
https://arxiv.org/abs/2404.12358: “From r to Q^✱: Your Language Model Is Secretly a Q-Function ”⁠, Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn⁠
link-bibliography⁠
https://arxiv.org/abs/2404.08495: “Dataset Reset Policy Optimization for RLHF ”⁠, Jonathan D. Chang, Wenhao Shan, Owen Oertell …, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun⁠
link-bibliography⁠
https://arxiv.org/abs/2402.17747: “When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback ”⁠, Leon Lang, Davis Foote, Stuart Russell …, Anca Dragan, Erik Jenner, Scott Emmons
link-bibliography⁠
https://arxiv.org/abs/2402.03300#deepseek: “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models ”⁠, Zhihong Shao, Peiyi Wang, Qihao Zhu …, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo
link-bibliography⁠
https://arxiv.org/abs/2401.05566#anthropic: “Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training ”⁠, Evan Hubinger, Carson Denison, Jesse Mu …, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, ⁠Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, ⁠Deep Ganguli, Fazl Barez, ⁠Jack Clark⁠, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai⁠, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky⁠, Paul Christiano⁠, ⁠Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, ⁠Ethan Perez
link-bibliography⁠
https://arxiv.org/abs/2312.07551: “Language Model Alignment With Elastic Reset ”⁠, Michael Noukhovitch, Samuel Lavoie, Florian Strub, Aaron Courville⁠
link-bibliography⁠
https://arxiv.org/abs/2310.01377: “UltraFeedback: Boosting Language Models With High-Quality Feedback ”⁠, Ganqu Cui, Lifan Yuan⁠, Ning Ding⁠ …, Guanming Yao, Wei Zhu, Yuan Ni, Guotong Xie, ⁠Zhiyuan Liu, Maosong Sun
link-bibliography⁠
https://arxiv.org/abs/2309.15807#facebook: “Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack ”⁠, Xiaoliang Dai, Ji Hou, Chih-Yao Ma …, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu⁠, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen⁠, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh⁠
link-bibliography⁠
https://arxiv.org/abs/2309.12053: “AceGPT, Localizing Large Language Models in Arabic ”⁠, Huang Huang⁠, Fei Yu, Jianqing Zhu …, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen⁠, Abdulmohsen Alharthi, Bang An, Juncai He, Ziche Liu, Zhiyi Zhang⁠, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li⁠, Jinchao Xu⁠
link-bibliography⁠
https://arxiv.org/abs/2308.10248: “Activation Addition: Steering Language Models Without Optimization ”⁠, Alexander Matt Turner, Lisa Thiergart, Gavin Leech …, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid
link-bibliography⁠
https://openai.com/index/introducing-superalignment/: “Introducing Superalignment ”⁠, ⁠Jan Leike, Ilya Sutskever⁠
link-bibliography⁠
https://www.theverge.com/features/23764584/ai-artificial-intelligence-data-notation-labor-scale-surge-remotasks-openai-chatbots: “AI Is a Lot of Work: As the Technology Becomes Ubiquitous, a Vast Tasker Underclass Is Emerging—And Not Going Anywhere ”⁠, Josh Dzieza
link-bibliography⁠
https://arxiv.org/abs/2306.07567: “Large Language Models Sometimes Generate Purely Negatively-Reinforced Text ”⁠, Fabien Roger
link-bibliography⁠
https://www.wsj.com/articles/microsoft-and-openai-forge-awkward-partnership-as-techs-new-power-couple-3092de51: “Microsoft and OpenAI Forge Awkward Partnership As Tech’s New Power Couple: As the Companies Lead the AI Boom, Their Unconventional Arrangement Sometimes Causes Conflict ”⁠, Tom Dotan, Deepa Seetharaman⁠
link-bibliography⁠
https://arxiv.org/pdf/2305.18290#page=10: “DPO § 6.4: Validating GPT-4 Judgments With Human Judgments ”⁠, Rafael Rafailov, Archit Sharma, Eric Mitchell …, Stefano Ermon⁠, Christopher D. Manning⁠, Chelsea Finn⁠
link-bibliography⁠
https://www.wired.com/story/anthropic-ai-chatbots-ethics/: “A Radical Plan to Make AI Good, Not Evil ”⁠, Will Knight⁠
link-bibliography⁠
https://arxiv.org/abs/2305.03047#ibm: “SELF-ALIGN: Principle-Driven Self-Alignment of Language Models from Scratch With Minimal Human Supervision ”⁠, Zhiqing Sun, Yikang Shen, Qinhong Zhou …, Hongxin Zhang, Zhenfang Chen, David Cox, ⁠Yiming Yang⁠, Chuang Gan
link-bibliography⁠
https://arxiv.org/abs/2305.01569: “Pick-A-Pic: An Open Dataset of User Preferences for Text-To-Image Generation ”⁠, Yuval Kirstain, Adam Polyak, Uriel Singer …, Shahbuland Matiana, Joe Penna, Omer Levy⁠
link-bibliography⁠
https://www.forbes.com/sites/alexkonrad/2023/02/03/exclusive-openai-sam-altman-chatgpt-agi-google-search/: “OpenAI’s Sam Altman Talks ChatGPT And How Artificial General Intelligence Can ‘Break Capitalism’ ”⁠, Alex Konrad, Kenrick Cai
link-bibliography⁠
https://arxiv.org/abs/2212.10560: “Self-Instruct: Aligning Language Models With Self-Generated Instructions ”⁠, ⁠Yizhong Wang, Yeganeh Kordi, ⁠Swaroop Mishra …, Alisa Liu, Noah Smith⁠, ⁠Daniel Khashabi, ⁠Hannaneh Hajishirzi
link-bibliography⁠
https://arxiv.org/abs/2210.10760#openai: “Scaling Laws for Reward Model Overoptimization ”⁠, Leo Gao⁠, ⁠John Schulman, ⁠Jacob Hilton
link-bibliography⁠
https://arxiv.org/abs/2210.07792#eleutherai: “CARP: Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning ”⁠, Louis Castricato, Alexander Havrilla, Shahbul …, Matiana, Michael Pieler, Anbang Ye, Ian Yang, Spencer Frazier, Mark Riedl
link-bibliography⁠
https://arxiv.org/abs/2210.01241: “Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization ”⁠, Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté Brantley …, Jack Hessel, Rafet Sifa, Christian Bauckhage, ⁠Hannaneh Hajishirzi, Yejin Choi⁠
link-bibliography⁠
https://www.anthropic.com/red_teaming.pdf: “Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned ”⁠, ⁠Deep Ganguli, Liane Lovitt, ⁠Jackson Kernion …, ⁠Amanda Askell, Yuntao Bai⁠, Saurav Kadavath⁠, Ben Mann, ⁠Ethan Perez, Nicholas Schiefer, Kamal Ndousse, ⁠Andy L. Jones, ⁠Samuel R. Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, ⁠Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield Dodds, Tom Henighan, Danny Hernandez⁠, Tristan Hume, Josh Jacobson, Scott Johnston⁠, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei⁠, Tom B. Brown⁠, Nicholas Joseph, Sam McCandlish⁠, Chris Olah, Jared Kaplan, ⁠Jack Clark⁠
link-bibliography⁠
https://arxiv.org/abs/2112.09332#openai: “WebGPT: Browser-Assisted Question-Answering With Human Feedback ”⁠, Reiichiro Nakano, ⁠Jacob Hilton, Suchir Balaji …, Jeff Wu Long Ouyang, Christina Kim⁠, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger⁠, Kevin Button, Matthew Knight, Benjamin Chess, ⁠John Schulman
link-bibliography⁠
https://openai.com/research/webgpt: “WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing ”⁠, ⁠Jacob Hilton, Suchir Balaji, Reiichiro Nakano, ⁠John Schulman
link-bibliography⁠
https://arxiv.org/abs/2112.00861#anthropic: “A General Language Assistant As a Laboratory for Alignment ”⁠, ⁠Amanda Askell, Yuntao Bai⁠, Anna Chen …, Dawn Drain, ⁠Deep Ganguli, Tom Henighan, ⁠Andy L. Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, ⁠Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez⁠, ⁠Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei⁠, Tom B. Brown⁠, ⁠Jack Clark⁠, Sam McCandlish⁠, Chris Olah, Jared Kaplan
link-bibliography⁠
https://arxiv.org/abs/2109.10862#openai: “Recursively Summarizing Books With Human Feedback ”⁠, Jeff Wu, Long Ouyang, Daniel M. Ziegler …, Nisan Stiennon, Ryan Lowe, ⁠Jan Leike, Paul Christiano⁠
link-bibliography⁠
https://trajectory-transformer.github.io/: “Trajectory Transformer: Reinforcement Learning As One Big Sequence Modeling Problem ”, Michael Janner, Qiyang Colin Li, Sergey Levine⁠
link-bibliography⁠
https://openai.com/research/fine-tuning-gpt-2: “Fine-Tuning GPT-2 from Human Preferences ”⁠, Daniel Ziegler⁠, Nisan Stiennon, Jeffrey Wu⁠ …, Tom B. Brown⁠, Dario Amodei⁠, Alec Radford⁠, Paul Christiano⁠, ⁠Geoffrey Irving
link-bibliography⁠
2018-fu.pdf: “StreetNet: Preference Learning With Convolutional Neural Network on Urban Crime Perception ”⁠, Kaiqun Fu, Zhiqian Chen, Chang-Tien Lu
link-bibliography⁠