‘instruct-tuning LLMs’ directory

Gwern

‘instruct-tuning LLMs’ directory

Links

“Native Sparse Attention (NSA): Hardware-Aligned and Natively Trainable Sparse Attention ”, Yuan et al 2025

⁠Native Sparse Attention (NSA): Hardware-Aligned and Natively Trainable Sparse Attention⁠

“LLaDA: Large Language Diffusion Models ”, Nie et al 2025

⁠LLaDA: Large Language Diffusion Models⁠

“What’s the Deal With Mid-Training? ”, Doria 2025

⁠What’s the deal with mid-training?

“SANA: Efficient High-Resolution Image Synthesis With Linear Diffusion Transformers ”, Xie et al 2024

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers⁠

“Instruction Following without Instruction Tuning ”, Hewitt et al 2024

Instruction Following without Instruction Tuning⁠

“Hermes 3 Technical Report ”, Teknium et al 2024

Hermes 3 Technical Report⁠

“Freedom at the Frontier: Hermes 3 § Amnesia Mode ”, ARIA 2024

⁠Freedom at the Frontier: Hermes 3 § Amnesia mode :

View HTML:

⁠/doc/www/nousresearch.com/d821e85eefd1e3a3f0fc8719c55ed0530cfc653b.html⁠

“State Soup: In-Context Skill Learning, Retrieval and Mixing ”, Pióro et al 2024

State Soup: In-Context Skill Learning, Retrieval and Mixing⁠

“Auto Evol-Instruct: Automatic Instruction Evolving for Large Language Models ”, Zeng et al 2024

Auto Evol-Instruct: Automatic Instruction Evolving for Large Language Models⁠

“Instruction Modeling: Instruction Tuning With Loss Over Instructions ”, Shi et al 2024

Instruction Modeling: Instruction Tuning With Loss Over Instructions⁠

“LoRA Learns Less and Forgets Less ”, Biderman et al 2024

LoRA Learns Less and Forgets Less⁠

“The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions ”, Wallace et al 2024

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions⁠

“Best Practices and Lessons Learned on Synthetic Data for Language Models ”, Liu et al 2024

Best Practices and Lessons Learned on Synthetic Data for Language Models⁠

“RecurrentGemma: Moving Past Transformers for Efficient Open Language Models ”, Botev et al 2024

RecurrentGemma: Moving Past Transformers for Efficient Open Language Models⁠

“Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators ”, Dubois et al 2024

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators⁠

“COIG-CQIA: Quality Is All You Need for Chinese Instruction Fine-Tuning ”, Bai et al 2024

COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning⁠

“MetaAligner: Conditional Weak-To-Strong Correction for Generalizable Multi-Objective Alignment of Language Models ”, Yang et al 2024

MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models⁠

“Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models ”, Ding et al 2024

Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models⁠

“StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ”, Zhuang et al 2024

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding⁠

“How to Train Data-Efficient LLMs ”, Sachdeva et al 2024

How to Train Data-Efficient LLMs⁠

“Rephrasing the Web (WARP): A Recipe for Compute and Data-Efficient Language Modeling ”, Maini et al 2024

Rephrasing the Web (WARP): A Recipe for Compute and Data-Efficient Language Modeling⁠

“WaveCoder: Widespread And Versatile Enhanced Instruction Tuning With Refined Data Generation ”, Yu et al 2023

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation⁠

“VILA: On Pre-Training for Visual Language Models ”, Lin et al 2023

VILA: On Pre-training for Visual Language Models⁠

“Instruction-Tuning Aligns LLMs to the Human Brain ”, Aw et al 2023

Instruction-tuning Aligns LLMs to the Human Brain⁠

“R-Tuning: Teaching Large Language Models to Refuse Unknown Questions ”, Zhang et al 2023

R-Tuning: Teaching Large Language Models to Refuse Unknown Questions⁠

“When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models ”, Zheng et al 2023

When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models⁠

“Language Models Are Super Mario (DARE): Absorbing Abilities from Homologous Models As a Free Lunch ”, Yu et al 2023

Language Models are Super Mario (DARE): Absorbing Abilities from Homologous Models as a Free Lunch⁠

“ChipNeMo: Domain-Adapted LLMs for Chip Design ”, Liu et al 2023

ChipNeMo: Domain-Adapted LLMs for Chip Design⁠

“Mistral-7B ”, Jiang et al 2023

Mistral-7B⁠

“LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models ”, Jiang et al 2023

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models⁠

“LLaVA-1.5: Improved Baselines With Visual Instruction Tuning ”, Liu et al 2023

LLaVA-1.5: Improved Baselines with Visual Instruction Tuning⁠

“UltraFeedback: Boosting Language Models With High-Quality Feedback ”, Cui et al 2023

UltraFeedback: Boosting Language Models with High-quality Feedback⁠

“AceGPT, Localizing Large Language Models in Arabic ”, Huang et al 2023

AceGPT, Localizing Large Language Models in Arabic⁠

“Can Programming Languages Boost Each Other via Instruction Tuning? ”, Zan et al 2023

Can Programming Languages Boost Each Other via Instruction Tuning?⁠

“DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI ”, Zhang et al 2023

DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI⁠

“LLaMA-2: Open Foundation and Fine-Tuned Chat Models ”, Touvron et al 2023

LLaMA-2: Open Foundation and Fine-Tuned Chat Models⁠

“AlpaGasus: Training A Better Alpaca With Fewer Data ”, Chen et al 2023

AlpaGasus: Training A Better Alpaca with Fewer Data⁠

“Instruction Mining: High-Quality Instruction Data Selection for Large Language Models ”, Cao et al 2023

Instruction Mining: High-Quality Instruction Data Selection for Large Language Models⁠

“Lost in the Middle: How Language Models Use Long Contexts ”, Liu et al 2023

Lost in the Middle: How Language Models Use Long Contexts⁠

“On the Exploitability of Instruction Tuning ”, Shu et al 2023

On the Exploitability of Instruction Tuning⁠

“ChessGPT: Bridging Policy Learning and Language Modeling ”, Feng et al 2023

ChessGPT: Bridging Policy Learning and Language Modeling⁠

“Dr. LLaMa: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation ”, Guo et al 2023

Dr. LLaMa: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation⁠

“SELF-ALIGN: Principle-Driven Self-Alignment of Language Models from Scratch With Minimal Human Supervision ”, Sun et al 2023

SELF-ALIGN: Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision⁠

“Distilling Step-By-Step! Outperforming Larger Language Models With Less Training Data and Smaller Model Sizes ”, Hsieh et al 2023

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes⁠

“LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions ”, Wu et al 2023

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions⁠

“WizardLM: Empowering Large Language Models to Follow Complex Instructions ”, Xu et al 2023

WizardLM: Empowering Large Language Models to Follow Complex Instructions⁠

“TANGO: Text-To-Audio Generation Using Instruction-Tuned LLM and Latent Diffusion Model ”, Ghosal et al 2023

TANGO: Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model⁠

“Phoenix: Democratizing ChatGPT across Languages ”, Chen et al 2023

Phoenix: Democratizing ChatGPT across Languages⁠

“How Well Do Large Language Models Perform in Arithmetic Tasks? ”, Yuan et al 2023

How well do Large Language Models perform in Arithmetic tasks?⁠

“Larger Language Models Do In-Context Learning Differently ”, Wei et al 2023

Larger language models do in-context learning differently⁠

“LLaMa-1: Open and Efficient Foundation Language Models ”, Touvron et al 2023

LLaMa-1: Open and Efficient Foundation Language Models⁠

“How Does In-Context Learning Help Prompt Tuning? ”, Sun et al 2023

How Does In-Context Learning Help Prompt Tuning?⁠

“Med-PaLM: Large Language Models Encode Clinical Knowledge ”, Singhal et al 2022

Med-PaLM: Large Language Models Encode Clinical Knowledge⁠

“Self-Instruct: Aligning Language Models With Self-Generated Instructions ”, Wang et al 2022

Self-Instruct: Aligning Language Models with Self-Generated Instructions⁠

“Unnatural Instructions: Tuning Language Models With (Almost) No Human Labor ”, Honovich et al 2022

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor⁠

“One Embedder, Any Task: Instruction-Finetuned Text Embeddings (INSTRUCTOR) ”, Su et al 2022

One Embedder, Any Task: Instruction-Finetuned Text Embeddings (INSTRUCTOR)⁠

“HALIE: Evaluating Human-Language Model Interaction ”, Lee et al 2022

HALIE: Evaluating Human-Language Model Interaction⁠

“BLOOMZ/mT0: Crosslingual Generalization through Multitask Finetuning ”, Muennighoff et al 2022

BLOOMZ/mT0: Crosslingual Generalization through Multitask Finetuning⁠

“Help Me Write a Poem: Instruction Tuning As a Vehicle for Collaborative Poetry Writing (CoPoet) ”, Chakrabarty et al 2022

Help me write a poem: Instruction Tuning as a Vehicle for Collaborative Poetry Writing (CoPoet)⁠

“FLAN: Scaling Instruction-Finetuned Language Models ”, Chung et al 2022

FLAN: Scaling Instruction-Finetuned Language Models⁠

“Language Models Are Multilingual Chain-Of-Thought Reasoners ”, Shi et al 2022

Language Models are Multilingual Chain-of-Thought Reasoners⁠

“LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging ”, Rosenbaum et al 2022

LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging⁠

“Z-Code++: A Pre-Trained Language Model Optimized for Abstractive Summarization ”, He et al 2022

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization⁠

“Few-Shot Adaptation Works With UnpredicTable Data ”, Chan et al 2022

Few-shot Adaptation Works with UnpredicTable Data⁠

“RST: ReStructured Pre-Training ”, Yuan & Liu 2022

RST: reStructured Pre-training⁠

“InstructDial: Improving Zero and Few-Shot Generalization in Dialogue through Instruction Tuning ”, Gupta et al 2022

InstructDial: Improving Zero and Few-shot Generalization in Dialogue through Instruction Tuning⁠

“CT0: Fine-Tuned Language Models Are Continual Learners ”, Scialom et al 2022

CT0: Fine-tuned Language Models are Continual Learners⁠

“Tk-Instruct: Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks ”, Wang et al 2022

Tk-Instruct: Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks⁠

“What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? ”, Wang et al 2022

What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?⁠

“UnifiedQA-V2: Stronger Generalization via Broader Cross-Format Training ”, Khashabi et al 2022

UnifiedQA-v2: Stronger Generalization via Broader Cross-Format Training⁠

“Reasoning Like Program Executors ”, Pi et al 2022

Reasoning Like Program Executors⁠

“ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization ”, Xu et al 2022

ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization⁠

“ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning ”, Aribandi et al 2021

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning⁠

“MetaICL: Learning to Learn In Context ”, Min et al 2021

MetaICL: Learning to Learn In Context⁠

“T0: Multitask Prompted Training Enables Zero-Shot Task Generalization ”, Sanh et al 2021

T0: Multitask Prompted Training Enables Zero-Shot Task Generalization⁠

“FLAN: Finetuned Language Models Are Zero-Shot Learners ”, Wei et al 2021

FLAN: Finetuned Language Models Are Zero-Shot Learners⁠

“Cross-Task Generalization via Natural Language Crowdsourcing Instructions ”, Mishra et al 2021

Cross-Task Generalization via Natural Language Crowdsourcing Instructions⁠

“CrossFit: A Few-Shot Learning Challenge for Cross-Task Generalization in NLP ”, Ye et al 2021

CrossFit: A Few-shot Learning Challenge for Cross-task Generalization in NLP⁠

“Adapting Language Models for Zero-Shot Learning by Meta-Tuning on Dataset and Prompt Collections ”, Zhong et al 2021

Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections⁠

“Muppet: Massive Multi-Task Representations With Pre-Finetuning ”, Aghajanyan et al 2021

Muppet: Massive Multi-task Representations with Pre-Finetuning⁠

“UnifiedQA: Crossing Format Boundaries With a Single QA System ”, Khashabi et al 2020

UnifiedQA: Crossing Format Boundaries With a Single QA System⁠

“The Natural Language Decathlon: Multitask Learning As Question Answering ”, McCann et al 2018

The Natural Language Decathlon: Multitask Learning as Question Answering⁠

“No Robots: Look Ma, an Instruction Dataset That Wasn’t Generated by GPTs! ”, HuggingFace 2025

No Robots: Look Ma, an instruction dataset that wasn’t generated by GPTs!⁠

“The RetroInstruct Guide To Synthetic Text Data ”, Pressman 2025

⁠The RetroInstruct Guide To Synthetic Text Data

Miscellaneous

Bibliography

https://arxiv.org/abs/2502.09992: “LLaDA: Large Language Diffusion Models ”⁠, Shen Nie, Fengqi Zhu, Zebin You …, Xiaolu Zhang, Jingyang Ou, Jun Hu⁠, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
link-bibliography⁠
https://arxiv.org/abs/2410.10629#nvidia: “SANA: Efficient High-Resolution Image Synthesis With Linear Diffusion Transformers ”⁠, Enze Xie, Junsong Chen, Junyu Chen …, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han
link-bibliography⁠
https://arxiv.org/abs/2402.16671: “StructLM: Towards Building Generalist Models for Structured Knowledge Grounding ”⁠, Alex Zhuang, Ge Zhang, Tianyu Zheng …, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
link-bibliography⁠
https://arxiv.org/abs/2310.06825#mistral: “Mistral-7B ”⁠, Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch …, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao⁠, Thibaut Lavril, Thomas Wang⁠, Timothée Lacroix, William El Sayed
link-bibliography⁠
https://arxiv.org/abs/2310.05736: “LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models ”⁠, Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin …, Yuqing Yang, Lili Qiu
link-bibliography⁠
https://arxiv.org/abs/2310.01377: “UltraFeedback: Boosting Language Models With High-Quality Feedback ”⁠, Ganqu Cui, Lifan Yuan⁠, Ning Ding⁠ …, Guanming Yao, Wei Zhu, Yuan Ni, Guotong Xie, ⁠Zhiyuan Liu, Maosong Sun
link-bibliography⁠
https://arxiv.org/abs/2309.12053: “AceGPT, Localizing Large Language Models in Arabic ”⁠, Huang Huang⁠, Fei Yu, Jianqing Zhu …, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen⁠, Abdulmohsen Alharthi, Bang An, Juncai He, Ziche Liu, Zhiyi Zhang⁠, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li⁠, Jinchao Xu⁠
link-bibliography⁠
https://arxiv.org/abs/2307.08701#samsung: “AlpaGasus: Training A Better Alpaca With Fewer Data ”⁠, Lichang Chen, Shiyang Li, Jun Yan …, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
link-bibliography⁠
https://arxiv.org/abs/2305.07804: “Dr. LLaMa: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation ”⁠, Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
link-bibliography⁠
https://arxiv.org/abs/2305.03047#ibm: “SELF-ALIGN: Principle-Driven Self-Alignment of Language Models from Scratch With Minimal Human Supervision ”⁠, Zhiqing Sun, Yikang Shen, Qinhong Zhou …, Hongxin Zhang, Zhenfang Chen, David Cox, ⁠Yiming Yang⁠, Chuang Gan
link-bibliography⁠
https://arxiv.org/abs/2305.02301#google: “Distilling Step-By-Step! Outperforming Larger Language Models With Less Training Data and Smaller Model Sizes ”⁠, Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh …, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister
link-bibliography⁠
https://arxiv.org/abs/2304.12244: “WizardLM: Empowering Large Language Models to Follow Complex Instructions ”⁠, Can Xu⁠, Qingfeng Sun, Kai Zheng …, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang
link-bibliography⁠
https://arxiv.org/abs/2304.13731: “TANGO: Text-To-Audio Generation Using Instruction-Tuned LLM and Latent Diffusion Model ”⁠, Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
link-bibliography⁠
https://arxiv.org/abs/2304.02015#alibaba: “How Well Do Large Language Models Perform in Arithmetic Tasks? ”⁠, Zheng Yuan, Hongyi Yuan, Chuanqi Tan …, Wei Wang, Songfang Huang
link-bibliography⁠
https://arxiv.org/abs/2303.03846#google: “Larger Language Models Do In-Context Learning Differently ”⁠, Jerry Wei, Jason Wei, ⁠Yi Tay …, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, ⁠Denny Zhou, ⁠Tengyu Ma
link-bibliography⁠
https://arxiv.org/abs/2212.13138#google: “Med-PaLM: Large Language Models Encode Clinical Knowledge ”⁠, Karan Singhal, Shekoofeh Azizi, Tao Tu …, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield⁠, Blaise Aguera y Arcas⁠, Dale Webster⁠, Greg S. Corrado, Yossi Matias⁠, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
link-bibliography⁠
https://arxiv.org/abs/2212.10560: “Self-Instruct: Aligning Language Models With Self-Generated Instructions ”⁠, ⁠Yizhong Wang, Yeganeh Kordi, ⁠Swaroop Mishra …, Alisa Liu, Noah Smith⁠, ⁠Daniel Khashabi, ⁠Hannaneh Hajishirzi
link-bibliography⁠
https://arxiv.org/abs/2212.09741: “One Embedder, Any Task: Instruction-Finetuned Text Embeddings (INSTRUCTOR) ”⁠, Hongjin Su, Weijia Shi, Jungo Kasai …, ⁠Yizhong Wang, Yushi Hu, Mari Ostendorf⁠, Wen-tau Yih, Noah Smith⁠, Luke Zettlemoyer⁠, Tao Yu
link-bibliography⁠
https://arxiv.org/abs/2211.01786: “BLOOMZ/mT0: Crosslingual Generalization through Multitask Finetuning ”⁠, ⁠Niklas Muennighoff, Thomas Wang⁠, Lintang Sutawika …, Adam Roberts⁠, ⁠Stella Biderman, Teven Le Scao⁠, M. Saiful Bari, ⁠Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev⁠, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, ⁠Zaid Alyafeai, Albert Webson, Edward Raff, ⁠Colin Raffel
link-bibliography⁠
https://arxiv.org/abs/2210.13669: “Help Me Write a Poem: Instruction Tuning As a Vehicle for Collaborative Poetry Writing (CoPoet) ”⁠, Tuhin Chakrabarty, Vishakh Padmakumar, He He
link-bibliography⁠
https://arxiv.org/abs/2210.11416#google: “FLAN: Scaling Instruction-Finetuned Language Models ”⁠, Hyung Won Chung, Le Hou, Shayne Longpre …, ⁠Barret Zoph, ⁠Yi Tay, William Fedus⁠, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu⁠, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi⁠, Jeff Dean⁠, Jacob Devlin, Adam Roberts⁠, ⁠Denny Zhou, Quoc V. Le⁠, Jason Wei
link-bibliography⁠
https://arxiv.org/abs/2210.03057#google: “Language Models Are Multilingual Chain-Of-Thought Reasoners ”⁠, Freda Shi, Mirac Suzgun, Markus Freitag …, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, ⁠Yi Tay, Sebastian Ruder, ⁠Denny Zhou, Dipanjan Das, Jason Wei
link-bibliography⁠
https://arxiv.org/abs/2208.09770#microsoft: “Z-Code++: A Pre-Trained Language Model Optimized for Abstractive Summarization ”⁠, Pengcheng He, Baolin Peng, Liyang Lu …, Song Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi⁠, Chenguang Zhu, Wayne Xiong, Michael Zeng, ⁠Jianfeng Gao⁠, Xuedong Huang⁠
link-bibliography⁠
https://arxiv.org/abs/2205.12393: “CT0: Fine-Tuned Language Models Are Continual Learners ”⁠, Thomas Scialom, Tuhin Chakrabarty, Smaranda Muresan
link-bibliography⁠
https://arxiv.org/abs/2204.07705: “Tk-Instruct: Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks ”⁠, ⁠Yizhong Wang, ⁠Swaroop Mishra, Pegah Alipoormolabashi …, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi⁠, ⁠Noah A. Smith, ⁠Hannaneh Hajishirzi, ⁠Daniel Khashabi
link-bibliography⁠
https://arxiv.org/abs/2201.11473#microsoft: “Reasoning Like Program Executors ”⁠, Xinyu Pi, Qian Liu⁠, Bei Chen …, Morteza Ziyadi, Zeqi Lin, Yan Gao, Qiang Fu, Jian-Guang Lou, Weizhu Chen
link-bibliography⁠
https://arxiv.org/abs/2201.06910: “ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization ”⁠, Hanwei Xu, Yujun Chen, Yulun Du …, Nan Shao, Yanggang Wang, Haiyu Li, Zhilin Yang⁠
link-bibliography⁠
https://arxiv.org/abs/1806.08730#salesforce: “The Natural Language Decathlon: Multitask Learning As Question Answering ”⁠, Bryan McCann, Nitish Shirish Keskar, ⁠Caiming Xiong, Richard Socher
link-bibliography⁠