‘knowledge distillation’ directory

https://arxiv.org/abs/2502.20339: “Thinking Slow, Fast: Scaling Inference Compute With Distilled Reasoners ”⁠, Daniele Paliotta, ⁠Junxiong Wang, Matteo Pagliardini …, Kevin Y. Li, Aviv Bick, J. Zico Kolter, Albert Gu⁠, François Fleuret, ⁠Tri Dao
link-bibliography⁠
https://arxiv.org/abs/2408.15237: “The Mamba in the Llama: Distilling and Accelerating Hybrid Models ”⁠, ⁠Junxiong Wang, Daniele Paliotta, Avner May …, ⁠Alexander M. Rush, ⁠Tri Dao
link-bibliography⁠
https://arxiv.org/abs/2408.00118#google: “Gemma 2: Improving Open Language Models at a Practical Size ”⁠, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa …, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk⁠, Sertan Girgin, Nikola Momchev, Matt Hoffman⁠, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Olivier Bachem, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Peng Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre⁠, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes⁠, Paul Barham⁠, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Cogan, Sarah Perrin, Sébastien M. R. Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles⁠, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani⁠, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals⁠, Jeff Dean⁠, Demis Hassabis⁠, Koray Kavukcuoglu⁠, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin⁠, Kathleen Kenealy⁠, Robert Dadashi, Alek Andreev
link-bibliography⁠
https://arxiv.org/abs/2406.11837: “Scaling the Codebook Size of VQGAN to 100,000 With a Utilization Rate of 99% ”⁠, Lei Zhu, Fangyun Wei, Yanye Lu, Dong Chen⁠
link-bibliography⁠
https://arxiv.org/abs/2405.14838: “From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step ”⁠, Yuntian Deng, Yejin Choi⁠, Stuart Shieber
link-bibliography⁠
https://arxiv.org/abs/2312.06585#deepmind: “Beyond Human Data: Scaling Self-Training for Problem-Solving With Language Models (ReST^EM) ”⁠, Avi Singh, John D. Co-Reyes, Rishabh Agarwal …, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar⁠, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch⁠, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington⁠, Jiri Hron, Kathleen Kenealy⁠, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant⁠, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer⁠, Behnam Neyshabur, Jascha Sohl-Dickstein⁠, Noah Fiedel
link-bibliography⁠
https://arxiv.org/abs/2311.13657: “Efficient Transformer Knowledge Distillation: A Performance Review ”⁠, Nathan Brown, Ashton Williamson, Tahj Anderson, Logan Lawrence
link-bibliography⁠
https://arxiv.org/abs/2310.08708: “Polynomial Time Cryptanalytic Extraction of Neural Network Models ”⁠, Adi Shamir⁠, Isaac Canales-Martinez, Anna Hambitzer …, Jorge Chavez-Saab, Francisco Rodrigez-Henriquez, Nitin Satpute
link-bibliography⁠
https://arxiv.org/abs/2307.06439#microsoft: “Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events ”⁠, Yu Gu⁠, Sheng Zhang, Naoto Usuyama …, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
link-bibliography⁠
https://arxiv.org/abs/2305.12972: “VanillaNet: the Power of Minimalism in Deep Learning ”⁠, Hanting Chen, Yunhe Wang, Jianyuan Guo, Dacheng Tao⁠
link-bibliography⁠
https://arxiv.org/abs/2305.09828: “Mimetic Initialization of Self-Attention Layers ”⁠, Asher Trockman, J. Zico Kolter
link-bibliography⁠
https://arxiv.org/abs/2305.07759#microsoft: “TinyStories: How Small Can Language Models Be and Still Speak Coherent English? ”⁠, Ronen Eldan⁠, Yuanzhi Li
link-bibliography⁠
https://arxiv.org/abs/2305.07804: “Dr. LLaMa: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation ”⁠, Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
link-bibliography⁠
https://arxiv.org/abs/2305.02301#google: “Distilling Step-By-Step! Outperforming Larger Language Models With Less Training Data and Smaller Model Sizes ”⁠, Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh …, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister
link-bibliography⁠
https://arxiv.org/abs/2304.13653#deepmind: “Learning Agile Soccer Skills for a Bipedal Robot With Deep Reinforcement Learning ”⁠, Tuomas Haarnoja, Ben Moran, Guy Lever⁠ …, Sandy H. Huang, Dhruva Tirumala, Markus Wulfmeier, Jan Humplik, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber⁠, Nicole Hurley, Francesco Nori⁠, Raia Hadsell, Nicolas Heess⁠
link-bibliography⁠
https://arxiv.org/abs/2303.01469#openai: “Consistency Models ”⁠, Yang Song⁠, ⁠Prafulla Dhariwal, ⁠Mark Chen, Ilya Sutskever⁠
link-bibliography⁠
https://arxiv.org/abs/2302.12433: “ProofNet: Autoformalizing and Formally Proving Undergraduate-Level Mathematics ”⁠, Zhangir Azerbayev, Bartosz Piotrowski, Hailey Schoelkopf …, Edward W. Ayers, Dragomir Radev⁠, Jeremy Avigad⁠
link-bibliography⁠
https://arxiv.org/abs/2302.05442#google: “Scaling Vision Transformers to 22 Billion Parameters ”⁠, Mostafa Dehghani, Josip Djolonga, Basil Mustafa …, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Steiner, Mathilde Caron, Robert Geirhos⁠, Ibrahim Alabdulmohsin, Rodolphe Jenatton, Lucas Beyer⁠, ⁠Michael Tschannen, Anurag Arnab, Xiao Wang⁠, Carlos Riquelme, Matthias Minderer, Joan Puigcerver, Utku Evci, Manoj Kumar, Sjoerd van Steenkiste, Gamaleldin F. Elsayed, Aravindh Mahendran, Fisher Yu, Avital Oliver, Fantine Huot, Jasmijn Bastings, Mark Patrick Collier, Alexey Gritsenko, Vighnesh Birodkar, Cristina Vasconcelos, ⁠Yi Tay, Thomas Mensink, Alexander Kolesnikov, Filip Pavetić, Dustin Tran, Thomas Kipf, Mario Lučić, Xiaohua Zhai⁠, Daniel Keysers, Jeremiah Harmsen, ⁠Neil Houlsby
link-bibliography⁠
https://arxiv.org/abs/2301.01296#microsoft: “TinyMIM: An Empirical Study of Distilling MIM Pre-Trained Models ”⁠, Sucheng Ren, Fangyun Wei, Zheng Zhang, Han Hu
link-bibliography⁠
https://arxiv.org/abs/2212.05055#google: “Sparse Upcycling: Training Mixture-Of-Experts from Dense Checkpoints ”⁠, Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp …, Carlos Riquelme Ruiz, Basil Mustafa, Joshua Ainslie, ⁠Yi Tay, Mostafa Dehghani, ⁠Neil Houlsby
link-bibliography⁠
https://openreview.net/forum?id=wmGlMhaBe0: “MaskDistill: A Unified View of Masked Image Modeling ”⁠, Anonymous
link-bibliography⁠
https://arxiv.org/abs/2211.07636#baai: “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale ”⁠, Yuxin Fang, Wen Wang⁠, Binhui Xie …, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao
link-bibliography⁠
https://arxiv.org/abs/2211.07638: “Legged Locomotion in Challenging Terrains Using Egocentric Vision ”⁠, Ananye Agarwal, Ashish Kumar, Jitendra Malik⁠, Deepak Pathak
link-bibliography⁠
https://arxiv.org/abs/2211.01324#nvidia: “EDiff-I: Text-To-Image Diffusion Models With an Ensemble of Expert Denoisers ”⁠, Yogesh Balaji, Seungjun Nah, Xun Huang …, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila⁠, ⁠Samuli Laine, Bryan Catanzaro⁠, Tero Karras⁠, Ming-Yu Liu
link-bibliography⁠
https://arxiv.org/abs/2210.11610#google: “Large Language Models Can Self-Improve ”⁠, Jiaxin Huang, Shixiang Shane Gu⁠, Le Hou …, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han⁠
link-bibliography⁠
https://arxiv.org/abs/2210.03142#google: “On Distillation of Guided Diffusion Models ”⁠, Chenlin Meng, Ruiqi Gao, Diederik P. Kingma …, Stefano Ermon⁠, ⁠Jonathan Ho, ⁠Tim Salimans⁠
link-bibliography⁠
https://arxiv.org/abs/2210.01117: “Omnigrok: Grokking Beyond Algorithmic Data ”⁠, Ziming Liu, Eric J. Michaud, Max Tegmark⁠
link-bibliography⁠
https://arxiv.org/abs/2209.07550#deepmind: “Human-Level Atari 200× Faster ”⁠, Steven Kapturowski, Víctor Campos, Ray Jiang …, Nemanja Rakićević, Hado van Hasselt⁠, Charles Blundell⁠, Adrià Puigdomènech Badia
link-bibliography⁠
https://arxiv.org/abs/2207.06300#ibm: “Re2G: Retrieve, Rerank, Generate ”⁠, Michael Glass, Gaetano Rossiello, Md Faisal Mahbub Chowdhury …, Ankita Rajaram Naik, Pengshan Cai, Alfio Gliozzo
link-bibliography⁠
https://arxiv.org/abs/2206.07808#amazon: “Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems ”⁠, Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas …, Davide Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev, Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tur, Wael Hamza, Jonathan Hueser, Kevin Martin Jose, Haidar Khan⁠, Beiye Liu, Jianhua Lu⁠, Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Gokmen Oz, Enrico Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere Sridhar, Liz Tan, Fabian Triefenbach, Pan Wei⁠, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem Natarajan
link-bibliography⁠
https://arxiv.org/abs/2206.01861#microsoft: “ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers ”⁠, Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang …, Xiaoxia Wu, Conglong Li, Yuxiong He
link-bibliography⁠
https://arxiv.org/abs/2205.09073#google: “Dialog Inpainting: Turning Documents into Dialogues ”⁠, Zhuyun Dai, Arun Tejasvi Chaganty, Vincent Zhao …, Aida Amini, Qazi Mamunur Rashid, Mike Green, Kelvin Guu
link-bibliography⁠
https://arxiv.org/abs/2204.03475#alibaba: “Solving ImageNet: a Unified Scheme for Training Any Backbone to Top Results ”⁠, Tal Ridnik, Hussam Lawen, Emanuel Ben-Baruch, Asaf Noy
link-bibliography⁠
https://arxiv.org/abs/2202.12211#google: “Self-Distilled StyleGAN: Towards Generation from Internet Photos ”⁠, Ron Mokady, Michal Yarom, Omer Tov …, Oran Lang, Daniel Cohen-Or, Tali Dekel, Michal Irani⁠, Inbar Mosseri
link-bibliography⁠
https://arxiv.org/abs/2201.05596#microsoft: “DeepSpeed-MoE: Advancing Mixture-Of-Experts Inference and Training to Power Next-Generation AI Scale ”⁠, Samyam Rajbhandari, Conglong Li, Zhewei Yao …, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He
link-bibliography⁠
https://arxiv.org/abs/2111.05754: “Prune Once for All: Sparse Pre-Trained Language Models ”⁠, Ofir Zafrir, Ariel Larey, Guy Boudoukh …, Haihao Shen, Moshe Wasserblat
link-bibliography⁠
https://arxiv.org/abs/2110.14168#openai: “Training Verifiers to Solve Math Word Problems ”⁠, Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian …, ⁠Jacob Hilton, Reiichiro Nakano, Christopher Hesse, ⁠John Schulman
link-bibliography⁠
https://arxiv.org/abs/2110.06961: “Language Modeling via Learning to Rank ”⁠, Arvid Frydenlund, Gagandeep Singh, Frank Rudzicz
link-bibliography⁠
https://openreview.net/forum?id=G89-1yZLFHk: “OTTER: Data Efficient Language-Supervised Zero-Shot Recognition With Optimal Transport Distillation ”⁠, Bichen Wu, Ruizhe Cheng, Peizhao Zhang …, Peter Vajda, Joseph E. Gonzalez
link-bibliography⁠
https://arxiv.org/abs/2109.12066: “ZSD-YOLO: Zero-Shot YOLO Detection Using Vision-Language Knowledge Distillation ”⁠, Johnathan Xie, Shuai Zheng
link-bibliography⁠
https://arxiv.org/abs/2109.06243#huawei: “KroneckerBERT: Learning Kronecker Decomposition for Pre-Trained Language Models via Knowledge Distillation ”⁠, Marzieh S. Tahaei, Ella Charlaix, Vahid Partovi Nia …, Ali Ghodsi⁠, Mehdi Rezagholizadeh
link-bibliography⁠
https://arxiv.org/abs/2106.05237#google: “Knowledge Distillation: A Good Teacher Is Patient and Consistent ”⁠, Lucas Beyer⁠, Xiaohua Zhai⁠, Amélie Royer …, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov
link-bibliography⁠
https://arxiv.org/abs/2104.14294#facebook: “DINO: Emerging Properties in Self-Supervised Vision Transformers ”⁠, Mathilde Caron, Hugo Touvron, Ishan Misra …, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin⁠
link-bibliography⁠
https://arxiv.org/abs/2104.13921#google: “Zero-Shot Detection via Vision and Language Knowledge Distillation ”⁠, Xiuye Gu, Tsung-Yi Lin, Weicheng Kuo, Yin Cui
link-bibliography⁠
https://arxiv.org/abs/2104.08945#facebook: “Data-Efficient Language-Supervised Zero-Shot Learning With Self-Distillation ”⁠, Ruizhe Cheng, Bichen Wu, Peizhao Zhang …, Peter Vajda, Joseph E. Gonzalez
link-bibliography⁠
https://syncedreview.com/2021/03/23/chinas-gpt-3-baai-introduces-superscale-intelligence-model-wu-dao-1-0/#baai: “China’s GPT-3? BAAI Introduces Superscale Intelligence Model ‘Wu Dao 1.0’: The Beijing Academy of Artificial Intelligence (BAAI) Releases Wu Dao 1.0, China’s First Large-Scale Pretraining Model. ”, Synced
link-bibliography⁠
https://arxiv.org/abs/2012.12877#facebook: “Training Data-Efficient Image Transformers & Distillation through Attention ”⁠, Hugo Touvron, Matthieu Cord, Matthijs Douze …, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou
link-bibliography⁠
https://arxiv.org/abs/2011.12692#tencent: “Towards Playing Full MOBA Games With Deep Reinforcement Learning ”⁠, Deheng Ye, Guibin Chen, Wen Zhang …, Sheng Chen, Bo Yuan, Bo Liu, Jia Chen, Zhao Liu, Fuhao Qiu, Hongsheng Yu, Yinyuting Yin, Bei Shi⁠, Liang Wang, Tengfei Shi⁠, Qiang Fu, Wei Yang, Lanxiao Huang, Wei Liu
link-bibliography⁠
https://arxiv.org/abs/2002.10957#microsoft: “MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers ”⁠, Wenhui Wang, Furu Wei⁠, Li Dong⁠ …, Hangbo Bao, Nan Yang, Ming Zhou
link-bibliography⁠
https://research.google/blog/towards-a-conversational-agent-that-can-chat-aboutanything/: “Towards a Conversational Agent That Can Chat About…Anything ”⁠, Daniel Adiwardana, Thang Luong
link-bibliography⁠
https://arxiv.org/abs/1911.04252#google: “Self-Training With Noisy Student Improves ImageNet Classification ”⁠, Qizhe Xie, Minh-Thang Luong, Eduard Hovy⁠, Quoc V. Le⁠
link-bibliography⁠
https://arxiv.org/abs/1909.10351: “TinyBERT: Distilling BERT for Natural Language Understanding ”⁠, Xiaoqi Jiao, Yichun Yin, Lifeng Shang …, Xin Jiang⁠, Xiao Chen, Linlin Li, Fang Wang, Qun Liu
link-bibliography⁠
https://david-abel.github.io/notes/icml_2019.pdf: “ICML 2019 Notes ”⁠, David Abel
link-bibliography⁠
https://arxiv.org/abs/1902.02186#deepmind: “Distilling Policy Distillation ”⁠, Wojciech Marian Czarnecki, ⁠Razvan Pascanu⁠, Simon Osindero …, Siddhant M. Jayakumar, Grzegorz Swirszcz, Max Jaderberg
link-bibliography⁠
https://arxiv.org/abs/1810.01398: “OCD: Optimal Completion Distillation for Sequence Learning ”⁠, Sara Sabour, ⁠William Chan, Mohammad Norouzi⁠
link-bibliography⁠
2016-luo.pdf: “Face Model Compression by Distilling Knowledge from Neurons ”⁠, Ping Luo, Zhenyao Zhu, Ziwei Liu …, Xiaogang Wang⁠, Xiaoou Tang⁠
link-bibliography⁠