‘T5 Transformer’ directory

Annotations sorted by machine learning into ⁠inferred 'tags'⁠. This provides an alternative way to browse: instead of by date order, one can browse in topic order. The 'sorted' list has been automatically clustered into multiple sections & auto-labeled for easier browsing.

Beginning with the newest annotation, it uses the embedding of each annotation to attempt to create a list of nearest-neighbor annotations, creating a progression of topics. For more details, see the link.

Miscellaneous

Bibliography

https://arxiv.org/abs/2503.17074: “Emuru: Zero-Shot Styled Text Image Generation, but Make It Autoregressive ”⁠, Vittorio Pippi, Fabio Quattrini, Silvia Cascianelli …, Alessio Tonioni, Rita Cucchiara
link-bibliography⁠
https://arxiv.org/abs/2404.01291: “Evaluating Text-To-Visual Generation With Image-To-Text Generation ”⁠, Zhiqiu Lin, Deepak Pathak, Baiqi Li …, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, Deva Ramanan
link-bibliography⁠
https://arxiv.org/abs/2310.03214#google: “FreshLLMs: Refreshing Large Language Models With Search Engine Augmentation ”⁠, Tu Vu, Mohit Iyyer, Xuezhi Wang …, Noah Constant⁠, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, ⁠Denny Zhou, Quoc V. Le⁠, Thang Luong
link-bibliography⁠
https://arxiv.org/abs/2307.06440: “No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-Based Language Models ”⁠, Jean Kaddour, Oscar Key, Piotr Nawrot …, Pasquale Minervini, Matt J. Kusner
link-bibliography⁠
https://arxiv.org/abs/2305.09636#google: “SoundStorm: Efficient Parallel Audio Generation ”⁠, Zalán Borsos, Matt Sharifi⁠, Damien Vincent …, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi
link-bibliography⁠
https://arxiv.org/abs/2305.02301#google: “Distilling Step-By-Step! Outperforming Larger Language Models With Less Training Data and Smaller Model Sizes ”⁠, Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh …, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister
link-bibliography⁠
https://arxiv.org/abs/2304.13731: “TANGO: Text-To-Audio Generation Using Instruction-Tuned LLM and Latent Diffusion Model ”⁠, Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
link-bibliography⁠
https://arxiv.org/abs/2304.08467: “Learning to Compress Prompts With Gist Tokens ”⁠, Jesse Mu, Xiang Lisa Li, Noah Goodman
link-bibliography⁠
https://arxiv.org/abs/2301.12597#salesforce: “BLIP-2: Bootstrapping Language-Image Pre-Training With Frozen Image Encoders and Large Language Models ”⁠, Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
link-bibliography⁠
https://arxiv.org/abs/2301.00704#google: “Muse: Text-To-Image Generation via Masked Generative Transformers ”⁠, Huiwen Chang, Han Zhang⁠, Jarred Barber …, A. J. Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman⁠, Michael Rubinstein⁠, Yuanzhen Li, Dilip Krishnan
link-bibliography⁠
https://arxiv.org/abs/2212.10562#google: “Character-Aware Models Improve Visual Text Rendering ”⁠, Rosanne Liu, Dan Garrette, Chitwan Saharia …, ⁠William Chan, Adam Roberts⁠, Sharan Narang, Irina Blok, R. J. Mical⁠, Mohammad Norouzi⁠, Noah Constant⁠
link-bibliography⁠
https://arxiv.org/abs/2212.09741: “One Embedder, Any Task: Instruction-Finetuned Text Embeddings (INSTRUCTOR) ”⁠, Hongjin Su, Weijia Shi, Jungo Kasai …, ⁠Yizhong Wang, Yushi Hu, Mari Ostendorf⁠, Wen-tau Yih, Noah Smith⁠, Luke Zettlemoyer⁠, Tao Yu
link-bibliography⁠
https://arxiv.org/abs/2212.05055#google: “Sparse Upcycling: Training Mixture-Of-Experts from Dense Checkpoints ”⁠, Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp …, Carlos Riquelme Ruiz, Basil Mustafa, Joshua Ainslie, ⁠Yi Tay, Mostafa Dehghani, ⁠Neil Houlsby
link-bibliography⁠
https://arxiv.org/abs/2211.01786: “BLOOMZ/mT0: Crosslingual Generalization through Multitask Finetuning ”⁠, ⁠Niklas Muennighoff, Thomas Wang⁠, Lintang Sutawika …, Adam Roberts⁠, ⁠Stella Biderman, Teven Le Scao⁠, M. Saiful Bari, ⁠Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev⁠, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, ⁠Zaid Alyafeai, Albert Webson, Edward Raff, ⁠Colin Raffel
link-bibliography⁠
https://arxiv.org/abs/2211.01324#nvidia: “EDiff-I: Text-To-Image Diffusion Models With an Ensemble of Expert Denoisers ”⁠, Yogesh Balaji, Seungjun Nah, Xun Huang …, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila⁠, ⁠Samuli Laine, Bryan Catanzaro⁠, Tero Karras⁠, Ming-Yu Liu
link-bibliography⁠
https://arxiv.org/abs/2210.13669: “Help Me Write a Poem: Instruction Tuning As a Vehicle for Collaborative Poetry Writing (CoPoet) ”⁠, Tuhin Chakrabarty, Vishakh Padmakumar, He He
link-bibliography⁠
https://arxiv.org/abs/2210.11416#google: “FLAN: Scaling Instruction-Finetuned Language Models ”⁠, Hyung Won Chung, Le Hou, Shayne Longpre …, ⁠Barret Zoph, ⁠Yi Tay, William Fedus⁠, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu⁠, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi⁠, Jeff Dean⁠, Jacob Devlin, Adam Roberts⁠, ⁠Denny Zhou, Quoc V. Le⁠, Jason Wei
link-bibliography⁠
https://arxiv.org/abs/2210.02414#baai: “GLM-130B: An Open Bilingual Pre-Trained Model ”⁠, Aohan Zeng, Xiao Liu, Zhengxiao Du …, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu⁠, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, Jie Tang⁠
link-bibliography⁠
https://arxiv.org/abs/2209.14500: “SAP: Bidirectional Language Models Are Also Few-Shot Learners ”⁠, Ajay Patel, Bryan Li, Mohammad Sadegh Rasooli …, Noah Constant⁠, ⁠Colin Raffel, Chris Callison-Burch
link-bibliography⁠
https://arxiv.org/abs/2208.11663#facebook: “PEER: A Collaborative Language Model ”⁠, Timo Schick⁠, Jane Dwivedi-Yu, Zhengbao Jiang …, Fabio Petroni⁠, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, Sebastian Riedel
link-bibliography⁠
https://arxiv.org/abs/2208.09770#microsoft: “Z-Code++: A Pre-Trained Language Model Optimized for Abstractive Summarization ”⁠, Pengcheng He, Baolin Peng, Liyang Lu …, Song Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi⁠, Chenguang Zhu, Wayne Xiong, Michael Zeng, ⁠Jianfeng Gao⁠, Xuedong Huang⁠
link-bibliography⁠
https://arxiv.org/abs/2206.15474: “Forecasting Future World Events With Neural Networks ”⁠, ⁠Andy Zou, Tristan Xiao, Ryan Jia …, Joe Kwon, Mantas Mazeika⁠, Richard Li⁠, Dawn Song⁠, ⁠Jacob Steinhardt, ⁠Owain Evans, ⁠Dan Hendrycks⁠
link-bibliography⁠
https://arxiv.org/abs/2206.07808#amazon: “Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems ”⁠, Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas …, Davide Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev, Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tur, Wael Hamza, Jonathan Hueser, Kevin Martin Jose, Haidar Khan⁠, Beiye Liu, Jianhua Lu⁠, Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Gokmen Oz, Enrico Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere Sridhar, Liz Tan, Fabian Triefenbach, Pan Wei⁠, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem Natarajan
link-bibliography⁠
https://openreview.net/forum?id=0ZbPmmB61g#google: “Boosting Search Engines With Interactive Agents ”⁠, Massimiliano Ciaramita, Leonard Adolphs, Michelle Chen Huebscher …, Sascha Rothe, Christian Buck, Thomas Hofmann⁠, Yannic Kilcher⁠, Lasse Espeholt, Pier Giuseppe Sessa, Lierni Sestorain, Benjamin Börschinger
link-bibliography⁠
https://arxiv.org/abs/2205.12209#google: “EdiT5: Semi-Autoregressive Text-Editing With T5 Warm-Start ”⁠, Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn
link-bibliography⁠
https://arxiv.org/abs/2205.12393: “CT0: Fine-Tuned Language Models Are Continual Learners ”⁠, Thomas Scialom, Tuhin Chakrabarty, Smaranda Muresan
link-bibliography⁠
https://arxiv.org/abs/2205.11487#google: “Imagen: Photorealistic Text-To-Image Diffusion Models With Deep Language Understanding ”⁠, Chitwan Saharia, ⁠William Chan, Saurabh Saxena …, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, ⁠Tim Salimans⁠, ⁠Jonathan Ho, David J. Fleet, Mohammad Norouzi⁠
link-bibliography⁠
https://arxiv.org/abs/2205.09665#bair: “Automated Crossword Solving ”⁠, Eric Wallace⁠, Nicholas Tomlin, Albert Xu …, Kevin Yang, Eshaan Pathak, Matthew Ginsberg, Dan Klein⁠
link-bibliography⁠
https://arxiv.org/abs/2205.05131#google: “UL2: Unifying Language Learning Paradigms ”⁠, ⁠Yi Tay, Mostafa Dehghani, Vinh Q. Tran …, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, ⁠Neil Houlsby, Donald Metzler
link-bibliography⁠
https://arxiv.org/abs/2204.07705: “Tk-Instruct: Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks ”⁠, ⁠Yizhong Wang, ⁠Swaroop Mishra, Pegah Alipoormolabashi …, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi⁠, ⁠Noah A. Smith, ⁠Hannaneh Hajishirzi, ⁠Daniel Khashabi
link-bibliography⁠
https://arxiv.org/abs/2204.03067: “ByT5 Model for Massively Multilingual Grapheme-To-Phoneme Conversion ”⁠, Jian Zhu, Cong Zhang, David Jurgens
link-bibliography⁠
https://arxiv.org/abs/2203.00759: “HyperPrompt: Prompt-Based Task-Conditioning of Transformers ”⁠, Yun He, Huaixiu Steven Zheng, ⁠Yi Tay …, Jai Gupta, Yu Du, Vamsi Aribandi, Zhe Zhao, YaGuang Li, Zhao Chen⁠, Donald Metzler, Heng-Tze Cheng, Ed H. Chi⁠
link-bibliography⁠
https://arxiv.org/abs/2202.11822#google: “Using Natural Language Prompts for Machine Translation ”⁠, Xavier Garcia, Orhan Firat
link-bibliography⁠
https://arxiv.org/abs/2202.09368#google: “Mixture-Of-Experts With Expert Choice Routing ”⁠, Yanqi Zhou, Tao Lei, Hanxiao Liu …, Nan Du, Yanping Huang, Vincent Zhao, Andrew Dai, Zhifeng Chen, Quoc V. Le⁠, James Laudon
link-bibliography⁠
https://arxiv.org/abs/2201.11473#microsoft: “Reasoning Like Program Executors ”⁠, Xinyu Pi, Qian Liu⁠, Bei Chen …, Morteza Ziyadi, Zeqi Lin, Yan Gao, Qiang Fu, Jian-Guang Lou, Weizhu Chen
link-bibliography⁠
https://arxiv.org/abs/2201.05320#allen: “CommonsenseQA 2.0: Exposing the Limits of AI through Gamification ”⁠, Alon Talmor, Ori Yoran, Ronan Le Bras …, Chandra Bhagavatula, Yoav Goldberg⁠, Yejin Choi⁠, ⁠Jonathan Berant
link-bibliography⁠
https://arxiv.org/abs/2112.07899#google: “Large Dual Encoders Are Generalizable Retrievers ”⁠, Jianmo Ni, Chen Qu, Jing Lu …, Zhuyun Dai, Gustavo Hernández Ábrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang
link-bibliography⁠
https://arxiv.org/abs/2112.07916#google: “LongT5: Efficient Text-To-Text Transformer for Long Sequences ”⁠, Mandy Guo, Joshua Ainslie, David Uthus …, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang
link-bibliography⁠
https://arxiv.org/abs/2112.11446#deepmind: “Scaling Language Models: Methods, Analysis & Insights from Training Gopher ”⁠, Jack W. Rae, Sebastian Borgeaud, Trevor Cai …, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson⁠, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese⁠, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan⁠, Michela Paganini, Laurent Sifre⁠, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury⁠, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac⁠, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals⁠, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis⁠, Koray Kavukcuoglu⁠, ⁠Geoffrey Irving
link-bibliography⁠
https://arxiv.org/abs/2110.11309: “Fast Model Editing at Scale ”⁠, Eric Mitchell, Charles Lin, Antoine Bosselut …, Chelsea Finn⁠, Christopher D. Manning⁠
link-bibliography⁠
https://arxiv.org/abs/2109.10686#google: “Scale Efficiently: Insights from Pre-Training and Fine-Tuning Transformers ”⁠, ⁠Yi Tay, Mostafa Dehghani, Jinfeng Rao …, William Fedus⁠, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani⁠, Donald Metzler
link-bibliography⁠
https://arxiv.org/abs/2109.07958: “TruthfulQA: Measuring How Models Mimic Human Falsehoods ”⁠, Stephanie Lin⁠, ⁠Jacob Hilton, ⁠Owain Evans
link-bibliography⁠
https://arxiv.org/abs/2109.02593#allen: “General-Purpose Question-Answering With Macaw ”⁠, Oyvind Tafjord, Peter Clark
link-bibliography⁠
https://arxiv.org/abs/2108.08877#google: “Sentence-T5: Scalable Sentence Encoders from Pre-Trained Text-To-Text Models ”⁠, Jianmo Ni, Gustavo Hernández Ábrego, Noah Constant⁠ …, Ji Ma, Keith B. Hall, Daniel Cer, Yinfei Yang
link-bibliography⁠
https://arxiv.org/abs/2106.00737: “Implicit Representations of Meaning in Neural Language Models ”⁠, Belinda Z. Li, Maxwell Nye, ⁠Jacob Andreas
link-bibliography⁠
https://arxiv.org/abs/2105.13626#google: “ByT5: Towards a Token-Free Future With Pre-Trained Byte-To-Byte Models ”⁠, Linting Xue, Aditya Barua, Noah Constant⁠ …, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts⁠, ⁠Colin Raffel
link-bibliography⁠
https://arxiv.org/abs/2104.10350#google: “Carbon Emissions and Large Neural Network Training ”⁠, David Patterson, Joseph Gonzalez, Quoc V. Le⁠ …, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean⁠
link-bibliography⁠
https://arxiv.org/abs/2103.13009#allen: “UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New Multitask Benchmark ”⁠, Nicholas Lourie, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi⁠
link-bibliography⁠
https://arxiv.org/abs/2101.03961#google: “Switch Transformers: Scaling to Trillion Parameter Models With Simple and Efficient Sparsity ”⁠, William Fedus⁠, ⁠Barret Zoph, Noam Shazeer⁠
link-bibliography⁠
https://arxiv.org/abs/2009.03300: “MMLU: Measuring Massive Multitask Language Understanding ”⁠, ⁠Dan Hendrycks⁠, Collin Burns⁠, ⁠Steven Basart …, ⁠Andy Zou, Mantas Mazeika⁠, Dawn Song⁠, ⁠Jacob Steinhardt
link-bibliography⁠
https://arxiv.org/abs/2007.06225: “ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing ”⁠, Ahmed Elnaggar⁠, Michael Heinzinger, Christian Dallago …, Ghalia Rihawi, Yu Wang, Llion Jones⁠, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin Steinegger⁠, Debsindhu Bhowmik, Burkhard Rost⁠
link-bibliography⁠