‘GPT’ directory

Annotations sorted by machine learning into ⁠inferred 'tags'⁠. This provides an alternative way to browse: instead of by date order, one can browse in topic order. The 'sorted' list has been automatically clustered into multiple sections & auto-labeled for easier browsing.

Beginning with the newest annotation, it uses the embedding of each annotation to attempt to create a list of nearest-neighbor annotations, creating a progression of topics. For more details, see the link.

Wikipedia

Poe (software)⁠ :

https://en.wikipedia.org/wiki/Poe_(software)⁠

Miscellaneous

Bibliography

https://arxiv.org/abs/2503.13423: “SuperBPE: Space Travel for Language Models ”⁠, Alisa Liu, Jonathan Hayase, Valentin Hofmann …, Sewoong Oh, ⁠Noah A. Smith, Yejin Choi⁠
link-bibliography⁠
https://arxiv.org/abs/2501.01956: “Metadata Conditioning Accelerates Language Model Pre-Training ”⁠, Tianyu Gao, Alexander Wettig, Luxi He …, Yihe Dong, Sadhika Malladi, Danqi Chen⁠
link-bibliography⁠
https://arxiv.org/abs/2410.01707: “Interpretable Contrastive Monte Carlo Tree Search Reasoning ”⁠, Zitian Gao, Boye Niu, Xuzheng He …, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen
link-bibliography⁠
https://arxiv.org/abs/2408.05446: “Ensemble Everything Everywhere: Multi-Scale Aggregation for Adversarial Robustness ”⁠, Stanislav Fort, Balaji Lakshminarayanan
link-bibliography⁠
https://arxiv.org/abs/2406.20086: “Token Erasure As a Footprint of Implicit Vocabulary Items in LLMs ”⁠, Sheridan Feucht, David Atkinson, Byron Wallace, David Bau
link-bibliography⁠
https://arxiv.org/abs/2406.13131: “When Parts Are Greater Than Sums: Individual LLM Components Can Outperform Full Models ”⁠, Ting-Yun Chang, Jesse Thomason, Robin Jia
link-bibliography⁠
https://arxiv.org/abs/2406.11794: “DataComp-LM: In Search of the next Generation of Training Sets for Language Models ”⁠, Jeffrey Li, Alex Fang, Georgios Smyrnis …, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, ⁠Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, ⁠Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, ⁠Aaron Gokaslan⁠, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade⁠, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer⁠, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldaini, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt⁠, Vaishaal Shankar
link-bibliography⁠
https://arxiv.org/abs/2406.07394: “MCTSr: Accessing GPT-4 Level Mathematical Olympiad Solutions via Monte Carlo Tree Self-Refine With LLaMA-3-8B ”⁠, Di Zhang, Xiaoshui Huang, Dongzhan Zhou …, Yuqiang Li, Wanli Ouyang
link-bibliography⁠
https://arxiv.org/abs/2405.18400: “Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass ”⁠, Ethan Shen, Alan Fan, Sarah M. Pratt …, Jae Sung Park, Matthew Wallingford, Sham M. Kakade, Ari Holtzman⁠, Ranjay Krishna, Ali Farhadi⁠, Aditya Kusupati
link-bibliography⁠
https://arxiv.org/abs/2404.12358: “From r to Q^✱: Your Language Model Is Secretly a Q-Function ”⁠, Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn⁠
link-bibliography⁠
https://arxiv.org/abs/2404.06664: “CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs’ (Lack Of) Multicultural Knowledge ”⁠, Yu Ying Chiu, Liwei Jiang, Maria Antoniak …, Chan Young Park, Shuyue Stella Li, Mehar Bhatia, Sahithya Ravi, Yulia Tsvetkov, Vered Shwartz, Yejin Choi⁠
link-bibliography⁠
https://arxiv.org/abs/2402.17152#facebook: “Actions Speak Louder Than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations (HSTU) ”⁠, Jiaqi Zhai, Lucy Liao, Xing Liu …, Yueming Wang, Rui Li, Xuan Cao, Leon Gao, Zhaojie Gong, Fangda Gu, Michael He, Yinghai Lu, Yu Shi⁠
link-bibliography⁠
https://arxiv.org/abs/2402.15570: “Fast Adversarial Attacks on Language Models In One GPU Minute ”⁠, Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan …, Priyatham Kattakinda, Atoosa Chegini, Soheil Feizi
link-bibliography⁠
https://arxiv.org/abs/2402.07625: “Autonomous Data Selection With Language Models for Mathematical Texts ”⁠, Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
link-bibliography⁠
https://arxiv.org/abs/2402.04494#deepmind: “Grandmaster-Level Chess Without Search ”⁠, Anian Ruoss, Grégoire Delétang, Sourabh Medapati …, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
link-bibliography⁠
https://arxiv.org/abs/2401.15024#microsoft: “SliceGPT: Compress Large Language Models by Deleting Rows and Columns ”⁠, Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento …, Torsten Hoefler⁠, James Hensman
link-bibliography⁠
https://arxiv.org/abs/2401.02385: “TinyLlama: An Open-Source Small Language Model ”⁠, Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu⁠
link-bibliography⁠
https://arxiv.org/abs/2312.16862: “TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones ”⁠, Zhengqing Yuan, Zhaoxu Li, Lichao Sun
link-bibliography⁠
https://arxiv.org/abs/2311.16079: “MEDITRON-70B: Scaling Medical Pretraining for Large Language Models ”⁠, Zeming Chen, Alejandro Hernández Cano, Angelika Romanou …, Antoine Bonnet, Kyle Matoba, Francesco Salvi, Matteo Pagliardini, Simin Fan, Andreas Köpf, Amirkeivan Mohtashami, Alexandre Sallinen, Alireza Sakhaeirad, Vinitra Swamy, Igor Krawczuk, Deniz Bayazit, Axel Marmet, Syrielle Montariol, Mary-Anne Hartley, Martin Jaggi, Antoine Bosselut
link-bibliography⁠
https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/: “OpenAI Researchers Warned Board of AI Breakthrough ahead of CEO Ouster, Sources Say ”⁠, Anna Tong, Jeffrey Dastin, Krystal Hu
link-bibliography⁠
https://arxiv.org/abs/2310.06786: “OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text ”⁠, Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba
link-bibliography⁠
https://arxiv.org/abs/2309.12284: “MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models ”⁠, Longhui Yu, Weisen Jiang, Han Shi …, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
link-bibliography⁠
https://arxiv.org/abs/2306.07567: “Large Language Models Sometimes Generate Purely Negatively-Reinforced Text ”⁠, Fabien Roger
link-bibliography⁠
https://arxiv.org/abs/2305.10429#google: “DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining ”⁠, Sang Michael Xie, Hieu Pham, Xuanyi Dong …, Nan Du, Hanxiao Liu, Yifeng Lu, ⁠Percy Liang⁠, Quoc V. Le⁠, ⁠Tengyu Ma, Adams Wei Yu
link-bibliography⁠
https://www.forbes.com/sites/alexkonrad/2023/05/02/inflection-ai-ex-deepmind-launches-pi-chatbot/: “Inflection AI, Startup From Ex-DeepMind Leaders, Launches Pi—A Chattier Chatbot ”⁠, Alex Konrad
link-bibliography⁠
https://arxiv.org/abs/2304.06762#nvidia: “Shall We Pretrain Autoregressive Language Models With Retrieval? A Comprehensive Study ”⁠, Boxin Wang, Wei Ping, Peng Xu …, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li⁠, Chaowei Xiao, Anima Anandkumar⁠, Bryan Catanzaro⁠
link-bibliography⁠
https://warontherocks.com/2023/04/how-large-language-models-can-revolutionize-military-planning/: “How Large-Language Models Can Revolutionize Military Planning ”⁠, Benjamin Jensen, Dan Tadross
link-bibliography⁠
https://arxiv.org/abs/2303.13506: “The Quantization Model of Neural Scaling ”⁠, Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark⁠
link-bibliography⁠
https://nolanoorg.substack.com/p/int-4-llama-is-not-enough-int-3-and: “Int-4 LLaMa Is Not Enough—Int-3 and Beyond: More Compression, Easier to Build Apps on LLMs That Run Locally ”⁠, nolano.org
link-bibliography⁠
https://osf.io/5uxra/: “Beyond the Pass Mark: the Accuracy of ChatGPT and Bing in the National Medical Licensure Examination in Japan ”⁠, Yuki Kataoka
link-bibliography⁠
https://arxiv.org/abs/2302.13939: “SpikeGPT: Generative Pre-Trained Language Model With Spiking Neural Networks ”⁠, Rui-Jie Zhu, Qihang Zhao, Jason K. Eshraghian
link-bibliography⁠
https://arxiv.org/abs/2302.03169: “Data Selection for Language Models via Importance Resampling ”⁠, Sang Michael Xie, Shibani Santurkar, ⁠Tengyu Ma, ⁠Percy Liang⁠
link-bibliography⁠
https://www.nytimes.com/2022/12/21/technology/ai-chatgpt-google-search.html: “A New Chat Bot Is a ‘Code Red’ for Google’s Search Business: A New Wave of Chat Bots like ChatGPT Use Artificial Intelligence That Could Reinvent or Even Replace the Traditional Internet Search Engine ”⁠, Nico Grant, Cade Metz⁠
link-bibliography⁠
https://arxiv.org/abs/2211.10438: “SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ”⁠, Guangxuan Xiao, Ji Lin, Mickael Seznec …, Julien Demouth, Song Han
link-bibliography⁠
https://arxiv.org/abs/2211.09800: “InstructPix2Pix: Learning to Follow Image Editing Instructions ”⁠, Tim Brooks, Aleksander Holynski, Alexei A. Efros⁠
link-bibliography⁠
https://arxiv.org/abs/2211.09085#facebook: “Galactica: A Large Language Model for Science ”⁠, Ross Taylor⁠, Marcin Kardas, Guillem Cucurull …, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic
link-bibliography⁠
https://arxiv.org/abs/2211.08411: “Large Language Models Struggle to Learn Long-Tail Knowledge ”⁠, Nikhil Kandpal, Haikang Deng, Adam Roberts⁠ …, Eric Wallace⁠, ⁠Colin Raffel
link-bibliography⁠
https://arxiv.org/abs/2210.17323: “GPTQ: Accurate Post-Training Quantization for Generative Pre-Trained Transformers ”⁠, Elias Frantar, Saleh Ashkboos, Torsten Hoefler⁠, Dan Alistarh
link-bibliography⁠
https://arxiv.org/abs/2210.13673#nvidia: “Evaluating Parameter Efficient Learning for Generation ”⁠, Peng Xu, Mostofa Patwary, Shrimai Prabhumoye …, Virginia Adams, Ryan J. Prenger, Wei Ping, Nayeon Lee, Mohammad Shoeybi, Bryan Catanzaro⁠
link-bibliography⁠
https://arxiv.org/abs/2210.10341#microsoft: “BioGPT: Generative Pre-Trained Transformer for Biomedical Text Generation and Mining ”⁠, Renqian Luo, Liai Sun, Yingce Xia …, Tao Qin⁠, Sheng Zhang, Hoifung Poon, Tie-Yan Liu⁠
link-bibliography⁠
https://arxiv.org/abs/2210.15458#google: “Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models ”⁠, Luke Vilnis, Yury Zemlyanskiy, Patrick Murray …, Alexandre Passos, Sumit Sanghai
link-bibliography⁠
https://arxiv.org/abs/2210.06423#microsoft: “Foundation Transformers ”⁠, Hongyu Wang, Shuming Ma, Shaohan Huang …, Li Dong⁠, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, Barun Patra, Zhun Liu, Vishrav Chaudhary, Xia Song, Furu Wei⁠
link-bibliography⁠
https://arxiv.org/abs/2210.02441: “Ask Me Anything (AMA): A Simple Strategy for Prompting Language Models ”⁠, Simran Arora, Avanika Narayan, Mayee F. Chen …, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher Ré⁠
link-bibliography⁠
https://arxiv.org/abs/2210.01241: “Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization ”⁠, Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté Brantley …, Jack Hessel, Rafet Sifa, Christian Bauckhage, ⁠Hannaneh Hajishirzi, Yejin Choi⁠
link-bibliography⁠
https://arxiv.org/abs/2207.04429: “LM-Nav: Robotic Navigation With Large Pre-Trained Models of Language, Vision, and Action ”⁠, Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine⁠
link-bibliography⁠
https://arxiv.org/abs/2206.01861#microsoft: “ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers ”⁠, Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang …, Xiaoxia Wu, Conglong Li, Yuxiong He
link-bibliography⁠
https://www.nature.com/articles/s41593-022-01026-4: “Shared Computational Principles for Language Processing in Humans and Deep Language Models ”⁠, Ariel Goldstein, Zaid Zada, Eliav Buchnik …, Mariano Schain, Amy Price⁠, Bobbi Aubrey, Samuel A. Nastase, Amir Feder, Dotan Emanuel, Alon Cohen⁠, Aren Jansen, Harshvardhan Gazula, Gina Choe⁠, Aditi Rao⁠, Catherine Kim, Colton Casto, Lora Fanda, Werner Doyle, Daniel Friedman, Patricia Dugan, Lucia Melloni, Roi Reichart, Sasha Devore, Adeen Flinker, Liat Hasenfratz, Omer Levy⁠, Avinatan Hassidim, Michael Brenner, Yossi Matias⁠, Kenneth A. Norman, Orrin Devinsky⁠, Uri Hasson
link-bibliography⁠
https://arxiv.org/abs/2110.04627#google: “Vector-Quantized Image Modeling With Improved VQGAN ”⁠, Jiahui Yu, Xin Li, Jing Yu Koh …, Han Zhang⁠, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu⁠
link-bibliography⁠
https://www.nature.com/articles/s42003-022-03036-1: “Brains and Algorithms Partially Converge in Natural Language Processing ”⁠, Charlotte Caucheteux, Jean-Rémi King
link-bibliography⁠
https://arxiv.org/abs/2201.11990#microsoftnvidia: “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model ”⁠, Shaden Smith, Mostofa Patwary, Brandon Norick …, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, ⁠Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary⁠, Bryan Catanzaro⁠
link-bibliography⁠
https://swabhs.com/assets/pdf/wanli.pdf#allen: “WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation ”⁠, Alisa Liu, Swabha Swayamdipta, ⁠Noah A. Smith, Yejin Choi⁠
link-bibliography⁠
https://arxiv.org/abs/2112.04426#deepmind: “Improving Language Models by Retrieving from Trillions of Tokens ”⁠, Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann …, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, ⁠Geoffrey Irving, Oriol Vinyals⁠, Simon Osindero, Karen Simonyan⁠, Jack W. Rae, Erich Elsen, Laurent Sifre⁠
link-bibliography⁠
https://arxiv.org/abs/2111.13440: “True Few-Shot Learning With Prompts—A Real-World Perspective ”⁠, Timo Schick⁠, Hinrich Schütze⁠
link-bibliography⁠
https://arxiv.org/abs/2111.02570#microsoft: “CLUES: Few-Shot Learning Evaluation in Natural Language Understanding ”⁠, Subhabrata Mukherjee, Xiaodong Liu, Guoqing Zheng …, Saghar Hosseini, Hao Cheng, Greg Yang, Christopher Meek, Ahmed Hassan Awadallah, ⁠Jianfeng Gao⁠
link-bibliography⁠
https://arxiv.org/abs/2110.11309: “Fast Model Editing at Scale ”⁠, Eric Mitchell, Charles Lin, Antoine Bosselut …, Chelsea Finn⁠, Christopher D. Manning⁠
link-bibliography⁠
https://arxiv.org/abs/2109.02593#allen: “General-Purpose Question-Answering With Macaw ”⁠, Oyvind Tafjord, Peter Clark
link-bibliography⁠
https://arxiv.org/abs/2106.06981: “RASP: Thinking Like Transformers ”⁠, Gail Weiss, Yoav Goldberg⁠, Eran Yahav
link-bibliography⁠
https://arxiv.org/abs/2105.13626#google: “ByT5: Towards a Token-Free Future With Pre-Trained Byte-To-Byte Models ”⁠, Linting Xue, Aditya Barua, Noah Constant⁠ …, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts⁠, ⁠Colin Raffel
link-bibliography⁠
https://m.koreaherald.com/view.php?ud=20210525000824#naver: “Naver Unveils First ‘Hyperscale’ AI Platform ”, Kang Jae-eun
link-bibliography⁠
https://arxiv.org/abs/2012.00413: “CPM: A Large-Scale Generative Chinese Pre-Trained Language Model ”⁠, Zhengyan Zhang, Xu Han⁠, Hao Zhou⁠ …, Pei Ke, Yuxian Gu, Deming Ye, Yujia Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, ⁠Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang⁠, Juanzi Li, Xiaoyan Zhu, Maosong Sun
link-bibliography⁠
https://arxiv.org/abs/2009.03393#openai: “Generative Language Modeling for Automated Theorem Proving ”⁠, Stanislas Polu, Ilya Sutskever⁠
link-bibliography⁠
https://aclanthology.org/2020.acl-main.463.pdf: “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data ”⁠, Emily M. Bender⁠, Alexander Koller
link-bibliography⁠
https://arxiv.org/abs/2001.08361#openai: “Scaling Laws for Neural Language Models ”⁠, Jared Kaplan, Sam McCandlish⁠, Tom Henighan …, Tom B. Brown⁠, Benjamin Chess, ⁠Rewon Child, Scott Gray⁠, Alec Radford⁠, Jeffrey Wu⁠, Dario Amodei⁠
link-bibliography⁠
https://arxiv.org/abs/2001.04451#google: “Reformer: The Efficient Transformer ”⁠, Nikita Kitaev, Łukasz Kaiser⁠, Anselm Levskaya
link-bibliography⁠
https://arxiv.org/abs/1909.05858#salesforce: “CTRL: A Conditional Transformer Language Model For Controllable Generation ”⁠, Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney …, ⁠Caiming Xiong, Richard Socher
link-bibliography⁠
https://paperswithcode.com/task/language-modelling: “Language Modeling State-Of-The-Art Leaderboards ”⁠, paperswithcode.com
link-bibliography⁠
https://arxiv.org/abs/1901.02860: “Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context ”⁠, Zihang Dai⁠, Zhilin Yang⁠, ⁠Yiming Yang⁠ …, Jaime Carbonell⁠, Quoc V. Le⁠, Ruslan Salakhutdinov⁠
link-bibliography⁠
https://magenta.tensorflow.org/music-transformer: “Music Transformer: Generating Music With Long-Term Structure ”⁠, Cheng-Zhi Anna Huang, Ian Simon, Monica Dinculescu
link-bibliography⁠
https://arxiv.org/abs/1807.03819#googledeepmind: “Universal Transformers ”⁠, Mostafa Dehghani, Stephan Gouws, Oriol Vinyals⁠ …, Jakob Uszkoreit⁠, Łukasz Kaiser⁠
link-bibliography⁠
https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf#page=5: “GPT-1: Improving Language Understanding by Generative Pre-Training § Model Specifications ”⁠, Alec Radford⁠, Karthik Narasimhan, ⁠Tim Salimans⁠, Ilya Sutskever⁠
link-bibliography⁠
https://paulfchristiano.com/: “Homepage of Paul F. Christiano ”⁠, Paul F. Christiano
link-bibliography⁠