Bibliography (3):

MAE: Masked Autoencoders Are Scalable Vision Learners
Vision Transformer: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
ImageNet Large Scale Visual Recognition Challenge