Bibliography (9):

Attention Is All You Need
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era
ImageNet Large Scale Visual Recognition Challenge
CIFAR-10 and CIFAR-100 Datasets
Vision Transformer: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
https://research.google/blog/transformers-for-image-recognition-at-scale/
Not All Images are Worth 16×16 Words: Dynamic Transformers for Efficient Image Recognition
Wikipedia Bibliography:
1. Convolutional neural network
2. Ridge regression § Tikhonov regularization :
  
  https://en.wikipedia.org/wiki/Ridge_regression#Tikhonov_regularization