Bibliography (5):

Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers
Cluster-Former: Clustering-based Sparse Transformer for Long-Range Dependency Encoding
BigBird: Transformers for Longer Sequences
Long Range Arena (LRA): A Benchmark for Efficient Transformers
Vision Transformer: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale