Bibliography (8):

https://github.com/google-research/meliad#block-recurrent-transformer
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Compressive Transformers for Long-Range Sequence Modeling
Attention Is All You Need
Wikipedia Bibliography: