Bibliography (10):

VinVL: Revisiting Visual Representations in Vision-Language Models
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Attention Is All You Need
Microsoft COCO: Common Objects in Context
nocaps: novel object captioning at scale
Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts
Wikipedia Bibliography:
1. Alt attribute
2. N-gram
3. Cross-entropy