Bibliography (3):

Discovering objects and their relations from entangled scene representations
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning
Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks