Bibliography (4):

https://www.reddit.com/r/mlscaling/comments/17rgsg5/cogvlm_visual_expert_for_pretrained_language/
Microsoft COCO: Common Objects in Context
PaLI-X: On Scaling up a Multilingual Vision and Language Model
https://github.com/THUDM/CogVLM