PixMo
收藏Molmo: Multimodal Open Language Model
数据集概述
Molmo是一个用于训练和使用Ai2的先进多模态开放语言模型的代码库。该代码库基于OLMo codebase,并增加了视觉编码和生成性评估的集成。
数据集发布
- PixMo: 包含多个用于预训练和微调视觉语言模型的数据集,包括:
- PixMo-Cap: 高度详细的密集描述数据集(平均约200字)
- PixMo-AskModelAnything: 包含人类编写的图像-问题-答案三元组的指令微调数据
- PixMo-CapQA: 使用LLM从图像的密集描述中构建的合成指令微调数据
- PixMo-Points: 带有指向表达和注释点的图像,支持定位和计数
- PixMo-Point-Explanations: 包含解释的指令微调数据,解释中包含指向图像部分的点
- PixMo-Docs: 关于各种计算机生成图表、表格、图表和文档的合成图像-问题-答案三元组
- PixMo-Clocks: 虚拟表盘和时间注释
- PixMo-Count: 包含计数QA对的多样化图像
模型发布
- Molmo: 包含多个开放视觉语言模型,包括:
- MolmoE-1B: 混合专家模型,1B(活跃)7B(总计)
- Molmo-7B-O: 最开放的7B模型
- Molmo-7B-D: 最佳7B模型和演示模型
- Molmo-72B: 最佳72B模型
数据下载与设置
Molmo使用huggingface数据集进行大部分数据存储。数据可以通过以下命令下载: bash python3 scripts/download.py all --n_proc 12
训练与评估
- 训练: 使用
scripts/train.py进行模型训练。 - 评估: 使用
launch_scripts/eval_downstream.py进行模型评估。
引用
bibtex @article{molmo2024, title={Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models}, author={Matt Deitke and Christopher Clark and Sangho Lee and Rohun Tripathi and Yue Yang and Jae Sung Park and Mohammadreza Salehi and Niklas Muennighoff and Kyle Lo and Luca Soldaini and Jiasen Lu and Taira Anderson and Erin Bransom and Kiana Ehsani and Huong Ngo and YenSung Chen and Ajay Patel and Mark Yatskar and Chris Callison-Burch and Andrew Head and Rose Hendrix and Favyen Bastani and Eli VanderBilt and Nathan Lambert and Yvonne Chou and Arnavi Chheda and Jenna Sparks and Sam Skjonsberg and Michael Schmitz and Aaron Sarnat and Byron Bischoff and Pete Walsh and Chris Newell and Piper Wolters and Tanmay Gupta and Kuo-Hao Zeng and Jon Borchardt and Dirk Groeneveld and Jen Dumas and Crystal Nam and Sophie Lebrecht and Caitlin Wittlif and Carissa Schoenick and Oscar Michel and Ranjay Krishna and Luca Weihs and Noah A. Smith and Hannaneh Hajishirzi and Ross Girshick and Ali Farhadi and Aniruddha Kembhavi}, journal={arXiv preprint arXiv:2409.17146}, year={2024} }




