PixMo

github2024-12-06 更新2024-12-07 收录

下载链接：

https://github.com/allenai/molmo

下载链接

链接失效反馈

官方服务：

资源简介：

PixMo是一个用于预训练和微调视觉语言模型的数据集集合，包含多个子数据集，如PixMo-Cap（用于预训练和微调的高度详细的密集标题数据集）、PixMo-AskModelAnything（包含人类编写的图像-问题-答案三元组的指令微调数据）等。所有数据集均未使用视觉语言模型构建。

PixMo is a collection of datasets for pre-training and fine-tuning vision-language models. It includes multiple sub-datasets, such as PixMo-Cap (a highly detailed dense captioning dataset for pre-training and fine-tuning) and PixMo-AskModelAnything (instruction fine-tuning data containing human-written image-question-answer triplets), among others. None of these datasets were constructed using vision-language models.

创建时间：

2024-12-06

原始信息汇总

Molmo: Multimodal Open Language Model

数据集概述

Molmo是一个用于训练和使用Ai2的先进多模态开放语言模型的代码库。该代码库基于OLMo codebase，并增加了视觉编码和生成性评估的集成。

数据集发布

PixMo: 包含多个用于预训练和微调视觉语言模型的数据集，包括：
- PixMo-Cap: 高度详细的密集描述数据集（平均约200字）
- PixMo-AskModelAnything: 包含人类编写的图像-问题-答案三元组的指令微调数据
- PixMo-CapQA: 使用LLM从图像的密集描述中构建的合成指令微调数据
- PixMo-Points: 带有指向表达和注释点的图像，支持定位和计数
- PixMo-Point-Explanations: 包含解释的指令微调数据，解释中包含指向图像部分的点
- PixMo-Docs: 关于各种计算机生成图表、表格、图表和文档的合成图像-问题-答案三元组
- PixMo-Clocks: 虚拟表盘和时间注释
- PixMo-Count: 包含计数QA对的多样化图像

模型发布

Molmo: 包含多个开放视觉语言模型，包括：
- MolmoE-1B: 混合专家模型，1B（活跃）7B（总计）
- Molmo-7B-O: 最开放的7B模型
- Molmo-7B-D: 最佳7B模型和演示模型
- Molmo-72B: 最佳72B模型

数据下载与设置

Molmo使用huggingface数据集进行大部分数据存储。数据可以通过以下命令下载： bash python3 scripts/download.py all --n_proc 12

训练与评估

训练: 使用scripts/train.py进行模型训练。
评估: 使用launch_scripts/eval_downstream.py进行模型评估。

引用

bibtex @article{molmo2024, title={Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models}, author={Matt Deitke and Christopher Clark and Sangho Lee and Rohun Tripathi and Yue Yang and Jae Sung Park and Mohammadreza Salehi and Niklas Muennighoff and Kyle Lo and Luca Soldaini and Jiasen Lu and Taira Anderson and Erin Bransom and Kiana Ehsani and Huong Ngo and YenSung Chen and Ajay Patel and Mark Yatskar and Chris Callison-Burch and Andrew Head and Rose Hendrix and Favyen Bastani and Eli VanderBilt and Nathan Lambert and Yvonne Chou and Arnavi Chheda and Jenna Sparks and Sam Skjonsberg and Michael Schmitz and Aaron Sarnat and Byron Bischoff and Pete Walsh and Chris Newell and Piper Wolters and Tanmay Gupta and Kuo-Hao Zeng and Jon Borchardt and Dirk Groeneveld and Jen Dumas and Crystal Nam and Sophie Lebrecht and Caitlin Wittlif and Carissa Schoenick and Oscar Michel and Ranjay Krishna and Luca Weihs and Noah A. Smith and Hannaneh Hajishirzi and Ross Girshick and Ali Farhadi and Aniruddha Kembhavi}, journal={arXiv preprint arXiv:2409.17146}, year={2024} }

搜集汇总

数据集介绍

构建方式

PixMo数据集的构建过程严格遵循多模态开放语言模型的需求，通过精心设计的数据采集和处理流程，确保数据的高质量和多样性。具体而言，PixMo数据集包括多个子集，如PixMo-Cap、PixMo-AskModelAnything、PixMo-CapQA等，每个子集都针对不同的训练和微调任务进行了优化。这些数据集的构建过程中，特别强调了数据的密集性和详细性，例如PixMo-Cap数据集的平均描述长度约为200字，确保了数据的高信息密度。此外，所有数据集的构建均未使用视觉语言模型（VLMs），从而保证了数据的独立性和可靠性。

特点

PixMo数据集的显著特点在于其高度多样化和详细的数据内容，涵盖了从图像描述到复杂问答等多种任务类型。每个子集都经过精心设计，以满足不同层次的模型训练需求。例如，PixMo-Cap数据集提供了高度详细的图像描述，而PixMo-AskModelAnything则包含了人类编写的图像问答三元组，用于指令微调。此外，PixMo数据集的构建过程中未使用任何视觉语言模型，确保了数据的纯净性和独立性，为模型的训练提供了更为可靠的基础。

使用方法

使用PixMo数据集进行模型训练和微调时，用户首先需要通过Hugging Face平台下载相应的数据集。下载完成后，可以通过设置环境变量MOLMO_DATA_DIR和HF_HOME来指定数据存储路径。随后，用户可以使用提供的脚本进行数据的可视化和预处理。对于模型的训练，推荐使用PyTorch 3.10，并根据需要选择合适的模型配置文件。训练过程中，可以通过W&B平台进行实时监控和日志记录。此外，PixMo数据集还支持多任务训练和多节点训练，用户可以根据实际需求进行相应的配置和调整。

背景与挑战

背景概述

PixMo数据集由Allen Institute for AI（AI2）于2024年11月27日发布，旨在为多模态语言模型（VLMs）的预训练和微调提供高质量的数据资源。该数据集的核心研究问题是如何通过丰富的视觉和语言数据来提升多模态模型的性能。PixMo数据集的发布标志着在多模态学习领域的一次重要突破，其包含的多种子数据集如PixMo-Cap、PixMo-AskModelAnything等，均为研究人员提供了多样化的数据支持，从而推动了多模态语言模型的发展。

当前挑战

PixMo数据集在构建过程中面临了多项挑战。首先，如何在不依赖现有VLMs的情况下，构建高质量的多模态数据集是一个主要难题。其次，数据集的多样性和复杂性要求在数据收集、处理和标注过程中保持高度的准确性和一致性。此外，数据集的规模和多样性也带来了存储和计算资源的巨大需求，如何在有限的资源下高效地管理和利用这些数据，是PixMo数据集面临的另一大挑战。

常用场景

经典使用场景

PixMo数据集在多模态语言模型的预训练和微调中展现了其经典应用场景。该数据集包含多个子集，如PixMo-Cap用于密集描述图像，PixMo-AskModelAnything用于指令微调，PixMo-CapQA用于从密集描述中生成问答对。这些子集共同支持了多模态模型的全面训练，特别是在视觉语言理解和生成任务中，如图像描述、视觉问答和指令遵循等。

衍生相关工作

PixMo数据集的发布催生了多项相关研究工作。首先，基于PixMo的预训练和微调模型在多个视觉语言任务上取得了显著性能提升，推动了多模态模型的发展。其次，PixMo-Cap和PixMo-CapQA的问答生成能力激发了新的研究方向，如自动问答系统和对话生成。此外，PixMo-Points和PixMo-Point-Explanations的应用促进了视觉定位和解释性模型的研究，为增强现实和机器人导航等领域提供了新的技术支持。

数据集最近研究