MolmoAct-Pretraining-Mixture

Name: MolmoAct-Pretraining-Mixture
Creator: Allen Institute for AI
Published: 2025-08-12 18:43:00
License: 暂无描述

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture

下载链接

链接失效反馈

官方服务：

资源简介：

MolmoAct预训练混合数据集包含了来自Open X-Embodiment的第三方内容，其中转换了原始数据为动作推理数据格式，适用于机器人操作动作推理模型的训练。数据集包含了图像、对话和注释等特征，并且由多个配置组成，每个配置都有不同的数据文件。数据集样本数量丰富，可用于研究和教育领域。

提供机构：

Allen Institute for AI

创建时间：

2025-08-10

原始信息汇总

MolmoAct - Pretraining Mixture 数据集概述

数据集基本信息

许可证: CC BY-4.0
任务类别: 机器人学 (robotics)

数据集配置

数据集包含以下5个配置：

auxiliary_depth
- 数据文件: auxiliary_depth/train-*
- 特征:
  - image (图像，不解码)
  - conversations (对话序列，包含from和value字段)
- 训练集统计:
  - 样本数: 1,500,000
  - 字节数: 71,185,660,924
  - 下载大小: 139,669,791,715
  - 数据集大小: 71,185,660,924
auxiliary_trace
- 数据文件: auxiliary_trace/train-*
- 特征:
  - image (图像，不解码)
  - conversations (对话序列，包含from和value字段)
- 训练集统计:
  - 样本数: 1,500,000
  - 字节数: 164,159,226,594
  - 下载大小: 139,389,020,285
  - 数据集大小: 164,159,226,594
bc_z
- 数据文件: bc_z/train-*
- 特征:
  - image (图像，不解码)
  - conversations (对话序列，包含from和value字段)
  - annotation (标注字符串)
- 训练集统计:
  - 样本数: 10,289,224
  - 字节数: 478,813,387,068.688
  - 下载大小: 240,908,631,222
  - 数据集大小: 478,813,387,068.688
bridge_dataset
- 数据文件: bridge_dataset/train-*
- 特征:
  - image (图像，不解码)
  - conversations (对话序列，包含from和value字段)
  - annotation (标注字符串)
- 训练集统计:
  - 样本数: 3,746,468
  - 字节数: 474,224,089,581.64
  - 下载大小: 231,831,529,407
  - 数据集大小: 474,224,089,581.64
fractal20220817_data
- 数据文件: fractal20220817_data/train-*
- 特征:
  - image (图像，不解码)
  - conversations (对话序列，包含from和value字段)
  - annotation (标注字符串)
- 训练集统计:
  - 样本数: 7,065,568
  - 字节数: 770,310,776,782.056
  - 下载大小: 388,563,633,233
  - 数据集大小: 770,310,776,782.056

数据集描述

用途: MolmoAct预训练混合数据集，包含Open X-Embodiment中的部分数据，已转换为动作推理数据格式。
数据来源: 主要基于Open X-Embodiment中的RT-1 Robot Action、Berkeley Bridge和BC-Z数据集。
其他数据链接:
- LVIS Bounding Box数据集: https://huggingface.co/datasets/wentao-yuan/robopoint-data
- Pixmo和Molmo Academic数据集: https://github.com/allenai/molmo

数据集统计摘要

bc_z: 10,289,224样本
fractal20220817_data: 7,065,568样本
bridge_dataset: 3,746,792样本
auxiliary_depth: 1,500,000样本
auxiliary_trace: 1,500,000样本

许可和使用

遵循CC BY-4.0许可协议
适用于研究和教育用途
需遵守Ai2的负责任使用指南: https://allenai.org/responsible-use

搜集汇总

数据集介绍

构建方式

在机器人操作领域，MolmoAct-Pretraining-Mixture数据集的构建采用了多源异构数据的融合策略。该数据集主要整合了Open X-Embodiment项目中的原始机器人操作数据，通过Depth-Anything v2和Molmo 7B模型将其转化为动作推理数据。数据集包含五个独立配置，每个配置都经过严格的标准化处理，确保数据格式的统一性。特别值得注意的是，数据集构建过程中采用了分布式处理架构，以应对海量图像数据和对话标注的处理需求。

使用方法

该数据集主要应用于机器人动作推理模型的预训练阶段。研究人员可以通过HuggingFace平台直接访问各子数据集配置，每个配置都提供了标准化的图像和对话序列字段。使用前需注意数据授权协议为CC BY-4.0，符合AI2的负责任使用准则。对于特定研究需求，建议结合官方提供的技术报告和博客文章，深入理解数据集的设计理念。数据集支持分布式加载，适合大规模模型训练场景，但需注意各子集在样本数量和存储需求上的显著差异。

背景与挑战

背景概述

MolmoAct-Pretraining-Mixture数据集由Allen Institute for AI开发，旨在为机器人操作任务提供高质量的动作推理数据。该数据集整合了Open X-Embodiment的部分数据，并通过Depth-Anything v2和Molmo 7B技术将原始机器人数据转化为动作推理数据。数据集的核心研究问题聚焦于提升机器人操作任务中视觉-语言-动作模型的性能，特别是在家庭和桌面环境中的单臂Franka机器人操作任务上。该数据集的开源特性使其在机器人学习领域具有广泛的影响力，为相关研究提供了重要的数据支持。

当前挑战

MolmoAct-Pretraining-Mixture数据集面临的挑战主要包括两个方面：一是数据整合的复杂性，由于数据集涉及多个来源（如Open X-Embodiment、Pixmo和Molmo Academic Dataset），数据格式和标注标准的不一致增加了数据预处理的难度；二是数据规模庞大，数据集包含数百万样本，对存储、计算资源和数据处理效率提出了较高要求。此外，如何确保数据转换（如使用Depth-Anything v2和Molmo 7B）的准确性和一致性，也是构建过程中的关键挑战。

常用场景

经典使用场景

在机器人视觉-语言-动作多模态学习领域，MolmoAct-Pretraining-Mixture数据集通过整合Open X-Embodiment等权威机器人操作轨迹数据，为构建端到端的动作推理模型提供了标准化预训练资源。其核心价值在于将原始传感器数据转化为包含视觉观察、语言指令和动作序列的结构化样本，特别适用于训练基于Transformer架构的多模态大模型，例如在模拟环境中学习复杂操作任务的语义映射关系。

解决学术问题

该数据集有效解决了机器人操作任务中三大关键学术挑战：跨模态表征对齐问题，通过深度视觉特征与自然语言指令的联合编码实现意图理解；长周期动作规划的可扩展性难题，借助大规模轨迹数据提升时序建模能力；以及样本效率低下问题，其百万级高质量样本显著降低了强化学习中的探索成本。这为具身智能研究提供了可复现的基准数据支撑。

实际应用

在实际机器人系统中，该数据集衍生的预训练模型可快速迁移至工业分拣、家庭服务等场景。例如在物流仓储场景，基于该数据训练的视觉-动作模型能准确理解'将红色包裹放入第三层货架'等复杂指令；在医疗辅助领域，其学习到的精细操作范式可辅助手术机器人完成器械传递等任务，显著降低领域适配所需的真实交互数据量。

数据集最近研究