MolmoAct-Pretraining-Mixture
收藏Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
下载链接
链接失效反馈官方服务:
资源简介:
MolmoAct预训练混合数据集包含了来自Open X-Embodiment的第三方内容,其中转换了原始数据为动作推理数据格式,适用于机器人操作动作推理模型的训练。数据集包含了图像、对话和注释等特征,并且由多个配置组成,每个配置都有不同的数据文件。数据集样本数量丰富,可用于研究和教育领域。
提供机构:
Allen Institute for AI
创建时间:
2025-08-10
原始信息汇总
MolmoAct - Pretraining Mixture 数据集概述
数据集基本信息
- 许可证: CC BY-4.0
- 任务类别: 机器人学 (robotics)
数据集配置
数据集包含以下5个配置:
-
auxiliary_depth
- 数据文件:
auxiliary_depth/train-* - 特征:
- image (图像,不解码)
- conversations (对话序列,包含from和value字段)
- 训练集统计:
- 样本数: 1,500,000
- 字节数: 71,185,660,924
- 下载大小: 139,669,791,715
- 数据集大小: 71,185,660,924
- 数据文件:
-
auxiliary_trace
- 数据文件:
auxiliary_trace/train-* - 特征:
- image (图像,不解码)
- conversations (对话序列,包含from和value字段)
- 训练集统计:
- 样本数: 1,500,000
- 字节数: 164,159,226,594
- 下载大小: 139,389,020,285
- 数据集大小: 164,159,226,594
- 数据文件:
-
bc_z
- 数据文件:
bc_z/train-* - 特征:
- image (图像,不解码)
- conversations (对话序列,包含from和value字段)
- annotation (标注字符串)
- 训练集统计:
- 样本数: 10,289,224
- 字节数: 478,813,387,068.688
- 下载大小: 240,908,631,222
- 数据集大小: 478,813,387,068.688
- 数据文件:
-
bridge_dataset
- 数据文件:
bridge_dataset/train-* - 特征:
- image (图像,不解码)
- conversations (对话序列,包含from和value字段)
- annotation (标注字符串)
- 训练集统计:
- 样本数: 3,746,468
- 字节数: 474,224,089,581.64
- 下载大小: 231,831,529,407
- 数据集大小: 474,224,089,581.64
- 数据文件:
-
fractal20220817_data
- 数据文件:
fractal20220817_data/train-* - 特征:
- image (图像,不解码)
- conversations (对话序列,包含from和value字段)
- annotation (标注字符串)
- 训练集统计:
- 样本数: 7,065,568
- 字节数: 770,310,776,782.056
- 下载大小: 388,563,633,233
- 数据集大小: 770,310,776,782.056
- 数据文件:
数据集描述
- 用途: MolmoAct预训练混合数据集,包含Open X-Embodiment中的部分数据,已转换为动作推理数据格式。
- 数据来源: 主要基于Open X-Embodiment中的RT-1 Robot Action、Berkeley Bridge和BC-Z数据集。
- 其他数据链接:
- LVIS Bounding Box数据集: https://huggingface.co/datasets/wentao-yuan/robopoint-data
- Pixmo和Molmo Academic数据集: https://github.com/allenai/molmo
数据集统计摘要
- bc_z: 10,289,224样本
- fractal20220817_data: 7,065,568样本
- bridge_dataset: 3,746,792样本
- auxiliary_depth: 1,500,000样本
- auxiliary_trace: 1,500,000样本
相关资源
- 所有模型: https://huggingface.co/collections/allenai/molmoact-689697591a3936fba38174d7
- 所有数据: https://huggingface.co/collections/allenai/molmoact-data-mixture-6897e583e13b6c2cf3ea2b80
- 论文: https://huggingface.co/allenai/MolmoAct-7B-D-0812/blob/main/MolmoAct_Technical_Report.pdf
- 视频: https://youtu.be/-_wag1X25OE?si=Xi_kUaJTmcQBx1f6
- 博客文章: https://allenai.org/blog/molmoact
许可和使用
- 遵循CC BY-4.0许可协议
- 适用于研究和教育用途
- 需遵守Ai2的负责任使用指南: https://allenai.org/responsible-use
搜集汇总
数据集介绍

构建方式
在机器人操作领域,MolmoAct-Pretraining-Mixture数据集的构建采用了多源异构数据的融合策略。该数据集主要整合了Open X-Embodiment项目中的原始机器人操作数据,通过Depth-Anything v2和Molmo 7B模型将其转化为动作推理数据。数据集包含五个独立配置,每个配置都经过严格的标准化处理,确保数据格式的统一性。特别值得注意的是,数据集构建过程中采用了分布式处理架构,以应对海量图像数据和对话标注的处理需求。
使用方法
该数据集主要应用于机器人动作推理模型的预训练阶段。研究人员可以通过HuggingFace平台直接访问各子数据集配置,每个配置都提供了标准化的图像和对话序列字段。使用前需注意数据授权协议为CC BY-4.0,符合AI2的负责任使用准则。对于特定研究需求,建议结合官方提供的技术报告和博客文章,深入理解数据集的设计理念。数据集支持分布式加载,适合大规模模型训练场景,但需注意各子集在样本数量和存储需求上的显著差异。
背景与挑战
背景概述
MolmoAct-Pretraining-Mixture数据集由Allen Institute for AI开发,旨在为机器人操作任务提供高质量的动作推理数据。该数据集整合了Open X-Embodiment的部分数据,并通过Depth-Anything v2和Molmo 7B技术将原始机器人数据转化为动作推理数据。数据集的核心研究问题聚焦于提升机器人操作任务中视觉-语言-动作模型的性能,特别是在家庭和桌面环境中的单臂Franka机器人操作任务上。该数据集的开源特性使其在机器人学习领域具有广泛的影响力,为相关研究提供了重要的数据支持。
当前挑战
MolmoAct-Pretraining-Mixture数据集面临的挑战主要包括两个方面:一是数据整合的复杂性,由于数据集涉及多个来源(如Open X-Embodiment、Pixmo和Molmo Academic Dataset),数据格式和标注标准的不一致增加了数据预处理的难度;二是数据规模庞大,数据集包含数百万样本,对存储、计算资源和数据处理效率提出了较高要求。此外,如何确保数据转换(如使用Depth-Anything v2和Molmo 7B)的准确性和一致性,也是构建过程中的关键挑战。
常用场景
经典使用场景
在机器人视觉-语言-动作多模态学习领域,MolmoAct-Pretraining-Mixture数据集通过整合Open X-Embodiment等权威机器人操作轨迹数据,为构建端到端的动作推理模型提供了标准化预训练资源。其核心价值在于将原始传感器数据转化为包含视觉观察、语言指令和动作序列的结构化样本,特别适用于训练基于Transformer架构的多模态大模型,例如在模拟环境中学习复杂操作任务的语义映射关系。
解决学术问题
该数据集有效解决了机器人操作任务中三大关键学术挑战:跨模态表征对齐问题,通过深度视觉特征与自然语言指令的联合编码实现意图理解;长周期动作规划的可扩展性难题,借助大规模轨迹数据提升时序建模能力;以及样本效率低下问题,其百万级高质量样本显著降低了强化学习中的探索成本。这为具身智能研究提供了可复现的基准数据支撑。
实际应用
在实际机器人系统中,该数据集衍生的预训练模型可快速迁移至工业分拣、家庭服务等场景。例如在物流仓储场景,基于该数据训练的视觉-动作模型能准确理解'将红色包裹放入第三层货架'等复杂指令;在医疗辅助领域,其学习到的精细操作范式可辅助手术机器人完成器械传递等任务,显著降低领域适配所需的真实交互数据量。
数据集最近研究
最新研究方向
在机器人操作与多模态学习领域,MolmoAct-Pretraining-Mixture数据集正推动着视觉-语言-动作模型的边界拓展。该数据集整合了Open X-Embodiment的跨机构机器人操作轨迹,通过Depth-Anything v2和Molmo 7B技术将原始数据转化为动作推理数据,为具身智能研究提供了大规模、高质量的预训练资源。当前研究聚焦于三个核心方向:基于多任务学习的机器人操作策略泛化、视觉语言表征与动作规划的联合优化,以及跨模态预训练模型在真实场景中的零样本迁移能力。随着谷歌DeepMind等机构推动的Open X-Embodiment计划持续升温,此类数据集正成为解决机器人泛化性瓶颈的关键基础设施,其开放特性尤其加速了学术机构在受限硬件条件下的前沿算法探索。
以上内容由遇见数据集搜集并总结生成



