five

MolmoAct-Pretraining-Mixture

收藏
Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/allenai/MolmoAct-Pretraining-Mixture
下载链接
链接失效反馈
官方服务:
资源简介:
MolmoAct预训练混合数据集包含了来自Open X-Embodiment的第三方内容,其中转换了原始数据为动作推理数据格式,适用于机器人操作动作推理模型的训练。数据集包含了图像、对话和注释等特征,并且由多个配置组成,每个配置都有不同的数据文件。数据集样本数量丰富,可用于研究和教育领域。
提供机构:
Allen Institute for AI
创建时间:
2025-08-10
原始信息汇总

MolmoAct - Pretraining Mixture 数据集概述

数据集基本信息

  • 许可证: CC BY-4.0
  • 任务类别: 机器人学 (robotics)

数据集配置

数据集包含以下5个配置:

  1. auxiliary_depth

    • 数据文件: auxiliary_depth/train-*
    • 特征:
      • image (图像,不解码)
      • conversations (对话序列,包含from和value字段)
    • 训练集统计:
      • 样本数: 1,500,000
      • 字节数: 71,185,660,924
      • 下载大小: 139,669,791,715
      • 数据集大小: 71,185,660,924
  2. auxiliary_trace

    • 数据文件: auxiliary_trace/train-*
    • 特征:
      • image (图像,不解码)
      • conversations (对话序列,包含from和value字段)
    • 训练集统计:
      • 样本数: 1,500,000
      • 字节数: 164,159,226,594
      • 下载大小: 139,389,020,285
      • 数据集大小: 164,159,226,594
  3. bc_z

    • 数据文件: bc_z/train-*
    • 特征:
      • image (图像,不解码)
      • conversations (对话序列,包含from和value字段)
      • annotation (标注字符串)
    • 训练集统计:
      • 样本数: 10,289,224
      • 字节数: 478,813,387,068.688
      • 下载大小: 240,908,631,222
      • 数据集大小: 478,813,387,068.688
  4. bridge_dataset

    • 数据文件: bridge_dataset/train-*
    • 特征:
      • image (图像,不解码)
      • conversations (对话序列,包含from和value字段)
      • annotation (标注字符串)
    • 训练集统计:
      • 样本数: 3,746,468
      • 字节数: 474,224,089,581.64
      • 下载大小: 231,831,529,407
      • 数据集大小: 474,224,089,581.64
  5. fractal20220817_data

    • 数据文件: fractal20220817_data/train-*
    • 特征:
      • image (图像,不解码)
      • conversations (对话序列,包含from和value字段)
      • annotation (标注字符串)
    • 训练集统计:
      • 样本数: 7,065,568
      • 字节数: 770,310,776,782.056
      • 下载大小: 388,563,633,233
      • 数据集大小: 770,310,776,782.056

数据集描述

  • 用途: MolmoAct预训练混合数据集,包含Open X-Embodiment中的部分数据,已转换为动作推理数据格式。
  • 数据来源: 主要基于Open X-Embodiment中的RT-1 Robot Action、Berkeley Bridge和BC-Z数据集。
  • 其他数据链接:
    • LVIS Bounding Box数据集: https://huggingface.co/datasets/wentao-yuan/robopoint-data
    • Pixmo和Molmo Academic数据集: https://github.com/allenai/molmo

数据集统计摘要

  • bc_z: 10,289,224样本
  • fractal20220817_data: 7,065,568样本
  • bridge_dataset: 3,746,792样本
  • auxiliary_depth: 1,500,000样本
  • auxiliary_trace: 1,500,000样本

相关资源

  • 所有模型: https://huggingface.co/collections/allenai/molmoact-689697591a3936fba38174d7
  • 所有数据: https://huggingface.co/collections/allenai/molmoact-data-mixture-6897e583e13b6c2cf3ea2b80
  • 论文: https://huggingface.co/allenai/MolmoAct-7B-D-0812/blob/main/MolmoAct_Technical_Report.pdf
  • 视频: https://youtu.be/-_wag1X25OE?si=Xi_kUaJTmcQBx1f6
  • 博客文章: https://allenai.org/blog/molmoact

许可和使用

  • 遵循CC BY-4.0许可协议
  • 适用于研究和教育用途
  • 需遵守Ai2的负责任使用指南: https://allenai.org/responsible-use
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,MolmoAct-Pretraining-Mixture数据集的构建采用了多源异构数据的融合策略。该数据集主要整合了Open X-Embodiment项目中的原始机器人操作数据,通过Depth-Anything v2和Molmo 7B模型将其转化为动作推理数据。数据集包含五个独立配置,每个配置都经过严格的标准化处理,确保数据格式的统一性。特别值得注意的是,数据集构建过程中采用了分布式处理架构,以应对海量图像数据和对话标注的处理需求。
使用方法
该数据集主要应用于机器人动作推理模型的预训练阶段。研究人员可以通过HuggingFace平台直接访问各子数据集配置,每个配置都提供了标准化的图像和对话序列字段。使用前需注意数据授权协议为CC BY-4.0,符合AI2的负责任使用准则。对于特定研究需求,建议结合官方提供的技术报告和博客文章,深入理解数据集的设计理念。数据集支持分布式加载,适合大规模模型训练场景,但需注意各子集在样本数量和存储需求上的显著差异。
背景与挑战
背景概述
MolmoAct-Pretraining-Mixture数据集由Allen Institute for AI开发,旨在为机器人操作任务提供高质量的动作推理数据。该数据集整合了Open X-Embodiment的部分数据,并通过Depth-Anything v2和Molmo 7B技术将原始机器人数据转化为动作推理数据。数据集的核心研究问题聚焦于提升机器人操作任务中视觉-语言-动作模型的性能,特别是在家庭和桌面环境中的单臂Franka机器人操作任务上。该数据集的开源特性使其在机器人学习领域具有广泛的影响力,为相关研究提供了重要的数据支持。
当前挑战
MolmoAct-Pretraining-Mixture数据集面临的挑战主要包括两个方面:一是数据整合的复杂性,由于数据集涉及多个来源(如Open X-Embodiment、Pixmo和Molmo Academic Dataset),数据格式和标注标准的不一致增加了数据预处理的难度;二是数据规模庞大,数据集包含数百万样本,对存储、计算资源和数据处理效率提出了较高要求。此外,如何确保数据转换(如使用Depth-Anything v2和Molmo 7B)的准确性和一致性,也是构建过程中的关键挑战。
常用场景
经典使用场景
在机器人视觉-语言-动作多模态学习领域,MolmoAct-Pretraining-Mixture数据集通过整合Open X-Embodiment等权威机器人操作轨迹数据,为构建端到端的动作推理模型提供了标准化预训练资源。其核心价值在于将原始传感器数据转化为包含视觉观察、语言指令和动作序列的结构化样本,特别适用于训练基于Transformer架构的多模态大模型,例如在模拟环境中学习复杂操作任务的语义映射关系。
解决学术问题
该数据集有效解决了机器人操作任务中三大关键学术挑战:跨模态表征对齐问题,通过深度视觉特征与自然语言指令的联合编码实现意图理解;长周期动作规划的可扩展性难题,借助大规模轨迹数据提升时序建模能力;以及样本效率低下问题,其百万级高质量样本显著降低了强化学习中的探索成本。这为具身智能研究提供了可复现的基准数据支撑。
实际应用
在实际机器人系统中,该数据集衍生的预训练模型可快速迁移至工业分拣、家庭服务等场景。例如在物流仓储场景,基于该数据训练的视觉-动作模型能准确理解'将红色包裹放入第三层货架'等复杂指令;在医疗辅助领域,其学习到的精细操作范式可辅助手术机器人完成器械传递等任务,显著降低领域适配所需的真实交互数据量。
数据集最近研究
最新研究方向
在机器人操作与多模态学习领域,MolmoAct-Pretraining-Mixture数据集正推动着视觉-语言-动作模型的边界拓展。该数据集整合了Open X-Embodiment的跨机构机器人操作轨迹,通过Depth-Anything v2和Molmo 7B技术将原始数据转化为动作推理数据,为具身智能研究提供了大规模、高质量的预训练资源。当前研究聚焦于三个核心方向:基于多任务学习的机器人操作策略泛化、视觉语言表征与动作规划的联合优化,以及跨模态预训练模型在真实场景中的零样本迁移能力。随着谷歌DeepMind等机构推动的Open X-Embodiment计划持续升温,此类数据集正成为解决机器人泛化性瓶颈的关键基础设施,其开放特性尤其加速了学术机构在受限硬件条件下的前沿算法探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作