MolmoAct-Midtraining-Mixture

Name: MolmoAct-Midtraining-Mixture
Creator: Allen Institute for AI
Published: 2025-08-12 18:43:38
License: 暂无描述

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/allenai/MolmoAct-Midtraining-Mixture

下载链接

链接失效反馈

官方服务：

资源简介：

MolmoAct - 中期训练混合数据集是一个完全开源的机器人操作动作推理模型，由Allen Institute for AI开发。该数据集基于MolmoAct数据集，用于MolmoAct模型的中期训练阶段。数据集包含了在家和桌面环境中，一个单臂Franka机器人执行93种独特操作任务的1977450个样本（molmoact_home_primary和molmoact_home_secondary）和987748个样本（molmoact_tabletop_primary和molmoact_tabletop_secondary）。数据集使用了Depth-Anything v2和Molmo 7B将原始数据转换为动作推理数据格式。

提供机构：

Allen Institute for AI

创建时间：

2025-08-10

原始信息汇总

MolmoAct - Midtraining Mixture 数据集概述

数据集基本信息

许可证: CC BY-4.0
任务类别: 机器人学 (robotics)
数据集用途: 用于MolmoAct模型的中期训练阶段，包含基于MolmoAct数据集转换的动作推理数据

数据集配置与结构

数据集包含4个配置，每个配置均为训练集：

1. molmoact_home_primary

特征:
- primary (图像)
- wrist (图像)
- conversations (序列: from, value)
- annotation (字符串)
统计信息:
- 样本数: 1,977,450
- 数据集大小: 988.65 GB
- 下载大小: 448.93 GB

2. molmoact_home_secondary

特征:
- secondary (图像)
- wrist (图像)
- conversations (序列: from, value)
- annotation (字符串)
统计信息:
- 样本数: 1,977,450
- 数据集大小: 1,081.60 GB
- 下载大小: 445.14 GB

3. molmoact_tabletop_primary

特征:
- primary (图像)
- wrist (图像)
- conversations (序列: from, value)
- annotation (字符串)
统计信息:
- 样本数: 987,748
- 数据集大小: 704.59 GB
- 下载大小: 186.99 GB

4. molmoact_tabletop_secondary

特征:
- secondary (图像)
- wrist (图像)
- conversations (序列: from, value)
- annotation (字符串)
统计信息:
- 样本数: 987,748
- 数据集大小: 683.48 GB
- 下载大小: 183.26 GB

数据来源与处理

基于MolmoAct数据集转换
使用Depth-Anything v2和Molmo 7B处理原始机器人数据
包含家庭和桌面环境中的机器人操作任务

相关资源

所有模型: https://huggingface.co/collections/allenai/molmoact-689697591a3936fba38174d7
所有数据: https://huggingface.co/collections/allenai/molmoact-data-mixture-6897e583e13b6c2cf3ea2b80
技术报告: https://huggingface.co/allenai/MolmoAct-7B-D-0812/blob/main/MolmoAct_Technical_Report.pdf
博客文章: https://allenai.org/blog/molmoact

搜集汇总

数据集介绍

构建方式

在机器人操作领域，MolmoAct-Midtraining-Mixture数据集的构建采用了创新的数据处理流程。该数据集基于MolmoAct原始数据集，通过Depth-Anything v2深度估计算法和Molmo 7B模型将原始机器人操作轨迹转化为动作推理数据。构建过程中特别关注了家庭环境和桌面环境两种典型场景，分别采集了197万和98万条高质量样本数据，确保了数据覆盖的全面性。数据转换过程严格遵循机器人操作任务的逻辑特征，保留了原始轨迹的空间和时间信息。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，下载包含四个不同配置的数据文件。使用时应首先根据研究需求选择家庭环境或桌面环境配置，主视角和副视角数据可单独或联合使用。数据集中的对话序列和标注信息为监督学习提供了天然的训练目标，而多视角图像数据则适合构建跨模态表示学习模型。建议使用者参考技术报告了解数据的具体组织方式，并遵循Ai2的负责任使用指南开展研究。

背景与挑战

背景概述

MolmoAct-Midtraining-Mixture数据集由Allen Institute for AI开发，旨在推动机器人操作领域的动作推理研究。该数据集基于MolmoAct数据集构建，包含10,000条高质量轨迹，记录了单臂Franka机器人在家庭和桌面环境中执行的93种独特操作任务。通过整合Depth-Anything v2和Molmo 7B技术，原始机器人数据被转化为动作推理数据，为视觉-语言-动作模型的研究提供了重要资源。该数据集的发布标志着开放源代码在机器人操作领域的进一步应用，为相关研究提供了新的基准和工具。

当前挑战

MolmoAct-Midtraining-Mixture数据集面临的挑战主要体现在两个方面。在领域问题方面，机器人操作任务的多样性和复杂性对动作推理模型的泛化能力提出了较高要求，尤其是在处理不同环境（如家庭与桌面）中的任务时。数据集构建过程中，高质量轨迹的采集与标注需要精确的机器人控制和复杂的传感器数据处理，同时，将原始数据转化为动作推理数据的技术实现也面临深度估计和语义理解的挑战。此外，数据规模庞大，对存储和计算资源的需求较高，为实际应用带来了一定的技术门槛。

常用场景

经典使用场景

在机器人操作领域，MolmoAct-Midtraining-Mixture数据集为视觉-语言-动作模型的训练提供了丰富的多模态数据。该数据集通过Depth-Anything v2和Molmo 7B技术将原始机器人数据转化为动作推理数据，特别适用于家庭和桌面环境中的单臂Franka机器人操作任务。研究人员可利用该数据集训练模型理解复杂的环境交互，提升机器人在多样化场景中的操作能力。

解决学术问题

该数据集有效解决了机器人操作中动作推理的学术难题。通过提供10k高质量轨迹数据和93种独特操作任务，它填补了视觉-语言-动作模型在复杂环境交互研究中的空白。数据集的多模态特性（包含图像、对话和标注）为跨模态学习提供了理想平台，推动了机器人操作智能的理论突破和技术创新。

实际应用

在实际应用中，该数据集支撑的模型可广泛应用于家庭服务和工业自动化场景。基于其训练的机器人系统能够执行物品整理、桌面清洁等日常任务，同时也可适应实验室样本处理等精密操作。开放源代码特性使得中小企业也能利用该技术开发定制化机器人解决方案。

数据集最近研究