ProcCorpus-60M

Name: ProcCorpus-60M
Creator: 中国人民大学; 智谱AI
Published: 2026-06-30 00:48:48
License: 暂无描述

arXiv2026-06-30 更新2026-07-01 收录

下载链接：

https://github.com/RUCKBReasoning/ZR-0

下载链接

链接失效反馈

官方服务：

资源简介：

ProcCorpus-60M是由中国人民大学与智谱AI联合构建的大规模机器人数据集，旨在通过密集的具身思维链（ECoT）标注促进跨具身视觉-语言-动作模型的训练。该数据集包含约6000万帧视觉数据（等效约1000小时），覆盖超过40万条轨迹，数据来源于DROID、Bridge、Fractal、RH20T及Open X-Embodiment等多个开源机器人数据集。其创建过程通过自动化VLM标注流水线实现，为96.8%的帧提供了结构化ECoT注释，包括场景描述、进度评估、未来计划、原子子任务分解、目标物体边界框和离散动作令牌。该数据集主要应用于机器人跨具身表示学习领域，通过高层认知对齐解决不同机器人平台在状态和动作空间异构性下的知识迁移问题，赋能通用机器人策略的预训练。

ProcCorpus-60M is a large-scale robotic dataset jointly constructed by Renmin University of China and Zhipu AI, aiming to facilitate the training of cross-embodied vision-language-action models via dense Embodied Chain of Thought (ECoT) annotations. This dataset contains approximately 60 million frames of visual data (equivalent to roughly 1,000 hours) and covers over 400,000 trajectories, sourced from multiple open-source robotic datasets including DROID, Bridge, Fractal, RH20T, and Open X-Embodiment. Its development is implemented through an automated VLM annotation pipeline, and structured ECoT annotations are provided for 96.8% of the frames, including scene descriptions, progress assessments, future plans, atomic subtask decompositions, target object bounding boxes, and discrete action tokens. This dataset is primarily applied in the field of robotic cross-embodied representation learning, addressing the knowledge transfer issue across heterogeneous state and action spaces of different robotic platforms via high-level cognitive alignment, and enabling pre-training of general-purpose robotic policies.

提供机构：

中国人民大学; 智谱AI

创建时间：

2026-06-30

搜集汇总

数据集介绍

构建方式

ProcCorpus-60M的构建始于对多个主流开源机器人数据集的聚合，涵盖DROID、Bridge、RH20T及Open X-Embodiment等来源，最终汇集了超过60万帧图像（约1000小时）与40余万条轨迹。随后，研究团队设计了一套自动化流水线，借助大语言模型对每一帧进行结构化的具身思维链（ECoT）标注，覆盖率达96.8%。该注解体系包含场景描述、任务进度评估、未来规划、原子化子任务分解、目标物体边界框以及离散动作标记，从而在异构机器人平台之间构建起高层语义与底层控制的桥梁。

使用方法

使用ProcCorpus-60M时，研究者将数据集的图像、指令与ECoT注解一同输入视觉-语言-动作（VLA）模型进行联合预训练。在训练阶段，模型通过下一词预测任务学习ECoT推理，同时利用扩散Transformer进行连续动作生成；而在推理阶段，ECoT生成被完全省略，仅依靠输入提示特征即可驱动动作专家，从而在保持表征优势的同时大幅降低延迟。研究者可在支持PyTorch与DeepSpeed的环境中加载公开的模型权重与检查点，进行迁移微调与多具身评估。

背景与挑战

背景概述

ProcCorpus-60M是由中国人民大学与智谱AI于2026年联合构建的大规模机器人操作数据集，旨在为具身人工智能领域的视觉-语言-动作（VLA）模型提供跨具身迁移学习的训练基础。该数据集汇聚了来自Open X-Embodiment、DROID、RH20T等多个开源数据源超过400K条轨迹，共计约6000万帧（约1000小时）的机器人操作数据。其核心研究问题在于如何通过高密度的具身思维链（ECoT）标注，实现对不同机器人平台（如单臂、双臂、人形机器人）间异构状态与动作空间的语义对齐，从而学习可迁移的物理常识与操控技能。作为ZR-0模型（26亿参数）的预训练语料，ProcCorpus-60M推动了VLA模型在LIBERO、RoboTwin 2.0、RoboCasa等多个基准上的性能突破，为通用机器人策略学习奠定了重要基础。

当前挑战

ProcCorpus-60M面临的首要挑战是解决跨具身迁移中底层状态与动作空间的根本性异质性问题。不同机器人平台在运动学构型（如6自由度与7自由度手臂）、控制接口（如关节位置与末端执行器位姿）、底座类型（固定式与移动式）及传感器配置上差异显著，现有方法依赖零填充与归一化等格式级技术，但无法实现语义层面的真正对齐。此外，数据集的构建过程同样充满挑战：如何在超过400K条异构轨迹上实现96.8%帧覆盖率的结构化ECoT自动标注，需要设计高效的VLM推理管线以生成场景描述、任务进度评估、未来规划、子任务分解、目标物体边界框及离散动作令牌等多模态标注，同时保证标注质量与计算成本的平衡，这构成了数据集构建中的核心技术难题。

常用场景

经典使用场景

在具身智能与机器人学习领域，ProcCorpus-60M被广泛用作视觉-语言-动作（VLA）模型的大规模预训练语料库。其经典使用场景在于，通过提供超过6000万帧、涵盖40万条轨迹的稠密具身链式思维（ECoT）标注，研究者得以训练诸如ZR-0这样的端到端VLA模型，使其在单臂、双臂及人形机器人等多种本体上实现跨本体的策略迁移与泛化。该数据集的核心价值在于，其ECoT标注覆盖了场景描述、进度评估、未来规划、原子子任务分解以及目标物体边界框等高层次认知信息，从而弥合高层语言指令与底层连续控制之间的语义鸿沟，为多本体联合训练奠定了数据基础。

解决学术问题

ProcCorpus-60M致力于解决具身智能领域中跨本体表示对齐这一核心学术难题。不同机器人平台在运动学构型、控制接口和传感器配置上存在显著差异，导致底层状态与动作空间异构，传统方法仅依赖格式级技巧（如零填充）难以实现真正的语义对齐。该数据集通过提供跨本体的稠密ECoT监督信号，将高层认知过程（如场景感知、任务规划与子任务分解）与具体硬件解耦，从而在VLM中学习共享的、可迁移的表征。这一方法有效验证了基于结构化推理的监督策略能显著提升模型在长时域任务（如LIBERO-10）上的成功率，为VLA模型从数据稀缺向大规模预训练跨越提供了有力支撑。

实际应用

ProcCorpus-60M的实际应用场景广泛覆盖从模拟器到真实世界机器人操控的多个层面。在工业场景中，基于该数据集预训练的模型可用于自动化装配线上的单臂操作，如拾取与放置精密零件。在服务机器人领域，该数据集有助于开发能够执行复杂家务任务的双臂或人形机器人，例如整理餐桌、开关橱柜及微波炉等。此外，通过该数据集训练得到的模型在真实xArm平台上的实验表明，其在OCR推理（如推动印有字母的积木）、长时程清理以及空间关系理解（如将特定颜色水果放置于指定位置）等任务中展现出优异的泛化能力，具备良好的实时部署潜力。

数据集最近研究