RoboProcessBench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/ProcessBench-2026/RoboProcessBench

下载链接

链接失效反馈

官方服务：

资源简介：

RoboProcessBench 是一个面向视觉语言机器人操作理解的流程感知基准测试，旨在评估视觉语言模型（VLMs）在推断操作执行过程方面的能力，包括阶段识别、接触检测、运动方向预测、双手协调状态识别、局部操作进度估计、运动状态识别、操作结果预测、时间顺序重建、时间优先级预测、当前操作原语识别、下一个操作原语预测以及操作原语链恢复等12个诊断性问题家族。该数据集包含57,892个问答行，分为48,841个SFT行和9,051个评估行，覆盖12个任务家族和260个操作任务。数据来源于GM-100、RH20T、REASSEMBLE和AIST-Bimanual等数据集，并严格遵循情节/记录/场景隔离的分割原则。数据集发布内容包括分割数据、元数据、示例、模型适配器权重及训练配置等，适用于视觉语言模型在机器人操作理解任务中的性能评估与研究。

创建时间：

2026-05-03

原始信息汇总

数据集概述：RoboProcessBench

RoboProcessBench 是一个面向视觉语言模型（VLM）的过程感知基准，用于评估模型对机器人操作执行过程的理解能力，包括阶段、接触、运动、双臂协调、局部进度、时间顺序、结果以及原始动作过渡等维度。

数据集规模：总计 57,892 条问答对，其中训练集（SFT）48,841 条，评估集（Eval）9,051 条。
任务覆盖：涵盖 12 个任务家族和 260 个操作任务。
数据来源：基于 GM-100、RH20T、REASSEMBLE 和 AIST-Bimanual 四个上游数据集构建。
数据分割：严格按照情节/录制/场景进行隔离，确保评估的公平性。

任务家族（12 类诊断性问题）

任务编号	任务名称	任务描述
T1	阶段识别	识别当前粗略的操作阶段。
T2	接触检测	判断是否发生了任务相关的接触。
T3	运动方向预测	从短时间上下文中推断主要运动方向。
T4	双臂协调状态	识别当前两只手臂的协调状态。
T5	原始局部进度	估计当前局部操作步骤内的进度。
T6	运动状态识别	区分主动移动状态与静止状态。
T7	操作结果预测	根据部分执行证据预测最终成功或失败。
T8	时间排序	重建打乱观测的时间顺序。
T9	时间优先级预测	判断两个观测中哪一个发生得更早。
T10	当前原始动作识别	识别当前的低级原始动作。
T11	下一个原始动作预测	从局部过程上下文中推断下一个原始动作。
T12	原始动作链恢复	恢复局部原始动作链中被遮挡的原始动作。

仓库结构

仓库以紧凑、可审查的基准包形式组织，主要包含以下目录：

splits/：包含 SFT 和 Eval 的问答条目文件（JSONL 和 Parquet 格式）及对应的清单文件。
metadata/：包含统计信息、任务分布、许可证、提示模板和重建说明等元数据。
examples/task_cards/：包含 12 个任务家族的示例基准卡片图。
ProcessData-SFT-Qwen/：LoRA 适配器权重和训练配置文件。
ProcessData-SFT-Qwen_results/：后训练模型的预测结果和摘要文件。
其他文件：包括 benchmark_card.md、croissant.json 和 README.md。

注意：本发布版本不包含上游完整视频和完整帧数据。

许可协议

本数据集使用 license: other 许可。衍生基准元数据仍受上游数据集条款约束。

搜集汇总

数据集介绍

构建方式

RoboProcessBench是一个面向视觉-语言机器人操作理解的过程感知基准数据集。其构建基于GM-100、RH20T、REASSEMBLE和AIST-Bimanual四个上游数据集的原始操作视频与帧序列，通过严格的片段、录制和场景隔离策略，精心设计了57,892个问答样本，涵盖12个任务家族和260个操作任务。其中训练集包含48,841条SFT样本，评估集包含9,051条评估样本，确保了数据集的系统性与可控性。

特点

该数据集的核心特色在于其12项诊断性任务家族，从粗粒度阶段识别（T1）到细粒度原始链恢复（T12），全面覆盖了对操作过程的理解维度，包括阶段感知、接触检测、运动方向预测、双臂协调状态、局部进度估计、运动状态识别、操作结果预测、时间顺序重建、时间优先级判断、当前与下一原始动作识别以及原始链修补。这一层次化设计使得VLM的过程理解能力可被精准剖析。

使用方法

数据集以Parquet和JSONL格式提供训练与评估拆分，并配有详尽的元数据目录，包括任务分布、提示模板、数据重建说明及许可信息。用户可直接加载SFT数据进行视觉-语言模型的微调，或利用评估集进行基准测试。同时，数据集附带了基于Qwen模型的LoRA适配器权重与训练配置，便于快速复现和扩展验证，支持机器人操作理解领域的过程性推理评估。

背景与挑战

背景概述

RoboProcessBench是由研究机构于近期发布的一个面向视觉语言模型的过程感知机器人操作理解基准数据集。该数据集聚焦于评估视觉语言模型能否推断操作执行过程的演变，包括阶段、接触、运动、双臂协调、局部进度、时间顺序、结果以及基本动作转换等核心维度。数据集包含57,892个问答对，涵盖12个诊断性任务系列和260个操作任务，数据源自GM-100、RH20T、REASSEMBLE和AIST-Bimanual等多个公开数据集。RoboProcessBench的提出弥补了现有基准在机器人操作过程理解评测方面的空白，为视觉语言模型在具身智能领域的应用提供了标准化的评估框架，对推动机器人从简单感知向深度过程理解的发展具有重要影响力。

当前挑战

RoboProcessBench面临的挑战主要体现在两个层面。在领域问题层面，现有视觉语言模型难以准确理解机器人操作的渐进式过程，如区分运动与静止状态、判断接触是否发生、预测操作结果等，这些能力对于实现复杂操作任务的自主执行至关重要。在数据集构建层面，需要从多个异构数据源中提取统一的过程标注，确保不同任务场景下阶段、接触和动作等语义的一致性；同时，严格的记录与场景隔离要求增加了数据划分的复杂度，而12类诊断任务的设计需兼顾评测的全面性和样本分布的均衡性，这对数据集的质量控制和标准化提出了较高要求。

常用场景

经典使用场景

RoboProcessBench作为面向视觉语言模型的机器人操作过程理解基准，其经典使用场景在于系统评估模型对操作执行过程的细粒度感知能力。研究者通过12类诊断性问题族（如阶段识别、接触检测、运动方向预测、双臂协调状态判定等），量化模型在操作过程不同维度上的理解水平。该基准特别适用于测试和比较各类视觉语言模型在机器人操作任务中的过程推理性能，为模型在时序推理、状态追踪与动作预测等核心能力上的改进提供标准化的评估框架。

衍生相关工作

RoboProcessBench的发布催生了若干衍生研究方向与经典工作。基于该基准的评估框架，研究者开发了ProcessData-SFT-Qwen等专用模型，通过微调视觉语言模型提升其过程理解能力。基准中定义的12类诊断性问题族被广泛借鉴，形成了机器人操作过程理解的标准评估范式。此外，该数据集促进了过程感知模型的架构创新，如融合时间卷积与注意力机制的过程理解模块、基于原语链约束的动作生成网络等。这些工作共同推动了从静态指令执行向动态过程理解的演进，为构建真正具备过程意识的具身智能体奠定了坚实基础。

数据集最近研究