ProcessBench-Anom

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/ProcessBench-2026/ProcessBench-Anom

下载链接

链接失效反馈

官方服务：

资源简介：

ProcessBench是一个面向机器人操作理解的过程感知基准数据集，包含57,892条公开问答数据，其中评估集9,051条，监督微调集48,841条，涵盖12个任务家族。数据来源包括GM-100、RH20T、REASSEMBLE和AIST-Bimanual。任务家族包括阶段识别、接触检测、运动方向预测、双手协调状态等12类。数据集分为评估集和监督微调集，分割规则基于严格的场景隔离。发布内容包括评估集和监督微调集的parquet和jsonl文件、分割摘要文件、任务分布统计、模式文档等，但不包含原始视频、帧缓存等上游数据。数据集使用其他许可证，部分衍生数据仍需遵守上游数据集条款。

创建时间：

2026-05-03

原始信息汇总

ProcessBench 数据集概述

基本信息

数据集名称: ProcessBench
语言: 英语
许可协议: other（需遵守上游数据集原始条款）
任务类别: 视觉问答
标签: 机器人技术、具身智能、基准测试、视觉语言模型、流程理解、操作任务

数据集规模

总样本数: 57,892 条问答对
样本规模: 10K < n < 100K
划分规则: 严格的片段/录制/场景隔离

数据划分

划分类型	样本数量	数据文件
评估集 (eval)	9,051	`data/processbench_eval.parquet`
微调集 (SFT)	48,841	`data/processdata_sft.parquet`

数据来源

GM-100
RH20T
REASSEMBLE
AIST-Bimanual

任务族 (共12类)

T1: 阶段识别
T2: 接触检测
T3: 运动方向预测
T4: 双臂协调状态
T5: 基本局部进度
T6: 运动状态识别
T7: 操作结果预测
T8: 时序排序
T9: 时序优先级预测
T10: 当前基本动作识别
T11: 下一个基本动作预测
T12: 基本动作链恢复

包含的文件

评估数据: data/processbench_eval.parquet 和 data/processbench_eval.jsonl
微调数据: data/processdata_sft.parquet 和 data/processdata_sft.jsonl
元数据: metadata/split_summary.json, metadata/eval_manifest.json, metadata/sft_manifest.json
任务分布: metadata/task_distribution.csv
文档: metadata/schema.md, metadata/reconstruction.md, metadata/prompt_templates.md
模型结果: 后训练的 ProcessEval-7B 结果位于 SFT_results/

未包含的内容

原始上游视频
完整提取的帧缓存
开发机器的本地绝对路径
独立的结构化任务元字段
Croissant 元数据
任务卡片图像及人工审核资产

搜集汇总

数据集介绍

构建方式

ProcessBench-Anom数据集源自机器人操作理解领域，旨在构建一个具备过程感知能力的基准。该数据集整合了来自GM-100、RH20T、REASSEMBLE、AIST-Bimanual四个上游数据源的视频与帧信息，通过严格的情节、录制帧及场景隔离规则，划分为评估集（9,051条）和微调集（48,841条），共计57,892条问答对。构建过程中，依据操作任务的内在逻辑，定义了十二类任务家族，涵盖相位识别、接触检测、运动方向预测等维度。每个样本以视觉问答形式呈现，确保能够系统评估模型对操作过程的理解能力。

特点

ProcessBench-Anom数据集的核心特点在于其过程感知的基准设计，覆盖十二种任务家族，从基础的相位识别到复杂的基元链恢复，全面考验模型对机器人操作序列的细粒度理解。数据集包含丰富的视觉问答对，支持评估与微调双阶段使用，且上游数据源的多样性保证了操作场景的广泛性。严格的隔离规则避免了数据泄露，确保评估的公正性。此外，数据集提供了详尽的元数据，包括任务分布、拆分摘要及提示模板，便于研究者深入分析模型在各子任务上的表现。

使用方法

对于ProcessBench-Anom数据集，使用者可依据任务需求直接加载提供的Parquet或JSONL文件。加载后，可基于任务标签（T1至T12）筛选特定类型的问答对进行模型微调或评估。推荐使用预训练的视觉-语言模型，结合数据集中的提示模板进行训练，以优化对机器人操作过程的推理能力。评估时，可利用评估集样本验证模型性能，并通过内置的元数据文件分析任务层面的结果。需注意，完整视频和帧缓存需从上游来源获取，以支持更深入的视觉重建研究。

背景与挑战

背景概述

在具身智能与机器人操作领域，理解并遵循物理世界的程序化步骤是智能体执行复杂任务的核心能力。ProcessBench-Anom 数据集于近期由研究团队构建，整合了 GM-100、RH20T、REASSEMBLE 及 AIST-Bimanual 四个上游数据集，旨在系统性地评测视觉语言模型对机器人操作过程中程序性变化（如相位、接触、运动方向、双手协调等）的感知与推理水平。该数据集包含 57,892 个问答对，覆盖 12 类任务族，为细粒度的操作过程理解提供了标准化的测试平台。其发布填补了现有基准对过程感知能力评估的缺失，推动了机器人操作理解从静态识别向动态过程认知的演进。

当前挑战

当前面临的挑战主要聚焦于所解决的领域问题与构建过程两方面。在领域层面，机器人操作理解需要模型具备细粒度过程感知能力，包括相位识别、接触检测、运动方向预测、双手协调状态判别等，这些任务要求模型从连续视觉输入中捕捉高层语义变化与底层时序依赖，而非简单的静态分类。在构建过程中，研究人员需从四个异构上游数据集中提取并统一定义 12 类任务的行为标签，严格隔离场景与记录以防止数据泄露，同时确保评估集与微调集之间的独立性。此外，原始视频与帧缓存未直接分发，用户需依据上游许可自行完成视觉重建，这增加了应用的准入门槛与复现难度。

常用场景

经典使用场景

ProcessBench-Anom作为一个面向机器人操作理解的流程感知基准数据集，在具身智能与视觉语言模型交叉领域中扮演着关键角色。其最经典的使用场景聚焦于细粒度操作流程理解，通过涵盖相位识别、接触检测、运动方向预测、双手协调状态评估等12类任务家族，为评估和训练模型在复杂操作序列中的时序推理与状态感知能力提供了标准化平台。研究者通常利用该数据集构建视觉问答系统，使模型能够基于操作视频帧序列回答关于当前操作阶段、运动状态乃至后续动作预测等结构化问题，从而推动机器人从感知到执行的认知鸿沟弥合。这一基准的独特之处在于其严格的片段与场景隔离划分，确保评估结果真正反映模型对未知操作流程的泛化理解能力。

衍生相关工作

ProcessBench-Anom的发布催生了多项突破性的模型与基准研究。其中最具代表性的工作包括流程感知视觉语言模型ProcessEval-7B，该模型基于数据集中的48,841条SFT样本进行指令微调，专门针对操作流程中的状态变迁预测与异常检测进行优化。此外，该数据集启发了时序原语恢复网络的研究，通过引入因果关系图约束解决操作链条中的不连续观测问题。在基准框架层面，后续工作尝试将12类任务家族的评估范式拓展至多机器人协同场景，形成了可迁移的流程理解评估协议。这些衍生研究共同构建了从数据驱动到模型架构创新的完整闭环，使流程感知成为具身智能领域的重要研究方向。

数据集最近研究