ProcessBench-Anom
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/ProcessBench-2026/ProcessBench-Anom
下载链接
链接失效反馈官方服务:
资源简介:
ProcessBench是一个面向机器人操作理解的过程感知基准数据集,包含57,892条公开问答数据,其中评估集9,051条,监督微调集48,841条,涵盖12个任务家族。数据来源包括GM-100、RH20T、REASSEMBLE和AIST-Bimanual。任务家族包括阶段识别、接触检测、运动方向预测、双手协调状态等12类。数据集分为评估集和监督微调集,分割规则基于严格的场景隔离。发布内容包括评估集和监督微调集的parquet和jsonl文件、分割摘要文件、任务分布统计、模式文档等,但不包含原始视频、帧缓存等上游数据。数据集使用其他许可证,部分衍生数据仍需遵守上游数据集条款。
创建时间:
2026-05-03
原始信息汇总
ProcessBench 数据集概述
基本信息
- 数据集名称: ProcessBench
- 语言: 英语
- 许可协议: other(需遵守上游数据集原始条款)
- 任务类别: 视觉问答
- 标签: 机器人技术、具身智能、基准测试、视觉语言模型、流程理解、操作任务
数据集规模
- 总样本数: 57,892 条问答对
- 样本规模: 10K < n < 100K
- 划分规则: 严格的片段/录制/场景隔离
数据划分
| 划分类型 | 样本数量 | 数据文件 |
|---|---|---|
| 评估集 (eval) | 9,051 | data/processbench_eval.parquet |
| 微调集 (SFT) | 48,841 | data/processdata_sft.parquet |
数据来源
- GM-100
- RH20T
- REASSEMBLE
- AIST-Bimanual
任务族 (共12类)
- T1: 阶段识别
- T2: 接触检测
- T3: 运动方向预测
- T4: 双臂协调状态
- T5: 基本局部进度
- T6: 运动状态识别
- T7: 操作结果预测
- T8: 时序排序
- T9: 时序优先级预测
- T10: 当前基本动作识别
- T11: 下一个基本动作预测
- T12: 基本动作链恢复
包含的文件
- 评估数据:
data/processbench_eval.parquet和data/processbench_eval.jsonl - 微调数据:
data/processdata_sft.parquet和data/processdata_sft.jsonl - 元数据:
metadata/split_summary.json,metadata/eval_manifest.json,metadata/sft_manifest.json - 任务分布:
metadata/task_distribution.csv - 文档:
metadata/schema.md,metadata/reconstruction.md,metadata/prompt_templates.md - 模型结果: 后训练的 ProcessEval-7B 结果位于
SFT_results/
未包含的内容
- 原始上游视频
- 完整提取的帧缓存
- 开发机器的本地绝对路径
- 独立的结构化任务元字段
- Croissant 元数据
- 任务卡片图像及人工审核资产
搜集汇总
数据集介绍

构建方式
ProcessBench-Anom数据集源自机器人操作理解领域,旨在构建一个具备过程感知能力的基准。该数据集整合了来自GM-100、RH20T、REASSEMBLE、AIST-Bimanual四个上游数据源的视频与帧信息,通过严格的情节、录制帧及场景隔离规则,划分为评估集(9,051条)和微调集(48,841条),共计57,892条问答对。构建过程中,依据操作任务的内在逻辑,定义了十二类任务家族,涵盖相位识别、接触检测、运动方向预测等维度。每个样本以视觉问答形式呈现,确保能够系统评估模型对操作过程的理解能力。
特点
ProcessBench-Anom数据集的核心特点在于其过程感知的基准设计,覆盖十二种任务家族,从基础的相位识别到复杂的基元链恢复,全面考验模型对机器人操作序列的细粒度理解。数据集包含丰富的视觉问答对,支持评估与微调双阶段使用,且上游数据源的多样性保证了操作场景的广泛性。严格的隔离规则避免了数据泄露,确保评估的公正性。此外,数据集提供了详尽的元数据,包括任务分布、拆分摘要及提示模板,便于研究者深入分析模型在各子任务上的表现。
使用方法
对于ProcessBench-Anom数据集,使用者可依据任务需求直接加载提供的Parquet或JSONL文件。加载后,可基于任务标签(T1至T12)筛选特定类型的问答对进行模型微调或评估。推荐使用预训练的视觉-语言模型,结合数据集中的提示模板进行训练,以优化对机器人操作过程的推理能力。评估时,可利用评估集样本验证模型性能,并通过内置的元数据文件分析任务层面的结果。需注意,完整视频和帧缓存需从上游来源获取,以支持更深入的视觉重建研究。
背景与挑战
背景概述
在具身智能与机器人操作领域,理解并遵循物理世界的程序化步骤是智能体执行复杂任务的核心能力。ProcessBench-Anom 数据集于近期由研究团队构建,整合了 GM-100、RH20T、REASSEMBLE 及 AIST-Bimanual 四个上游数据集,旨在系统性地评测视觉语言模型对机器人操作过程中程序性变化(如相位、接触、运动方向、双手协调等)的感知与推理水平。该数据集包含 57,892 个问答对,覆盖 12 类任务族,为细粒度的操作过程理解提供了标准化的测试平台。其发布填补了现有基准对过程感知能力评估的缺失,推动了机器人操作理解从静态识别向动态过程认知的演进。
当前挑战
当前面临的挑战主要聚焦于所解决的领域问题与构建过程两方面。在领域层面,机器人操作理解需要模型具备细粒度过程感知能力,包括相位识别、接触检测、运动方向预测、双手协调状态判别等,这些任务要求模型从连续视觉输入中捕捉高层语义变化与底层时序依赖,而非简单的静态分类。在构建过程中,研究人员需从四个异构上游数据集中提取并统一定义 12 类任务的行为标签,严格隔离场景与记录以防止数据泄露,同时确保评估集与微调集之间的独立性。此外,原始视频与帧缓存未直接分发,用户需依据上游许可自行完成视觉重建,这增加了应用的准入门槛与复现难度。
常用场景
经典使用场景
ProcessBench-Anom作为一个面向机器人操作理解的流程感知基准数据集,在具身智能与视觉语言模型交叉领域中扮演着关键角色。其最经典的使用场景聚焦于细粒度操作流程理解,通过涵盖相位识别、接触检测、运动方向预测、双手协调状态评估等12类任务家族,为评估和训练模型在复杂操作序列中的时序推理与状态感知能力提供了标准化平台。研究者通常利用该数据集构建视觉问答系统,使模型能够基于操作视频帧序列回答关于当前操作阶段、运动状态乃至后续动作预测等结构化问题,从而推动机器人从感知到执行的认知鸿沟弥合。这一基准的独特之处在于其严格的片段与场景隔离划分,确保评估结果真正反映模型对未知操作流程的泛化理解能力。
衍生相关工作
ProcessBench-Anom的发布催生了多项突破性的模型与基准研究。其中最具代表性的工作包括流程感知视觉语言模型ProcessEval-7B,该模型基于数据集中的48,841条SFT样本进行指令微调,专门针对操作流程中的状态变迁预测与异常检测进行优化。此外,该数据集启发了时序原语恢复网络的研究,通过引入因果关系图约束解决操作链条中的不连续观测问题。在基准框架层面,后续工作尝试将12类任务家族的评估范式拓展至多机器人协同场景,形成了可迁移的流程理解评估协议。这些衍生研究共同构建了从数据驱动到模型架构创新的完整闭环,使流程感知成为具身智能领域的重要研究方向。
数据集最近研究
最新研究方向
ProcessBench-Anom 数据集专注于机器人操作过程中的细粒度过程理解与异常检测,为具身智能体在复杂任务中识别操作阶段、接触状态、运动方向及双手协调等关键信息提供了标准化评估基准。结合前沿的具身AI与视觉-语言模型研究,该基准推动了从粗粒度动作识别向过程级推理的范式转变,尤其在机器人自主操作、制造装配等场景中具有重要应用价值。通过对12类任务家族的系统覆盖,该数据集不仅支持监督微调与模型评测,还为过程异常检测、时序预测等热点方向提供了丰富的训练资源,有力推进了机器人在非结构化环境中实现鲁棒、可靠的操作理解能力。
以上内容由遇见数据集搜集并总结生成



