PAC Bench
收藏arXiv2025-06-30 更新2025-07-02 收录
下载链接:
https://pacbench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
PAC Bench是一个全面的数据集,旨在评估视觉-语言模型(VLMs)在执行操纵策略时的基本属性、可利用性和约束条件(PAC)的理解。数据集包含超过30,000个注释,包括673张真实世界图像(115个对象类别、15种属性类型、每个类别1-3个定义的可利用性),100个真实世界的拟人视角场景和120个独特的模拟约束场景,跨越四个任务。PAC Bench的数据采集和整理过程采用了多方面的方法,结合了来自现实世界和模拟的图像数据,确保了视觉的多样性和真实性。该数据集的创建是为了填补现有基准在评估VLMs对执行操纵行动的基本前提的理解方面的空白,并为构建更可靠和物理地面的机器人操纵模型提供指导。
提供机构:
亚利桑那州立大学计算与增强智能学院
创建时间:
2025-06-30
原始信息汇总
PAC Bench数据集概述
数据集简介
- 名称: PAC Bench
- 目的: 评估视觉语言模型(VLMs)在机器人操作任务中对物理属性(P)、功能可供性(A)和约束条件(C)的理解能力
- 核心评估维度:
- Properties: 物体固有特性(材料、重量等)
- Affordances: 动作可能性(可抓取、可堆叠等)
- Constraints: 物理限制(稳定性、可达性等)
数据集构成
- 总标注量: 超过30,000个
- 数据组成:
- 673张真实世界图像(115个物体类别)
- 100个人形机器人视角场景
- 120个模拟约束场景
- 属性类型: 15种
- 功能可供性: 每个类别定义1-3个
数据子集
-
Constraint Images Dataset
- 模拟场景测试物理约束理解
- 包含:
- 不可能放置
- 支撑/遮挡问题
- 可达性问题
- 稳定性约束
-
Humanoid Robot Dataset
- 从Unitree G1人形机器人视角采集的真实场景
-
Open Images Dataset
- 多样化真实图像用于属性和可供性评估
- 覆盖115个物体类别
-
RoboCasa Objects Dataset
- 家庭物品多角度视图(每个物体24个视角)
- 示例物体:
- 奶酪块
- 甜甜圈
- 法棍面包
评估结果
属性理解准确率(%)
| 模型 | Open Images | Humanoid | 平均 |
|---|---|---|---|
| Claude 3.5 Sonnet | 27.8 | 50.2 | 27.8 |
| Gemini 2.0 Flash 001 | 44.1 | 55.2 | 44.1 |
| GPT-4.1 | 42.4 | 51.2 | 42.4 |
| Llama 4 Maverick | 49.4 | 43.8 | 49.4 |
约束理解准确率(%)
| 模型 | 模拟 | 真实世界 | 平均 |
|---|---|---|---|
| Gemini 2.5 Pro P | 25.8 | 11.3 | 25.8 |
| GPT-4.1 | 13.6 | 11.3 | 13.6 |
| GPT-4.1 Mini | 4.4 | 18.8 | 4.4 |
| Llama 3.2 11B Vision I | 17.5 | 0.0 | 17.5 |
功能可供性识别
- 所有模型在识别全部正确可供性时表现接近零
- 例外:
- GPT-4.1在家居固定装置上达到20%
- Qwen 2.5 VL在工具和硬件上达到11.1%
搜集汇总
数据集介绍

构建方式
PAC Bench数据集通过多模态方法构建,整合了来自OpenImages V7的多样化真实图像、Unitree G1人形机器人捕获的真实场景以及MuJoCo物理引擎生成的模拟环境。数据采集过程包含对115个物体类别的12种物理属性标注(如重量、材质、密封性等),每个属性由两名标注者独立完成并通过共识机制确定最终标签。针对动作可能性(Affordance)的标注采用人工定义典型交互动词(如可抓取、可堆叠),而物理约束(Constraints)则通过程序化生成的120个模拟场景和2727个真实机器人视角的问答对进行系统评估。数据集采用严格的跨标注者一致性验证,确保标注质量。
特点
PAC Bench的核心特征体现在其三维评估体系:1)属性维度涵盖12类物理特性标注,形成27,674条带边界框的细粒度标注;2)动作可能性维度包含115个物体类别的1-3个典型交互动词,呈现层级化分布;3)约束维度独创性地融合模拟环境(几何错配、遮挡等4类场景)与真实机器人视角(如稳定性、可达性判断)。数据集特别强调多视角验证,所有真实场景均包含智能体视角和侧视角同步采集,并保持57.5%真实图像与42.5%模拟数据的平衡。超过30,000条标注经过双重人工校验,错误率低于2%。
使用方法
使用PAC Bench需遵循模块化评估流程:1)属性理解任务将物体图像与属性查询(如'该物体的密度是?')输入VLM,通过多项选择准确率评估;2)动作可能性任务要求模型输出给定物体的所有有效交互动词,采用精确匹配和部分匹配双指标;3)约束理解任务通过场景图像与可行性问题(如'能否将X堆叠在Y上?')测试物理推理能力。评估支持单模态(纯视觉)和跨模态(视觉-语言)两种模式,提供标准化提示模板和验证协议。数据集特别设计机器人视角评估子集,需注意模拟场景与真实场景的评估结果应分别分析以检测领域差距。
背景与挑战
背景概述
PAC Bench是由亚利桑那州立大学的研究团队于2025年提出的一个综合性基准测试,旨在系统评估视觉语言模型(VLMs)在机器人操作任务中对物体属性(Properties)、动作可供性(Affordances)和物理约束(Constraints)的理解能力。该数据集包含超过30,000个标注,涵盖673张真实世界图像、100个真实世界人形机器人场景和120个模拟约束场景,涉及115个物体类别和15种属性类型。PAC Bench的提出填补了现有基准测试在评估模型物理基础理解方面的空白,为开发更可靠的机器人操作模型提供了重要工具。
当前挑战
PAC Bench面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决视觉语言模型在机器人操作中对低层次物理先决条件理解的不足,如对物体固有属性、动作可行性和物理约束的准确理解。这些能力对于可靠执行机器人操作至关重要,但现有模型在此方面表现不佳。在构建过程中,研究人员面临数据多样性、标注一致性和真实世界场景复现等挑战,特别是在确保模拟场景与真实世界场景的对应关系以及多视角数据采集方面。此外,评估框架的设计需要平衡全面性和可操作性,以准确衡量模型在复杂物理环境中的理解能力。
常用场景
经典使用场景
PAC Bench数据集在机器人操作领域中被广泛用于评估视觉语言模型(VLMs)对物体属性、动作可行性和物理约束的理解能力。其经典使用场景包括模拟和真实世界中的机器人操作任务,例如物体堆叠、抓取和放置等。通过提供多样化的视觉数据和详细的标注,PAC Bench能够系统地测试模型在复杂物理环境中的表现。
解决学术问题
PAC Bench解决了视觉语言模型在机器人操作中缺乏对低层次物理前提条件理解的学术问题。通过分解物理推理为属性(Properties)、动作可行性(Affordances)和约束(Constraints)三个核心维度,该数据集为研究者提供了精确的诊断工具,帮助识别模型在物理常识推理中的具体缺陷,从而推动更鲁棒和可验证的模型发展。
衍生相关工作
PAC Bench衍生了一系列相关研究,包括基于其数据的视觉语言动作模型(VLA)的微调、物理常识推理的增强方法以及机器人操作策略的优化。例如,OpenVLA和Octo等通用机器人策略模型利用PAC Bench进行性能评估和改进。此外,该数据集还启发了针对特定约束(如稳定性和可达性)的专项研究,进一步推动了机器人操作领域的发展。
以上内容由遇见数据集搜集并总结生成



