PhysToolBench

github2025-10-11 更新2025-10-12 收录

下载链接：

https://github.com/EnVision-Research/PhysToolBench

下载链接

链接失效反馈

官方服务：

资源简介：

PhysToolBench是首个专门评估多模态大语言模型对物理工具理解能力的基准数据集。该数据集采用视觉问答（VQA）格式，包含超过1,000个图像-文本对，评估能力分为三个难度级别：1）工具识别：要求识别工具的主要功能；2）工具理解：测试对工具操作原理的掌握；3）工具创建：挑战模型在传统工具不可用时从周围物体创造新工具的能力。

PhysToolBench is the first benchmark dataset specifically designed to evaluate the physical tool understanding capabilities of multimodal large language models. This dataset adopts the Visual Question Answering (VQA) format, containing over 1,000 image-text pairs. The evaluated capabilities are divided into three difficulty levels: 1) Tool Recognition: requiring the model to identify the primary function of a tool; 2) Tool Comprehension: testing the model's mastery of the operating principles of tools; 3) Tool Creation: challenging the model to create new tools from surrounding objects when traditional tools are unavailable.

创建时间：

2025-10-10

原始信息汇总

PhysToolBench 数据集概述

数据集基本信息

数据集名称: PhysToolBench
核心目标: 评估多模态大语言模型对物理工具的理解能力
任务形式: 视觉问答
数据规模: 超过1000个图像-文本对

评估维度

1. 工具识别

要求模型识别工具的主要功能

2. 工具理解

测试模型理解工具操作原理的能力

3. 工具创造

挑战模型在常规工具不可用时，利用周围物体创造新工具的能力

技术特点

采用渐进式难度设计，包含三个不同难度级别
评估了32个MLLM模型，涵盖专有模型、开源模型、专用具身模型和VLA骨干模型
在基准测试中，图像中的工具采用数字标签标注

获取方式

下载地址: https://huggingface.co/datasets/zhangzixin02/PhysToolBench
下载命令: huggingface-cli download --repo-type dataset zhangzixin02/PhysToolBench

评估方法

支持专有模型API调用和开源模型本地部署两种评估方式
提供统一的评分脚本：python src/metric.py

代码依赖

基于VGRP-Bench代码库构建
支持OpenAI、Claude、Gemini格式API接口
兼容lmdeploy和vllm部署工具

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，物理工具理解能力是衡量智能体环境交互水平的重要维度。PhysToolBench通过构建包含千余个图像-文本对的视觉问答数据集，系统化地评估多模态大语言模型对物理工具的认知能力。该数据集采用渐进式难度设计，涵盖工具识别、工具原理理解和工具创造三个层次，每个样本均经过严格的物理场景标注和功能验证。

特点

该数据集展现出鲜明的层次化评估特征，其三级难度结构分别对应工具认知的不同深度：基础层聚焦工具功能识别，中间层考察物理原理理解，最高层挑战非标准情境下的工具创造能力。数据集图像均采用数值化标签标注工具部件，确保评估过程的客观性。这种设计使得模型在工具认知方面的能力短板得以精确量化。

使用方法

研究人员可通过两种路径使用该数据集：对于商业模型，提供标准API接口支持多线程并行评估；对于开源模型，支持通过FastAPI部署本地服务进行推理。评估流程包含模型推理和指标计算两个阶段，用户只需配置相应参数即可自动完成全流程。数据集兼容主流多模态框架，其模块化设计便于研究者扩展新的评估模型。

背景与挑战

背景概述

在具身智能研究领域，物理工具的理解能力被视为实现通用智能体的关键要素。2024年诞生的PhysToolBench由前沿研究团队构建，聚焦于量化多模态大语言模型对物理工具的认知水平。该数据集通过视觉问答形式，系统评估模型在工具识别、工作原理理解及创新工具构建三个层级的认知能力，为具身智能系统的工具使用能力提供了首套标准化评估体系。

当前挑战

该数据集致力于解决具身智能领域物理工具认知的量化难题，核心挑战在于构建覆盖工具功能识别到创新设计的渐进式评估框架。在数据构建过程中，需克服工具操作原理的语义标注复杂性，以及创新工具场景的合理性与多样性平衡。现有评估结果揭示多模态大语言模型在工具物理特性理解方面存在显著缺陷，这为下一代视觉语言动作模型的优化指明了方向。

常用场景

经典使用场景

在具身智能研究领域，物理工具的认知能力是评估智能体环境交互水平的核心指标。PhysToolBench通过视觉问答形式构建了包含千余对图像文本的评测框架，系统考察多模态大语言模型在工具识别、原理理解和创新制造三个递进层级的表现。该数据集典型应用于模型能力基准测试，研究者可依据其分级评估体系量化模型对锤子、杠杆等日常工具的物理特性与功能机制的掌握程度，为模型优化提供明确方向。

衍生相关工作

该基准测试已催生系列创新研究，包括基于工具认知缺陷分析的模型增强方法，以及融合物理推理的视觉语言预训练技术。部分研究团队受其启发开发了工具知识蒸馏框架，通过迁移学习提升小规模模型的工具理解能力。另有工作将其三级评估体系扩展至动态工具使用场景，推动了具身智能领域从静态认知到动态交互的研究范式转变。

数据集最近研究