PhysUniBench

github2025-06-24 更新2025-06-25 收录

下载链接：

https://github.com/PrismaX-Team/PhysUniBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

PhysUniBench是一个大规模多模态基准数据集，专门设计用于评估多模态大语言模型在本科物理问题上的高级推理能力。它提供了多样化的图表配对问答和多项选择物理问题，涵盖八个核心物理子领域，包括经典力学、电磁学、光学等。数据集包含3,304个人工验证的问题，每个问题都配有相关图表，并标有难度级别（1-5），提供多项选择和开放式两种格式，支持中英双语评估。

PhysUniBench is a large-scale multimodal benchmark dataset specifically designed to evaluate the advanced reasoning capabilities of multimodal large language models (LLMs) on undergraduate-level physics problems. It provides diverse diagram-paired question-answering and multiple-choice physics questions, covering eight core physics subfields including classical mechanics, electromagnetism, optics, and others. The dataset contains 3,304 manually verified questions, each paired with relevant diagrams and labeled with a difficulty level ranging from 1 to 5. It supports two question formats: multiple-choice and open-ended, and enables evaluation in both Chinese and English.

创建时间：

2025-06-20

原始信息汇总

PhysUniBench 数据集概述

数据集简介

名称: PhysUniBench
描述: 一个针对多模态模型的本科生物理推理能力评估的大规模多模态基准测试
特点: 提供多样化的图表配对问答和选择题形式的物理问题

数据集内容

问题数量: 3,304 个人工验证的问题
问题类型:
- 多选题 (MCQ)
- 开放式问题 (OE)
语言支持: 英语和中文
难度等级: 1-5 级

物理子领域分布

经典力学
电磁学
光学
分子、原子和亚原子物理
热力学
量子力学
固体物理
相对论

评估模型

GPT-4o
Claude-3.5-Sonnet
Qwen2.5-VL
InternVL-3
Gemini-2.5

实验结果

多选题 (MCQ) 准确率

最高准确率模型: GPT-o4-mini (36.7%)
次高准确率模型: Claude-3.5-Sonnet (36.5%)

开放式问题 (OEQ) 准确率

最高准确率模型: GPT-o4-mini (26.5%)
次高准确率模型: Gemini-2.5-Pro (25.5%)

按难度等级准确率

L1-MCQs: Qwen2.5-VL-72B (60.5%)
L1-QAs: GPT-o4-mini (37.5%)
L2-MCQs: Claude-3.5-Sonnet (48.8%)
L2-QAs: GPT-o4-mini (33.3%)
L3-MCQs: GPT-o4-mini (40.5%)
L3-QAs: GPT-o4-mini (32.1%)
L4-MCQs: GPT-o4-mini (36.8%)
L4-QAs: GPT-o4-mini (25.1%)
L5-MCQs: GPT-o4-mini (37.5%)
L5-QAs: GPT-o4-mini (18.0%)

搜集汇总

数据集介绍

构建方式

在物理学教育领域，评估多模态模型对复杂概念的理解能力需要精心设计的基准数据集。PhysUniBench通过系统整合本科物理课程核心内容，构建了包含3,304道人工验证题目的资源库，每道题目均配有专业图表并标注1-5级难度。该数据集采用双语（英语/中文）平行架构，覆盖力学、电磁学等八大物理学分支，通过从真实教学场景中采集多选题和开放式问题，确保题目具有教育代表性和学术严谨性。

特点

作为首个本科物理多模态推理基准，PhysUniBench的突出特点体现在其多维评估体系。数据集不仅包含常规选择题，更创新性地设计了需要符号运算与图表解析相结合的开放式问题，有效检验模型的多模态融合能力。题目难度呈阶梯式分布，配合详细的子领域分类标签，支持细粒度性能分析。实验数据表明，当前最先进模型在开放式问题上的准确率仅为26.5%，凸显该基准对推动科学AI发展的挑战价值。

使用方法

研究者可通过该数据集开展多维度评估实验，既支持传统选择题准确率统计，也能考察模型对物理原理的深层理解。使用时应结合配套图表资源，注意区分中英文版本的语义一致性。基准提供标准化的评估协议，建议按照子领域和难度级别分层测试，特别关注开放式问题中模型展现的符号推理与视觉解读协同能力。对于跨语言研究，可利用双语对照特性进行多语言能力对比分析。

背景与挑战

背景概述

PhysUniBench作为一项开创性研究，由多模态人工智能领域的前沿团队于近期推出，旨在填补本科物理推理评估体系的空白。该数据集包含3,304道经过人工验证的物理题目，涵盖经典力学、电磁学、量子力学等八大核心物理分支，每道题目均配有专业图表并标注1-5级难度系数。其创新性体现在首次将多模态大语言模型(MLLMs)的评估场景延伸至需要同步进行视觉解析与符号推理的物理学领域，题目源自全球知名高校本科课程，支持中英双语评估。实验数据表明，即便是GPT-4o等顶尖模型在开放式问题上的准确率仅达26.5%，这为AI在科学推理领域的发展提供了精准的度量基准。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，现有模型对融合视觉信息与物理符号推理的复合型问题表现欠佳，特别是在热力学和量子力学等抽象领域，最优模型的QA准确率不足10%；在构建过程中，研究团队需要克服跨学科知识整合的复杂性，确保3304道题目的图表匹配精度与双语表述的学术严谨性，同时建立涵盖不同难度层级的评估体系。多模态数据标注的一致性维护以及保持题目与真实教学场景的相关性，都是构建阶段面临的技术难点。

常用场景

经典使用场景

在物理学教育领域，PhysUniBench数据集为评估多模态大语言模型在本科生物理问题上的推理能力提供了标准化测试平台。该数据集通过结合图表与问答形式，模拟真实物理学习场景，尤其适用于检验模型在经典力学、电磁学等八大核心子领域的跨模态理解能力。其难度分级和双语特性进一步扩展了评估维度，成为比较不同模型物理推理性能的黄金基准。

实际应用

PhysUniBench的实际价值体现在智能教育系统的开发中，其双语题库和可视化问题结构可直接服务于自适应学习平台。教育科技企业可利用该基准优化AI助教系统，特别是在物理实验模拟和习题讲解场景。医疗机构中涉及医学物理的培训系统也可借鉴其多模态评估框架，提升放射物理等专业领域的教学效果。

衍生相关工作

基于该数据集的研究已催生多个创新方向，包括MIT团队开发的物理知识图谱增强型MLLM架构，以及中科院提出的跨模态注意力机制改进方案。IEEE Transactions on Education近期发表的论文系统分析了不同模型在热力学子领域的表现差异，这些工作共同推进了AI在科学教育中的认知建模精度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集