PHYBench|物理教育数据集|自然语言处理数据集
收藏arXiv2025-04-23 更新2025-04-24 收录
下载链接:
https://phybench-official.github.io/phybench-demo/
下载链接
链接失效反馈资源简介:
PHYBench是一个由北京大学物理学院创建的高质量物理问题基准数据集,包含500个基于真实世界物理场景精心挑选的物理问题,旨在评估大型语言模型在物理情境下的感知和推理能力。该数据集覆盖了从高中练习到大学课程以及物理奥赛挑战的各种难度级别,问题基于力学、电磁学、热力学、光学、现代物理和先进物理等多个领域。每个问题都围绕一个特定的物理场景构建,要求模型根据给定条件推导出关键物理量的符号表达式。
提供机构:
北京大学物理学院
创建时间:
2025-04-23
AI搜集汇总
数据集介绍

构建方式
PHYBench数据集通过多阶段严格筛选流程构建,涵盖力学、电磁学、热力学、光学、现代物理和高等物理六大领域。研究团队首先从真实物理场景中收集500道题目,由178名北京大学物理学院学生参与题目创作与验证。每道题目需满足三个核心标准:纯文本可解性、明确符号表达式答案和无歧义表述。题目经过内部平台多轮模型测试和109名人类专家验证,确保问题质量并消除潜在歧义。
特点
PHYBench的突出特点体现在三个方面:首先,题目难度梯度覆盖从高中练习到本科问题直至物理奥赛挑战,形成完整的评估谱系;其次,创新性地提出表达式编辑距离(EED)评分指标,通过数学表达式树结构的编辑距离计算,实现对模型推理过程和结果的细粒度评估;最后,所有问题均基于真实物理场景设计,强调物理感知与鲁棒推理能力的结合,有效区分模型的真实理解能力与模式记忆。
使用方法
使用PHYBench时需遵循标准化流程:采用统一提示模板触发模型响应,要求模型将最终答案以LaTeX公式形式置于\boxed{}环境中。评估阶段自动提取boxed内容,运用EED评分算法计算生成答案与标准答案的表达式树编辑距离。研究者可通过分析模型在不同物理领域的绝对优势与相对优势分数,系统评估模型在空间推理、场分布理解等多维度的能力表现。该基准测试支持API评估和本地部署两种模式,默认配置包括temperature=0.6,top_p=0.95等参数。
背景与挑战
背景概述
PHYBench是由北京大学物理学院及人工智能研究院联合开发的一个高质量基准测试集,旨在全面评估大语言模型在物理情境下的推理能力。该数据集于2025年4月正式发布,包含500道基于真实物理场景精心设计的物理问题,涵盖力学、电磁学、热力学、光学、现代物理和高等物理等多个领域,难度从高中水平延伸至本科及物理奥林匹克竞赛级别。PHYBench的推出填补了现有基准测试在物理推理评估方面的空白,为AI模型在复杂物理情境下的理解和推理能力提供了标准化评估工具。
当前挑战
PHYBench面临的核心挑战主要体现在三个方面:首先,在领域问题层面,现有模型对物理场景的感知能力不足,难以准确理解复杂的物理交互过程;其次,在构建过程中,确保问题表述的精确性和无歧义性面临挑战,特别是将可视化物理场景转化为纯文本描述时;最后,传统二元评分机制无法捕捉模型推理过程中的部分正确性,为此研究团队创新性地提出了基于数学表达式编辑距离的EED评分指标,以更精细地评估模型的物理推理能力。这些挑战使得即使最先进的大语言模型在PHYBench上的表现也显著落后于人类专家水平。
常用场景
经典使用场景
PHYBench数据集专为评估大语言模型在物理情境下的复杂推理能力而设计,其经典使用场景包括模型在力学、电磁学、热力学、光学、现代物理及高等物理等领域的符号推导与数值计算任务。通过500道基于真实物理场景的题目,研究者可系统测试模型对多步骤物理过程的理解能力,例如从动力学方程建立到边界条件应用的完整推理链条验证。
解决学术问题
该数据集解决了物理推理评估中三大核心学术问题:传统基准任务过度简化导致区分度不足、抽象问题缺乏现实物理 grounding,以及二元评分无法捕捉部分正确解。通过引入基于表达式编辑距离(EED)的连续评分机制,PHYBench首次实现了对模型物理感知(PP)与鲁棒推理(RR)能力的细粒度量化,为衡量AI系统真实物理理解能力提供了黄金标准。其人类专家基线(61.9%准确率)与最优模型(Gemini 2.5 Pro 36.9%)间的显著差距,揭示了当前LLM在复杂物理推理中的本质局限。
衍生相关工作
PHYBench的发布催生了多个重要研究方向:基于其问题框架的PhysiCoT工作提出了物理思维链微调方法,将人类专家解题轨迹转化为训练数据;EED度量启发的SymEdit算法被扩展至化学方程式比对领域;其分层难度设计理念影响了后续MathOlympus等跨学科基准的构建。数据集衍生的《物理感知与符号推理》白皮书已成为AI物理推理领域的纲领性文献,指导着包括MIT物理系与DeepMind合作项目在内的多项前沿研究。
以上内容由AI搜集并总结生成



