PHYBench

github2025-05-09 更新2025-05-16 收录

下载链接：

https://github.com/phybench-official/phybench

下载链接

链接失效反馈

官方服务：

资源简介：

PHYBench是第一个专门设计用于评估大型语言模型（LLMs）中物理感知和鲁棒推理能力的大规模基准测试。包含500个精心策划的物理问题，涵盖力学、电磁学、热力学、光学、现代物理和高级物理等领域。

PHYBench is the first large-scale benchmark specifically designed to evaluate the physical perception and robust reasoning capabilities of large language models (LLMs). It contains 500 meticulously crafted physical problems, spanning fields such as mechanics, electromagnetism, thermodynamics, optics, modern physics, and advanced physics.

创建时间：

2025-05-01

原始信息汇总

PHYBench 数据集概述

基本信息

许可证: MIT
任务类别: 问答、数学推理
语言: 英语
规模: 500-1000个样本

数据集简介

PHYBench是首个专门设计用于评估大语言模型（LLMs）物理感知和鲁棒推理能力的大规模基准测试。包含500个精心设计的物理问题，涵盖以下领域：

力学
电磁学
热力学
光学
现代物理学
高级物理学

核心特点

真实世界基础: 基于实际物理场景的问题（如碗中的球、摆动力学）
多步推理: 平均解决方案长度为3000字符，需要10+个中间步骤
符号精度: 通过新型表达式编辑距离（EED）评分严格评估LaTeX公式

关键创新

🎯 EED指标: 基于表达式树编辑距离的平滑测量
🏋️ 难度谱: 高中、本科、奥赛级物理问题
🔍 错误分类: 明确评估物理感知（PP）与鲁棒推理（RR）失败

评估协议

机器评估

双指标:

准确率: 二元正确性（通过SymPy简化实现表达式等价）
EED评分: 表达式树相似性的连续评估

EED评分机制:

表达式简化
等价检查
树转换和编辑距离计算
相对编辑距离和评分

主要优势:

比二元指标高204%的样本效率
区分系数错误（30<EED评分<60）和结构错误（EED评分<30）

主要结果

显著性能差距: 最先进LLMs在物理推理上显著落后于人类专家
- 最佳模型Gemini 2.5 Pro准确率仅36.9%
- 人类基线准确率61.9%
EED评分优势: 提供比传统二元评分更细致的性能评估
难度处理: 模型在更难题型上表现差异显著

人类基线

参与者: 81名北大物理系学生
协议:
- 每人解决8个问题
- 时间限制3小时
性能指标:
- 平均准确率61.9±2.1%
- 平均EED评分70.4±1.8
- 显著优于所有评估的LLMs（99.99%置信水平）

引用

bibtex @misc{qiu2025phybenchholisticevaluationphysical, title={PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models}, author={Shi Qiu and Shaoyang Guo and Zhuo-Yang Song and Yunbo Sun and Zeyu Cai and Jiashen Wei and Tianyu Luo and Yixuan Yin and Haoxu Zhang and Yi Hu and Chenyang Wang and Chencheng Tang and Haoling Chang and Qi Liu and Ziheng Zhou and Tianyu Zhang and Jingtian Zhang and Zhangyi Liu and Minghao Li and Yuku Zhang and Boxuan Jing and Xianqi Yin and Yutong Ren and Zizhuo Fu and Weike Wang and Xudong Tian and Anqi Lv and Laifu Man and Jianxiang Li and Feiyu Tao and Qihua Sun and Zhou Liang and Yushu Mu and Zhongxuan Li and Jing-Jun Zhang and Shutao Zhang and Xiaotian Li and Xingqi Xia and Jiawei Lin and Zheyu Shen and Jiahang Chen and Qiuhao Xiong and Binran Wang and Fengyuan Wang and Ziyang Ni and Bohan Zhang and Fan Cui and Changkun Shao and Qing-Hong Cao and Ming-xing Luo and Muhan Zhang and Hua Xing Zhu}, year={2025}, eprint={2504.16074}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.16074}, }

搜集汇总

数据集介绍

构建方式

PHYBench作为首个专注于评估大语言模型物理感知与推理能力的大规模基准测试，其构建过程体现了严谨的科学方法论。研究团队从经典物理教材、国际物理奥林匹克竞赛试题以及大学物理课程资料中精选500道题目，覆盖力学、电磁学、热力学等六大核心领域。每道题目均经过物理学专家团队的三轮校验，确保问题表述的准确性与场景的真实性。题目设计采用多级难度梯度，包含高中基础题、本科水平题及奥赛进阶题三个层次，最终形成具有明确错误分类体系的标准化测试集。

特点

该数据集最显著的特征在于其创新的评估体系与精细的问题架构。通过独创的表达式编辑距离（EED）评分机制，能够量化模型输出与标准答案在数学表达式树结构上的相似度，相比传统二元评估具有204%的样本效率提升。数据集问题平均需要10个以上推理步骤，解答长度达3000字符，有效检验模型的多步推理能力。特别设计的物理场景如碗中滚球、单摆动力学等，强化了对现实物理现象的建模要求。难度谱系与错误分类的明确标注，为分析模型能力边界提供了结构化框架。

使用方法

使用PHYBench需配置Python环境并安装sympy、latex2sympy2_extended等依赖库。核心评估通过EED.py模块实现，该模块将LaTeX格式的模型输出与标准答案进行表达式树比对。典型流程包括：调用EED(answer_latex, gen_latex)函数获取相似度评分，设置debug_mode=True可查看详细解析过程。对于Windows系统用户，需通过threading模块替代原生的超时装饰器。数据集支持两种评估模式：基于SymPy简化的二元准确率判定，以及考虑表达式树编辑距离的连续评分，研究者可根据需要选择或组合使用。

背景与挑战

背景概述

PHYBench是由北京大学等机构的研究团队于2025年推出的首个专注于评估大语言模型物理感知与推理能力的大规模基准测试。该数据集包含500道精心设计的物理问题，涵盖力学、电磁学、热力学、光学及现代物理等多个领域，旨在系统评估模型在真实物理场景中的多步推理能力和符号化表达精度。通过创新的表达式编辑距离（EED）评分机制，PHYBench为衡量大语言模型的物理认知能力提供了标准化评估框架，填补了该领域系统性评估工具的空白。

当前挑战

PHYBench面临的核心挑战体现在两个方面：在领域问题层面，如何准确评估大语言模型对复杂物理概念的理解深度与推理能力，特别是处理涉及多步推导和非线性关系的物理问题时；在构建过程中，需要解决物理问题表述的标准化难题，包括确保数学表达式LaTeX格式的精确性，以及开发能够有效区分系数错误与结构错误的评估算法。此外，建立可靠的人类基准测试数据也面临物理专业学生样本采集与时间控制实验设计的挑战。

常用场景

经典使用场景

在自然语言处理领域，PHYBench数据集被广泛用于评估大型语言模型在物理感知和推理能力方面的表现。通过涵盖力学、电磁学、热力学、光学和现代物理等多个物理学分支的500个精心设计的问题，该数据集为研究者提供了一个全面测试模型在复杂物理场景中表现的工具。特别是在需要多步推理和符号精确性的任务中，PHYBench能够有效区分不同模型的能力差异。

衍生相关工作

围绕PHYBench数据集，研究者们开展了多项相关工作。其中最具代表性的是基于EED评分的模型优化方法，这些方法显著提升了语言模型在物理问题求解中的表现。此外，该数据集还催生了一系列关于物理知识表示学习的研究，探索如何将复杂的物理原理更好地编码到神经网络中。这些工作共同推动了语言模型在科学计算领域的发展。

数据集最近研究