PHYBench
收藏PHYBench 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 问答、数学推理
- 语言: 英语
- 规模: 500-1000个样本
数据集简介
PHYBench是首个专门设计用于评估大语言模型(LLMs)物理感知和鲁棒推理能力的大规模基准测试。包含500个精心设计的物理问题,涵盖以下领域:
- 力学
- 电磁学
- 热力学
- 光学
- 现代物理学
- 高级物理学
核心特点
- 真实世界基础: 基于实际物理场景的问题(如碗中的球、摆动力学)
- 多步推理: 平均解决方案长度为3000字符,需要10+个中间步骤
- 符号精度: 通过新型表达式编辑距离(EED)评分严格评估LaTeX公式
关键创新
- 🎯 EED指标: 基于表达式树编辑距离的平滑测量
- 🏋️ 难度谱: 高中、本科、奥赛级物理问题
- 🔍 错误分类: 明确评估物理感知(PP)与鲁棒推理(RR)失败
评估协议
机器评估
双指标:
- 准确率: 二元正确性(通过SymPy简化实现表达式等价)
- EED评分: 表达式树相似性的连续评估
EED评分机制:
- 表达式简化
- 等价检查
- 树转换和编辑距离计算
- 相对编辑距离和评分
主要优势:
- 比二元指标高204%的样本效率
- 区分系数错误(30<EED评分<60)和结构错误(EED评分<30)
主要结果
- 显著性能差距: 最先进LLMs在物理推理上显著落后于人类专家
- 最佳模型Gemini 2.5 Pro准确率仅36.9%
- 人类基线准确率61.9%
- EED评分优势: 提供比传统二元评分更细致的性能评估
- 难度处理: 模型在更难题型上表现差异显著
人类基线
- 参与者: 81名北大物理系学生
- 协议:
- 每人解决8个问题
- 时间限制3小时
- 性能指标:
- 平均准确率61.9±2.1%
- 平均EED评分70.4±1.8
- 显著优于所有评估的LLMs(99.99%置信水平)
引用
bibtex @misc{qiu2025phybenchholisticevaluationphysical, title={PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models}, author={Shi Qiu and Shaoyang Guo and Zhuo-Yang Song and Yunbo Sun and Zeyu Cai and Jiashen Wei and Tianyu Luo and Yixuan Yin and Haoxu Zhang and Yi Hu and Chenyang Wang and Chencheng Tang and Haoling Chang and Qi Liu and Ziheng Zhou and Tianyu Zhang and Jingtian Zhang and Zhangyi Liu and Minghao Li and Yuku Zhang and Boxuan Jing and Xianqi Yin and Yutong Ren and Zizhuo Fu and Weike Wang and Xudong Tian and Anqi Lv and Laifu Man and Jianxiang Li and Feiyu Tao and Qihua Sun and Zhou Liang and Yushu Mu and Zhongxuan Li and Jing-Jun Zhang and Shutao Zhang and Xiaotian Li and Xingqi Xia and Jiawei Lin and Zheyu Shen and Jiahang Chen and Qiuhao Xiong and Binran Wang and Fengyuan Wang and Ziyang Ni and Bohan Zhang and Fan Cui and Changkun Shao and Qing-Hong Cao and Ming-xing Luo and Muhan Zhang and Hua Xing Zhu}, year={2025}, eprint={2504.16074}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.16074}, }




