PHYBench

Hugging Face2025-04-26 更新2025-04-27 收录

下载链接：

https://huggingface.co/datasets/Eureka-Lab/PHYBench

下载链接

链接失效反馈

官方服务：

资源简介：

PHYBench是一个专为评估大型语言模型中物理感知和鲁棒推理能力而设计的大规模基准测试。它包含了500个精心挑选的物理问题，涵盖了力学、电磁学、热力学、光学、现代物理和高级物理等领域。这些问题挑战模型展示以下能力：真实世界的定位、多步骤推理和符号表达的精确性。数据集包含100个带有详细解答、问题、标签和参考答案的完整示例，以及400个包含问题和标签的附加示例。

创建时间：

2025-04-22

原始信息汇总

PHYBench 数据集概述

📜 数据集基本信息

许可证: MIT
任务类别: 问答、数学推理
语言: 英语
规模: 500-1K 样本

📌 数据集内容

总问题数: 500 个物理问题
完整解答示例: 100 个（包含手写解答、问题、标签和参考答案）
仅问题示例: 400 个（仅包含问题和标签）

📂 数据文件

PHYBench-fullques.json: 100 个完整解答示例
PHYBench-onlyques.json: 400 个仅问题示例
PHYBench-questions.json: 所有 500 个问题

🎯 数据集特点

问题领域: 力学、电磁学、热力学、光学、现代物理和高级物理
问题难度: 高中、本科和奥林匹克级别
解答要求: 严格的符号表达式（LaTeX 格式）
解答步骤: 平均 10+ 个中间步骤，解答长度约 3,000 字符

🛠️ 数据验证流程

专家创建与筛选: 178 名北大物理学生贡献原创问题
多轮学术评审: 3 层验证流程，包括初始筛选、歧义检测和迭代改进
人类专家最终确认: 81 名北大物理学生独立解答问题，评估问题清晰度和答案正确性

📊 评估指标

准确性: 二进制正确性（通过 SymPy 简化验证表达式等价性）
EED 分数: 基于表达式树编辑距离的连续评估
- EED 分数计算:
  - 表达式简化
  - 等价性检查
  - 树转换和编辑距离计算
  - 相对编辑距离和评分

👥 人类基准

参与者: 81 名北大物理学生
平均准确率: 61.9±2.1%
平均 EED 分数: 70.4±1.8
表现最佳四分位数: 71.4% 准确率，80.4 EED 分数

📝 主要结果

性能差距: 最先进 LLM（Gemini 2.5 Pro）准确率仅为 36.9%，远低于人类基准（61.9%）
领域表现差异: 不同模型在不同物理领域表现各异
难度处理: Gemini 2.5 Pro 在较难问题上表现突出

😵‍💫 错误分析

物理感知（PP）错误: 模型在识别物理对象、变量和动态时出错
稳健推理（RR）错误: 模型在数学推导和方程求解过程中出错

🚩 引用

bibtex @misc{qiu2025phybenchholisticevaluationphysical, title={PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models}, author={Shi Qiu and Shaoyang Guo and Zhuo-Yang Song and Yunbo Sun and Zeyu Cai and Jiashen Wei and Tianyu Luo and Yixuan Yin and Haoxu Zhang and Yi Hu and Chenyang Wang and Chencheng Tang and Haoling Chang and Qi Liu and Ziheng Zhou and Tianyu Zhang and Jingtian Zhang and Zhangyi Liu and Minghao Li and Yuku Zhang and Boxuan Jing and Xianqi Yin and Yutong Ren and Zizhuo Fu and Weike Wang and Xudong Tian and Anqi Lv and Laifu Man and Jianxiang Li and Feiyu Tao and Qihua Sun and Zhou Liang and Yushu Mu and Zhongxuan Li and Jing-Jun Zhang and Shutao Zhang and Xiaotian Li and Xingqi Xia and Jiawei Lin and Zheyu Shen and Jiahang Chen and Qiuhao Xiong and Binran Wang and Fengyuan Wang and Ziyang Ni and Bohan Zhang and Fan Cui and Changkun Shao and Qing-Hong Cao and Ming-xing Luo and Muhan Zhang and Hua Xing Zhu}, year={2025}, eprint={2504.16074}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.16074}, }

搜集汇总

数据集介绍

构建方式

PHYBench数据集通过三阶段严格验证流程构建而成。178名北京大学物理系学生贡献了原创物理问题，这些问题均经过格式有效性、表述严谨性和解答唯一性的多重筛选。在学术评审阶段，采用三轮验证机制对问题陈述的模糊性进行检测和修正，并通过LLM生成的解决方案反向优化问题设计。最终由81名物理系学生独立解题，建立人类基准表现，确保数据集具有学术严谨性和实践可靠性。

特点

该数据集包含500个精心设计的物理问题，涵盖力学、电磁学、热力学等多个领域，具有鲜明的学科特色。问题设计强调现实物理场景的建模能力，平均解答需要10个以上中间步骤，展现多阶推理要求。创新性的表达式编辑距离(EED)评分机制，通过符号表达式树相似度计算，实现对模型物理推理能力的连续量化评估。问题难度呈梯度分布，从高中基础到奥赛进阶，为模型能力评估提供多维参照。

使用方法

研究者可通过Hugging Face平台获取三种数据格式：完整解决方案的100个示例、仅含问题的400个示例以及全部500个问题的综合集。评估时建议采用双指标体系，既关注传统准确率，也运用EED评分对表达式结构相似性进行连续度量。数据集支持对大型语言模型物理感知(PP)和鲁棒推理(RR)能力的分离评估，通过错误分类可深入分析模型在物理认知链条中的薄弱环节。

背景与挑战

背景概述

PHYBench数据集由北京大学等机构的研究团队于2025年推出，旨在系统评估大语言模型在物理感知与推理方面的能力。作为首个专注于物理领域的大规模基准测试，该数据集包含500道涵盖力学、电磁学、热力学等六大物理分支的原创题目，由178名物理专业学生参与构建，并经过81名学生的多轮验证。其创新性地提出表达式编辑距离（EED）评分体系，通过符号表达式树编辑距离实现更精细的性能评估，为衡量AI系统的物理认知能力建立了首个标准化测试框架。

当前挑战

PHYBench面临的核心挑战体现在两个方面：在领域问题层面，如何准确评估大语言模型对复杂物理场景的语义理解能力，特别是处理多步骤符号推理时保持数学严谨性；在构建过程中，确保问题表述的精确性以避免歧义，同时维持题目难度梯度从高中到奥林匹克竞赛级别的合理分布。数据集的验证环节需平衡人工审核效率与质量控制的矛盾，而EED评分算法的设计需要克服不同数学表达式等价形式的识别难题。

常用场景

经典使用场景

在自然语言处理领域，PHYBench数据集被广泛用于评估大型语言模型在物理感知和推理方面的能力。通过涵盖力学、电磁学、热力学、光学和现代物理等多个物理学分支的500道精心设计的问题，该数据集为研究者提供了一个全面的测试平台。这些问题不仅要求模型具备扎实的物理知识，还需要进行多步骤的符号推理和精确的数学表达。

实际应用

在实际应用中，PHYBench数据集被用于优化和提升教育辅助工具的性能。例如，智能辅导系统可以利用该数据集来测试和改进其在物理问题解答方面的能力，从而为学生提供更准确和高效的辅导服务。此外，该数据集还可用于开发更强大的科学问答系统，帮助用户解决复杂的物理问题。

衍生相关工作

PHYBench数据集的发布催生了一系列相关研究，特别是在物理推理和符号计算领域。许多研究者基于该数据集开发了新的评估方法和模型优化技术，进一步推动了大型语言模型在科学领域的应用。此外，该数据集还被用于跨学科研究，如结合计算机视觉和自然语言处理，探索多模态物理问题解答的可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集