PHYSICS

github2025-04-01 更新2025-04-02 收录

下载链接：

https://github.com/yale-nlp/Physics

下载链接

链接失效反馈

官方服务：

资源简介：

PHYSICS是一个高级物理问题解决基准，旨在评估基础模型的推理和分析能力。该数据集包含1,297个博士资格考试问题，涵盖六个基础物理学科。

PHYSICS is an advanced physics problem-solving benchmark designed to evaluate the reasoning and analytical capabilities of foundation models. This dataset contains 1,297 PhD qualifying exam questions covering six core physics disciplines.

创建时间：

2025-03-20

原始信息汇总

PHYSICS 数据集概述

数据集基本信息

名称：PHYSICS: A Comprehensive Benchmark for Advanced Physics Reasoning
规模：1,297个问题
领域：物理学
级别：博士资格考试水平
问题类型：开放式问题（OE）
多模态：是

核心特征

学科覆盖：
- 经典力学（Classical Mechanics）
- 量子力学（Quantum Mechanics）
- 热力学与统计力学（Thermodynamics & Statistical Mechanics）
- 电磁学（Electromagnetism）
- 原子物理（Atomic Physics）
- 光学（Optics）
问题复杂度：需要深度数学建模和多步逻辑推理
评估系统：
- SymPy符号验证
- GPT-4o自然语言答案验证
模型评测：涵盖33个模型（专有模型和开源模型）

数据收集与处理

来源：公开的博士资格考试题目
标注流程：
- 专家结构化评审
- 严格的数据质量控制
评估指标：问题复杂度和难度分类

评估框架

答案级评估：
- 基于SymPy的符号等价检查
- 基于LLM的准确性验证
- 基于正确性和复杂度的加权评分
步骤级评估：
- 逐步推理评估
- 首次错误步骤识别
- 详细错误分类

实验结果

最佳模型准确率：59.9%
开源模型表现：显著落后于专有模型
学科表现差异：各学科模型表现不一，量子力学和统计力学表现相对较好

引用信息

bibtex @misc{feng2025physicsbenchmarkingfoundationmodels, title={PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving}, author={Kaiyue Feng and Yilun Zhao and Yixin Liu and Tianyu Yang and Chen Zhao and John Sous and Arman Cohan}, year={2025}, eprint={2503.21821}, archivePrefix={arXiv}, primaryClass={physics.ed-ph}, url={https://arxiv.org/abs/2503.21821}, }

许可协议

许可证：MIT License

搜集汇总

数据集介绍

构建方式

PHYSICS数据集的构建过程体现了对物理学领域深度知识的系统整合。该数据集精选了1,297道博士资格考试题目，涵盖经典力学、量子力学等六大核心物理学科。题目来源于公开的博士资格考试题库，经过专业物理学家的结构化评审和严格的质量控制流程。每道题目均标注了复杂度和难度等级，并采用SymPy符号计算系统进行数学表达式的标准化处理，确保问题表述的严谨性和可计算性。

特点

作为高阶物理推理的标杆数据集，PHYSICS展现出鲜明的专业特性。其题目平均需要5.7步推理过程，远超普通科学题目的复杂度。数据集采用双重评估机制，既包含基于SymPy的符号等价验证，又融合GPT-4o的自然语言答案校验。特别值得注意的是，该基准测试揭示了当前最先进模型仅达到59.9%的准确率，突显其在评估模型物理推理能力方面的区分度。跨学科设计使该数据集能全面检验模型在不同物理分支的表现差异。

使用方法

使用PHYSICS数据集时，研究者可通过标准化接口获取题目及其元数据。评估流程支持两种模式：答案级评估通过符号计算验证最终结果的数学等价性；步骤级评估则解析模型的推理链条，定位首个错误步骤。数据集提供预定义的验证集和测试集划分，建议采用加权评分机制以反映题目复杂度差异。对于多模态模型，可额外激活图像题目的评估模块。所有评估结果自动生成细分领域的性能分析报告，便于针对性改进模型。

背景与挑战

背景概述

PHYSICS数据集作为一项专注于高级物理推理能力的基准测试工具，由Kaiyue Feng等研究者于2025年构建，旨在评估基础模型在复杂物理问题解决中的表现。该数据集汇集了1,297道博士资格水平考题，涵盖经典力学、量子力学等六大物理学核心分支，其问题设计强调多步骤数学建模与跨学科知识整合。作为当前物理教育领域最具挑战性的评估标准之一，它不仅填补了高等教育阶段AI能力测评的空白，更为理解模型在科学推理方面的局限性提供了重要实证依据。

当前挑战

该数据集面临的挑战主要体现在两个维度：领域问题层面，现有最优模型准确率仅达59.9%，暴露出AI系统在处理需要深度理论推导与符号运算的物理问题时存在显著缺陷，特别是在电磁学和统计力学等子领域表现波动较大；数据构建层面，博士级物理问题的专业性与多样性要求严格的专家标注流程，如何确保开放性问题评分标准的客观性成为关键难题，同时多模态问题的表征方式与符号数学系统的无缝对接也构成了技术瓶颈。

常用场景

经典使用场景

在物理学研究领域，PHYSICS数据集作为一项高水平的基准测试工具，主要用于评估基础模型在解决复杂物理问题时的推理和分析能力。该数据集涵盖了经典力学、量子力学、热力学与统计力学、电磁学、原子物理学和光学等六大核心领域，为研究者提供了一个全面检验模型性能的平台。通过多步骤逻辑推理和深度数学建模，PHYSICS数据集能够精确衡量模型在高级物理问题上的表现，成为该领域内不可或缺的评估标准。

解决学术问题

PHYSICS数据集有效解决了当前人工智能在物理学领域面临的多个关键学术问题。其精心设计的评估框架，结合SymPy符号验证和GPT-4o自然语言答案验证，为模型性能提供了客观准确的衡量标准。该数据集揭示了现有模型在物理问题解决能力上的显著差距，最高准确率仅为59.9%，凸显了当前技术的局限性。通过深入分析模型在复杂物理概念理解和多步骤推理中的失败案例，为后续研究指明了改进方向。

衍生相关工作

PHYSICS数据集的发布催生了一系列相关研究工作，推动了物理智能领域的发展。基于该数据集，研究者开发了多种改进模型物理推理能力的方法，包括长链思维提示技术、检索增强生成策略等。数据集的多学科特性也促进了跨领域研究，如将物理推理能力与数学建模相结合的创新尝试。这些衍生工作不仅拓展了PHYSICS数据集的应用边界，也为构建更强大的科学问题解决AI系统提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集