ABench-Physics
收藏arXiv2025-07-07 更新2025-07-09 收录
下载链接:
https://github.com/inclusionAI/ABench/tree/main/Physics
下载链接
链接失效反馈官方服务:
资源简介:
ABench-Physics是一个旨在严格评估大型语言模型(LLM)物理推理和泛化能力的新型基准数据集。它由两部分组成:Phy A,一个包含400个静态的高难度研究生或奥林匹克级别的问题;Phy B,一个包含100个动态问题的子集,配备了一个自动变化引擎,以测试模型在不同条件下的鲁棒性。所有问题都需要精确的数值答案,具有严格的格式和公差限制。ABench-Physics提供了挑战性和诊断性的框架,用于推进LLM中的科学推理。
ABench-Physics is a novel benchmark dataset designed to rigorously evaluate the physical reasoning and generalization capabilities of large language models (LLMs). It consists of two components: Phy A, which contains 400 challenging static graduate-level or olympiad-level physics problems; and Phy B, a subset of 100 dynamic problems equipped with an automated variation engine to test the model's robustness under diverse conditions. All problems require precise numerical answers, with strict formatting and tolerance constraints. ABench-Physics provides a challenging and diagnostic framework for advancing scientific reasoning in LLMs.
提供机构:
浙江大学、蚂蚁集团
创建时间:
2025-07-07
搜集汇总
数据集介绍

构建方式
ABench-Physics数据集的构建采用了多阶段严谨的流程。研究团队从教科书和竞赛试题中广泛收集物理问题,通过OCR技术数字化后,经过人工提取和自动化质量检查。随后,利用Deepseek-R1模型对问题场景进行改写以引入上下文变体,并由人工审核确保逻辑一致性。数据集最终分为静态高难度问题集Phy A(400题)和动态参数化问题集Phy B(100题),后者通过LaTeX方程数值扰动引擎生成变体,每个问题均通过独立验证确保答案唯一性。
使用方法
使用ABench-Physics需遵循其分层评估协议。对于静态问题集Phy A,直接比较模型输出与标准答案的数值差异,采用1%相对误差阈值。动态集Phy B要求模型正确解答同一物理模型下的所有数值变体才计分,以此测试鲁棒性。研究建议同时报告两个子集的准确率差异(ΔAcc)以衡量泛化能力。数据集提供标准化的LaTeX解析工具处理不同数值格式,用户需严格遵循问题指定的有效数字和单位要求,确保评估结果可比性。
背景与挑战
背景概述
ABench-Physics是由浙江大学与蚂蚁集团的研究团队于2025年7月提出的一个专注于评估大语言模型物理推理能力的创新性基准数据集。该数据集针对当前LLMs在物理领域存在的概念理解薄弱、数值计算精度不足等核心问题,构建了包含400道静态高难度题目(Phy A)和100道动态变体题目(Phy B)的双轨评估体系。其创新性地采用研究生水平与物理奥赛级题目,通过严格的1%误差容忍度和自动变体生成引擎,填补了现有物理评估基准在深度与动态泛化能力测试上的空白,为推进AI科学推理研究提供了标准化测量工具。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决LLMs对物理概念建模能力不足、数值计算精度低下(最优模型准确率仅43%)以及动态条件泛化能力薄弱(平均性能下降22.5%)等核心瓶颈;在构建技术层面,需克服高难度题目语义解析的复杂性、动态变体生成中的物理逻辑一致性维护,以及避免预训练数据污染带来的评估偏差。特别是Phy B子集要求自动生成的数值变体必须保持原始物理模型的数学等价性,这对问题重构算法提出了严格的拓扑结构约束。
常用场景
经典使用场景
ABench-Physics数据集专为评估大型语言模型(LLMs)在物理推理和建模能力上的表现而设计。其经典使用场景包括对模型在解决高难度物理问题时的表现进行系统性测试,如研究生水平或奥林匹克竞赛级别的物理题目。通过静态问题集(Phy A)和动态问题集(Phy B)的结合,数据集能够全面评估模型的计算精度、概念理解能力以及对动态变化的适应性。
解决学术问题
ABench-Physics解决了现有物理推理评测中存在的多个关键问题,包括评测难度不足、静态评测模式导致的记忆依赖问题以及缺乏对模型泛化能力的有效检验。通过引入动态问题生成引擎和严格的数值答案评估标准,该数据集为研究社区提供了一个能够真实反映模型物理推理能力的评测工具,填补了高难度物理问题评测的空白。
实际应用
在实际应用中,ABench-Physics可用于指导LLMs在科学教育、智能辅导系统以及物理问题求解工具中的优化。例如,教育科技公司可以利用该数据集评估和提升其AI助教的物理问题解答能力;研究机构则可通过动态问题集测试模型在真实物理场景中的适应性,为开发更具鲁棒性的科学推理模型提供依据。
数据集最近研究
最新研究方向
随着大语言模型在数学和编程领域的显著进展,其在物理推理能力方面的探索成为当前研究的前沿热点。ABench-Physics数据集的推出填补了现有基准测试在难度、动态性和评估严谨性上的不足,为衡量模型在复杂物理问题中的深层推理和泛化能力提供了全新框架。该数据集通过静态高难度问题与动态变体生成引擎的结合,揭示了当前最先进模型在物理建模和数值扰动适应性上的显著缺陷,推动了学术界从单纯记忆模式向真正物理原理理解的范式转变。其严格数值评估协议和1%误差容忍度的设计,为多模态科学推理、教育智能化等交叉领域提供了可量化的研究工具,同时启发了动态评估范式在化学、生物等复杂科学领域的延伸应用。
相关研究论文
- 1ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems浙江大学、蚂蚁集团 · 2025年
以上内容由遇见数据集搜集并总结生成



