PHYSICS

github2025-06-17 更新2025-06-19 收录

下载链接：

https://github.com/Zhengsh123/PHYSICS

下载链接

链接失效反馈

官方服务：

资源简介：

我们引入了一个大规模、高质量且广泛具有挑战性的PHYSICS数据集，用于训练和评估，同时提供了一个Rule+Model评估框架，为增强大型模型的物理推理能力提供了新的解决方案。数据集包含16,568个样本，覆盖力学、电磁学、热力学、光学和现代物理五个领域，以及从高中到研究生四个难度级别。

We introduce a large-scale, high-quality, and broadly challenging PHYSICS dataset for training and evaluation, while also providing a Rule+Model evaluation framework that offers a novel solution for enhancing the physical reasoning capabilities of large-scale models. The dataset contains 16,568 samples, covering mechanics, electromagnetism, thermodynamics, optics, and modern physics in five domains, as well as four difficulty levels ranging from high school to graduate level.

创建时间：

2025-06-16

原始信息汇总

PHYSICS数据集概述

数据集简介

目的：增强大型模型的物理推理能力
特点：大规模、高质量、广泛挑战性
配套框架：Rule+Model评估框架

数据规模与构成

总样本量：16,568个
- 训练集：14,568个（含推理路径）
- 测试集：2,000个（难度与主题平衡）
数据来源：100+本教科书
扩展方式：中英双语翻译

数据质量保证

模型校正
专家审核

领域与难度覆盖

五大物理领域：
- 力学
- 电磁学
- 热力学
- 光学
- 现代物理
四个难度级别：
- 高中及以下
- 高中竞赛级
- 非物理专业本科
- 物理专业本科/研究生

数据字段说明

id：唯一标识符
question：物理问题
solution：分步解答过程
answer：正确答案列表
answer_type：答案类型（区间/表达式/方程/真假/多选/数值/开放）
language：语言（中文/英文）
domain：所属物理领域
difficulty：难度等级
translate：是否翻译所得
reason_path（仅训练集）：QwQ-32B生成的详细推理路径

实验评估

评估模型：GPT-3、Gemini-Pro-2.5、Grok-3、DeepSeek-R1等
评估设置：零样本
关键结果：
- GPT-3准确率：58.9%
- DeepSeek-R1准确率：55.3%
- 闭源与开源模型存在显著差距
- 热力学和现代物理领域挑战最大

获取方式

论文：https://arxiv.org/abs/2506.00022
数据集：https://huggingface.co/datasets/desimfj/PHYSICS
原始数据：https://drive.google.com/file/d/1QFGA_CTAn7_NNyBWaybvRcwdTjfrtZZF/view

引用格式

bibtex @article{zheng2025scaling, title={Scaling Physical Reasoning with the PHYSICS Dataset}, author={Zheng, Shenghe and Cheng, Qianjia and Yao, Junchi and Wu, Mengsong and Ding, Ning and Cheng, Yu and Hu, Shuyue and Bai, Lei and Zhou, Dongzhan and Cui, Ganqu and others}, journal={arXiv preprint arXiv:2506.00022}, year={2025} }

搜集汇总

数据集介绍

构建方式

在物理学科教育研究领域，PHYSICS数据集的构建体现了严谨的学术态度与创新的技术路线。研究团队从100余本经典教材中精选8,284道高质量物理题目，通过双语翻译扩展至16,568题规模。采用7:1的比例划分训练集（14,568题）与测试集（2,000题），其中训练集包含由QwQ-32B模型生成的标准推理路径。为确保数据质量，研究团队实施了多轮校验机制，包括模型自动修正与专家人工审核，最终形成覆盖五大物理分支、四个难度层级的标准化数据集。

特点

该数据集展现出鲜明的多维学术特征。内容维度上全面涵盖力学、电磁学、热力学、光学和近代物理五大经典领域，难度梯度则精确划分高中基础、竞赛水平、非物理专业本科及物理专业本研四个层级。技术特色方面，每个样本均标注详细的元数据，包括问题类型、语言版本、学科领域等12类特征标签。特别值得注意的是，训练集配备结构化推理路径，为模型的可解释性研究提供了珍贵素材。测试集经过严格的难度平衡与主题均衡处理，确保评估结果的科学性。

使用方法

该数据集支持多样化的研究应用场景。对于模型训练，研究者可直接利用附带的推理路径进行监督学习；评估阶段建议采用零样本测试框架，参照论文提供的标准化提示模板。使用过程中需特别注意问题类型的差异性处理，如区间类、表达式类等七种答案类型对应不同的评估标准。数据集文件采用结构化JSON格式存储，每个样本包含完整的元数据标识，研究者可根据domain、difficulty等字段进行灵活的子集划分。对于跨语言研究，中英双语对照的样本设计支持对比实验的开展。

背景与挑战

背景概述

PHYSICS数据集由Shenghe Zheng等研究人员于2025年提出，旨在提升大模型在物理推理领域的能力。该数据集源自超过100本教材的8,284道高质量物理题目，经过双语扩展后达到16,568题，涵盖力学、电磁学、热力学、光学和现代物理五大领域，难度横跨中学至研究生水平。通过引入规则+模型的评估框架，该数据集为物理推理任务的标准化测评提供了重要基准，推动了复杂科学问题求解方法的发展。

当前挑战

PHYSICS数据集面临的挑战主要体现在两个方面：在领域问题层面，热力学和现代物理等学科的高错误率揭示了模型对抽象概念和数学表述的推理局限；在构建过程中，多语言翻译的语义一致性维护、跨难度题目的平衡筛选，以及专家校验环节的知识准确性保障，均对数据质量提出了严峻考验。当前主流大模型在该数据集上的表现显示，闭源与开源模型间存在显著性能鸿沟，最高准确率仅为58.9%，凸显物理推理能力提升的迫切性。

常用场景

经典使用场景

在物理学教育领域，PHYSICS数据集为研究者提供了一个标准化的基准测试平台，用于评估和提升大型模型在物理推理任务上的表现。该数据集涵盖了从高中到研究生阶段的多个难度层次，以及力学、电磁学、热力学、光学和现代物理等多个子领域，使其成为研究物理问题理解和推理能力的理想工具。

解决学术问题

PHYSICS数据集解决了物理推理任务中数据稀缺和质量不均的问题。通过提供高质量、多领域、多难度的物理问题及其详细解答路径，该数据集为研究者提供了可靠的训练和评估资源。这不仅填补了物理推理领域的数据空白，还为模型性能的量化比较提供了统一标准，推动了物理推理研究的深入发展。

衍生相关工作

围绕PHYSICS数据集，研究者们开展了一系列创新性工作。其中包括基于该数据集开发的Rule+Model评估框架，以及针对不同物理子领域的专项研究。这些工作不仅验证了数据集的实用价值，还进一步拓展了其在物理教育、自动解题等领域的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集