HLE_SFT_PHYBench

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/neko-llm/HLE_SFT_PHYBench

下载链接

链接失效反馈

官方服务：

资源简介：

HLE_SFT_PHYBench数据集是基于PHYBench公开数据集构建的，包含了包含阶段性质疑过程的物理问题学习数据。该数据集通过表现物理问题解决方案的自然推理过程，旨在提升大型语言模型（LLM）的推理能力。数据集涵盖了从PHYBench数据集中选取的100个附带解答的物理问题，这些问题涉及力学、电磁学、热力学、光学等多个物理领域。

创建时间：

2025-08-09

原始信息汇总

HLE_SFT_PHYBench 数据集概述

数据集简介

目的：用于HLE（Humanitys Last Exam）竞赛的物理问题SFT数据集
特点：包含段阶式思考过程的物理问题解答数据，旨在提升LLM的推理能力

数据格式

json { "id": 0, "question": "问题文", "output": "<think>思考过程...</think>答案", "answer": "正确答案" }

数据来源

基础数据：基于PHYBench公开数据集（Eureka Lab）
问题数量：100道物理问题
覆盖领域：力学、电磁学、热力学、光学等物理分支

创建方法

数据收集：从PHYBench选取100道带解法的问题
思考过程生成：使用DeepSeek-R1 LLM生成分步思考过程
质量评估：
- 评估维度：独立性、逻辑完整性、准确性、解答可达性
- 评级系统：A-D级
优化改进：根据评估结果重新生成低质量思考过程

基本信息

许可证：MIT License
创建日期：2025-08-02

搜集汇总

数据集介绍

构建方式

在物理学教育智能化研究领域，HLE_SFT_PHYBench数据集通过系统化方法构建而成。研究团队以PHYBench公开数据集为基础，精选涵盖力学、电磁学、热力学和光学等核心物理学科的100道典型题目。采用DeepSeek-R1语言模型对原始解题步骤进行深度解析，生成包含详细推理链条的思考过程。为确保数据质量，建立了包含独立性、逻辑完备性、准确性等维度的四级评估体系，并对未达标样本进行迭代优化，最终形成具有教学价值的标准化数据集。

特点

该数据集在物理问题求解领域展现出独特价值。每个样本均采用结构化JSON格式呈现，包含原始问题、分步推理过程和标准答案三要素。特别设计的<think>标签系统清晰标注思维轨迹，使模型能够学习从问题分析到结论推导的完整认知路径。数据覆盖大学物理主要分支，且经过严格的质量分级，其中A级样本具有示范级的解题逻辑，为大型语言模型提供了优质的物理推理学习素材。

使用方法

针对物理教育领域的AI模型训练，该数据集支持多种应用场景。研究者可直接加载JSON格式数据，利用question字段作为输入，output字段作为监督信号进行指令微调。对于进阶训练，可提取<think>标签内的中间推理步骤构建思维链监督。评估阶段则可通过对比模型输出与answer字段进行性能验证。数据集采用MIT许可协议，支持学术和商业用途的灵活使用，但需注意不同等级样本的质量差异对训练效果的影响。

背景与挑战

背景概述

HLE_SFT_PHYBench数据集由Eureka Lab于2025年推出，旨在通过物理问题解决任务提升大型语言模型（LLM）的推理能力。该数据集基于PHYBench公开数据集构建，涵盖了力学、电磁学、热力学和光学等多个物理学分支。其创新之处在于引入了分步思考过程，将传统物理问题的解法转化为自然语言推理链，为模型提供了更接近人类认知方式的学习范例。这种结构化的问题表述方式为研究复杂推理任务的建模机制提供了新的实验平台，显著推动了教育领域和人工智能交叉学科的发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，物理问题的多模态特性要求模型同时处理数学公式推导和自然语言理解，而现有模型在保持严格逻辑连贯性方面仍存在不足；在构建过程中，思考过程的自动生成需要平衡语义合理性和物理准确性，后期通过DeepSeek-R1模型进行的多轮迭代优化虽提升了数据质量，但如何建立更精确的评估标准以避免错误推理链的传播仍需探索。此外，覆盖物理学各子领域的代表性样本选择也考验着数据集的泛化能力。

常用场景

经典使用场景

在物理学科教育与大语言模型推理能力提升的研究中，HLE_SFT_PHYBench数据集通过其结构化的思考过程标注，成为评估和训练模型物理问题解决能力的基准工具。该数据集特别适用于需要分步推理的物理问题场景，如力学、电动力学等经典物理领域，为研究者提供了标准化的测试平台。

解决学术问题

该数据集有效解决了大语言模型在物理问题推理中的逻辑连贯性和准确性不足的学术难题。通过提供详细的思考步骤和标准答案，帮助模型学习如何分解复杂物理问题，并逐步推导至正确结论，显著提升了模型在科学推理任务中的表现。

衍生相关工作

基于HLE_SFT_PHYBench数据集，多项经典研究工作得以展开，包括物理问题自动求解模型的优化、多步骤推理算法的改进，以及教育领域大语言模型的微调技术。这些工作不仅推动了AI在科学教育中的应用，也为后续更复杂的数据集构建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集