HLE_SFT_PhysReason

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/neko-llm/HLE_SFT_PhysReason

下载链接

链接失效反馈

官方服务：

资源简介：

HLE物理问题SFT数据集是一个基于PhysReason数据集的精选物理问题集，它包含了202个没有图像的物理问题，这些问题覆盖了从力学到电磁学等多个物理领域。每个问题都包含了一个详细的解题思考过程，旨在通过训练来提高LLM的高级推理能力。问题的难度分布包括基本概念确认问题、简单问题（5个步骤以下）、中等难度问题（6-10个步骤）和困难问题（11个步骤以上）。

The HLE Physics Problem SFT Dataset is a curated physics problem set based on the PhysReason dataset. It contains 202 physics problems without images, covering multiple physics fields such as mechanics and electromagnetism. Each problem includes a detailed problem-solving reasoning process, aiming to improve the advanced reasoning capabilities of LLMs through training. The difficulty of the problems is divided into four categories: basic concept verification questions, simple questions (below 5 steps), medium-difficulty questions (6-10 steps), and difficult questions (more than 11 steps).

创建时间：

2025-08-09

原始信息汇总

HLE_SFT_PhysReason 数据集概述

数据集简介

用途: HLE（Humanitys Last Exam）竞技用物理问题SFT数据集
目标: 通过包含阶段性思考过程的学习数据，提升LLM在复杂物理推理问题上的高级推理能力
基础数据: 基于PhysReason的无图像问题（从226题中精选202题）

数据格式

json { "id": 0, "question": "问题文（整合多个子问题）", "output": "<think>思考过程...</think>答案", "answer": "正确答案", "metadata": { "original_solution": "原始解法", "cot_history": "思考过程生成历史" } }

数据集构建方法

数据收集与筛选
- 来源: PhysReason数据集（1,200题）
- 筛选标准: 无图像问题226题 → 精选202题
- 覆盖领域: 力学、电磁学、波动、能量等物理分支
问题结构整合
- 将原数据集中的多子问题结构整合为完整单一问题
思考过程生成
- 使用工具: DeepSeek-R1 LLM
- 基础: 原始详细解法步骤（平均8.1步）
质量评估
- 评估维度:
  - 必须要求（独立性/逻辑完整性/准确性/解答到达）
  - 6个学习价值维度
- 评级标准: 按A-D等级划分
高质量数据筛选
- 优先选择: 学习价值高的数据
- 侧重难度: medium及以上难度问题

关键信息

原始数据来源: 西安交通大学与新加坡国立大学合作的PhysReason
问题数量: 202题（从226题无图像问题中精选）
难度分级:
- knowledge: 基础概念确认题
- easy: ≤5步解决的问题
- medium: 6-10步问题
- difficult: ≥11步问题
许可协议: MIT License
创建日期: 2025-08-07

搜集汇总

数据集介绍

构建方式

在物理推理领域的研究中，HLE_SFT_PhysReason数据集的构建体现了严谨的科学方法论。研究团队从PhysReason原始数据集的1200道题目中，系统性地筛选出226道无图像问题，并进一步精选出202道具有高学习价值的题目，覆盖力学、电磁学、波动和能量等多个物理学分支。通过整合原数据集中包含的多个子问题，将其重构为完整的物理问题。采用DeepSeek-R1语言模型，基于原始解法步骤生成自然流畅的思考过程，并建立多维度评估体系对思考过程的质量进行分级，最终筛选出中等难度以上的高质量数据。

特点

该数据集展现了物理推理问题的典型特征，其核心价值在于包含详细的逐步思考过程。每道题目不仅提供标准答案，更通过<think>标签完整呈现解题的思维链条，平均包含8.1个推理步骤。数据集特别注重难度梯度设计，将问题分为四个层级：基本概念题、简单题（5步以下）、中等题（6-10步）和难题（11步以上）。元数据中保留了原始解法和思考过程生成历史，为研究者提供了丰富的分析维度。这种结构设计特别适合训练语言模型处理复杂物理推理任务。

使用方法

研究者可通过标准JSON格式便捷地使用该数据集，每个数据条目包含问题描述、思考过程、标准答案和元数据四部分。在模型训练时，建议重点关注output字段中的<think>思考过程，这可以作为监督微调(SFT)的理想目标。对于进阶研究，metadata中的original_solution和cot_history字段为分析思考过程生成质量提供了宝贵参考。该数据集特别适用于提升语言模型在物理领域的多步推理能力，建议配合few-shot learning或chain-of-thought等技术使用，以充分发挥其教育价值。

背景与挑战

背景概述

HLE_SFT_PhysReason数据集由西安交通大学与新加坡国立大学联合开发，于2025年8月正式发布，旨在推动大型语言模型在复杂物理推理任务中的表现。该数据集基于PhysReason基准测试中的非视觉问题，精选202道涵盖力学、电磁学、波动等多领域的物理题目，通过重构问题结构和生成渐进式思考链，为模型训练提供具有深度推理过程的高质量数据。其创新性地采用分步解法标注体系，平均每题包含8.1个推理步骤，显著提升了物理问题求解的可解释性训练范式。

当前挑战

构建该数据集面临双重挑战：在领域问题层面，物理推理涉及多概念交叉与非线性计算，要求模型同时掌握符号运算和定性分析能力，而现有语言模型在长链条逻辑推导中易出现错误累积；在数据构建层面，需解决原始问题中多个子问题的语义整合难题，并通过自动化流程确保生成的思考过程既符合物理定律又保持自然语言流畅性，为此开发团队设计了包含独立性验证和逻辑完备性检测的四级评估体系。

常用场景

经典使用场景

在物理推理与问题求解领域，HLE_SFT_PhysReason数据集为研究者提供了一个高度结构化的基准测试平台。该数据集通过整合复杂的物理问题及其分步解答过程，特别适合用于训练和评估大型语言模型在物理推理任务中的表现。研究者可以利用这一数据集来测试模型在解决多步骤物理问题时的逻辑连贯性和准确性，从而深入理解模型在处理科学推理任务时的潜力与局限。

衍生相关工作

基于HLE_SFT_PhysReason数据集，已衍生出多项关于物理问题自动求解和科学推理能力评估的重要研究。部分工作聚焦于改进模型的链式思考(COT)能力，另一些则探索如何将此类结构化物理问题应用于跨学科的科学推理任务。这些研究不仅验证了数据集的价值，也推动了AI在科学教育和技术领域的更广泛应用。

数据集最近研究