HLE_SFT_OlymMATH
收藏Hugging Face2025-08-14 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/neko-llm/HLE_SFT_OlymMATH
下载链接
链接失效反馈官方服务:
资源简介:
HLE_SFT_OlymMATH数据集是基于OlymMATH公开数据集中的en-hard级别的问题和答案,生成了一个包含逐步思考过程的数学学习数据集。数据集包含问题、解答、思考过程(Chain of Thought)、问题科目、唯一标识符和元数据等信息。
创建时间:
2025-08-09
原始信息汇总
HLE_SFT_OlymMATH 数据集概述
数据集基本信息
- 数据集名称: HLE_SFT_OlymMATH
- 用途: Humanitys Last Exam (HLE) 競技用の数学問題SFTデータセット
- 数据来源: OlymMATHの公開データセット(特にen-hardの問題・解答)
数据集结构
- 特征:
id: int64question: stringoutput: stringanswer: stringsubject: stringunique_id: stringmetadata: structcot_history: listtimestamp: stringoutput: stringevaluation: structtimestamp: stringgrade: stringscore: float64passed_requirements: structindependence: boollogical_completeness: boolcorrectness: boolanswer_reached: bool
learning_value_scores: structmethod_explanation: int64step_by_step: int64verification: int64common_mistakes: int64domain_insight: int64metacognitive: int64
strengths: list of stringweaknesses: list of stringimprovement_suggestions: list of string
数据格式示例
json { "id": 0, "question": "問題文", "output": "CoT (Chain of Thought)", "answer": "解答", "subject": "問題の科目", "unique_id": "元の公開データセットに割り振られていたID", "metadata": "メタデータ" }
数据集统计信息
- 训练集:
- 样本数量: 31
- 大小: 424623 bytes
- 下载大小: 216955 bytes
- 数据集总大小: 424623 bytes
配置信息
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在数学竞赛领域,HLE_SFT_OlymMATH数据集的构建体现了对高阶思维过程的精细捕捉。该数据集基于OlymMATH公开数据集中的高难度英语数学问题,通过结构化方法将原始问题、解答过程与评分要素深度融合。研究人员采用链式思维(CoT)标注范式,为每道题目构建包含问题陈述、分步推理、最终答案的三层架构,并嵌入多维评估元数据,形成具有教学解释性的标准化数据单元。
特点
作为面向数学竞赛的专项数据集,其核心价值体现在对解题认知过程的多维度解析。每个数据样本不仅包含传统的问题-答案对,更通过metadata字段完整记录了思维链评估轨迹,包括六个维度的学习价值评分、改进建议和强弱项分析。这种设计使得数据同时具备竞赛评估和教学分析功能,特别在数学问题解决的元认知能力培养方面具有独特优势。
使用方法
该数据集的应用需结合数学教育领域的研究范式。使用者可通过解析metadata中的cot_history字段,深入分析解题过程中的认知轨迹。典型应用场景包括:构建数学解题能力评估模型时作为训练基准,开发自适应学习系统时作为反馈数据源,或进行教育数据挖掘时作为过程性分析样本。需注意各评分维度的权重分配应根据具体应用场景进行校准。
背景与挑战
背景概述
HLE_SFT_OlymMATH数据集作为面向高阶数学问题求解的专项语料库,由研究团队基于国际数学奥林匹克竞赛(OlymMATH)公开题库中的高难度英文题目构建而成。该数据集诞生于人工智能与数学教育交叉研究兴起的背景下,旨在通过结构化思维链(Chain-of-Thought)标注,推动复杂数学推理模型的开发。其核心价值体现在将竞赛级数学问题的解题过程分解为可学习的认知步骤,为解释性AI在STEM教育领域的应用提供了基准测试平台。
当前挑战
构建该数据集面临双重挑战:在领域问题层面,竞赛数学题目的开放性与多解特性要求标注系统能兼容非确定性推理路径,而传统评分标准难以量化思维链的认知价值;在技术实现层面,高精度还原人类专家级解题步骤需要设计多维评估体系,包括逻辑完备性、领域洞察力等12项细粒度指标,这对标注一致性与质量控制提出了极高要求。此外,保持原始竞赛题目的知识密度与思维深度,同时适配机器学习模型的训练需求,需平衡问题复杂度与数据可学习性之间的矛盾。
常用场景
经典使用场景
在数学教育领域,HLE_SFT_OlymMATH数据集被广泛用于训练和评估模型在解决高难度数学问题时的推理能力。数据集中的Chain of Thought(CoT)标注为研究者提供了模型思考过程的透明视图,使得分析模型在解题过程中的逻辑连贯性和步骤完整性成为可能。
解决学术问题
该数据集有效解决了数学自动解题系统中模型缺乏透明推理过程的学术难题。通过提供详细的步骤解释和错误分析,研究者能够深入探究模型在复杂数学问题上的认知局限,进而改进模型的解释性和泛化能力。这在提升AI系统的数学推理水平方面具有重要意义。
衍生相关工作
基于该数据集衍生的经典工作包括数学推理模型的基准测试框架开发,以及结合强化学习的自动解题系统优化。这些工作推动了数学教育技术领域的发展,并为后续研究提供了可靠的评估标准。
以上内容由遇见数据集搜集并总结生成



