HLE_SFT_OpenThoughts-114k

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/neko-llm/HLE_SFT_OpenThoughts-114k

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts-114k过滤子集是一个包含6000个数学、科学、代码和谜题等领域问题的合成推论数据集。每个样本都包含一个问题、一个思考过程和一个答案，以JSON格式组织。数据集通过确保答案的正确性并过滤掉难以理解的样本进行了优化。

创建时间：

2025-07-26

原始信息汇总

OpenThoughts-114k 过滤后数据集概述

数据集基本信息

许可证: Apache 2.0
数据格式: JSON
下载大小: 102,424,185 字节
数据集大小: 242,257,553 字节
训练集样本数: 6,000 条

数据字段说明

id: 整型，唯一标识符
question: 字符串，问题描述
output: 字符串，包含思考过程(<think>)和答案
answer: 字符串，正确答案

数据来源与领域分布

来源	领域	样本数
AI-MO/NuminaMath-CoT	数学	5,000
BAAI/TACO	代码	100
codeparrot/apps	代码	70
deepmind/code_contests	代码	100
MatrixStudio/Codeforces-Python-Submissions	代码	30
camel-ai/chemistry	化学	175
camel-ai/biology	生物	25
camel-ai/physics	物理	200
INK-USC/riddle_sense	谜题	300

数据特点

原始数据集为open-thoughts/OpenThoughts-114k的过滤子集
包含数学、科学、代码、谜题等多领域问题
通过模式匹配进行正误判定过滤
确保NuminaMath-CoT和riddle_sense来源数据的准确性

数据创建方法

从原始metadata提取问题、推理过程和答案
输出格式标准化为<think>{推理过程}</think>答案
通过oxed{}和**Answer**:等模式提取答案
对输出较长且难度较高的样本进行概率抽样

搜集汇总

数据集介绍

构建方式

该数据集源于对OpenThoughts-114k原始数据集的精炼处理，通过多维度筛选机制构建而成。研究人员首先从原始114,000条跨学科样本中，依据领域权重和样本质量进行分层抽样，重点保留了数学、编程及自然科学等核心领域的典型问题。采用双重验证机制，对DeepSeek-R1生成的推理轨迹进行模式匹配，通过识别标准答案标记（如\boxed{}和**Answer**）确保数据可靠性，同时剔除表述模糊或缺乏明确解答的样本。最终通过概率抽样策略，精选出6,000条兼具难度梯度与逻辑完整性的优质数据。

特点

数据集呈现出显著的跨学科特性，覆盖数学推导、编程解题与科学推理三大认知维度。每个样本均包含问题描述、思维链输出和标准答案三元组，其中思维链以<think>标签明确标注推理过程，为可解释性研究提供结构化数据支持。特别值得注意的是，数学类样本全部经过人工验证，错误率低于原始数据集；编程类问题则保留了竞赛级难度特征，包含代码竞赛平台的真实提交记录。数据分布上，数学类占比83.3%，精准匹配当前AI推理研究的重点需求。

使用方法

该数据集适用于大语言模型的推理能力微调与评估，建议以标准JSON格式加载后进行任务适配。研究者可将'question'字段作为模型输入，'output'字段中的<think>...</think>片段作为中间推理监督信号，'answer'字段作为最终验证目标。对于多步推理任务，建议提取思维链标签内容进行分步训练；在评估阶段，可通过对比模型输出与answer字段的匹配度量化性能。数据集兼容HuggingFace生态工具链，支持单卡加载与分布式训练，其Apache 2.0许可允许学术与商业场景的灵活应用。

背景与挑战

背景概述

HLE_SFT_OpenThoughts-114k数据集是open-thoughts/OpenThoughts-114k数据集的一个精选子集，由neko-llm团队于2025年8月发布。该数据集源自多个公开的高质量数据集，涵盖数学、科学、编程和谜题等多个领域，旨在为合成推理任务提供丰富的训练样本。通过DeepSeek-R1模型生成推理轨迹并验证其准确性，数据集特别强调了问题解答的逻辑性和正确性。其构建过程中采用了严格的筛选机制，确保样本的多样性和可靠性，为自然语言处理和机器学习领域的研究提供了重要支持。

当前挑战

HLE_SFT_OpenThoughts-114k数据集面临的主要挑战包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决多领域复杂推理任务，但不同领域的问题形式和解答标准差异显著，如何确保模型跨领域的泛化能力成为关键难题。在构建过程中，数据筛选的严格性导致部分样本被排除，可能影响数据集的覆盖范围；同时，依赖模式匹配（如`\boxed{}`和`**Answer**`标记）提取答案，可能遗漏某些非标准格式的正确解答。此外，原始数据中的误答样本虽经筛选，但仍可能残留噪声，对模型训练构成潜在干扰。

常用场景

经典使用场景

HLE_SFT_OpenThoughts-114k数据集作为合成推理解数据集，广泛应用于数学、科学、编程和谜题等领域的研究。其经典使用场景包括训练和评估语言模型在复杂推理任务中的表现，特别是在多步推理和逻辑推导方面。通过提供详细的推理过程和答案，该数据集为研究者提供了丰富的实验材料，用于验证模型在复杂问题求解中的能力。

衍生相关工作

围绕该数据集衍生的经典工作包括推理增强的语言模型架构研究和多模态推理系统开发。研究者基于该数据集提出了多种改进模型推理能力的方法，如思维链提示和自洽性验证。同时，该数据集也启发了跨领域推理任务的基准测试设计，推动了AI系统综合推理能力评估标准的发展。

数据集最近研究