GPT-OSS-20B-Distilled-Reasoning-Mini
收藏Hugging Face2025-08-11 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/Jackrong/GPT-OSS-20B-Distilled-Reasoning-Mini
下载链接
链接失效反馈官方服务:
资源简介:
这是一个高质量指令微调数据集,通过知识蒸馏构建,具有详细的思维链(CoT)推理过程。该数据集旨在提高较小语言模型在复杂推理、逻辑分析和指令遵循方面的能力。
创建时间:
2025-08-10
原始信息汇总
GPT-OSS-20B Distilled Reasoning Dataset Mini 数据集概述
数据集基本信息
- 名称: GPT-OSS-20B Distilled Reasoning Dataset Mini
- 许可证: Apache-2.0
- 任务类别: 文本分类、问答、文本生成
- 语言: 英语 (en)
- 数据规模: 1K<n<10K
数据集描述
- 目的: 通过知识蒸馏构建的高质量指令微调数据集,旨在增强小型语言模型在复杂推理、逻辑分析和指令遵循方面的能力。
- 构建方法: 采用三阶段精心设计的过程:
- 种子问题聚合: 从多个高质量数据源收集和筛选种子问题。
- 知识蒸馏与清理: 使用
opeanai/gpt-oss-20b作为教师模型生成深度推理和响应,并进行严格的自动清理。 - 质量评估: 使用
Qwen/Qwen3-235B-A22B-Instruct-2507作为评判模型对生成数据进行多维度评分。
数据来源
- 教师模型:
unsloth/gpt-oss-20b - 评判模型:
Qwen/Qwen3-235B-A22B-Instruct-2507 - 种子问题来源:
- 自生成问题 (300条)
- 外部数据集:
facebook/natural_reasoning,vicgalle/alpaca-gpt4,openai/gsm8k,fka/awesome-chatgpt-prompts,microsoft/rStar-Coder,nvidia/OpenScience
数据集结构
- 格式:
.jsonl(每行一个JSON对象) - 数据字段:
id: 唯一标识符category: 问题类别input: 用户指令或查询CoT_content: 教师模型生成的推理过程answer_content: 教师模型生成的最终答案judge_reviews: 评判模型的评论列表scores: 输入、推理和答案的评分total_score: 加权总分num_judgments: 评判次数
使用场景
- 模型微调: 提升语言模型的逻辑推理和指令遵循能力。
- 学术研究: 研究知识蒸馏效果和推理生成机制。
- 模型评估: 作为复杂推理任务的基准。
限制与注意事项
- 不适用范围:
- 需要高事实精确度的生产环境
- 非英语任务
- 恶意应用
致谢
- 教师模型:
opeanai/gpt-oss-20b - 评判模型:
Qwen/Qwen3-235B-A22B-Instruct-2507 - 种子问题来源: 多个公开数据集
引用
bibtex @dataset{jackrong2025gptossdistilled, author = {JACKRONG}, title = {Jackrong/GPT-OSS-20B-Distilled-Reasoning-Mini}, month = aug, year = {2025}, publisher = {Hugging Face}, version = {1.0.0}, url = {https://huggingface.co/datasets/Jackrong/GPT-OSS-20B-Distilled-Reasoning-Mini} }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量推理数据集的构建对提升模型逻辑能力至关重要。GPT-OSS-20B-Distilled-Reasoning-Mini采用三阶段知识蒸馏框架:首先聚合来自自生成及6个权威开源数据集的1990个种子问题;随后通过GPT-OSS-20B教师模型生成包含逐步推理链的响应,并经过自动化清洗去除逻辑矛盾或格式错误;最终采用Qwen3-235B作为评判模型,从输入质量、推理连贯性和答案准确性三个维度进行加权评分,确保90%以上样本达到8-10分的优质标准。
使用方法
作为专为复杂推理任务设计的微调数据集,建议使用者采用动态拆分策略充分发挥其价值。由于未预设固定划分,研究人员需根据任务需求随机分割数据,特别注意保持逻辑推理、数学问题等7个类别在训练验证集中的均衡分布。数据集采用jsonl格式存储,每个样本包含完整的评分元数据,既可直接用于模型微调以增强逐步推理能力,也可作为评估基准测试模型在思维链生成任务上的表现。需注意避免将AI生成内容直接用于高风险的决策场景。
背景与挑战
背景概述
GPT-OSS-20B-Distilled-Reasoning-Mini数据集是2025年由研究者Jack Rong构建的高质量指令微调数据集,旨在通过知识蒸馏技术提升小型语言模型在复杂推理、逻辑分析和指令遵循方面的能力。该数据集采用三阶段构建方法,包括种子问题聚合、知识蒸馏与清洗以及基于LLM-as-a-Judge的质量评估,涵盖了逻辑推理、基础数学、科学知识、编程思维等七大核心思维模板。其创新性地运用了GPT-OSS-20B作为教师模型生成思维链推理,并通过Qwen3-235B模型进行多维评分,为语言模型的推理能力优化提供了新的研究范式。
当前挑战
该数据集主要解决自然语言处理领域中复杂推理任务的质量数据稀缺问题。在构建过程中面临三大核心挑战:首先,确保种子问题的多样性与代表性需要平衡不同来源数据的覆盖范围与质量;其次,教师模型生成的思维链可能存在逻辑跳跃或事实错误,需设计严格的自动化清洗流程;最后,LLM-as-a-Judge评分系统的可靠性依赖于评判模型的认知能力,需建立多维加权评估体系来量化推理质量。这些挑战反映了知识蒸馏过程中质量控制的复杂性,以及评估指标设计对数据集效度的关键影响。
常用场景
经典使用场景
在自然语言处理领域,GPT-OSS-20B-Distilled-Reasoning-Mini数据集作为高质量的知识蒸馏产物,其经典应用场景主要体现在提升中小规模语言模型的复杂推理能力。该数据集通过精心设计的思维链标注,为模型训练提供了丰富的逻辑推理范例,特别适用于需要多步推理的数学问题求解、科学知识问答等任务场景。研究人员可基于该数据集构建更高效的微调流程,使轻量级模型展现出接近大型教师模型的推理性能。
解决学术问题
该数据集有效解决了知识蒸馏领域的关键学术问题,包括中小模型推理能力不足的瓶颈问题、思维链生成的质量控制问题等。通过三阶段精炼流程构建的高质量标注数据,为研究社区提供了验证知识迁移效率的标准基准,其多维评分体系更开创性地建立了AI生成内容的量化评估范式,对推动可解释AI和推理模型的发展具有重要理论价值。
实际应用
在实际应用层面,该数据集已成功应用于智能教育系统的自动解题引擎开发,显著提升了系统在数学应用题解答方面的准确率。金融领域利用其构建的推理模型能够更可靠地处理合规审查中的逻辑推演任务。此外,在客服机器人场景中,基于该数据集微调的模型展现出更优秀的多轮对话连贯性和复杂查询处理能力。
数据集最近研究
最新研究方向
在自然语言处理领域,GPT-OSS-20B-Distilled-Reasoning-Mini数据集代表了知识蒸馏与推理能力提升的前沿探索。该数据集通过多阶段评估精炼方法构建,融合了链式思维推理过程,为小型语言模型的复杂推理能力优化提供了高质量训练资源。当前研究聚焦于三个核心方向:一是探索知识蒸馏过程中教师模型与学生模型之间的能力迁移机制,二是验证链式思维标注对模型泛化性能的影响,三是评估LLM-as-a-Judge评分体系在数据质量控制中的有效性。随着开源大模型生态的蓬勃发展,此类精炼数据集在模型轻量化、推理能力迁移等热点研究中展现出独特价值,为构建高效能的小规模推理模型提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



