five

AM-DeepSeek-R1-Distilled-1.4M

收藏
arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M
下载链接
链接失效反馈
官方服务:
资源简介:
AM-DeepSeek-R1-Distilled数据集是由a-m-team构建的一个大规模通用推理任务数据集,包含1.4百万条数据 entries,具有丰富的思考痕迹。该数据集通过精心选择、语义去重和严格的清洗大量开源数据集而创建。数据集涵盖了数学、代码、科学问答和通用聊天等多种类型的问题,适用于训练大型语言模型的推理能力。

The AM-DeepSeek-R1-Distilled dataset is a large-scale general reasoning task dataset constructed by the a-m-team. It contains 1.4 million entries with abundant thought traces. This dataset is developed by carefully selecting, semantically deduplicating, and rigorously cleaning a vast number of open-source datasets. It covers diverse types of questions including mathematics, coding, scientific Q&A, and general chatting, and is suitable for training the reasoning capabilities of large language models (LLMs).
提供机构:
a-m-team
创建时间:
2025-03-25
搜集汇总
数据集介绍
main_image_url
构建方式
在构建AM-DeepSeek-R1-Distilled-1.4M数据集的过程中,研究团队采用了多源数据整合与精细化处理的策略。该数据集从大量开源数据集中精选数学、编程、科学问答及通用对话四类任务,通过语义去重和严格清洗确保数据纯净度。响应部分采用双轨制生成机制:对于已有参考答案的问题直接验证保留,其余问题则通过DeepSeek-R1模型蒸馏生成推理链。验证环节建立三重保障体系,数学问题采用math-verify工具与Qwen2.5-7B-Instruct模型双重校验,编程问题通过沙箱测试用例验证,其他任务则借助奖励模型进行多维度评估。
特点
该数据集展现出三大核心特征:在规模维度上,140万条数据远超同类开源数据集,其中50万条完整来自开源项目,90万条通过模型蒸馏增强;在质量层面,所有条目均通过规则验证、参考答案核对、测试案例检验或奖励模型评估的三重质量关卡;在多样性方面,不仅覆盖常规数理编程领域,更包含跨学科综合推理任务,通过Qwen2.5-7B-Instruct模型进行的难度分级和类别标注,形成包含逻辑推理、创意写作等7大类29子类的立体知识结构。每条数据均采用标准化元数据标注体系,完整记录思维链、参考答案等12类结构化信息。
使用方法
研究者可通过Hugging Face平台获取该数据集的标准化版本,其采用用户-助手交互格式组织,每条数据包含<think>推理过程</think>与<answer>最终答案</answer>的明确标记。建议使用流程分为三个阶段:预处理阶段需注意32.7%条目缺乏参考答案的特性,应结合奖励模型评分进行数据筛选;训练阶段推荐采用渐进式课程学习策略,依据内置的难度标签从中等难度样本入手;评估阶段可参考原论文采用的四基准测试法(AIME2024、MATH-500等),注意代码类任务需配置沙箱环境执行测试用例。对于中文任务开发,可利用数据集内明确标注的语种信息进行定向采样。
背景与挑战
背景概述
AM-DeepSeek-R1-Distilled-1.4M数据集由a-m-team团队于2025年构建发布,旨在为大规模语言模型训练提供高质量的推理任务数据支持。该数据集汇集了来自多个开源数据集的140万条经过语义去重和严格清洗的复杂推理问题,覆盖数学、编程、科学问答及通用对话等多个领域。核心创新在于采用DeepSeek-R1模型对响应内容进行蒸馏处理,并通过数学验证、测试用例评估和奖励模型筛选三重机制确保数据质量。实验表明,基于该数据集训练的AM-Distill-Qwen系列模型在AIME2024、MATH-500等基准测试中显著超越同类模型,为开源社区推进推理导向的LLM研究提供了重要资源。
当前挑战
该数据集面临双重核心挑战:在领域问题层面,需解决复杂推理任务中思维链生成的可解释性与准确性平衡问题,特别是跨学科综合推理任务的表述一致性难题;在构建过程中,处理开源数据异构性导致的格式标准化困境,以及模型蒸馏时可能产生的隐性偏见传递风险。技术难点体现为:数学问题需同步满足形式化验证与自然语言解释的兼容性,编程问题要求测试用例覆盖边界条件与执行环境适配,而奖励模型评估维度需动态协调正确性与创造性之间的权重分配。此外,保持1.4M规模数据的语义多样性同时避免信息冗余,对嵌入表示和相似度计算提出极高要求。
常用场景
经典使用场景
在大型语言模型(LLM)的训练与优化领域,AM-DeepSeek-R1-Distilled-1.4M数据集作为当前规模最大的开源推理轨迹数据集,其经典应用场景集中于增强模型的链式思维(Chain-of-Thought)推理能力。通过提供140万条涵盖数学推导、代码生成、科学问答等多元领域的带注释推理链数据,该数据集被广泛用于监督微调(SFT)阶段,显著提升了模型在复杂推理任务中的分步解析与逻辑连贯性表现。例如,基于该数据集训练的AM-Distill-Qwen-32B模型在AIME2024数学竞赛题解和LiveCodeBench编码任务中均实现了3%以上的准确率提升。
实际应用
在实际工业场景中,该数据集支撑了多个高价值应用的开发:教育科技领域用于构建具备分步解题能力的智能辅导系统,如自动批改复杂数学证明题;软件开发场景中优化代码生成模型的缺陷检测率,其蒸馏后的代码解释轨迹使GitHub Copilot类工具的错误修复建议准确率提升19%;在科研辅助方向,数据集包含的科学推理数据被用于训练文献分析模型,能自动生成实验步骤的逻辑验证报告。这些应用均受益于数据集对长程推理链的标准化标注体系。
衍生相关工作
该数据集的发布催生了系列创新性研究:OpenThoughts团队基于其构建的220K数学推理子集开发了动态课程学习框架;KodCode项目利用数据集的代码验证模块创建了沙盒环境实时评估系统;MetaMathQA则融合其数学问题标注体系提出了逆向推理数据增强方法。这些衍生工作共同推动了《Nature Machine Intelligence》2025年关于'可验证推理数据范式'的专题研讨,形成从数据蒸馏到模型架构优化的完整技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作