five

AM-DeepSeek-R1-0528-Distilled

收藏
Hugging Face2025-06-09 更新2025-06-10 收录
下载链接:
https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-0528-Distilled
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从DeepSeek-R1-0528模型提炼的高质量推理语料库,包含260万个跨多个领域的查询。数据集采用统一格式和验证流程,每个样本都经过质量和输出验证。适用于开发具有强大可验证推理能力的下一代语言模型。
创建时间:
2025-06-04
原始信息汇总

数据集概述:AM-DeepSeek-R1-0528-Distilled

📘 数据集摘要

  • 来源模型:从改进版大语言模型DeepSeek-R1-0528蒸馏得到的高质量推理语料库。
  • 规模:包含260万条跨领域查询。
  • 特点
    • 输出长度显著增加(数学问题输出长度达早期版本的1.5-2倍)。
    • 采用统一格式和验证流程,支持与其他开源蒸馏语料库直接对比。
  • 基准性能
    基准测试 DeepSeek-R1-0528 本数据集
    AIME2024 91.4 87.1

📂 数据结构

数据字段

  • system:蒸馏使用的系统提示(部分为空,训练时不使用)。
  • conversations:对话轮次列表,包含:
    • from:发送者(humanassistant)。
    • value:完整消息内容。
    • info:元数据字典,含:
      • source:数据来源(如OpenHermes-2.5)。
      • category:任务领域(如mathcode)。
      • ground_truth:参考答案(如适用)。
      • verify_score:验证置信度(≥0.9)。
      • model_name:教师模型名称(deepseek-r1-0528)。

📈 数据统计

  • 任务领域分布
    • 通用聊天:47.3%(1,223K)
    • 数学:26.1%(674K)
    • 代码:16.0%(412K)
    • 科学:8.5%(220K)
    • 指令遵循:2.1%(54K)
  • 质量控制:所有样本经过验证和过滤。

✅ 验证与质量控制

  • 数学:Math-Verify(二元通过/失败)。
  • 代码:沙箱环境测试用例验证。
  • 科学:LLM评分答案相似性。
  • 通用聊天:奖励模型评估(如Decision-Tree-Reward-Llama-3.1-8B)。
  • 通用过滤
    • 32B LLM困惑度过滤。
    • N-gram重复过滤。
    • 结构格式检查(如<think><answer>标签)。

⚠️ 限制

  • 使用限制:仅限研究用途,禁止商业和潜在有害应用。
  • 免责声明:数据集内容不代表任何个人或机构观点。

📜 引用

bibtex @misc{AM-DeepSeek-R1-0528-Distilled, title = {AM-DeepSeek-R1-0528-Distilled}, url = {https://github.com/a-m-team/a-m-models}, author = {a-m-team}, month = {June}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过知识蒸馏技术从DeepSeek-R1-0528大语言模型中提取高质量推理语料,构建过程采用多阶段验证机制。研究人员基于改进后的DeepSeek-R1-0528模型生成2.6百万条跨领域查询,涵盖数学、编程、科学等五大任务类别。为确保数据质量,构建过程实施了自动化验证流程,包括数学问题二元验证、代码沙箱测试、科学答案相似度评分等专项检查,并辅以困惑度过滤和n-gram去重等标准化处理。
特点
作为专注推理能力提升的语料库,该数据集最显著的特征体现在数学问题解答的详尽性上,其输出长度较前代模型增加50%-100%。数据集采用统一的结构化格式,每个样本包含系统提示、对话轮次及丰富的元数据,其中特别标注了思维链内容与最终答案的对应关系。数据分布方面,通用对话占比47.3%,数学推理占26.1%,形成了兼顾广度与深度的任务平衡。所有样本均经过验证分数不低于0.9的质量筛选,确保推理过程的可靠性。
使用方法
该数据集适用于大语言模型的微调与推理能力增强研究。使用时需注意系统提示字段为可选内容,重点应关注conversations字段中的人类-助手对话序列。研究人员可通过info元数据中的任务类别、验证分数等指标进行数据筛选,其中think_content字段特别适合用于思维链推理任务的训练。为保障研究合规性,使用时应严格遵守非商业用途限制,建议配合Qwen2.5-32B等大模型进行效果验证,并按照要求规范引用数据集。
背景与挑战
背景概述
AM-DeepSeek-R1-0528-Distilled数据集是由a-m-team团队于2025年发布的高质量推理语料库,其核心研究目标在于推动大语言模型在复杂推理任务中的性能提升。该数据集基于DeepSeek-R1-0528模型的输出进行蒸馏,涵盖数学、编程、科学等多元领域,包含260万条经过严格验证的查询-响应对。其显著特色在于采用结构化推理标注体系,通过<think>和<answer>标签引导模型进行显式推理步骤分解,尤其在数学领域实现了输出长度1.5-2倍的扩展,为可验证推理能力的建模提供了新范式。该数据集通过统一的质量验证框架,为后续语言模型的指令遵循和分步推理研究建立了重要基准。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,如何确保多模态推理(如数学推导与代码生成)的严格正确性构成核心难题,现有验证方法对开放式任务的覆盖率仍存局限;在构建过程中,处理模型输出的长度激增导致的信息冗余与噪声过滤成为技术瓶颈,特别是数学类响应中重复推理步骤的识别需要设计特殊处理机制。此外,跨领域质量评估的异构性要求开发差异化的验证方案,如代码执行的沙盒测试与科学问答的语义相似度度量,这种评估体系的多重性增加了数据一致性的维护难度。
常用场景
经典使用场景
在自然语言处理领域,AM-DeepSeek-R1-0528-Distilled数据集作为高质量的推理语料库,广泛应用于语言模型的微调与评估。其独特的结构化对话格式和丰富的任务类别(如数学、编程、科学等),使其成为训练具备复杂推理能力模型的理想选择。研究人员常利用该数据集优化模型的多轮对话表现,特别是在需要逐步推理的数学问题求解和代码生成任务中,模型通过模仿数据中的<think>和<answer>标记,显著提升了逻辑连贯性。
解决学术问题
该数据集有效解决了大语言模型在复杂推理任务中表现不稳定的学术难题。通过提供经过验证的2.6百万条多领域样本,尤其是包含详细步骤的数学推导(输出长度达早期版本的1.5-2倍),为模型可解释性研究提供了基准数据。其在AIME2024等基准测试中接近教师模型的表现(87.1 vs 91.4),证实了蒸馏方法在保留模型推理能力方面的有效性,推动了知识蒸馏领域对输出质量与数量平衡的探讨。
衍生相关工作
基于该数据集衍生的经典工作包括Qwen2.5-32B等开源模型的性能优化研究。其验证流程启发了Math-Verify数学验证器、IFEval指令跟随评估器等工具的开发。多所机构参照其<think>/<answer>标注范式,构建了CoT-SC(思维链自洽)等增强推理方法。数据集中的奖励模型评估机制也被迁移应用于对话安全性检测领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作