five

AM-DeepSeek-Distilled-40M|推理数据集数据集|难度分级数据集

收藏
huggingface2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M
下载链接
链接失效反馈
资源简介:
AM-DeepSeek-Distilled-40M是一个由AM团队构建的大规模、无偏见的难度分级推理数据集,包含约3.34百万个独特查询和40百万个模型生成的响应。数据集覆盖了编程、数学、科学、指令遵循和其他一般推理任务五大类别,支持根据特定难度要求选择数据子集,适用于多种训练范式。
创建时间:
2025-04-18
原始信息汇总

AM-DeepSeek-Distilled-40M 数据集概述

基本信息

  • 许可证: CC-BY-NC-4.0
  • 任务类别: 文本生成
  • 语言: 中文、英文
  • 标签: 代码、数学、科学、指令遵循、推理、思考、deepseek-r1、蒸馏
  • 规模: 35M<n<45M

数据集内容

  • 唯一查询数: 约3.34百万
  • 总响应数: 40百万
  • 数据来源: 30个高质量开源数据集
  • 类别分布:
    • 数学: 828,639
    • 科学: 91,637
    • 代码: 489,363
    • 指令遵循: 76,520
    • 其他: 1,850,985

配置与特征

  • 配置文件: 12个.jsonl文件(3个模型×4次响应)
  • 共同特征:
    • question: 用户输入
    • answer: 模型生成的响应
    • question_source: 问题来源
    • answer_source: 响应来源模型
    • category: 类别
    • ground_truth: 正确答案
    • test_case: 代码测试用例
    • instruction_constrain: 指令约束
    • pass_rate_r1/7b/1.5b: 模型通过率
    • verify_score: 响应正确性评分
    • ppl: 困惑度
    • model_name: 生成响应的模型名称

模型与响应

  • 参与模型:
    • DeepSeek-R1-Distill-Qwen-1.5B
    • DeepSeek-R1-Distill-Qwen-7B
    • DeepSeek-R1
  • 每个查询响应数: 每个模型生成4次响应

难度评估方法

  • 基于相对性能差异:
    • 数学: 使用Math-Verify
    • 代码: 沙盒测试
    • 指令遵循: 基于instruction_constrain
    • 科学: 与正确答案匹配度
    • 其他: 使用奖励模型评分

使用限制

  • 用途限制: 仅限研究用途
  • 注意事项:
    • 每个问题重复12次
    • ground_truth可能存在不准确
    • 禁止商业利用

引用

bibtex @misc{AM-DeepSeek-Distilled-40M, title={AM-DeepSeek-Distilled-40M}, author={Sitong Zhao et al.}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量数据集是提升模型性能的关键。AM-DeepSeek-Distilled-40M数据集通过创新的多模型蒸馏方法构建,从代码、数学、科学等五大类别的30余个开源数据源中精选334万条独特查询,并利用DeepSeek-R1系列三个不同规模的模型(1.5B/7B/R1)分别生成四次响应,最终形成包含4000万条响应的庞大数据集。该数据集采用相对通过率作为难度评估标准,通过对比不同规模模型的响应表现来消除单一模型评估的偏差,为难度分级提供了更客观的依据。
使用方法
该数据集支持多种训练范式,研究者可根据pass_rate字段筛选特定难度范围的数据进行监督微调。对于偏好学习任务,可利用不同模型生成的响应构建对比样本;在强化学习场景中,verify_score字段可作为天然奖励信号。使用前需注意数据重复问题,每个原始问题对应12条不同响应记录。建议结合领域特性选择验证策略,如代码类任务使用沙箱测试,数学类采用Math-Verify工具。数据集以jsonl格式存储,可直接通过HuggingFace数据集库加载,配置名反映了模型规模和响应次数信息。
背景与挑战
背景概述
AM-DeepSeek-Distilled-40M数据集由AM团队构建,旨在解决大语言模型在数学、代码生成、科学推理及指令遵循等复杂任务中的性能优化问题。该数据集通过整合多个高质量开源数据源,涵盖约334万独特查询,总计4000万条模型生成响应,采用三种不同规模模型(1.5B、7B和R1)的四次蒸馏响应,以相对通过率为基础进行难度分级。其创新性体现在通过多模型响应聚合降低单一模型评分偏差,为监督微调、偏好学习等训练范式提供精准数据支持,显著推动了复杂推理任务的模型能力边界。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,需解决多模态任务(如代码测试用例验证、数学逻辑一致性)的自动化评估难题,现有验证工具对生成结果的严格判定存在覆盖率与准确率的平衡矛盾;2) 构建过程中,如何设计跨模型、跨任务的统一难度量化标准以消除模型能力差异带来的评分偏差,以及海量响应数据(12次重复生成)带来的存储与去冗余效率问题。此外,部分标注数据可能存在真实值(ground_truth)不准确,需进一步优化验证分数计算逻辑。
常用场景
经典使用场景
在自然语言处理领域,AM-DeepSeek-Distilled-40M数据集因其大规模、多领域覆盖和难度分级特性,成为提升大型语言模型推理能力的理想训练资源。该数据集特别适用于模型在代码生成、数学推理、科学问答等复杂任务中的性能优化。通过整合来自不同规模模型的响应,研究者能够构建更加鲁棒的训练策略,如监督微调、偏好学习和强化学习,从而显著提升模型在长推理任务中的表现。
解决学术问题
该数据集有效解决了当前大型语言模型训练中任务难度评估偏差的关键问题。传统方法依赖单一模型的绝对评分,而AM-DeepSeek-Distilled-40M通过聚合三种不同规模模型的通过率,实现了相对难度分级。这种创新方法不仅提高了难度评估的可靠性,还为研究者提供了针对不同能力阶段模型定制训练数据的可能,推动了模型能力边界探索的标准化进程。
实际应用
在实际应用中,该数据集支持开发高性能的代码辅助工具、数学解题系统和科学知识问答平台。教育科技公司可利用其分级数据构建自适应学习系统,根据用户水平动态调整题目难度。企业研发团队则能基于多模型响应对比,优化对话系统的逻辑一致性和事实准确性,显著提升智能客服、自动编程助手等产品的用户体验。
数据集最近研究
最新研究方向
在大型语言模型(LLM)领域,AM-DeepSeek-Distilled-40M数据集因其大规模、无偏见的难度分级特性而备受关注。该数据集覆盖代码、数学、科学、指令遵循和一般推理任务五大类别,为模型训练提供了丰富多样的素材。当前研究聚焦于如何利用该数据集提升模型在复杂推理任务中的表现,尤其是在多轮推理和难度自适应学习方面。前沿探索包括结合强化学习(如PPO、GRPO)和偏好学习(如DPO)方法,优化模型在不同难度任务上的泛化能力。该数据集的独特设计为研究者提供了按难度筛选数据子集的可能性,从而支持更精细化的训练策略。近期热点集中在如何克服单一模型难度评分的偏差问题,通过多模型响应聚合计算通过率的方法,为任务难度评估提供了更可靠的解决方案。这一创新不仅提升了模型训练的透明度,也为LLM在数学推导、代码生成等专业领域的性能优化开辟了新路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作