five

AM-DeepSeek-Distilled-40M|自然语言处理数据集|机器学习数据集

收藏
arXiv2025-04-24 更新2025-04-26 收录
自然语言处理
机器学习
下载链接:
https://huggingface.co/datasets/am-team/AM-DeepSeek-Distilled-40M
下载链接
链接失效反馈
资源简介:
AM-DeepSeek-Distilled-40M数据集是一个大规模的、难度分级的推理数据集,包含约3.34百万个独特的推理查询,每个查询都与丰富的元数据和40百万个模型生成的响应配对。该数据集的设计可以促进不同大小和能力的模型的定制训练,并支持包括DPO、GRPO在内的下游对齐方法的进一步应用。该数据集已被公开释放,以作为具有挑战性的基准和多功能训练资源。
提供机构:
a-m-team
创建时间:
2025-04-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
AM-DeepSeek-Distilled-40M数据集的构建采用了多阶段精细化处理流程。研究团队从数学推理、代码生成、科学推理等六大类公开语料库中收集原始数据,经过严格的去重、过滤和净化处理,最终筛选出334万条高质量查询。每条查询通过三个不同能力的模型(DeepSeek-R1系列)进行四轮独立蒸馏,生成约4000万条包含推理过程和最终答案的响应。为确保数据质量,研究团队设计了基于Math-Verify、沙箱测试等方法的分类验证机制,并创新性地采用变异系数(CV)量化模型响应的稳定性,从而筛选出最具训练价值的数据样本。
特点
该数据集的核心特征体现在其难度分级设计和多维质量评估体系。数据集覆盖数学推理(24.8%)、代码生成(14.7%)、科学推理(2.7%)等六种任务类型,通过模型通过率和变异系数的双重指标,实现了对查询难度的精确量化。特别值得注意的是,数据集包含模型在多次尝试中产生的差异化响应,这种响应多样性为研究模型的不确定性提供了独特视角。数据验证环节采用分类定制策略,如数学问题采用两阶段验证机制,代码生成依赖沙箱测试用例,而多轮对话则评估连贯性、正确性和帮助性三个维度,确保评估的全面性和准确性。
使用方法
该数据集支持两阶段渐进式训练策略。在第一阶段大规模推理训练中,建议采用8×10^-5的高学习率和32k tokens的序列打包策略,通过余弦学习率调度器进行优化。研究显示,与传统后训练方法相比,基础模型进行推理增强时需要更高学习率以避免欠拟合。第二阶段退火训练则聚焦高变异系数(CV>0.05)的挑战性样本,采用8×10^-6的低学习率和单样本训练模式。数据集已按查询难度分级,用户可根据目标模型能力选择相应难度区间的数据,并建议配合论文提出的CV筛选算法,优先选择模型表现不稳定但部分响应正确的样本以最大化训练效益。
背景与挑战
背景概述
AM-DeepSeek-Distilled-40M是由a-m-team于2025年构建的大规模难度分级推理数据集,旨在深入探索基础模型训练过程与数据质量对大型语言模型(LLMs)推理能力的影响。该数据集包含约334万条独特查询及4000万条经多模型多轮蒸馏生成的响应,通过通过率(pass rate)和变异系数(CV)量化样本难度与学习价值。研究团队提出基于监督微调(SFT)的难度感知训练范式,发现基础模型的推理能力提升需采用更高学习率(8×10^-5),最终在AIME2024数学推理基准上达到79.2%的通过率,逼近最先进水平。该工作首次系统性验证了数据难度分级与模型推理性能的强关联性,为开源长推理LLM的发展提供了关键方法论与资源支持。
当前挑战
该数据集主要解决两大核心挑战:在领域问题层面,传统单模型评分策略存在评估偏差,难以客观衡量复杂推理问题(如数学证明、代码生成)的难度价值,导致模型易过拟合评估者特性;在构建过程中,需克服多源异构数据(数学/代码/科学等6类)的语义对齐难题,通过精确去重、基于bge-m3的语义去污染(相似度阈值0.9)及32B模型困惑度过滤(阈值20)确保数据纯度。此外,设计跨模型多轮蒸馏框架(DeepSeek-R1/Qwen系列)时,需平衡40M响应生成的算力成本与质量验证效率,最终通过Math-Verify/Qwen2.5-7B等分级验证机制实现95%以上的逻辑一致性保障。
常用场景
经典使用场景
在大型语言模型(LLM)的推理能力优化研究中,AM-DeepSeek-Distilled-40M数据集被广泛用于监督微调(SFT)和强化学习(RL)的训练阶段。其独特的难度分级设计使得研究者能够针对不同能力的模型进行定制化训练,特别是在数学推理、代码生成和科学推理等复杂任务中表现出色。数据集通过多轮蒸馏生成的4000万条响应,为模型提供了丰富的学习素材,显著提升了模型在AIME2024等数学竞赛基准上的表现。
实际应用
在实际应用中,该数据集支撑了教育智能、编程助手和科研工具的开发。其数学推理数据可用于构建自适应学习系统,根据学生能力动态调整题目难度;代码生成部分能优化IDE的自动补全功能,提升开发者效率;科学推理数据则辅助研究人员快速解析文献中的逻辑链条。数据集开放后,已被集成到Hugging Face平台,支持企业级模型如DeepSeek-R1的持续优化,在竞赛级数学问题求解和工业级代码生成场景中展现出商业潜力。
衍生相关工作
基于该数据集衍生的经典工作包括:1)DeepSeek-Math团队提出的两阶段退火训练策略,通过动态调整学习率显著提升长链推理性能;2)Light-R1项目将课程学习与DPO结合,创造了开源模型在GPQA-Diamond基准上的新记录;3)Think Twice框架利用多轮测试时思考机制,将AIME2024成绩进一步提升2.1个百分点。这些工作均引用原论文提出的CV筛选方法论,形成了以难度感知为核心的LLM训练技术体系。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

Allen Brain Atlas

Allen Brain Atlas 是一个综合性的脑图谱数据库,提供了详细的大脑解剖结构、基因表达数据、神经元连接信息等。该数据集包括了小鼠、人类和其他模式生物的大脑数据,旨在帮助研究人员理解大脑的结构和功能。

portal.brain-map.org 收录

Global Flood Database (GFD)

全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。

global-flood-database.cloudtostreet.info 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录