AM-Thinking-v1-Distilled, AM-Qwen3-Distilled

Name: AM-Thinking-v1-Distilled, AM-Qwen3-Distilled
Creator: 贝壳（Ke.com）
Published: 2025-05-20 23:00:51
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由贝壳（Ke.com）的a-m-team团队创建，旨在通过蒸馏数据来提升开源语言模型的推理能力。数据集由三个最先进的教师模型（AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1）在189万个共享查询上收集的验证输出构建而成。经过严格的数据清洗和过滤，该数据集提供了高质、经过验证的推理数据，可用于训练在数学、编码和科学推理等任务上表现出色的模型。数据集已在Hugging Face上公开发布，支持未来对开源和高性能推理导向语言模型的研究。

This dataset was created by the a-m-team from Ke.com, with the aim of enhancing the reasoning capabilities of open-source language models via distilled data. It is constructed from verified outputs collected by three state-of-the-art teacher models, namely AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1, across 1.89 million shared queries. Through rigorous data cleaning and filtering, this dataset provides high-quality, verified reasoning data that can be used to train models that excel at tasks such as mathematics, coding, and scientific reasoning. The dataset has been publicly released on Hugging Face to support future research on open-source, high-performance reasoning-oriented language models.

提供机构：

贝壳（Ke.com）

创建时间：

2025-05-20

原始信息汇总

数据集概述：AM-Thinking-v1-Distilled

📘 数据集摘要

来源：从先进教师模型蒸馏得到的推理数据集
查询量：共享189万条独特提示
语言：英文(en)、中文(zh)
任务类型：文本生成(text-generation)
标签：推理(reasoning)
规模：1M<n<10M
关联数据集：AM-Qwen3-Distilled

📊 基准性能

基准测试	AM-Thinking-v1 Distilled	Qwen3-235B-A22B Distilled	DeepSeek-R1 Distilled	Qwen3-32B	AM-Thinking-v1	Qwen3-235B-A22B	DeepSeek-R1
AIME2024	84.3	79.4	70.9	81.4	85.3	85.7	79.8
AIME2025	72.2	62.2	52.8	72.9	74.4	81.5	70.0
MATH500	98.4	93.9	95.8	-	-	-	-
LiveCodeBench	65.9	59.6	57.0	65.7	70.3	70.7	64.3

📂 数据结构

数据字段

system：蒸馏过程中使用的系统提示
conversations：对话轮次列表，包含：
- from：human或assistant
- value：完整消息内容
- info：元数据字典，包含：
  - source：数据集来源
  - category：任务领域
  - ground_truth：真实参考
  - test_case：关联测试用例ID
  - instruction_constrain：指令约束元数据
  - think_content：助理解释轨迹
  - answer_content：最终答案段
  - verify_score：验证置信度分数
  - model_name：教师模型名称
  - ppl：输出的困惑度

📈 数据集统计

任务类别分布：
- 通用聊天：41.8%
- 数学推理：29.5%
- 代码生成：17.1%
- 其他：11.6%

✅ 验证与质量控制

验证方法：
- 数学：Math-Verify
- 代码：沙盒环境测试用例验证
- 科学：LLM评分答案相似性
- 指令遵循：IFEval验证器
- 通用聊天：奖励模型评估
过滤措施：
- 困惑度过滤
- N-gram重复过滤
- 结构格式检查

⚠️ 限制

用途限制：仅限研究目的
免责声明：内容不代表任何个人或机构的观点

📜 引用

bibtex @misc{tian2025correctanswersequaldistillation, title={Not All Correct Answers Are Equal: Why Your Distillation Source Matters}, author={Xiaoyu Tian and Yunjie Ji and Haotian Wang and Shuaiting Chen and Sitong Zhao and Yiping Peng and Han Zhao and Xiangang Li}, year={2025}, eprint={2505.14464}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14464}, }

搜集汇总

数据集介绍

构建方式

在推理数据蒸馏领域，AM-Thinking-v1-Distilled和AM-Qwen3-Distilled数据集的构建采用了系统性方法论。研究团队基于189万条统一查询语料，通过AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1三个前沿教师模型并行生成验证输出，形成三套平行数据集。构建过程包含多阶段严格处理：包括去重过滤、语义去污、自动验证等关键步骤，其中数学推理类响应需通过Math-Verify和Qwen2.5-7B-Instruct双重验证，代码类响应需在沙箱环境中执行测试用例验证。特别采用增量式蒸馏策略，每个查询的响应需迭代生成直至验证分数≥0.9，确保数据质量。

特点

该数据集展现出显著的差异化特征。AM-Thinking-v1蒸馏数据在token长度分布上呈现双峰特性，同时包含大量短序列（<1024 tokens）和超长序列（>10240 tokens），这种多样性使其在应对不同难度任务时表现出自适应生成能力。质量评估显示，AM-Thinking-v1蒸馏数据的平均困惑度（PPL=2.5）显著低于其他两个数据集，表明其语言连贯性更优。内容分布上，数学推理（29.5%）和代码生成（17.1%）占比较高，且数学类数据在token级别占比达33.4%，体现了对复杂推理任务的侧重。

使用方法

该数据集适用于提升开源语言模型的推理能力。使用时建议以Qwen2.5-32B为基座模型，采用8e-5学习率、32k最大序列长度进行两轮训练。对于多轮对话数据，应仅选取含推理过程的最终响应作为训练目标。在评估阶段，可参照研究设置的标准化流程：AIME类数学任务采用64次采样计算pass@1，LiveCodeBench代码任务采用16次采样，MATH500则执行单次响应加4次采样验证。系统提示词需统一采用包含<think>和<answer>标签的标准化模板，数学类任务需额外添加分步推理指令。训练时建议排除超过32k tokens的样本以优化计算效率。

背景与挑战

背景概述

AM-Thinking-v1-Distilled和AM-Qwen3-Distilled数据集是由贝壳（Ke.com）内部团队a-m-team于2025年发布的大规模推理数据蒸馏成果，旨在提升开源语言模型在数学、编程和科学推理等复杂任务中的表现。该研究基于三个先进教师模型（AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1）对189万条查询生成的验证输出，通过严格的去重、过滤和自动验证流程构建。其创新性体现在发现AM-Thinking-v1蒸馏数据具有更优的token长度多样性和更低困惑度，相关成果在AIME2024（84.3分）、LiveCodeBench（65.9分）等基准测试中刷新性能记录，推动了开源推理模型的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决数学推理和代码生成任务中多步逻辑验证的复杂性，如AIME竞赛题要求精确的整数答案推导，而LiveCodeBench需通过沙箱环境执行测试用例验证；在构建过程中，需克服大规模数据清洗的技术难题，包括基于bge-m3嵌入模型的语义去重、针对不同任务类型（数学/代码/科学）设计的差异化自动验证方案，以及应对AM-Thinking-v1模型生成文本长度极端离散分布（从<1024到>10240token）带来的训练效率问题。此外，保持蒸馏数据与评估基准间的防污染隔离也是关键挑战。

常用场景

经典使用场景

在大型语言模型（LLM）的推理能力提升研究中，AM-Thinking-v1-Distilled和AM-Qwen3-Distilled数据集被广泛应用于知识蒸馏任务。这些数据集通过从AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1等先进教师模型中提取经过验证的推理轨迹，为开源模型提供了高质量的监督信号。特别是在数学推理、代码生成和科学推理等复杂任务中，这些数据集显著提升了学生模型的性能。例如，在AIME2024和LiveCodeBench等基准测试中，基于AM-Thinking-v1蒸馏数据的模型表现尤为突出，展示了其在多步推理和适应性生成方面的优势。

解决学术问题

AM-Thinking-v1-Distilled和AM-Qwen3-Distilled数据集解决了开源语言模型在复杂推理任务中表现不足的问题。通过提供大规模、高质量的推理数据，这些数据集帮助模型克服了传统训练中数据噪声和低多样性的限制。具体而言，它们在数学和代码生成任务中显著提升了模型的准确性和鲁棒性，例如在AIME2024和MATH500基准测试中分别达到84.3和98.4的分数。此外，数据集中包含的多样化token长度分布还解决了模型在生成响应时长度适应性不足的问题，使其能够根据任务复杂度动态调整输出。

衍生相关工作

AM-Thinking-v1-Distilled和AM-Qwen3-Distilled数据集的发布推动了多项相关研究的发展。例如，基于这些数据集的DeepDistill框架进一步探索了难度分级数据对模型性能的影响。此外，Qwen3和DeepSeek-R1等开源项目也利用这些数据集优化了其模型的推理能力。在强化学习领域，研究者们开始将这些数据集与PPO和GRPO等技术结合，以进一步提升模型的对齐性和推理性能。这些衍生工作不仅扩展了数据集的应用范围，也为开源社区提供了更多高质量的研究资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集