algorithmic-sft-countdown-distill-v2-partial

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/reasoning-degeneration-dev/algorithmic-sft-countdown-distill-v2-partial

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为 'algorithmic-sft-countdown-distill-v2-partial'，是一个用于倒计时问题的 QwQ-32B 模型蒸馏数据集，采用等式-答案格式。数据集包含 2750 个样本，其中 480 个有效，1955 个无效，315 个无答案。数据集包含 11 个字段，包括问题（完整的倒计时提示，以等式-答案格式）、响应（QwQ-32B 的原始响应）、答案块（从 <answer>...</answer> 标签中提取的内容）、状态（验证状态：有效、无效或无答案）、错误信息（验证错误消息，有效时为空）、可用数字（倒计时问题的可用数字列表）、目标数字（需要达到的目标数字）、难度（未提供描述）、响应字符数（完整响应的字符数）、完成令牌数（完成部分的令牌数）和完成原因（vLLM 完成原因：停止或长度）。生成参数包括使用的模型（Qwen/QwQ-32B）、超参数（温度 1.0，最大令牌数 32768，难度 7）等。该数据集适用于算法监督微调、倒计时问题求解和模型蒸馏等任务。

创建时间：

2026-03-26

原始信息汇总

algorithmic-sft-countdown-distill-v2-partial 数据集概述

数据集基本信息

数据集名称: algorithmic-sft-countdown-distill-v2-partial
许可证: MIT
标签: algorithmic-sft, countdown, distillation, qwq-32b, equation-answer
数据规模: 2750行
特征列数: 11列

数据集内容描述

该数据集是一个关于“倒计时”问题的算法指令微调数据集，采用方程-答案格式，通过QwQ-32B模型进行知识蒸馏生成。数据集为部分版本，包含2750个样本，其中480个有效，1955个无效，315个无答案。最后一批包含2500个样本。

数据列说明

列名	类型	描述
question	字符串	采用方程-答案格式的完整倒计时提示
response	字符串	原始的QwQ-32B模型响应（完整，未截断）
answer_block	字符串	从`<answer>...</answer>`标签中提取的内容
status	字符串	验证状态：有效（valid）、无效（invalid）或无答案（no_answer）
error	字符串	验证错误信息（如果有效则为空）
numbers	整数列表	倒计时问题中可用的数字列表
target	整数	需要达到的目标数字
difficulty	整数	未提供描述
response_chars	整数	完整响应的字符数
completion_tokens	整数	补全部分的令牌数量
finish_reason	字符串	vLLM完成原因：停止（stop）或长度（length）

生成参数

脚本名称: scripts/collect_countdown_distill_v2.py
模型: Qwen/QwQ-32B
描述: 采用方程-答案格式的倒计时QwQ-32B知识蒸馏数据集（部分：2750个样本，480个有效，1955个无效，315个无答案）。最后一批：2500。
超参数:
- 温度（temperature）: 1.0
- 最大令牌数（max_tokens）: 32768
- 难度（difficulty）: 7
输入数据集: 空列表

使用方式

python from datasets import load_dataset

dataset = load_dataset("reasoning-degeneration-dev/algorithmic-sft-countdown-distill-v2-partial", split="train") print(f"Loaded {len(dataset)} rows")

项目追踪

该数据集在 https://huggingface.co/datasets/reasoning-degeneration-dev/PROJECT-MANIFEST 中进行追踪。

搜集汇总

数据集介绍

构建方式

在算法指令微调领域，该数据集通过蒸馏技术构建，具体采用QwQ-32B模型对倒计时问题进行响应生成。生成过程遵循严格的参数设置，温度值为1.0，最大令牌数达32768，难度级别设定为7，确保了生成内容的多样性与复杂性。原始响应经过解析，提取出答案块并进行验证，最终形成包含4750个样本的部分数据集，其中有效样本856个，无效样本3534个，无答案样本360个，体现了数据筛选的严谨性。

特点

该数据集以倒计时问题为核心，采用方程-答案格式组织，每个样本包含完整的提示词与模型原始响应。数据结构设计精细，涵盖问题、响应、答案块、验证状态、错误信息、可用数字、目标值及生成元数据等11个字段。特别值得注意的是，数据集明确标注了每个样本的验证状态与错误详情，为分析模型在复杂算术推理任务中的表现提供了透明且可追溯的依据。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，指定相应路径与训练分割即可获取全部数据。研究人员可依据验证状态字段筛选有效样本，用于评估模型在倒计时问题上的推理准确性；或分析无效与无答案样本，探究模型在算术生成任务中的常见失败模式。数据集中包含的生成参数与完成原因等信息，为进一步的模型行为分析与微调策略设计提供了重要参考。

背景与挑战

背景概述

在算法监督微调领域，提升大型语言模型解决复杂数学推理问题的能力是当前研究的前沿方向。algorithmic-sft-countdown-distill-v2-partial数据集应运而生，由reasoning-degeneration-dev团队创建，专注于“倒计时”数学游戏问题的求解。该数据集采用方程-答案格式，通过对QwQ-32B模型进行知识蒸馏生成，旨在探究模型在约束条件下进行算术运算与逻辑推导的效能。其构建反映了研究社区对于增强模型算法推理与泛化能力的持续追求，为评估和改进模型在结构化问题上的表现提供了关键资源。

当前挑战

该数据集致力于应对算法推理任务中模型输出可靠性与准确性的核心挑战，具体体现在确保模型对“倒计时”类问题能生成严格符合数学逻辑的有效解。在构建过程中，挑战主要源于蒸馏样本的质量控制，数据集中大量样本被标记为无效或无答案，凸显了从原始模型响应中提取精确、合规解答的难度。此外，处理长序列响应、维持方程格式的一致性，以及在不同难度级别下平衡数据分布，均是构建高质量监督数据所必须克服的技术障碍。

常用场景

经典使用场景

在算法推理与数学问题求解领域，该数据集专注于Countdown游戏场景下的方程解答任务，通过蒸馏技术从大型语言模型QwQ-32B中提取结构化响应。其经典使用场景涉及训练或评估模型在给定数字集合与目标值条件下，生成符合数学逻辑的表达式序列，以验证模型执行多步算术运算的准确性与连贯性。该数据集以方程-答案格式呈现问题与响应，为研究算法推理的泛化能力提供了标准化的测试平台。

实际应用

在实际应用中，该数据集可用于开发智能教育工具或数学辅助系统，这些系统能够引导用户逐步解决算术谜题，如Countdown类游戏中的数字组合问题。此外，它在自动化代码生成或公式推导引擎的优化中具有潜在价值，能够提升系统处理数值约束与逻辑约束的准确性。通过集成此类数据，实际系统可增强对用户输入的理解与反馈质量，适用于在线学习平台、游戏AI或专业计算软件的推理模块。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在算法推理的蒸馏与评估框架上，例如基于QwQ-32B等大型模型的响应提炼方法，以生成高质量的训练数据用于轻量级模型的微调。相关研究也探索了方程-答案格式在数学问题求解中的有效性，推动了如推理退化检测、多步验证机制以及符号-神经混合模型的发展。这些工作进一步丰富了算法合成与自动推理领域的实验基准，为后续的模型压缩与泛化能力研究提供了数据基础。

以上内容由遇见数据集搜集并总结生成