hiepp2/tvp4
收藏Hugging Face2026-05-02 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/hiepp2/tvp4
下载链接
链接失效反馈官方服务:
资源简介:
Mixture-of-Thoughts是一个包含35万个验证推理轨迹的数据集,这些轨迹是从DeepSeek-R1中提炼出来的。该数据集涵盖了数学、编码和科学等任务,旨在教会语言模型进行逐步推理。它被用于Open R1项目中,以训练OpenR1-Distill-7B模型,该模型复制了deepseek-ai/DeepSeek-R1-Distill-Qwen-7B的推理能力。
Mixture-of-Thoughts is a curated dataset of 350k verified reasoning traces distilled from DeepSeek-R1. The dataset spans tasks in mathematics, coding, and science, and is designed to teach language models to reason step-by-step. It was used in the Open R1 project to train OpenR1-Distill-7B, an SFT model that replicates the reasoning capabilities of deepseek-ai/DeepSeek-R1-Distill-Qwen-7B from the same base model.
提供机构:
hiepp2
原始信息汇总
数据集概述
数据集名称: Mixture-of-Thoughts
数据集标识: hiepp2/tvp4
该数据集是一个精心策划的、包含 350k 条经过验证的推理轨迹的集合,这些轨迹从 DeepSeek-R1 模型中蒸馏而来。其设计目的是教授语言模型进行逐步推理。
核心信息
- 任务: 文本生成
- 语言: 英语
- 大小: >1T
- 相关论文:
- arXiv: 2504.21318 (Phi-4-reasoning Technical Report)
- arXiv: 2505.00949 (Llama-Nemotron: Efficient Reasoning Models)
数据集构成
Mixture-of-Thoughts 由三个领域构成:数学、代码和科学。总共有 350k 条推理轨迹。
- 数学 (math): 93.7k 条推理轨迹,来源于
open-r1/OpenR1-Math-220k数据集的default子集。 - 代码 (code): 83.1k 条推理轨迹,用于解决 Python 和 C++ 的竞赛编程问题,来源于
open-r1/codeforces-cots数据集的solutions和solutions_w_editorials子集。 - 科学 (science): 173k 条推理轨迹,用于科学问题,来源于
nvidia/Llama-Nemotron-Post-Training-Dataset数据集的science子集。 - 全部 (all): 包含来自上述三个领域的所有推理轨迹,共计 350k 条。
策划方法
该数据集的混合优化方法遵循了 Phi-4-reasoning 技术报告中描述的策略,即可以针对每个领域独立优化数据混合,然后再合并到单个数据集中。对于每次消融实验,研究者会评估模型在 AIME 2024、GPQA Diamond 和 LiveCodeBench v4 上的表现。训练所有领域的数据集能同时获得最佳结果。
- 代码 (Code): 消融实验发现,混合所有 C++ 和 Python 轨迹的子集(包括带和不带人工编写解答的)在 LiveCodeBench 上取得了最佳结果。
- 数学 (Math): 实验发现,仅使用
default子集(93.7k 条轨迹)比使用包含更简单问题的extended子集效果更好。为了控制数据集大小,最终混合仅采用default子集。 - 科学 (Science): 从原始的 483k 条推理轨迹中,筛选出未使用 Qwen 模型进行提示预处理的子集,最终使用了 173k 条推理轨迹。
应用
该数据集曾在 Open R1 项目中用于训练 OpenR1-Distill-7B 模型,这是一个从相同基模型出发、能够复制 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 推理能力的 SFT 模型。
搜集汇总
数据集介绍

构建方式
tvp4数据集,即Mixture-of-Thoughts,是一个精心策划的350k条已验证推理轨迹的集合,这些轨迹从DeepSeek-R1模型中蒸馏而得。数据集涵盖数学、编程和科学三大领域,其构建遵循了Phi-4-reasoning技术报告中描述的方法论,即先针对每个领域独立优化数据混合比例,再将其整合为单一数据集。在数学领域,从OpenR1-Math-220k数据集的default子集中选取了93.7k条推理轨迹;编程领域则从codeforces-cots数据集中合并了C++和Python两种语言的83.1k条竞赛编程问题解答;科学领域从Llama-Nemotron-Post-Training-Dataset中筛选出173k条未使用Qwen模型进行预处理的轨迹。最终通过AIME 2024、GPQA Diamond和LiveCodeBench v4基准测试进行消融实验,确定了各领域的最佳混合方案。
特点
该数据集的核心特点在于其多领域覆盖与高质量的推理轨迹。数学、编程和科学三大领域分别针对不同类型的逻辑推理任务,每条轨迹都经过DeepSeek-R1模型的验证,确保推理过程的正确性与连贯性。编程领域独特地融合了C++和Python两种语言的解答,其中C++轨迹有助于提升IOI 2024等高性能基准的表现,而Python轨迹则在LiveCodeBench上表现优异。数学领域经过对比实验,最终仅保留default子集的93.7k条轨迹,避免了extended子集中简单问题带来的冗余。科学领域则通过剔除使用特定模型预处理的样本,在保持质量的同时将规模控制为173k条。整体数据集约占总推理轨迹的350k条,其结构化格式(包含messages、num_tokens和source字段)便于模型训练中的数据处理与分析。
使用方法
用户可通过HuggingFace的datasets库便捷地加载该数据集。使用`load_dataset("open-r1/Mixture-of-Thoughts", "all", split="train")`可加载全部领域的轨迹,而指定`math`、`code`或`science`配置名称则可获取特定子集。数据集仅包含训练集,无验证或测试划分,适用于监督式微调(SFT)任务。每条样本包含多轮消息对话(messages字段),记录角色与内容;num_tokens字段标注了轨迹的令牌数量,便于批次处理时的长度控制;source字段则标明轨迹来源,可用于后续分析。数据集的主打任务为文本生成,语言为英文,大小超过1T令牌。用户可参照OpenR1项目的训练流程,将其与Qwen2.5系列模型结合,以复现OpenR1-Distill-7B等模型的推理能力。
背景与挑战
背景概述
在大型语言模型(LLM)的演进历程中,链式推理能力的培养始终是突破其认知瓶颈的关键。2025年初,Hugging Face团队启动了Open R1项目,旨在完全复现DeepSeek-R1的推理机制,并由此催生了Mixture-of-Thoughts(MoT)数据集。该数据集由来自Open R1项目的科研人员主导创建,核心研究问题在于如何通过高质量的混合领域推理轨迹,高效提升语言模型在数学、编程与科学任务上的逐步推理能力。MoT汇集了约35万条经DeepSeek-R1验证的推理轨迹,并以此训练出OpenR1-Distill-7B模型,成功复现了DeepSeek-R1-Distill-Qwen-7B的推理性能,对提升开源模型的推理能力具有里程碑式的影响。
当前挑战
MoT数据集所应对的核心领域挑战在于,当前多数语言模型缺乏结构化的多步推理能力,在解决数学证明、算法竞赛及科学问题等复杂任务时仍显乏力。具体而言,现有模型常因推理路径断裂或过度依赖统计捷径而失效。在数据集构建过程中,研究团队面临多重挑战:如何从海量R1生成的轨迹中筛选出真正可靠的推理样本,而非仅关注结果正确性;如何在数学、代码、科学三个差异显著的领域间优化数据配比,以避免领域间相互干扰;以及如何在保证模型性能的前提下控制数据集规模,例如科学领域原含48.3万条轨迹,经筛选后缩减至17.3万,以平衡训练效率与效果,这些策略最终在AIME 2024等严苛基准上得到了验证。
常用场景
经典使用场景
在自然语言处理与推理能力的交汇地带,Mixture-of-Thoughts 数据集扮演着至关重要的角色。其最经典的使用场景在于作为高质量监督微调语料,赋能大型语言模型习得分步推理的能力。该数据集精心收录了来自数学、代码与科学领域的约35万条经过验证的推理轨迹,每条轨迹都像一份精密的思维图谱,引导模型从浅层模式匹配迈向深层的逻辑演绎。研究者可通过加载其领域子集,如数学推理轨迹或竞争编程解决方案,针对性地增强模型在特定任务上的符号推理能力,尤其是在处理需要多步运算和结构化思考的复杂问题时展现出显著优势。
解决学术问题
长期以来,大型语言模型虽然在语言生成上表现惊人,但其推理过程的黑箱属性与可解释性缺失一直是学术界的焦点难题。Mixture-of-Thoughts 数据集直面这一挑战,通过系统化的推理轨迹蒸馏,为解决模型在复杂逻辑任务中出现的幻觉与连贯性不足问题提供了密钥。其意义在于将隐性的思考过程显式化,使得模型不仅能给出答案,更能展现获取答案的完整推导路径。这一特质极大地推动了可解释人工智能的发展,并为后续的思维链学习、自我一致性校验以及领域自适应训练等研究方向奠定了坚实的实验基础。
衍生相关工作
该数据集的问世如源头活水,滋养了一系列令人瞩目的衍生工作。其中,基于此数据集训练的 OpenR1-Distill-7B 模型成功复现了高端推理模型的能力,验证了数据集在知识蒸馏中的桥梁作用。相关研究进一步探索了在混合专家模型与多领域联合微调框架下的性能增益,揭示了代码与数学领域推理轨迹的互补效应。此外,该数据集还催生了针对推理轨迹质量筛选与混合比例优化的专项研究,形成了一套成熟的语料库构建方法论,为未来开源推理模型的发展树立了典范。
以上内容由遇见数据集搜集并总结生成



