tvp4

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/hiepp2/tvp4

下载链接

链接失效反馈

官方服务：

资源简介：

Mixture-of-Thoughts是一个由350k个经过验证的推理轨迹组成的精选数据集，这些轨迹是从DeepSeek-R1中提取的。该数据集涵盖了数学、编码和科学等领域的任务，旨在教会语言模型逐步推理。它被用于Open R1项目，以训练OpenR1-Distill-7B，这是一个复制了DeepSeek-R1-Distill-Qwen-7B推理能力的SFT模型。

创建时间：

2025-06-03

原始信息汇总

数据集概述

基本信息

数据集名称: Mixture-of-Thoughts
任务类别: 文本生成
语言: 英语
数据集大小: >1TB
下载大小: 3.08GB (all配置)
数据集主页: https://huggingface.co/datasets/hiepp2/tvp4

数据集组成

配置:
- all: 包含所有领域的数据
- code: 编程领域数据
- math: 数学领域数据
- science: 科学领域数据
数据量:
- all: 349,317条推理轨迹
- code: 83,070条推理轨迹
- math: 93,733条推理轨迹
- science: 172,514条推理轨迹

数据特征

通用特征:
- messages: 包含content(字符串)和role(字符串)的列表
- num_tokens: int64类型
- source: 字符串类型

数据来源

math: 来自open-r1/OpenR1-Math-220k的default子集
code: 来自open-r1/codeforces-cots的solutions和solutions_w_editorials子集
science: 来自nvidia/Llama-Nemotron-Post-Training-Dataset的science子集

使用方法

python from datasets import load_dataset

加载全部数据

dataset = load_dataset("open-r1/Mixture-of-Thoughts", "all", split="train")

加载特定领域数据

dataset_math = load_dataset("open-r1/Mixture-of-Thoughts", "math", split="train")

引用信息

bibtex @misc{openr1, title = {Open R1: A fully open reproduction of DeepSeek-R1}, url = {https://github.com/huggingface/open-r1}, author = {Hugging Face}, month = {January}, year = {2025} }

搜集汇总

数据集介绍

构建方式

Mixture-of-Thoughts数据集通过精心筛选和整合来自DeepSeek-R1的推理轨迹构建而成，涵盖数学、编程和科学三大领域。其构建过程遵循Phi-4推理技术报告中的方法论，即对各领域数据独立优化后合并。数学领域数据源自OpenR1-Math-220k的default子集，编程领域整合了CodeForces CoTs中C++和Python的解决方案，科学领域则基于Llama-Nemotron后训练数据集的科学子集进行精选。通过在不同学习率和数据组合下的系统消融实验，最终确定最优数据配比。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载整体或特定领域数据。加载完整数据集需指定'all'配置名，加载特定领域则使用'math'、'code'或'science'配置名。数据集适用于监督式微调场景，特别适合训练语言模型的分步推理能力。研究人员可基于不同学习率和数据组合开展消融实验，参考技术报告中的方法优化训练过程。使用时应注意各子集来源的差异，并按照规范引用原始数据集。

背景与挑战

背景概述

Mixture-of-Thoughts数据集由Hugging Face团队于2025年发布，旨在通过多领域推理轨迹提升语言模型的逐步推理能力。该数据集整合了数学、编程和科学三大领域的35万条经过验证的推理轨迹，源自DeepSeek-R1项目的蒸馏数据。其核心研究价值在于探索混合领域训练对复杂推理任务的促进作用，相关成果已应用于OpenR1-Distill-7B模型的训练，显著提升了在AIME数学竞赛、GPQA科学问答等基准上的表现。该数据集的构建延续了Phi-4技术报告中的混合优化方法论，为多模态推理研究提供了重要基准。

当前挑战

构建过程中面临领域平衡的挑战：数学领域需在93.7k默认子集与扩展子集间权衡性能与规模；编程领域需协调C++与Python代码轨迹对IOI竞赛和LiveCodeBench的不同优化效果；科学领域需从48.3万条原始数据中筛选无预处理的173k高质量轨迹。领域问题解决方面存在三大挑战：多步推理的忠实性表达需确保逻辑链条完整，跨领域知识迁移需平衡专业深度与泛化能力，评估体系需同步覆盖AIME数学竞赛、GPQA科学问答和LiveCodeBench编程测试等异构基准。数据规模与质量的双重要求导致筛选标准需严格遵循Phi-4技术报告中的混合优化原则。

常用场景

经典使用场景

在自然语言处理领域，tvp4数据集通过其丰富的数学、编程和科学推理轨迹，为语言模型的逐步推理能力训练提供了重要支持。该数据集特别适用于多领域联合训练场景，能够帮助模型在复杂任务中展现出更强的泛化能力和逻辑推理水平。

解决学术问题

tvp4数据集有效解决了语言模型在数学推导、编程问题解决和科学推理中的逻辑连贯性问题。通过提供高质量的逐步推理轨迹，该数据集显著提升了模型在AIME 2024、GPQA Diamond等专业评测中的表现，为复杂推理任务的建模提供了可靠的数据基础。

实际应用

在实际应用中，tvp4数据集已被成功用于训练OpenR1-Distill-7B等专业模型。这些模型在代码生成、数学问题求解和科学问答等场景中展现出卓越性能，为教育辅助工具、专业领域问答系统等应用提供了核心技术支撑。

数据集最近研究