five

tvp4

收藏
Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/hiepp2/tvp4
下载链接
链接失效反馈
官方服务:
资源简介:
Mixture-of-Thoughts是一个由350k个经过验证的推理轨迹组成的精选数据集,这些轨迹是从DeepSeek-R1中提取的。该数据集涵盖了数学、编码和科学等领域的任务,旨在教会语言模型逐步推理。它被用于Open R1项目,以训练OpenR1-Distill-7B,这是一个复制了DeepSeek-R1-Distill-Qwen-7B推理能力的SFT模型。
创建时间:
2025-06-03
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Mixture-of-Thoughts
  • 任务类别: 文本生成
  • 语言: 英语
  • 数据集大小: >1TB
  • 下载大小: 3.08GB (all配置)
  • 数据集主页: https://huggingface.co/datasets/hiepp2/tvp4

数据集组成

  • 配置:

    • all: 包含所有领域的数据
    • code: 编程领域数据
    • math: 数学领域数据
    • science: 科学领域数据
  • 数据量:

    • all: 349,317条推理轨迹
    • code: 83,070条推理轨迹
    • math: 93,733条推理轨迹
    • science: 172,514条推理轨迹

数据特征

  • 通用特征:
    • messages: 包含content(字符串)和role(字符串)的列表
    • num_tokens: int64类型
    • source: 字符串类型

数据来源

使用方法

python from datasets import load_dataset

加载全部数据

dataset = load_dataset("open-r1/Mixture-of-Thoughts", "all", split="train")

加载特定领域数据

dataset_math = load_dataset("open-r1/Mixture-of-Thoughts", "math", split="train")

引用信息

bibtex @misc{openr1, title = {Open R1: A fully open reproduction of DeepSeek-R1}, url = {https://github.com/huggingface/open-r1}, author = {Hugging Face}, month = {January}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
Mixture-of-Thoughts数据集通过精心筛选和整合来自DeepSeek-R1的推理轨迹构建而成,涵盖数学、编程和科学三大领域。其构建过程遵循Phi-4推理技术报告中的方法论,即对各领域数据独立优化后合并。数学领域数据源自OpenR1-Math-220k的default子集,编程领域整合了CodeForces CoTs中C++和Python的解决方案,科学领域则基于Llama-Nemotron后训练数据集的科学子集进行精选。通过在不同学习率和数据组合下的系统消融实验,最终确定最优数据配比。
使用方法
使用该数据集时,可通过Hugging Face的datasets库直接加载整体或特定领域数据。加载完整数据集需指定'all'配置名,加载特定领域则使用'math'、'code'或'science'配置名。数据集适用于监督式微调场景,特别适合训练语言模型的分步推理能力。研究人员可基于不同学习率和数据组合开展消融实验,参考技术报告中的方法优化训练过程。使用时应注意各子集来源的差异,并按照规范引用原始数据集。
背景与挑战
背景概述
Mixture-of-Thoughts数据集由Hugging Face团队于2025年发布,旨在通过多领域推理轨迹提升语言模型的逐步推理能力。该数据集整合了数学、编程和科学三大领域的35万条经过验证的推理轨迹,源自DeepSeek-R1项目的蒸馏数据。其核心研究价值在于探索混合领域训练对复杂推理任务的促进作用,相关成果已应用于OpenR1-Distill-7B模型的训练,显著提升了在AIME数学竞赛、GPQA科学问答等基准上的表现。该数据集的构建延续了Phi-4技术报告中的混合优化方法论,为多模态推理研究提供了重要基准。
当前挑战
构建过程中面临领域平衡的挑战:数学领域需在93.7k默认子集与扩展子集间权衡性能与规模;编程领域需协调C++与Python代码轨迹对IOI竞赛和LiveCodeBench的不同优化效果;科学领域需从48.3万条原始数据中筛选无预处理的173k高质量轨迹。领域问题解决方面存在三大挑战:多步推理的忠实性表达需确保逻辑链条完整,跨领域知识迁移需平衡专业深度与泛化能力,评估体系需同步覆盖AIME数学竞赛、GPQA科学问答和LiveCodeBench编程测试等异构基准。数据规模与质量的双重要求导致筛选标准需严格遵循Phi-4技术报告中的混合优化原则。
常用场景
经典使用场景
在自然语言处理领域,tvp4数据集通过其丰富的数学、编程和科学推理轨迹,为语言模型的逐步推理能力训练提供了重要支持。该数据集特别适用于多领域联合训练场景,能够帮助模型在复杂任务中展现出更强的泛化能力和逻辑推理水平。
解决学术问题
tvp4数据集有效解决了语言模型在数学推导、编程问题解决和科学推理中的逻辑连贯性问题。通过提供高质量的逐步推理轨迹,该数据集显著提升了模型在AIME 2024、GPQA Diamond等专业评测中的表现,为复杂推理任务的建模提供了可靠的数据基础。
实际应用
在实际应用中,tvp4数据集已被成功用于训练OpenR1-Distill-7B等专业模型。这些模型在代码生成、数学问题求解和科学问答等场景中展现出卓越性能,为教育辅助工具、专业领域问答系统等应用提供了核心技术支撑。
数据集最近研究
最新研究方向
在自然语言处理领域,tvp4数据集作为Mixture-of-Thoughts的重要组成部分,正推动着多模态推理模型的发展。该数据集整合了数学、编程和科学领域的推理轨迹,为语言模型提供了丰富的跨领域学习资源。当前研究热点集中在如何优化数据混合策略,以提升模型在复杂任务中的推理能力。例如,通过对比不同编程语言(如C++与Python)生成的推理轨迹,探索其对模型性能的影响。同时,该数据集也被用于验证数据规模与模型表现之间的非线性关系,为高效训练方法的开发提供了重要参考。这些研究不仅推动了开源模型如OpenR1-Distill-7B的发展,也为构建更强大的通用推理系统奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作