OpenR1-VM

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/VGS-AI/OpenR1-VM

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了250万个用于训练价值模型推理轨迹，来自论文《Value-Guided Search for Efficient Chain-of-Thought Reasoning》。每个问题都包含了56个Chain-of-Thoughts (CoTs)，这些CoTs是从DeepSeek-R1-Distill-Qwen模型中采样的。数据集的结构包括每个推理轨迹的唯一标识符、问题陈述、解决方案、最终答案、成功或失败的布尔指示符、一组ID序列以及一组ID的序列的序列。

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

在推理模型优化领域，OpenR1-VM数据集通过系统化采样策略构建而成。研究团队从DeepSeek-R1蒸馏系列模型中抽取了250万条思维链轨迹，覆盖1.5B至32B不同参数规模的模型变体。每个数学问题对应56条独立生成的推理路径，通过人工标注与自动化评估相结合的方式，对每条思维链的成功与否进行精确标注，形成具有完整奖励信号的大规模训练数据。

特点

该数据集的核心价值体现在其多维度标注体系上。每条数据记录不仅包含原始问题陈述和标准答案，还完整保留了推理过程中的中间状态标识符。独特的奖励标签机制能够清晰区分有效与无效的推理路径，而嵌套式的序列标识符结构则完整记录了思维链的展开轨迹。这种细粒度的数据组织方式为研究推理模型的决策机制提供了丰富的信息维度。

使用方法

研究人员可将该数据集直接应用于价值模型的监督训练过程。通过加载预处理后的思维链轨迹数据，模型能够学习区分高质量与低质量推理路径的特征模式。典型的使用流程包括：解析问题陈述与对应思维链序列，提取奖励标签作为训练信号，利用滚动输入输出标识符重建完整推理过程。这种训练范式有助于提升模型在复杂推理任务中的搜索效率与准确性。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中的广泛应用，思维链技术已成为提升模型逻辑推理能力的关键手段。2024年，由研究团队在论文《Value-Guided Search for Efficient Chain-of-Thought Reasoning》中发布了OpenR1-VM数据集，旨在通过价值引导搜索优化推理过程的效率。该数据集汇集了来自不同规模DeepSeek-R1蒸馏模型的250万条推理轨迹，覆盖数学解题、逻辑推导等多类复杂问题，为研究高效长上下文推理模型提供了重要支撑。

当前挑战

OpenR1-VM数据集致力于解决思维链推理中搜索效率低下的核心难题，其挑战在于如何从海量候选路径中快速识别高质量推理序列，避免冗余计算。在构建过程中，研究人员需协调多尺度模型生成数万条异构推理轨迹，并精确标注每条路径的成功与否，这一过程涉及大规模数据清洗、轨迹对齐与奖励信号的一致性校验，对计算资源与标注精度提出了极高要求。

常用场景

经典使用场景

在人工智能推理任务中，OpenR1-VM数据集被广泛应用于训练价值模型，以优化思维链推理过程。该数据集通过提供大量采样自不同规模模型的推理轨迹，支持研究者评估和提升模型在复杂问题解决中的效率。典型应用包括指导模型在长上下文场景下进行逐步推理，从而减少计算资源消耗并提高答案准确性。

解决学术问题

该数据集主要针对思维链推理中的效率瓶颈问题，通过价值引导搜索机制降低冗余计算。它解决了大语言模型在长序列推理中存在的计算成本高、错误传播等挑战，为可扩展的推理算法研究提供了数据基础。其意义在于推动了高效推理范式的创新，促进了轻量化模型在复杂任务中的实用化进程。

衍生相关工作

基于该数据集衍生的经典研究包括价值引导搜索算法的优化框架，以及多尺度模型协同推理方法。相关成果已延伸至强化学习与推理模型的融合领域，如分层决策网络和动态轨迹剪枝技术，为后续研究提供了可复现的基准范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集