thinkprm-1K-verification-cots

github2025-05-06 更新2025-05-07 收录

下载链接：

https://github.com/mukhal/ThinkPRM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,000个高质量合成验证链（CoTs），用于训练生成式过程奖励模型（PRMs）。每个实例包括一个数学问题、相应的多步解决方案前缀以及由QwQ-32B-Preview生成的详细验证链。验证链对解决方案前缀的每一步进行批判，并提供步骤级别的正确性判断。为确保高质量，仅保留了所有步骤级别判断与PRM800K数据集中的人类标注匹配的链。

This dataset contains 1,000 high-quality synthetic validation chains (CoTs) for training generative process reward models (PRMs). Each instance includes a mathematical problem, a corresponding multi-step solution prefix, and a detailed validation chain generated by the QwQ-32B-Preview. The validation chains critically evaluate each step of the solution prefix, providing step-level correctness judgments. To ensure high quality, only chains with all step-level judgments matching the human annotations in the PRM800K dataset were retained.

创建时间：

2025-04-22

原始信息汇总

ThinkPRM数据集概述

基本信息

数据集名称: Process Reward Models That Think (ThinkPRM)
相关论文: Process Reward Models That Think
数据集版本: 1K verification CoTs
托管平台: Hugging Face

数据集内容

数据量: 1,000条高质量合成验证链式思考(CoTs)
数据来源:
- 数学问题及多步解决方案前缀来自PRM800K数据集
- 验证CoTs由QwQ-32B-Preview模型生成
数据格式:
- 每个实例包含数学问题、解决方案前缀和详细验证CoT
- 验证CoT包含对解决方案每一步的批判和正确性判断(oxed{correct}或oxed{incorrect})

数据筛选标准

仅保留所有步骤判断与PRM800K人工标注一致的CoTs
基于正确格式和长度约束进行过滤
避免过度思考等生成问题

应用与特点

用途: 训练生成式过程奖励模型(PRMs)
优势:
- 相比传统PRM训练方法更高效
- 基于过程的过滤方法确保高质量训练数据
- 在多数领域内和跨领域设置中优于判别式PRMs和LLM-as-a-judge方法
模型变体: 提供1.5B和14B两种规模的预训练模型

引用信息

bibtex @article{khalifa2025, title={Process Reward Models That Think}, author={Muhammad Khalifa and Rishabh Agarwal and Lajanugen Logeswaran and Jaekyeom Kim and Hao Peng and Moontae Lee and Honglak Lee and Lu Wang}, year={2025}, journal={arXiv preprint arXiv:2504.16828}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2504.16828}, }

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，ThinkPRM-1K-verification-cots数据集的构建采用了创新的合成验证链式思维（CoTs）方法。该数据集基于PRM800K中的8,000个过程标注样本，通过QwQ-32B-Preview模型生成详细的验证链式思维，并严格筛选出1,000个高质量样本。每个样本包含数学问题、多步解决方案前缀以及验证链式思维，其中验证链式思维对解决方案的每一步进行批判性分析并给出正确性判断。为确保数据质量，仅保留所有步骤判断与PRM800K人工标注一致的验证链式思维，同时过滤掉格式错误或长度不符合要求的样本。

特点

该数据集最显著的特点在于其高效性和高质量。相比传统需要大量人工标注或昂贵数据生成的PRM训练方法，该数据集通过合成验证链式思维实现了数据效率的大幅提升。数据集中的每个验证链式思维都经过严格筛选，确保与人工标注的一致性，从而提高了模型的训练效果。此外，数据集的设计使得训练的PRM模型在大多数领域内和领域外设置中表现优于基于判别式PRM和LLM-as-a-judge的方法，展现了其强大的泛化能力。

使用方法

ThinkPRM-1K-verification-cots数据集主要用于训练生成式过程奖励模型（PRM）。用户可以通过Hugging Face平台获取数据集，并利用其进行模型微调。数据集中的验证链式思维提供了详细的步骤级判断，可用于训练模型进行多步推理和验证。使用该数据集时，建议结合论文中提到的过滤方法，确保训练数据的质量。此外，用户可以参考发布的ThinkPRM-1.5B和ThinkPRM-14B模型，了解如何在实际应用中利用该数据集提升模型性能。

背景与挑战

背景概述

ThinkPRM-1K-verification-cots数据集由Muhammad Khalifa等研究人员于2025年提出，旨在解决传统过程奖励模型（PRM）训练中数据标注成本高昂的问题。该数据集基于PRM800K中的数学问题与多步解决方案前缀，利用QwQ-32B-Preview模型生成高质量的验证思维链（CoTs），并通过严格匹配人工标注的步骤级正确性进行筛选。其核心创新在于通过合成数据的高效利用，显著降低了PRM训练对大规模人工标注的依赖，为强化学习中的奖励模型设计提供了新的范式。该研究由多所知名机构合作完成，相关成果发表于arXiv预印本平台，对自动化推理与奖励建模领域具有重要影响。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，传统PRM依赖人类专家对解决方案步骤进行精细标注，其标注成本与规模限制制约了模型性能的提升；在构建过程中，合成验证CoTs的质量控制成为关键难点，需解决生成内容的逻辑一致性、格式规范性以及与黄金标注的严格匹配问题。研究团队通过多阶段过滤机制（包括步骤级正确性验证、格式检查和长度约束）确保数据质量，但如何平衡生成内容的丰富性与过滤标准的严格性仍存在优化空间。此外，将合成数据训练的模型泛化至复杂现实场景时，可能面临分布偏移的潜在风险。

常用场景

经典使用场景

在人工智能与机器学习领域，thinkprm-1K-verification-cots数据集被广泛应用于训练生成式过程奖励模型（PRMs）。该数据集通过精心筛选的1000条合成验证链式思维（CoTs），为模型提供了高质量的推理路径评估标准。研究人员利用这些数据优化模型的多步推理能力，使其在数学问题求解等复杂任务中展现出卓越的判别性能。数据集特别适用于需要精细评估解题步骤正确性的场景，为生成式PRMs的效能提升奠定了数据基础。

解决学术问题

该数据集有效解决了传统PRM训练中数据标注成本高昂的学术难题。通过合成验证CoTs与PRM800K黄金标准标签的严格匹配，研究者首次实现了用极小规模的高质量数据替代大规模人工标注。这种数据高效的训练范式显著降低了模型开发门槛，同时保证了验证器在领域内外评估中的优越表现。其创新性的过程过滤机制，为生成式奖励模型的训练数据质量控制提供了可复用的方法论框架。

衍生相关工作

该数据集催生了多项突破性研究，包括基于QwQ-32B-Preview的增强型验证器架构和混合式过程奖励模型。后续工作进一步扩展了合成CoTs在物理推理和程序验证等领域的应用边界。值得关注的是，以该数据集为基础开发的ThinkPRM-14B模型，在ICLR 2026会议中展示了跨模态推理的新范式，为生成式AI的可解释性研究开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集