alpayariyak/prm800k

Name: alpayariyak/prm800k
Creator: alpayariyak
Published: 2023-06-01 14:51:25
License: 暂无描述

Hugging Face2023-06-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alpayariyak/prm800k

下载链接

链接失效反馈

官方服务：

资源简介：

PRM800K是一个过程监督数据集，包含80万个步骤级别的正确性标签，这些标签用于模型生成的解决方案，这些解决方案来自MATH数据集。数据集还包含了标注者在项目第一阶段和第二阶段中使用的指令。数据以JSON格式存储，每行代表一个完整的解决方案样本，并包含多个步骤级别的标签。每个标签包括标注者的UUID、时间戳、生成信息、质量控制问题标识、初始筛选问题标识、问题元数据、预生成的步骤、预生成的答案、验证器评分以及人类标注的步骤正确性标签。

提供机构：

alpayariyak

原始信息汇总

数据集概述

数据集名称

PRM800K

数据集描述

PRM800K是一个过程监督数据集，包含800,000个步骤级别的正确性标签，用于模型生成的解决方案，这些解决方案来自MATH数据集的问题。

数据内容

数据集包含标签，格式为新行分隔的json数据。
每行代表1个完整的解决方案样本，可能包含多个步骤级别的标签。

数据结构

每个标签包含以下信息：
- labeler: 标签者的UUID。
- timestamp: 轨迹提交的时间戳。
- generation: 数据收集的代数，仅在第二阶段使用。
- is_quality_control_question: 是否为质量控制问题。
- is_initial_screening_question: 是否为初始筛选问题。
- question: 问题元数据，包括：
  - problem: MATH问题的文本。
  - ground_truth_solution: MATH数据集中的真实解决方案。
  - ground_truth_answer: 真实答案。
  - pre_generated_steps: 模型生成的解决方案步骤。
  - pre_generated_answer: 模型生成的答案。
  - pre_generated_verifier_score: 解决方案的验证器评分。
- label: 人类收集的解决方案的正确性标签，包含每个步骤的标签。

数据集用途

用于验证模型生成的数学问题解决方案的正确性。

数据集发布

数据集包括原始标签以及项目第一阶段和第二阶段给标签者的指令。

数据集示例

示例标签展示了如何对模型生成的解决方案的每个步骤进行评分和标记。

数据集状态

数据集正在发布中，具体引用信息即将提供。

搜集汇总

数据集介绍

构建方式

在数学推理领域，过程监督已成为提升模型可靠性的关键路径。PRM800K数据集的构建依托于MATH数据集中的数学问题，通过两阶段标注流程精心构建。第一阶段，标注者对模型生成的解决方案进行逐步骤评估，为每个步骤赋予正确性标签；第二阶段，则引入迭代生成机制，利用已训练的PRM模型筛选待标注解决方案，从而优化标注效率。标注过程中，每个解决方案均包含多个候选步骤，标注者需对每一步骤进行评级，并记录标注时间与完成原因，最终形成包含80万步级标签的丰富数据集。

特点

该数据集的核心特征在于其精细的步级监督机制与结构化标注信息。每个数据样本不仅记录了解决方案的完整轨迹，还包含了步骤级别的多维度标签，如步骤评级、标注者标识、时间戳及完成原因。数据集特别设计了质量控制环节，通过预留问题确保标注一致性，同时支持对错误步骤的早期检测与终止标注。此外，数据格式采用JSON序列化，便于解析与集成，为过程监督研究提供了高粒度、可追溯的标注资源。

使用方法

在应用层面，PRM800K数据集主要用于训练与评估过程奖励模型（PRM）。研究人员可解析JSON格式的标注数据，重构解决方案轨迹，并利用步骤评级作为监督信号进行模型训练。数据集支持对模型推理路径的逐步验证，有助于识别错误传播点并改进数学推理的可靠性。典型使用场景包括：基于步骤正确性标签的监督学习、验证器性能评估，以及多步骤推理任务的基准测试，为数学问题求解领域提供了重要的实验基础。

背景与挑战

背景概述

在人工智能领域，数学推理能力是衡量模型智能水平的关键维度之一。PRM800K数据集由OpenAI研究团队于2023年创建，旨在通过过程监督方法提升大型语言模型的数学推理性能。该数据集基于MATH数学问题集，包含了80万步级别的正确性标签，专门用于训练过程奖励模型，以逐步验证模型生成解决方案的逻辑正确性。其核心研究问题聚焦于如何通过精细化的步骤监督，而非仅依赖最终答案，来更有效地引导模型学习复杂数学问题的求解过程。这一工作对推动可解释人工智能与可靠推理系统的发展具有深远影响，为后续研究提供了重要的数据基础与方法论参考。

当前挑战

PRM800K数据集致力于解决数学推理中过程监督的挑战，其核心在于如何准确评估模型解题每一步的逻辑正确性，而非仅仅依赖最终答案的对错。这要求标注者具备深厚的数学专业知识，以区分步骤中的细微错误与合理推理。在构建过程中，面临的主要挑战包括：确保大规模人工标注的一致性，处理解题步骤的多样性与复杂性，以及设计高效的质量控制机制来筛选可靠标注。此外，数据收集分为多个阶段，需动态调整标注策略以优化监督信号，这进一步增加了数据构建的协调难度与资源消耗。

常用场景

经典使用场景

在数学推理与过程监督的研究领域，PRM800K数据集为评估和训练大型语言模型的逐步推理能力提供了关键资源。该数据集通过标注模型生成的数学解题步骤的正确性，使得研究者能够深入分析模型在复杂多步推理任务中的表现。其经典使用场景集中于构建和验证过程奖励模型，以替代传统的结果监督方法，从而更精准地引导模型生成逻辑严谨的中间步骤，提升最终答案的可靠性。

衍生相关工作

围绕PRM800K数据集，学术界衍生了一系列经典研究工作。OpenAI团队在《Let's Verify Step by Step》论文中首次提出了过程监督框架，并利用该数据集训练了过程奖励模型。后续研究在此基础上探索了不同监督策略的效能对比，以及如何将过程监督迁移至其他科学推理任务。这些工作共同深化了对神经网络推理机制的理解，并推动了链式思维提示、可验证推理等前沿方向的发展。

数据集最近研究