sarahpann/PRM800K
收藏Hugging Face2023-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sarahpann/PRM800K
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: label
struct:
- name: finish_reason
dtype: string
- name: steps
list:
- name: chosen_completion
dtype: int64
- name: completions
list:
- name: flagged
dtype: bool
- name: rating
dtype: int64
- name: text
dtype: string
- name: human_completion
struct:
- name: corrected_rating
dtype: int64
- name: flagged
dtype: bool
- name: rating
dtype: 'null'
- name: source
dtype: string
- name: text
dtype: string
- name: total_time
dtype: int64
- name: is_initial_screening_question
dtype: bool
- name: generation
dtype: int64
- name: timestamp
dtype: string
- name: labeler
dtype: string
- name: question
struct:
- name: ground_truth_answer
dtype: string
- name: ground_truth_solution
dtype: string
- name: pre_generated_answer
dtype: string
- name: pre_generated_steps
sequence: string
- name: pre_generated_verifier_score
dtype: float64
- name: problem
dtype: string
- name: is_quality_control_question
dtype: bool
splits:
- name: train
num_bytes: 343127415.4610406
num_examples: 93794
- name: test
num_bytes: 18061070.538959395
num_examples: 4937
download_size: 149151492
dataset_size: 361188486.0
---
# Dataset Card for "PRM800K"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
dataset_info:
数据集信息:
features:
- 名称: 标签(label)
结构体:
- 名称: 终止原因(finish_reason)
数据类型: string
- 名称: 步骤(steps)
列表:
- 名称: 选中完成项(chosen_completion)
数据类型: int64
- 名称: 完成项列表(completions)
列表:
- 名称: 已标记(flagged)
数据类型: bool
- 名称: 评分(rating)
数据类型: int64
- 名称: 文本(text)
数据类型: string
- 名称: 人工完成项(human_completion)
结构体:
- 名称: 修正后评分(corrected_rating)
数据类型: int64
- 名称: 已标记(flagged)
数据类型: bool
- 名称: 评分(rating)
数据类型: null
- 名称: 来源(source)
数据类型: string
- 名称: 文本(text)
数据类型: string
- 名称: 总耗时(total_time)
数据类型: int64
- 名称: 是否为初始筛查问题(is_initial_screening_question)
数据类型: bool
- 名称: 生成轮次(generation)
数据类型: int64
- 名称: 时间戳(timestamp)
数据类型: string
- 名称: 标注者(labeler)
数据类型: string
- 名称: 问题(question)
结构体:
- 名称: 标准答案(ground_truth_answer)
数据类型: string
- 名称: 标准解题步骤(ground_truth_solution)
数据类型: string
- 名称: 预生成答案(pre_generated_answer)
数据类型: string
- 名称: 预生成解题步骤(pre_generated_steps)
序列: string
- 名称: 预生成验证器评分(pre_generated_verifier_score)
数据类型: float64
- 名称: 问题描述(problem)
数据类型: string
- 名称: 是否为质量控制问题(is_quality_control_question)
数据类型: bool
splits:
- 名称: 训练集(train)
字节数: 343127415.4610406
样本数: 93794
- 名称: 测试集(test)
字节数: 18061070.538959395
样本数: 4937
下载大小: 149151492
数据集总大小: 361188486.0
---
# 「PRM800K」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
sarahpann
原始信息汇总
数据集概述
数据集特征
- label
- finish_reason (string)
- steps
- chosen_completion (int64)
- completions
- flagged (bool)
- rating (int64)
- text (string)
- human_completion
- corrected_rating (int64)
- flagged (bool)
- rating (null)
- source (string)
- text (string)
- total_time (int64)
- is_initial_screening_question (bool)
- generation (int64)
- timestamp (string)
- labeler (string)
- question
- ground_truth_answer (string)
- ground_truth_solution (string)
- pre_generated_answer (string)
- pre_generated_steps (sequence: string)
- pre_generated_verifier_score (float64)
- problem (string)
- is_quality_control_question (bool)
数据集分割
- train
- num_bytes: 343127415.4610406
- num_examples: 93794
- test
- num_bytes: 18061070.538959395
- num_examples: 4937
数据集大小
- download_size: 149151492
- dataset_size: 361188486.0
搜集汇总
数据集介绍

构建方式
在人工智能对齐研究领域,构建高质量的过程监督数据集对于提升模型推理的透明度和可靠性至关重要。PRM800K数据集通过精心设计的标注流程得以构建,其核心在于对模型解题的中间步骤进行细致的人工评估。标注者不仅需要审查模型生成的每一步推理,还需对其正确性进行评分与标记,甚至提供修正后的答案。这一过程确保了数据集中每个样本都包含了从问题陈述、预生成步骤、验证分数到人工标注的完整监督信号,为训练过程奖励模型提供了丰富的结构化数据。
特点
该数据集在复杂推理任务的数据资源中展现出显著特色,其结构设计深度契合过程监督的研究需求。数据集不仅囊括了原始问题、预生成的解决方案步骤及其验证分数,更关键的是包含了人工对每一步推理的详细标注,如评分、标记以及可能的修正。这种多层次、细粒度的标注信息,使得数据集能够精确反映推理链中每一步的质量,为分析和建模推理过程中的错误模式提供了前所未有的细节。其规模庞大,涵盖近十万训练样本,确保了数据的多样性和覆盖面。
使用方法
对于致力于过程监督或强化学习从人类反馈中研究的学者而言,PRM800K数据集提供了直接的应用路径。研究者可主要利用其‘train’分割进行模型训练,例如训练一个过程奖励模型来评估或引导生成模型的中间推理步骤。数据集中‘question’字段提供的问题与预生成步骤可作为模型输入,而‘label’字段下的人工评分与修正则构成了训练所需的监督目标或奖励信号。‘test’分割则可用于评估训练后模型的泛化性能。通过解析其复杂的嵌套结构,研究者能够提取出步骤级评分序列,进而驱动模型学习符合人类偏好的推理路径。
背景与挑战
背景概述
PRM800K数据集由sarahpann等研究人员于2023年构建,专注于强化学习中的偏好奖励建模领域。该数据集旨在解决大型语言模型在复杂推理任务中,如何通过人类反馈进行精细化对齐的核心研究问题。通过收集超过80万条标注数据,涵盖了问题求解、步骤评分及完成度评估等多维度信息,为训练高效可靠的奖励模型提供了关键资源。其结构化标注框架不仅推动了对齐技术的发展,也为人工智能安全性与可控性研究奠定了实证基础,在自然语言处理与强化学习交叉领域产生了显著影响力。
当前挑战
PRM800K数据集面临的挑战主要体现在两个方面:在领域问题层面,如何准确量化人类对多步骤推理过程的偏好仍存在困难,包括评分一致性维护、步骤间依赖关系建模以及长程推理的奖励稀疏性处理;在构建过程中,数据标注需要协调大量标注者对复杂逻辑问题的理解,确保标注标准统一性,同时处理预生成答案与人工修正版本间的对齐偏差,这些因素均对数据质量与模型泛化能力构成严峻考验。
常用场景
经典使用场景
在人工智能对齐领域,PRM800K数据集为评估和优化大型语言模型的推理能力提供了关键资源。该数据集包含大量数学问题及其逐步解答过程,标注了人类对模型生成步骤的评分与修正,常用于训练过程监督模型或验证器,以提升模型在复杂任务中的逻辑连贯性和准确性。通过模拟人类反馈机制,研究者能够系统分析模型在链式推理中的错误模式,进而设计更精细的监督策略。
解决学术问题
PRM800K数据集直接应对了人工智能对齐中的核心挑战:如何确保大型语言模型的输出符合人类期望的推理标准。它通过提供细粒度的人类反馈数据,解决了模型在数学推理等结构化任务中常见的幻觉、逻辑断裂问题,为过程监督、奖励建模等对齐技术提供了实证基础。该数据集的意义在于推动了从结果对齐到过程对齐的范式转变,增强了模型行为的可解释性与可控性。
衍生相关工作
围绕PRM800K数据集,已衍生出多项经典研究工作,主要集中在过程监督对齐框架的探索。例如,基于该数据集的训练方法被应用于改进数学定理证明模型,通过迭代式反馈优化推理链的生成质量。此外,该数据集也启发了对验证器架构的创新,如构建多层评分机制以区分局部与全局推理正确性,这些工作显著推进了对齐技术在复杂推理任务中的落地。
以上内容由遇见数据集搜集并总结生成



