stanfordnlp/SHP-2

Name: stanfordnlp/SHP-2
Creator: stanfordnlp
Published: 2024-01-11 02:10:31
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/stanfordnlp/SHP-2

下载链接

链接失效反馈

官方服务：

资源简介：

Stanford Human Preferences Dataset v2 (SHP-2) 是一个包含480万条人类偏好数据的数据集，覆盖129个不同主题领域，从烹饪到法律建议。该数据集是原始385K SHP数据集的扩展版本，主要用于训练RLHF奖励模型和NLG评估模型。每个数据示例包含一个Reddit或StackExchange帖子及其两个顶级评论，其中一个评论被用户集体认为更有帮助。数据集通过时间戳信息推断用户偏好，确保偏好标签反映的是评论的有用性而非有害性。数据集分为训练、验证和测试集，每个子目录包含JSONL文件。

提供机构：

stanfordnlp

原始信息汇总

数据集概述

数据集名称

Stanford Human Preferences Dataset v2 (SHP-2)

数据集描述

SHP-2是一个包含4.8M个人类对回答问题/指令的偏好的数据集，涵盖129个不同的主题领域，从烹饪到法律咨询。它是原始385K SHP数据集的扩展版本。

数据集用途

该数据集主要用于训练RLHF奖励模型和NLG评估模型。

数据集特点

数据来源：Reddit和StackExchange的帖子及其顶级评论。
偏好定义：如果评论A在评论B之后发布但得分更高，则认为A比B更受欢迎。
数据结构：包含Reddit和StackExchange两个目录，每个目录下有多个子目录，每个子目录包含训练、验证和测试数据的JSONL文件。

数据集内容

数据量：4.8M条偏好数据。
语言：英语。
领域：129个领域，包括Reddit的70个和StackExchange的59个。
数据格式：每个示例包括问题/指令和一对顶级评论，其中一个评论更受Reddit/StackExchange用户欢迎。

数据集与其他数据集的比较

与Anthropics HH-RLHF和Open Assistant的比较：SHP-2的数据量更大，涉及更多领域，且数据格式为单轮对话。
与ELI5的比较：SHP-2利用时间戳信息推断偏好，而ELI5仅提供评论和分数，不足以推断偏好。

数据集结构

目录结构：Reddit和StackExchange各有一个目录，每个目录下有多个子目录，每个子目录包含JSONL格式的训练、验证和测试数据。
数据字段：包括post_id, domain, upvote_ratio, history, c_root_id_A, c_root_id_B, created_at_utc_A, created_at_utc_B, score_A, score_B, human_ref_A, human_ref_B, labels, metadata_A, metadata_B, seconds_difference, score_ratio。

数据集设计

领域选择：选择知名度高、问题或指令性质的领域，基于帮助性评价响应。
数据选择：根据特定条件筛选帖子及其评论，确保数据质量。
预处理：最小化预处理，保留原始数据特征。

数据集的偏差与限制

偏差：数据可能包含歧视性或有害语言，且用户群体不代表更广泛的人口。
限制：偏好标签反映的是帮助性而非伤害性，且偏好可能受评论得分影响。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的人类偏好数据集对于训练强化学习人类反馈模型至关重要。SHP-2数据集通过精心设计的筛选机制，从Reddit和StackExchange两大公开论坛中提取了480万条人类集体偏好数据。其构建过程首先基于时间戳与评分信息的协同分析，仅纳入那些发布时间较晚但评分更高的评论对，以此推断用户对回复的偏好顺序。数据覆盖了烹饪、法律建议等129个专业领域，每个领域均经过严格筛选，确保帖子内容以寻求帮助或解答问题为导向，且回复具有客观性。此外，通过设定帖子与评论的最低评分阈值，并排除由已删除用户或版主发布的内容，有效提升了数据的可靠性与代表性。

特点

SHP-2数据集展现出多方面的显著特征，使其在人类偏好建模研究中占据独特地位。该数据集规模庞大，涵盖480万条偏好标注，远超同类数据集，为模型训练提供了丰富的样本支持。其数据来源于真实网络环境中的用户互动，反映了自然语言交流的多样性与复杂性。每个样本均包含完整的对话历史与成对回复，并附有详细的时间戳、评分比例及领域标签，支持细粒度的分析与建模。与仅依赖评分的传统数据集不同，SHP-2通过时间戳校正了曝光偏差，使偏好推断更为准确。同时，数据集明确聚焦于回复的“帮助性”而非“无害性”，为特定研究方向提供了精准的数据基础。

使用方法

使用SHP-2数据集时，研究者可通过Hugging Face的datasets库便捷加载整体数据或特定领域子集。为适配模型训练，需对输入文本进行预处理，确保总长度不超过模型标记限制，通常建议将帖子文本截断至512标记以内，同时保留评论的完整性。在微调偏好预测模型时，应优先考虑大型语言模型，并在单一领域内进行训练以保障性能，避免跨领域泛化带来的性能下降。训练周期宜短，以防止过拟合，并可选择性地依据评分比例筛选样本，以强化训练信号。该数据集主要用于训练RLHF奖励模型或自然语言生成评估模型，为对齐人工智能与人类价值观提供关键数据支撑。

背景与挑战

背景概述

斯坦福人类偏好数据集第二版（SHP-2）由斯坦福大学自然语言处理研究团队于2023年构建，旨在为强化学习人类反馈（RLHF）和自然语言生成评估模型提供大规模、高质量的偏好数据。该数据集扩展了原始SHP的规模，涵盖129个不同主题领域，从烹饪到法律建议，总计包含480万条集体人类偏好标注。其核心研究问题聚焦于如何从自然发生的在线讨论中，准确推断用户对回复的“帮助性”偏好，从而推动对话系统、奖励模型和文本生成评估技术的发展。SHP-2的影响力在于为RLHF领域提供了首个基于真实社区交互的大规模偏好数据集，弥补了传统人工标注数据在规模和多样性上的不足，促进了对齐研究从模拟对话向真实世界场景的拓展。

当前挑战

SHP-2所解决的领域问题在于自然语言生成中的人类偏好建模，其核心挑战包括如何从非结构化的社区数据中准确提取偏好信号，以及如何克服集体投票中的从众效应偏差。在构建过程中，数据集面临多重技术挑战：首先，必须设计严谨的时间戳与评分联合推断机制，以区分真实偏好与曝光度带来的评分偏差；其次，需在跨平台数据整合中处理Reddit和StackExchange的异构评分体系与内容规范；此外，数据筛选需平衡规模与质量，例如通过阈值过滤低质量帖子，同时避免过度修剪导致领域代表性缺失。这些挑战共同指向了大规模偏好数据构建中信号提取、偏差控制与跨域泛化的核心难题。

常用场景

经典使用场景

在自然语言生成与强化学习领域，SHP-2数据集常被用于训练基于人类反馈的奖励模型，以优化对话系统的生成质量。该数据集通过捕捉Reddit和StackExchange平台上用户对问题回复的集体偏好，为模型提供了丰富的、跨领域的偏好信号。研究者通常利用这些数据微调大型语言模型，使其能够区分不同回复的有用性，从而在生成任务中输出更符合人类期望的答案。

解决学术问题

SHP-2数据集有效解决了自然语言处理中如何量化与建模人类偏好这一核心学术问题。传统评估方法往往依赖人工标注或简单指标，而该数据集通过时间戳与评分机制，构建了大规模、高质量的偏好对，为研究集体智能与个体判断的差异提供了实证基础。其意义在于推动了基于人类反馈的强化学习技术发展，使得模型能够更精准地学习复杂社会语境下的价值判断，促进了可解释人工智能的进步。

衍生相关工作

围绕SHP-2数据集，学术界衍生了一系列经典研究工作。例如，斯坦福团队基于其前身SHP开发了SteamSHP模型，专门用于自然语言生成评估。同时，该数据集也为对比学习与偏好建模提供了基准，激励了如HarmBench等安全对齐方向的探索。这些工作不仅拓展了人类反馈在机器学习中的应用边界，也为多模态偏好学习奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集