nlp-with-deeplearning/ko.SHP

Name: nlp-with-deeplearning/ko.SHP
Creator: nlp-with-deeplearning
Published: 2023-12-04 03:24:48
License: 暂无描述

Hugging Face2023-12-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nlp-with-deeplearning/ko.SHP

下载链接

链接失效反馈

官方服务：

资源简介：

Korean Stanford Human Preferences Dataset (Ko.SHP)是一个包含385K条人类偏好数据的数据集，这些数据是从Reddit的18个不同主题的子论坛中收集的。数据集用于训练RLHF奖励模型和NLG评估模型，包含自然生成的人类撰写的回答，并通过时间戳信息推断偏好。数据集的结构包括18个子目录，每个子目录包含训练、验证和测试数据的JSONL文件。数据集的预处理尽量保持最小化，包括扩展子论坛特定的缩写和删除超链接的URL。模型微调建议包括数据预处理、使用足够大的模型、进行域内预测、减少训练轮次以及使用更少的数据进行训练。评估方法建议报告性能曲线而不是单一准确率值。数据集存在偏差和限制，包括可能包含歧视性或有害语言，以及偏好标签不一定反映更真实的回答。数据集的使用遵循Reddit API的使用条款，并且数据集的使用不表示对其下游使用的支持。

提供机构：

nlp-with-deeplearning

原始信息汇总

Korean Stanford Human Preferences Dataset (Ko.SHP)

概述

Ko.SHP 数据集是通过自建翻译器将 stanfordnlp/SHP 数据集翻译而成的。SHP 包含 385K 集体人类偏好数据，涉及 18 个不同主题领域的问答/指导。偏好数据用于反映一个回答相对于其他回答的实用性，适用于训练 RLHF 奖励模型和 NLG 评估模型。

每个示例包含一个 Reddit 帖子，该帖子有一个问题/指导和一对顶级评论，其中一个评论被 Reddit 用户更偏好。SHP 利用了这样一个事实：如果评论 A 在评论 B 之后发布但得分更高，则表面上看 A 比 B 更受偏好。

与 HH-RLHF 数据集的比较

SHP: 385K 自然发生的人类编写回答，集体人类偏好，18 个领域，单轮问答，最大 10.1K T5 令牌。
HH-RLHF: 91K LLM 对话，个体人类偏好，未标记领域，多轮实时聊天，最大 1.5K T5 令牌。

与 ELI5 数据集的比较

SHP: 385K，包含评论和分数，有偏好，18 个领域。
ELI5: 270K，包含评论和分数，无偏好，3 个领域。

数据结构

数据集包含 18 个子 Reddit 目录，每个目录包含训练、验证和测试数据的 JSONL 文件。使用 Huggingface 的 datasets 库加载数据的方法如下：

python from datasets import load_dataset

加载所有数据

dataset = load_dataset("stanfordnlp/shp")

加载某个子 Reddit 数据

dataset = load_dataset("stanfordnlp/shp", data_dir="askculinary")

示例字段

post_id: Reddit 帖子 ID (字符串)
domain: 子 Reddit 和数据分割 (字符串)
upvote_ratio: 帖子获得的投票比例 (浮点数)
history: 帖子标题和正文 (字符串)
c_root_id_A: 评论 A 的 ID (字符串)
c_root_id_B: 评论 B 的 ID (字符串)
created_at_utc_A: 评论 A 创建的 UTC 时间戳 (整数)
created_at_utc_B: 评论 B 创建的 UTC 时间戳 (整数)
score_A: 评论 A 获得的分数 (整数)
score_B: 评论 B 获得的分数 (整数)
human_ref_A: 评论 A 的文本 (字符串)
human_ref_B: 评论 B 的文本 (字符串)
labels: 偏好标签，A 比 B 更受偏好为 1，否则为 0 (整数)
seconds_difference: 更不偏好的评论创建后，更偏好的评论创建的时间差 (整数)
score_ratio: 更偏好的评论分数与更不偏好的评论分数的比率 (浮点数)

数据集设计

领域选择

数据来自 Reddit 的子 Reddit，每个子 Reddit 包含特定主题的问答。SHP 包含 18 个不同子 Reddit 的训练、验证和测试分割。

数据选择

帖子/评论的分数是用户的上投票数减去下投票数加 1。使用时间戳信息来推断偏好，因为较早发布的评论可能因为更多曝光而得分更高。

预处理

尽量减少预处理，扩展子 Reddit 特定缩写，保留引用文本并删除 URL。

偏好模型微调

微调建议

预处理数据以适应模型令牌限制。
使用足够大的模型。
进行领域内预测。
训练较少的 epoch。
使用较少的数据进行训练。

评估

建议报告 score_ratio 函数性能曲线，而不是单一准确度值。

偏见和限制

偏见

尽管过滤了 NSFW 内容并选择了有良好调整政策的子 Reddit，但数据中可能仍包含歧视性或有害语言。

限制

SHP 的偏好标签旨在反映一个回答相对于其他回答的实用性，而不是毒性。如果需要毒性数据，建议使用 Anthropic 的 HH-RLHF 数据集的毒性分割。

许可证

数据集根据 Reddit API 使用条款创建，不包含 Reddit 的直接通信或书面同意。

联系

如有数据问题，请联系 kawin@stanford.edu。

引用

如果使用 SHP 或 SteamSHP 模型，请引用以下论文：

@InProceedings{pmlr-v162-ethayarajh22a, title = {Understanding Dataset Difficulty with $mathcal{V}$-Usable Information}, author = {Ethayarajh, Kawin and Choi, Yejin and Swayamdipta, Swabha}, booktitle = {Proceedings of the 39th International Conference on Machine Learning}, pages = {5988--6008}, year = {2022}, editor = {Chaudhuri, Kamalika and Jegelka, Stefanie and Song, Le and Szepesvari, Csaba and Niu, Gang and Sabato, Sivan}, volume = {162}, series = {Proceedings of Machine Learning Research}, month = {17--23 Jul}, publisher = {PMLR}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集