five

nlp-with-deeplearning/ko.SHP

收藏
Hugging Face2023-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlp-with-deeplearning/ko.SHP
下载链接
链接失效反馈
官方服务:
资源简介:
Korean Stanford Human Preferences Dataset (Ko.SHP)是一个包含385K条人类偏好数据的数据集,这些数据是从Reddit的18个不同主题的子论坛中收集的。数据集用于训练RLHF奖励模型和NLG评估模型,包含自然生成的人类撰写的回答,并通过时间戳信息推断偏好。数据集的结构包括18个子目录,每个子目录包含训练、验证和测试数据的JSONL文件。数据集的预处理尽量保持最小化,包括扩展子论坛特定的缩写和删除超链接的URL。模型微调建议包括数据预处理、使用足够大的模型、进行域内预测、减少训练轮次以及使用更少的数据进行训练。评估方法建议报告性能曲线而不是单一准确率值。数据集存在偏差和限制,包括可能包含歧视性或有害语言,以及偏好标签不一定反映更真实的回答。数据集的使用遵循Reddit API的使用条款,并且数据集的使用不表示对其下游使用的支持。

Korean Stanford Human Preferences Dataset (Ko.SHP)是一个包含385K条人类偏好数据的数据集,这些数据是从Reddit的18个不同主题的子论坛中收集的。数据集用于训练RLHF奖励模型和NLG评估模型,包含自然生成的人类撰写的回答,并通过时间戳信息推断偏好。数据集的结构包括18个子目录,每个子目录包含训练、验证和测试数据的JSONL文件。数据集的预处理尽量保持最小化,包括扩展子论坛特定的缩写和删除超链接的URL。模型微调建议包括数据预处理、使用足够大的模型、进行域内预测、减少训练轮次以及使用更少的数据进行训练。评估方法建议报告性能曲线而不是单一准确率值。数据集存在偏差和限制,包括可能包含歧视性或有害语言,以及偏好标签不一定反映更真实的回答。数据集的使用遵循Reddit API的使用条款,并且数据集的使用不表示对其下游使用的支持。
提供机构:
nlp-with-deeplearning
原始信息汇总

Korean Stanford Human Preferences Dataset (Ko.SHP)

概述

Ko.SHP 数据集是通过自建翻译器将 stanfordnlp/SHP 数据集翻译而成的。SHP 包含 385K 集体人类偏好数据,涉及 18 个不同主题领域的问答/指导。偏好数据用于反映一个回答相对于其他回答的实用性,适用于训练 RLHF 奖励模型和 NLG 评估模型。

每个示例包含一个 Reddit 帖子,该帖子有一个问题/指导和一对顶级评论,其中一个评论被 Reddit 用户更偏好。SHP 利用了这样一个事实:如果评论 A 在评论 B 之后发布但得分更高,则表面上看 A 比 B 更受偏好。

与 HH-RLHF 数据集的比较

  • SHP: 385K 自然发生的人类编写回答,集体人类偏好,18 个领域,单轮问答,最大 10.1K T5 令牌。
  • HH-RLHF: 91K LLM 对话,个体人类偏好,未标记领域,多轮实时聊天,最大 1.5K T5 令牌。

与 ELI5 数据集的比较

  • SHP: 385K,包含评论和分数,有偏好,18 个领域。
  • ELI5: 270K,包含评论和分数,无偏好,3 个领域。

数据结构

数据集包含 18 个子 Reddit 目录,每个目录包含训练、验证和测试数据的 JSONL 文件。使用 Huggingface 的 datasets 库加载数据的方法如下:

python from datasets import load_dataset

加载所有数据

dataset = load_dataset("stanfordnlp/shp")

加载某个子 Reddit 数据

dataset = load_dataset("stanfordnlp/shp", data_dir="askculinary")

示例字段

  • post_id: Reddit 帖子 ID (字符串)
  • domain: 子 Reddit 和数据分割 (字符串)
  • upvote_ratio: 帖子获得的投票比例 (浮点数)
  • history: 帖子标题和正文 (字符串)
  • c_root_id_A: 评论 A 的 ID (字符串)
  • c_root_id_B: 评论 B 的 ID (字符串)
  • created_at_utc_A: 评论 A 创建的 UTC 时间戳 (整数)
  • created_at_utc_B: 评论 B 创建的 UTC 时间戳 (整数)
  • score_A: 评论 A 获得的分数 (整数)
  • score_B: 评论 B 获得的分数 (整数)
  • human_ref_A: 评论 A 的文本 (字符串)
  • human_ref_B: 评论 B 的文本 (字符串)
  • labels: 偏好标签,A 比 B 更受偏好为 1,否则为 0 (整数)
  • seconds_difference: 更不偏好的评论创建后,更偏好的评论创建的时间差 (整数)
  • score_ratio: 更偏好的评论分数与更不偏好的评论分数的比率 (浮点数)

数据集设计

领域选择

数据来自 Reddit 的子 Reddit,每个子 Reddit 包含特定主题的问答。SHP 包含 18 个不同子 Reddit 的训练、验证和测试分割。

数据选择

帖子/评论的分数是用户的上投票数减去下投票数加 1。使用时间戳信息来推断偏好,因为较早发布的评论可能因为更多曝光而得分更高。

预处理

尽量减少预处理,扩展子 Reddit 特定缩写,保留引用文本并删除 URL。

偏好模型微调

微调建议

  1. 预处理数据以适应模型令牌限制。
  2. 使用足够大的模型。
  3. 进行领域内预测。
  4. 训练较少的 epoch。
  5. 使用较少的数据进行训练。

评估

建议报告 score_ratio 函数性能曲线,而不是单一准确度值。

偏见和限制

偏见

尽管过滤了 NSFW 内容并选择了有良好调整政策的子 Reddit,但数据中可能仍包含歧视性或有害语言。

限制

SHP 的偏好标签旨在反映一个回答相对于其他回答的实用性,而不是毒性。如果需要毒性数据,建议使用 Anthropic 的 HH-RLHF 数据集的毒性分割。

许可证

数据集根据 Reddit API 使用条款创建,不包含 Reddit 的直接通信或书面同意。

联系

如有数据问题,请联系 kawin@stanford.edu。

引用

如果使用 SHP 或 SteamSHP 模型,请引用以下论文:

@InProceedings{pmlr-v162-ethayarajh22a, title = {Understanding Dataset Difficulty with $mathcal{V}$-Usable Information}, author = {Ethayarajh, Kawin and Choi, Yejin and Swayamdipta, Swabha}, booktitle = {Proceedings of the 39th International Conference on Machine Learning}, pages = {5988--6008}, year = {2022}, editor = {Chaudhuri, Kamalika and Jegelka, Stefanie and Song, Le and Szepesvari, Csaba and Niu, Gang and Sabato, Sivan}, volume = {162}, series = {Proceedings of Machine Learning Research}, month = {17--23 Jul}, publisher = {PMLR}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作