nlp-with-deeplearning/ko.SHP
收藏Korean Stanford Human Preferences Dataset (Ko.SHP)
概述
Ko.SHP 数据集是通过自建翻译器将 stanfordnlp/SHP 数据集翻译而成的。SHP 包含 385K 集体人类偏好数据,涉及 18 个不同主题领域的问答/指导。偏好数据用于反映一个回答相对于其他回答的实用性,适用于训练 RLHF 奖励模型和 NLG 评估模型。
每个示例包含一个 Reddit 帖子,该帖子有一个问题/指导和一对顶级评论,其中一个评论被 Reddit 用户更偏好。SHP 利用了这样一个事实:如果评论 A 在评论 B 之后发布但得分更高,则表面上看 A 比 B 更受偏好。
与 HH-RLHF 数据集的比较
- SHP: 385K 自然发生的人类编写回答,集体人类偏好,18 个领域,单轮问答,最大 10.1K T5 令牌。
- HH-RLHF: 91K LLM 对话,个体人类偏好,未标记领域,多轮实时聊天,最大 1.5K T5 令牌。
与 ELI5 数据集的比较
- SHP: 385K,包含评论和分数,有偏好,18 个领域。
- ELI5: 270K,包含评论和分数,无偏好,3 个领域。
数据结构
数据集包含 18 个子 Reddit 目录,每个目录包含训练、验证和测试数据的 JSONL 文件。使用 Huggingface 的 datasets 库加载数据的方法如下:
python from datasets import load_dataset
加载所有数据
dataset = load_dataset("stanfordnlp/shp")
加载某个子 Reddit 数据
dataset = load_dataset("stanfordnlp/shp", data_dir="askculinary")
示例字段
post_id: Reddit 帖子 ID (字符串)domain: 子 Reddit 和数据分割 (字符串)upvote_ratio: 帖子获得的投票比例 (浮点数)history: 帖子标题和正文 (字符串)c_root_id_A: 评论 A 的 ID (字符串)c_root_id_B: 评论 B 的 ID (字符串)created_at_utc_A: 评论 A 创建的 UTC 时间戳 (整数)created_at_utc_B: 评论 B 创建的 UTC 时间戳 (整数)score_A: 评论 A 获得的分数 (整数)score_B: 评论 B 获得的分数 (整数)human_ref_A: 评论 A 的文本 (字符串)human_ref_B: 评论 B 的文本 (字符串)labels: 偏好标签,A 比 B 更受偏好为 1,否则为 0 (整数)seconds_difference: 更不偏好的评论创建后,更偏好的评论创建的时间差 (整数)score_ratio: 更偏好的评论分数与更不偏好的评论分数的比率 (浮点数)
数据集设计
领域选择
数据来自 Reddit 的子 Reddit,每个子 Reddit 包含特定主题的问答。SHP 包含 18 个不同子 Reddit 的训练、验证和测试分割。
数据选择
帖子/评论的分数是用户的上投票数减去下投票数加 1。使用时间戳信息来推断偏好,因为较早发布的评论可能因为更多曝光而得分更高。
预处理
尽量减少预处理,扩展子 Reddit 特定缩写,保留引用文本并删除 URL。
偏好模型微调
微调建议
- 预处理数据以适应模型令牌限制。
- 使用足够大的模型。
- 进行领域内预测。
- 训练较少的 epoch。
- 使用较少的数据进行训练。
评估
建议报告 score_ratio 函数性能曲线,而不是单一准确度值。
偏见和限制
偏见
尽管过滤了 NSFW 内容并选择了有良好调整政策的子 Reddit,但数据中可能仍包含歧视性或有害语言。
限制
SHP 的偏好标签旨在反映一个回答相对于其他回答的实用性,而不是毒性。如果需要毒性数据,建议使用 Anthropic 的 HH-RLHF 数据集的毒性分割。
许可证
数据集根据 Reddit API 使用条款创建,不包含 Reddit 的直接通信或书面同意。
联系
如有数据问题,请联系 kawin@stanford.edu。
引用
如果使用 SHP 或 SteamSHP 模型,请引用以下论文:
@InProceedings{pmlr-v162-ethayarajh22a, title = {Understanding Dataset Difficulty with $mathcal{V}$-Usable Information}, author = {Ethayarajh, Kawin and Choi, Yejin and Swayamdipta, Swabha}, booktitle = {Proceedings of the 39th International Conference on Machine Learning}, pages = {5988--6008}, year = {2022}, editor = {Chaudhuri, Kamalika and Jegelka, Stefanie and Song, Le and Szepesvari, Csaba and Niu, Gang and Sabato, Sivan}, volume = {162}, series = {Proceedings of Machine Learning Research}, month = {17--23 Jul}, publisher = {PMLR}, }



