erhwenkuo/hh_rlhf-chinese-zhtw
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/hh_rlhf-chinese-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
此数据集合并了来自两篇论文的数据:一是关于有用且无害的人类偏好数据,用于RLHF训练中的偏好模型训练;二是人工生成并带注释的红队对话数据,用于研究红队攻击的成功或失败。数据集特别强调不应将这些数据用于对话代理的监督训练,以避免产生有害的模型行为。数据集中包含可能令人反感或不安的内容,建议根据个人风险承受能力处理。数据集还包括了数据的原始来源和转译过程,以及具体的文件结构和数量。
此数据集合并了来自两篇论文的数据:一是关于有用且无害的人类偏好数据,用于RLHF训练中的偏好模型训练;二是人工生成并带注释的红队对话数据,用于研究红队攻击的成功或失败。数据集特别强调不应将这些数据用于对话代理的监督训练,以避免产生有害的模型行为。数据集中包含可能令人反感或不安的内容,建议根据个人风险承受能力处理。数据集还包括了数据的原始来源和转译过程,以及具体的文件结构和数量。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
数据集名称
"hh_rlhf-chinese-zhtw"
数据集内容
该数据集包含以下内容:
- 来自论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》的有用且无害的人类偏好数据,用于训练偏好(或奖励)模型。
- 来自《減少危害的紅隊語言模型:方法、擴展行為和經驗教訓》的人工生成并带注释的紅隊對話,用于了解众包紅隊如何建模以及哪些类型的紅隊攻擊成功或失败。
数据集特征
- context
- role (string)
- text (string)
- chosen
- role (string)
- text (string)
- rejected
- role (string)
- text (string)
数据集分割
- train
- num_bytes: 302431699
- num_examples: 344317
数据集大小
- download_size: 178897699
- dataset_size: 302431699
数据集配置
- config_name: default
- data_files
- split: train
- path: data/train-*
许可证
MIT
任务类别
- reinforcement-learning
语言
- zh
注意事项
- 数据集包含可能令人反感或令人不安的内容,如歧视性语言及对虐待、暴力等主题的讨论。
- 数据集不适用于训练对话代理,以免导致有害的模型行为。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



