betteruncensored/hh-rlhf
收藏Hugging Face2024-02-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/betteruncensored/hh-rlhf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Anthropic/hh-rlhf的改进版本,主要用于训练无审查的模型。数据集包含两种类型的数据:1) 人类偏好数据,用于训练偏好模型,这些数据不应用于监督训练对话代理,因为这可能导致有害模型;2) 红队对话数据,用于理解红队攻击模型的方式,这些数据不应用于微调或偏好建模。数据集还包含可能令人不适的内容,如歧视性语言、暴力等,仅适用于研究目的。
该数据集是Anthropic/hh-rlhf的改进版本,主要用于训练无审查的模型。数据集包含两种类型的数据:1) 人类偏好数据,用于训练偏好模型,这些数据不应用于监督训练对话代理,因为这可能导致有害模型;2) 红队对话数据,用于理解红队攻击模型的方式,这些数据不应用于微调或偏好建模。数据集还包含可能令人不适的内容,如歧视性语言、暴力等,仅适用于研究目的。
提供机构:
betteruncensored
原始信息汇总
数据集卡片 HH-RLHF Better Uncensored
Better Uncensored 概述
这是著名的 Anthropic 偏好数据集 Anthropic/hh-rlhf 的 Better Uncensored 版本。
仅对训练文件进行了如下处理:
bash find ../hh-rlhf/ -type f -name train.jsonl | xargs -I {} python uncensor_rlhf.py --in-file {}
这应该可以作为原始数据集的无审查模型训练的直接替代品。根据文件不同,大约有 10% 到 25% 的数据被丢弃。
数据集概述
本仓库提供两种不同类型的数据:
- 关于帮助性和无害性的人类偏好数据,来自论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback。这些数据旨在用于训练后续 RLHF 训练的偏好(或奖励)模型,不适用于对话代理的监督训练。
- 来自 Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned 的人工生成和标注的红队对话数据。这些数据旨在理解人群工作者如何红队模型以及哪些类型的红队攻击是成功的或不成功的,不适用于微调或偏好建模。
免责声明:数据(尤其是无害性偏好数据和红队数据)包含可能具有冒犯性或令人不安的内容。请仅根据您个人的风险承受能力与数据互动。这些数据旨在用于研究目的,尤其是可以减少模型危害的研究。
关于帮助性和无害性的人类偏好数据(PM 数据)
数据格式非常简单,每行 jsonl 文件包含一对文本,一个“chosen”和一个“rejected”。
- 帮助性:数据分为训练/测试集,来自我们的基础模型(上下文蒸馏的 52B 语言模型),通过拒绝采样(主要采用 best-of-16 采样)与早期偏好模型对比,以及在我们的迭代“在线”过程中采样的数据集。
- 无害性:数据仅从我们的基础模型收集,格式相同。
红队数据(非 PM 数据)
每行 jsonl 文件包含一个字典,字段包括:
transcript:人类对手(红队成员)和 AI 助手之间对话的文本记录min_harmlessness_score_transcript:AI 助手的无害性得分(越低越有害)num_params:语言模型的参数数量model_type:模型的类型rating:红队成员对成功破坏 AI 助手的评级(Likert 量表,越高越成功)task_description:红队成员关于如何尝试红队 AI 助手的简短文本描述task_description_harmlessness_score:任务描述的无害性得分(越低越有害)red_team_member_id:红队成员的任意标识符is_upworker:红队成员是否来自 Upwork 平台的二进制指示符tags:每个对话记录最多 6 个标签,描述红队尝试的简短描述
使用方法
每个数据集位于单独的子目录中。加载单个子集的示例如下:
python from datasets import load_dataset
加载所有帮助性/无害性子集(共享相同模式)
dataset = load_dataset("Anthropic/hh-rlhf")
加载其中一个无害性子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base")
加载红队子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")



