Babelscape/ALERT_DPO

Name: Babelscape/ALERT_DPO
Creator: Babelscape
Published: 2024-06-20 07:33:59
License: 暂无描述

Hugging Face2024-06-20 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/Babelscape/ALERT_DPO

下载链接

链接失效反馈

官方服务：

资源简介：

ALERT DPO数据集是一个用于通过直接偏好优化（DPO）方法调整大型语言模型（LLMs）安全性的数据集。该数据集包含两个部分：ALERT和ALERT_Adv，分别包含约15K和30K的三元组数据，每个三元组包括提示、安全答案和不安全答案，并与特定的安全风险类别相关联。数据集的创建基于ALERT基准，该基准通过红队方法评估LLMs的安全性，并提供了一个细粒度的安全风险分类法。数据集的使用需要注意其可能包含的敏感内容，并鼓励负责任和伦理地使用。

提供机构：

Babelscape

原始信息汇总

数据集概述

数据集名称

ALERT DPO Dataset

数据集描述

摘要： 该数据集是基于ALERT的安全性调整大型语言模型（LLMs）的直接偏好优化（DPO）数据集。
语言： 英语（en）
任务类别： 文本生成
大小类别： 10,000<n<100,000

数据集内容

数据格式： JSONL
数据集组成：
- ALERT DPO： 包含约15,000个三元组，即提示与选定（安全）和拒绝（不安全或较不安全）的答案配对。
- ALERT<sub>Adv</sub>： 包含约30,000个三元组，即对抗性提示与选定（安全）和拒绝（不安全或较不安全）的答案配对。

数据集结构

基本字段：
- id (整数)
- prompt (字符串)
- category (字符串)
- chosen (字符串)
- rejected (字符串)
对抗性版本额外字段：
- attack_type (字符串)

许可信息

许可证： CC BY-NC-SA 4.0

注意事项

内容警告： 数据集包含可能令人反感或不安的内容，包括歧视性语言和关于虐待、暴力、自残、剥削等潜在令人不安的主题的讨论。
使用建议： 数据仅供研究使用，特别是旨在使模型减少有害性的研究。用户应负责任和道德地使用数据集，以避免对用户造成任何伤害并确保安全。

5,000+

优质数据集

54 个

任务类型

进入经典数据集