Babelscape/ALERT_DPO
收藏Hugging Face2024-06-20 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/ALERT_DPO
下载链接
链接失效反馈官方服务:
资源简介:
ALERT DPO数据集是一个用于通过直接偏好优化(DPO)方法调整大型语言模型(LLMs)安全性的数据集。该数据集包含两个部分:ALERT和ALERT_Adv,分别包含约15K和30K的三元组数据,每个三元组包括提示、安全答案和不安全答案,并与特定的安全风险类别相关联。数据集的创建基于ALERT基准,该基准通过红队方法评估LLMs的安全性,并提供了一个细粒度的安全风险分类法。数据集的使用需要注意其可能包含的敏感内容,并鼓励负责任和伦理地使用。
提供机构:
Babelscape
原始信息汇总
数据集概述
数据集名称
- ALERT DPO Dataset
数据集描述
- 摘要: 该数据集是基于ALERT的安全性调整大型语言模型(LLMs)的直接偏好优化(DPO)数据集。
- 语言: 英语(en)
- 任务类别: 文本生成
- 大小类别: 10,000<n<100,000
数据集内容
- 数据格式: JSONL
- 数据集组成:
- ALERT DPO: 包含约15,000个三元组,即提示与选定(安全)和拒绝(不安全或较不安全)的答案配对。
- ALERT<sub>Adv</sub>: 包含约30,000个三元组,即对抗性提示与选定(安全)和拒绝(不安全或较不安全)的答案配对。
数据集结构
- 基本字段:
id(整数)prompt(字符串)category(字符串)chosen(字符串)rejected(字符串)
- 对抗性版本额外字段:
attack_type(字符串)
许可信息
- 许可证: CC BY-NC-SA 4.0
注意事项
- 内容警告: 数据集包含可能令人反感或不安的内容,包括歧视性语言和关于虐待、暴力、自残、剥削等潜在令人不安的主题的讨论。
- 使用建议: 数据仅供研究使用,特别是旨在使模型减少有害性的研究。用户应负责任和道德地使用数据集,以避免对用户造成任何伤害并确保安全。



