five

Babelscape/ALERT_DPO

收藏
Hugging Face2024-06-20 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/ALERT_DPO
下载链接
链接失效反馈
官方服务:
资源简介:
ALERT DPO数据集是一个用于通过直接偏好优化(DPO)方法调整大型语言模型(LLMs)安全性的数据集。该数据集包含两个部分:ALERT和ALERT_Adv,分别包含约15K和30K的三元组数据,每个三元组包括提示、安全答案和不安全答案,并与特定的安全风险类别相关联。数据集的创建基于ALERT基准,该基准通过红队方法评估LLMs的安全性,并提供了一个细粒度的安全风险分类法。数据集的使用需要注意其可能包含的敏感内容,并鼓励负责任和伦理地使用。
提供机构:
Babelscape
原始信息汇总

数据集概述

数据集名称

  • ALERT DPO Dataset

数据集描述

  • 摘要: 该数据集是基于ALERT的安全性调整大型语言模型(LLMs)的直接偏好优化(DPO)数据集。
  • 语言: 英语(en)
  • 任务类别: 文本生成
  • 大小类别: 10,000<n<100,000

数据集内容

  • 数据格式: JSONL
  • 数据集组成:
    • ALERT DPO: 包含约15,000个三元组,即提示与选定(安全)和拒绝(不安全或较不安全)的答案配对。
    • ALERT<sub>Adv</sub>: 包含约30,000个三元组,即对抗性提示与选定(安全)和拒绝(不安全或较不安全)的答案配对。

数据集结构

  • 基本字段:
    • id (整数)
    • prompt (字符串)
    • category (字符串)
    • chosen (字符串)
    • rejected (字符串)
  • 对抗性版本额外字段:
    • attack_type (字符串)

许可信息

  • 许可证: CC BY-NC-SA 4.0

注意事项

  • 内容警告: 数据集包含可能令人反感或不安的内容,包括歧视性语言和关于虐待、暴力、自残、剥削等潜在令人不安的主题的讨论。
  • 使用建议: 数据仅供研究使用,特别是旨在使模型减少有害性的研究。用户应负责任和道德地使用数据集,以避免对用户造成任何伤害并确保安全。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作