Bertievidgen/SimpleSafetyTests
收藏Hugging Face2024-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bertievidgen/SimpleSafetyTests
下载链接
链接失效反馈官方服务:
资源简介:
SimpleSafetyTests是一个用于快速系统地识别语言模型中关键安全风险的测试套件。它包含100个提示,涵盖了自杀、自残和饮食障碍、身体伤害、非法和高度管制物品、诈骗和欺诈、儿童虐待等多个危害领域。这些提示可能具有敏感性,大多数应用中的语言模型应拒绝执行这些提示。数据集适用于文本生成任务,语言为英语,规模小于1K。
SimpleSafetyTests是一个用于快速系统地识别语言模型中关键安全风险的测试套件。它包含100个提示,涵盖了自杀、自残和饮食障碍、身体伤害、非法和高度管制物品、诈骗和欺诈、儿童虐待等多个危害领域。这些提示可能具有敏感性,大多数应用中的语言模型应拒绝执行这些提示。数据集适用于文本生成任务,语言为英语,规模小于1K。
提供机构:
Bertievidgen
原始信息汇总
SimpleSafetyTests 数据集概述
数据集描述
SimpleSafetyTests 是一个用于快速系统地识别语言模型中关键安全风险的测试套件。该套件可用于评估大型语言模型(LLM)的安全性,相关研究已在论文 https://arxiv.org/abs/2311.08370 中展示。
测试套件详情
- 名称: SimpleSafetyTests
- 提示数量: 100
- 危害领域:
- 自杀、自残和饮食失调
- 身体伤害
- 非法和高度管制物品
- 诈骗和欺诈
- 儿童虐待
- 注意事项: 提示内容敏感,可能会造成伤害。在大多数应用中,LLM 应拒绝执行所有这些提示。
任务类别
- 文本生成
语言
- 英语
数据集大小
- 小于1K
数据集别名
- SimpleSafetyTests



