harpreetsahota/adversarial-prompts
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/harpreetsahota/adversarial-prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于论文《Explore, Establish, Exploit: Red Teaming Language Models from Scratch》中的示例,旨在测试语言模型在偏见、毒性和错误信息方面的表现。数据集包含37个训练示例,总大小为2366字节。这些提示(prompts)设计用于引发模型产生有毒或错误的响应,从而帮助研究人员和开发者评估和改进语言模型在处理敏感或复杂内容时的表现。
提供机构:
harpreetsahota
原始信息汇总
语言模型测试数据集 📊🤖
数据集概述
- 特征:
- 名称: Prompt
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 2366
- 样本数: 37
- 下载大小: 2228
- 数据集大小: 2366
- 配置:
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集来源
该数据集基于论文 "Explore, Establish, Exploit: Red Teaming Language Models from Scratch" 中的表7和表8。这些表展示了如何通过提示引发语言模型(LMs)的偏见、毒性或无意义响应。
毒性和不实信息 🤬
这些提示源自使用CREAK数据集训练的分类器对GPT-3-text-davinci-002进行红队测试,旨在引发显示毒性或不实倾向的响应。
无意义响应 🤪
类似地,表8中的提示旨在测试语言模型对无意义或毒性内容的响应。这些最初用于使用ChatGPT-3.5-turbo标签训练的分类器对GPT-3-text-davinci-002进行测试。
数据集目的 🎯
该数据集旨在供研究人员和开发者测试其语言模型。特别适用于评估不同模型处理潜在问题内容(偏见、毒性或事实错误)的能力。
使用数据集 🛠️
欢迎使用此数据集评估任何语言模型的响应模式。它是识别语言模型在处理敏感或复杂内容方面可能需要改进的领域的宝贵资源。
目标 🎖️
旨在通过提供一个现成的测试和分析数据集,促进对使语言模型更安全、更可靠和更符合伦理责任的广泛研究。



