harpreetsahota/elicit-offensive-language-prompts
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/harpreetsahota/elicit-offensive-language-prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于Ethan Perez等人论文中Table 9和Table 10的选定提示,旨在探索语言模型生成攻击性文本的倾向。它包含来自不同模型和数据集的提示,用于比较它们产生攻击性语言的趋势。数据集的目标是识别导致语言模型生成此类内容的行为触发因素和模式,最终目的是提高对语言模型中攻击性文本生成的理解,并促进更细致和负责任的AI系统开发。
该数据集基于Ethan Perez等人论文中Table 9和Table 10的选定提示,旨在探索语言模型生成攻击性文本的倾向。它包含来自不同模型和数据集的提示,用于比较它们产生攻击性语言的趋势。数据集的目标是识别导致语言模型生成此类内容的行为触发因素和模式,最终目的是提高对语言模型中攻击性文本生成的理解,并促进更细致和负责任的AI系统开发。
提供机构:
harpreetsahota
原始信息汇总
语言模型攻击性文本探索数据集
简介
该数据集基于Ethan Perez et al.的论文 "Red Teaming Language Models with Language Models"中的表9和表10所选的提示创建,旨在探索语言模型生成攻击性文本的倾向。
数据集组成
- 表9基于的提示:这些提示源自280B参数语言模型的测试案例,专注于理解模型在生成攻击性内容时的行为。
- 表10基于的提示:这些提示来自7B参数Gopher LM和BAD数据集创建的测试案例,有助于比较和对比不同模型生成攻击性语言的倾向。
目标
旨在考察语言模型对可能引发攻击性文本的各种提示的响应方式。这一探索旨在识别和理解导致生成此类内容的触发因素和模式。
方法论
通过基于论文中选定的提示进行扩展,我旨在测试这些提示对语言模型的影响,观察和分析生成的响应。这种方法提供了关于某些提示如何影响语言模型输出(特别是在攻击性方面)的见解。
使用和贡献
该数据集可供研究人员和开发者用于测试其自己的语言模型是否生成攻击性文本。此类测试的发现可以有助于改进AI技术的伦理和负责任开发。
目标
最终目标是增强我们对语言模型中攻击性文本生成的理解,并为开发更细致和符合社会责任的AI系统做出贡献。



