ibm/AttaQ|语言模型安全评估数据集|对抗性测试数据集
收藏AttaQ Dataset Summary
基本信息
- 许可证: MIT
- 语言: 英语
- 多语言性: 单语种
- 来源数据集: 扩展自Anthropic/hh-rlhf
- 任务类别:
- 文本生成
- 文本到文本生成
- 大小类别: 1K<n<10K
- 标签:
- 安全
- 伤害
- 大型语言模型(LLMs)
- 脆弱性
- 红队测试
- 毒性
数据集描述
- 目的: 评估大型语言模型(LLMs)生成有害或不理想响应的倾向。
- 组成: 包含1402个精心设计的对抗性问题,分为七个类别:欺骗、歧视、有害信息、物质滥用、性内容、个人识别信息(PII)和暴力。
- 用途: 用于评估LLMs的行为和探索影响其响应的各种因素,旨在增强其无害性和伦理使用。
开发过程
- 提取: 从Anthropic的hh-rlhf数据集中方法论地提取攻击,并半自动标记为七个类别。
- 生成: 使用LLMs生成大量与hh-rlhf数据集中提取的攻击相似的攻击。
- 爬取与生成: 结合LLMs和Wikipedia的犯罪页面,生成与每种犯罪相关的行动,进而设计探索不道德或非法行为的问题,特别关注逃避检测或后果的策略。
数据字段
label
: 对抗性问题的标签input
: 对抗性问题additional_info
: 对抗性问题的来源
使用信息
- 评估方法: 模型应通过数据集中的每个问题进行提示,并使用考虑输入和输出的度量标准评估响应。
- 评估模型: 使用"OpenAssistant/reward-model-deberta-v3-large-v2"奖励模型,也可使用"sileod/deberta-v3-large-tasksource-rlhf-reward-model"。
引用信息
@article{kour2023unveiling, title={Unveiling Safety Vulnerabilities of Large Language Models}, author={Kour, George and Zalmanovici, Marcel and Zwerdling, Naama and Goldbraich, Esther and Fandina, Ora Nova and Anaby-Tavor, Ateret and Raz, Orna and Farchi, Eitan}, journal={arXiv preprint arXiv:2311.04124}, year={2023} }

CCNC
CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。
github 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
diegopdlv5/test_dataset_0049c
该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。
hugging_face 收录
马达加斯加岛 – 世界地理数据大百科辞条
马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。
国家对地观测科学数据中心 收录
CWRU Bearing Dataset
用于训练CNN和LSTM的轴承数据集,用于电机故障检测。
github 收录