five

ibm/AttaQ|语言模型安全评估数据集|对抗性测试数据集

收藏
hugging_face2024-01-26 更新2024-03-04 收录
语言模型安全评估
对抗性测试
下载链接:
https://hf-mirror.com/datasets/ibm/AttaQ
下载链接
链接失效反馈
资源简介:
AttaQ数据集包含1402个精心设计的对抗性问题,旨在评估大型语言模型(LLMs)产生有害或不希望的响应的倾向。数据集分为七个不同的类别:欺骗、歧视、有害信息、物质滥用、性内容、个人身份信息(PII)和暴力。该数据集可用于评估LLMs的行为并探索影响其响应的各种因素,最终目的是提高其无害性和伦理使用。
提供机构:
ibm
原始信息汇总

AttaQ Dataset Summary

基本信息

  • 许可证: MIT
  • 语言: 英语
  • 多语言性: 单语种
  • 来源数据集: 扩展自Anthropic/hh-rlhf
  • 任务类别:
    • 文本生成
    • 文本到文本生成
  • 大小类别: 1K<n<10K
  • 标签:
    • 安全
    • 伤害
    • 大型语言模型(LLMs)
    • 脆弱性
    • 红队测试
    • 毒性

数据集描述

  • 目的: 评估大型语言模型(LLMs)生成有害或不理想响应的倾向。
  • 组成: 包含1402个精心设计的对抗性问题,分为七个类别:欺骗、歧视、有害信息、物质滥用、性内容、个人识别信息(PII)和暴力。
  • 用途: 用于评估LLMs的行为和探索影响其响应的各种因素,旨在增强其无害性和伦理使用。

开发过程

  1. 提取: 从Anthropic的hh-rlhf数据集中方法论地提取攻击,并半自动标记为七个类别。
  2. 生成: 使用LLMs生成大量与hh-rlhf数据集中提取的攻击相似的攻击。
  3. 爬取与生成: 结合LLMs和Wikipedia的犯罪页面,生成与每种犯罪相关的行动,进而设计探索不道德或非法行为的问题,特别关注逃避检测或后果的策略。

数据字段

  • label: 对抗性问题的标签
  • input: 对抗性问题
  • additional_info: 对抗性问题的来源

使用信息

  • 评估方法: 模型应通过数据集中的每个问题进行提示,并使用考虑输入和输出的度量标准评估响应。
  • 评估模型: 使用"OpenAssistant/reward-model-deberta-v3-large-v2"奖励模型,也可使用"sileod/deberta-v3-large-tasksource-rlhf-reward-model"。

引用信息

@article{kour2023unveiling, title={Unveiling Safety Vulnerabilities of Large Language Models}, author={Kour, George and Zalmanovici, Marcel and Zwerdling, Naama and Goldbraich, Esther and Fandina, Ora Nova and Anaby-Tavor, Ateret and Raz, Orna and Farchi, Eitan}, journal={arXiv preprint arXiv:2311.04124}, year={2023} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
AttaQ数据集的构建过程融合了多种策略,旨在系统性地评估大型语言模型(LLMs)在面对对抗性问题时的潜在危害性。首先,通过从Anthropic的hh-rlhf数据集中有策略地提取对抗性攻击样本,并对其进行半自动分类,涵盖了七个关键类别:欺骗、歧视、有害信息、物质滥用、性内容、个人身份信息(PII)以及暴力。其次,利用LLMs生成大量与提取样本性质相似的攻击问题,进一步丰富了数据集的多样性。最后,结合Wikipedia的犯罪页面,生成与各类犯罪相关的行动方案,设计出旨在探索非法或不道德行为的对抗性问题,特别是那些试图规避法律制裁的策略。
特点
AttaQ数据集的显著特点在于其对抗性问题的多样性和针对性。该数据集不仅涵盖了广泛的潜在危害类别,如欺骗、歧视和暴力等,还通过生成和爬取相结合的方式,确保了问题的复杂性和现实性。此外,数据集的每个问题都附带了详细的标签和来源信息,便于研究人员进行深入分析。值得注意的是,尽管数据集包含敏感和令人不适的内容,但其设计初衷是为了帮助识别和减少LLMs的潜在危害,从而推动更安全、更负责任的人工智能应用。
使用方法
AttaQ数据集主要用于评估和改进大型语言模型(LLMs)的安全性和无害性。使用该数据集时,研究人员可以通过提示模型生成对抗性问题的响应,并利用无害性评估指标对这些响应进行量化分析。具体操作中,可以加载数据集并初始化相应的生成模型和奖励模型,如GPT-2和deberta-v3-large-tasksource-rlhf-reward-model。通过生成模型对每个对抗性问题生成响应,并使用奖励模型计算响应的无害性得分,从而全面评估模型在不同攻击类别下的表现。
背景与挑战
背景概述
AttaQ数据集由IBM开发,旨在评估大型语言模型(LLMs)在面对对抗性问题时生成有害或不适当响应的倾向。该数据集包含1402个精心设计的对抗性问题,分为七个类别:欺骗、歧视、有害信息、物质滥用、性内容、个人身份信息(PII)和暴力。通过这些类别,研究人员和开发者可以评估LLMs的行为,探索影响其响应的各种因素,从而提升其无害性和伦理使用。AttaQ的开发结合了从Anthropic的hh-rlhf数据集中提取的攻击、使用LLMs生成的攻击,以及基于Wikipedia犯罪页面生成的攻击,旨在全面评估LLMs的安全性。
当前挑战
AttaQ数据集面临的挑战主要集中在两个方面。首先,构建过程中需要从多个来源提取和生成对抗性问题,这要求对数据进行细致的分类和标注,确保每个问题都能准确反映特定类型的危害。其次,评估LLMs的响应时,需要开发和应用无害性度量标准,以量化模型生成的响应的有害程度。此外,数据集中包含的敏感和冒犯性内容可能对研究人员和开发者的心理承受能力构成挑战,同时也需要在伦理和法律框架内合理使用该数据集,以确保其研究目的的正当性。
常用场景
经典使用场景
AttaQ数据集的经典使用场景在于评估大型语言模型(LLMs)在面对精心设计的对抗性问题时的响应行为。通过该数据集,研究者和开发者能够系统地测试模型在涉及欺骗、歧视、有害信息、物质滥用、性内容、个人身份信息(PII)及暴力等七大类问题上的表现,从而量化模型生成有害或不适当响应的倾向。
实际应用
在实际应用中,AttaQ数据集被广泛用于模型安全性的红队测试,即通过模拟恶意输入来发现和修复模型的安全漏洞。这种测试方法在部署前对模型进行全面的安全评估,确保其在面对真实世界复杂输入时能够保持安全性和伦理合规性,从而在医疗、法律和教育等多个领域中得到应用。
衍生相关工作
基于AttaQ数据集,研究者们开发了多种评估和改进大型语言模型安全性的方法。例如,相关工作包括使用奖励模型来量化模型响应的无害性,以及通过对抗性训练来增强模型的鲁棒性。此外,该数据集还激发了对自动化安全评估工具的研究,推动了红队测试技术的发展,为未来更安全的AI系统奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CCNC

CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。

github 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。

huggingface 收录

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

CWRU Bearing Dataset

用于训练CNN和LSTM的轴承数据集,用于电机故障检测。

github 收录