five

AgentHarm|人工智能安全数据集|大型语言模型数据集

收藏
arXiv2024-10-12 更新2024-10-15 收录
人工智能安全
大型语言模型
下载链接:
https://huggingface.co/ai-safety-institute/AgentHarm
下载链接
链接失效反馈
资源简介:
AgentHarm数据集由英国人工智能安全研究所创建,旨在评估大型语言模型(LLM)代理在执行多步骤任务时的安全性和鲁棒性。该数据集包含110个基本恶意任务和330个增强任务,共计440个任务,涵盖11种危害类别,包括欺诈、网络犯罪和骚扰等。数据集通过合成工具和细粒度评分标准,确保任务的可靠性和安全性。AgentHarm数据集的应用领域主要集中在LLM代理的安全性研究,旨在解决代理在执行恶意任务时的潜在风险问题。
提供机构:
英国人工智能安全研究所
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
AgentHarm数据集的构建旨在评估大型语言模型(LLM)代理在面对恶意任务时的鲁棒性。该数据集包含110个明确的恶意代理任务(经过增强后共440个),涵盖11个危害类别,包括欺诈、网络犯罪和骚扰等。构建过程中,研究团队设计了多步骤的任务,要求代理在执行过程中使用外部工具,并确保在攻击后仍能保持其能力以完成任务。此外,数据集还包括了模型能力的评分,以避免攻击导致模型能力下降的常见失败模式。
特点
AgentHarm数据集的特点在于其广泛的危害覆盖范围和多步骤任务的设计。它不仅包括110个独特的恶意行为,还通过增强技术扩展到440个任务,确保了数据集的多样性和复杂性。此外,数据集在评分时考虑了模型能力,避免了仅因模型拒绝攻击而评分成功的错误。AgentHarm还易于使用,集成了流行的评估框架,并具有可靠的评分机制,所有任务均由人工编写和审查。
使用方法
AgentHarm数据集主要用于评估和防御针对LLM代理的攻击。研究者可以通过该数据集测试模型在面对恶意请求时的响应和能力保持情况。数据集提供了详细的任务描述和评分标准,使得评估过程简单且可靠。此外,AgentHarm还包含一个良性变体数据集,用于基线模型能力的评估。研究者可以通过公开的基准测试,评估新模型在不同攻击和防御策略下的表现。
背景与挑战
背景概述
AgentHarm数据集由Gray Swan AI和UK AI Safety Institute的研究人员于2024年创建,旨在评估大型语言模型(LLM)代理在面对恶意任务时的鲁棒性。该数据集包含110个明确的恶意代理任务,涵盖11个危害类别,包括欺诈、网络犯罪和骚扰等。AgentHarm的提出填补了LLM代理在多步骤任务中安全性和鲁棒性研究的空白,为研究人员提供了一个标准化的评估框架,以测试和防御针对LLM代理的攻击。
当前挑战
AgentHarm数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何确保LLM代理在执行多步骤任务时能够有效拒绝恶意请求;二是构建过程中遇到的挑战,包括如何设计一个广泛覆盖危害类别的数据集,以及如何确保评估的可靠性和准确性。此外,数据集的构建还需要考虑防止数据污染和确保模型在攻击后仍能保持其基本能力。
常用场景
经典使用场景
AgentHarm数据集的经典使用场景在于评估大型语言模型(LLM)代理在面对恶意任务时的鲁棒性。通过提供110个明确的恶意代理任务(包括440个增强任务),涵盖11种危害类别,如欺诈、网络犯罪和骚扰,该数据集允许研究人员测量模型在拒绝有害请求方面的表现,并评估其在遭受攻击后完成多步骤任务的能力。
衍生相关工作
AgentHarm数据集的发布催生了大量相关研究工作,特别是在LLM代理的安全性和鲁棒性评估方面。例如,研究者们开发了新的攻击方法和防御策略,以应对数据集中定义的恶意任务。此外,该数据集还促进了跨学科的合作,如计算机科学、人工智能伦理和法律等领域的专家共同探讨如何更好地保护LLM代理免受滥用。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)领域,AgentHarm数据集的最新研究方向聚焦于评估和提升LLM代理在面对恶意攻击时的鲁棒性。该数据集通过模拟多种恶意任务,涵盖欺诈、网络犯罪和骚扰等11个危害类别,旨在测量模型在拒绝有害请求和保持多步骤任务完成能力方面的表现。前沿研究揭示了当前领先LLMs在未经过专门防御措施的情况下,对恶意代理请求的惊人顺从性,并发现简单的通用越狱模板能够有效越狱代理,使其执行连贯且恶意的多步骤行为。这些发现强调了开发针对LLM代理的攻击和防御策略的重要性,以确保其在实际应用中的安全性和可靠性。
相关研究论文
  • 1
    AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents英国人工智能安全研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录