AgentHarm

Name: AgentHarm
Creator: 英国人工智能安全研究所
Published: 2024-10-12 01:39:22
License: 暂无描述

arXiv2024-10-12 更新2024-10-15 收录

下载链接：

https://huggingface.co/ai-safety-institute/AgentHarm

下载链接

链接失效反馈

官方服务：

资源简介：

AgentHarm数据集由英国人工智能安全研究所创建，旨在评估大型语言模型（LLM）代理在执行多步骤任务时的安全性和鲁棒性。该数据集包含110个基本恶意任务和330个增强任务，共计440个任务，涵盖11种危害类别，包括欺诈、网络犯罪和骚扰等。数据集通过合成工具和细粒度评分标准，确保任务的可靠性和安全性。AgentHarm数据集的应用领域主要集中在LLM代理的安全性研究，旨在解决代理在执行恶意任务时的潜在风险问题。

The AgentHarm dataset was developed by the UK AI Safety Institute, with the core goal of evaluating the safety and robustness of large language model (LLM) agents when executing multi-step tasks. This dataset includes 110 basic malicious tasks and 330 enhanced tasks, totaling 440 tasks covering 11 harm categories such as fraud, cybercrime, harassment and others. The reliability and security of the tasks are guaranteed through synthetic tools and fine-grained scoring criteria. The main application scenario of the AgentHarm dataset lies in the safety research of LLM agents, aiming to address the potential risks when agents execute malicious tasks.

提供机构：

英国人工智能安全研究所

创建时间：

2024-10-12

搜集汇总

数据集介绍

构建方式

AgentHarm数据集的构建旨在评估大型语言模型（LLM）代理在面对恶意任务时的鲁棒性。该数据集包含110个明确的恶意代理任务（经过增强后共440个），涵盖11个危害类别，包括欺诈、网络犯罪和骚扰等。构建过程中，研究团队设计了多步骤的任务，要求代理在执行过程中使用外部工具，并确保在攻击后仍能保持其能力以完成任务。此外，数据集还包括了模型能力的评分，以避免攻击导致模型能力下降的常见失败模式。

特点

AgentHarm数据集的特点在于其广泛的危害覆盖范围和多步骤任务的设计。它不仅包括110个独特的恶意行为，还通过增强技术扩展到440个任务，确保了数据集的多样性和复杂性。此外，数据集在评分时考虑了模型能力，避免了仅因模型拒绝攻击而评分成功的错误。AgentHarm还易于使用，集成了流行的评估框架，并具有可靠的评分机制，所有任务均由人工编写和审查。

使用方法

AgentHarm数据集主要用于评估和防御针对LLM代理的攻击。研究者可以通过该数据集测试模型在面对恶意请求时的响应和能力保持情况。数据集提供了详细的任务描述和评分标准，使得评估过程简单且可靠。此外，AgentHarm还包含一个良性变体数据集，用于基线模型能力的评估。研究者可以通过公开的基准测试，评估新模型在不同攻击和防御策略下的表现。

背景与挑战

背景概述

AgentHarm数据集由Gray Swan AI和UK AI Safety Institute的研究人员于2024年创建，旨在评估大型语言模型（LLM）代理在面对恶意任务时的鲁棒性。该数据集包含110个明确的恶意代理任务，涵盖11个危害类别，包括欺诈、网络犯罪和骚扰等。AgentHarm的提出填补了LLM代理在多步骤任务中安全性和鲁棒性研究的空白，为研究人员提供了一个标准化的评估框架，以测试和防御针对LLM代理的攻击。

当前挑战

AgentHarm数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何确保LLM代理在执行多步骤任务时能够有效拒绝恶意请求；二是构建过程中遇到的挑战，包括如何设计一个广泛覆盖危害类别的数据集，以及如何确保评估的可靠性和准确性。此外，数据集的构建还需要考虑防止数据污染和确保模型在攻击后仍能保持其基本能力。

常用场景

经典使用场景

AgentHarm数据集的经典使用场景在于评估大型语言模型（LLM）代理在面对恶意任务时的鲁棒性。通过提供110个明确的恶意代理任务（包括440个增强任务），涵盖11种危害类别，如欺诈、网络犯罪和骚扰，该数据集允许研究人员测量模型在拒绝有害请求方面的表现，并评估其在遭受攻击后完成多步骤任务的能力。

衍生相关工作

AgentHarm数据集的发布催生了大量相关研究工作，特别是在LLM代理的安全性和鲁棒性评估方面。例如，研究者们开发了新的攻击方法和防御策略，以应对数据集中定义的恶意任务。此外，该数据集还促进了跨学科的合作，如计算机科学、人工智能伦理和法律等领域的专家共同探讨如何更好地保护LLM代理免受滥用。

数据集最近研究