AgentHarm
收藏arXiv2024-10-15 更新2024-10-16 收录
下载链接:
https://huggingface.co/datasets/ai-safety-institute/AgentHarm
下载链接
链接失效反馈官方服务:
资源简介:
AgentHarm是由英国人工智能安全研究所创建的一个用于评估大型语言模型(LLM)代理潜在危害的基准数据集。该数据集包含440个任务,涵盖11种危害类别,如欺诈、网络犯罪和骚扰。数据集通过合成工具和细粒度评分标准来模拟多步骤任务,旨在评估模型在面对恶意请求时的响应和能力。AgentHarm的创建旨在解决LLM代理在执行多步骤任务时可能带来的安全风险,特别是在模型被恶意利用的情况下。
AgentHarm is a benchmark dataset created by the UK AI Safety Institute to evaluate potential harms of large language model (LLM) agents. This dataset contains 440 tasks spanning 11 harm categories such as fraud, cybercrime and harassment. It simulates multi-step tasks using synthetic tools and fine-grained scoring criteria, with the goal of assessing models' responses and capabilities when confronted with malicious requests. AgentHarm was developed to address the security risks that LLM agents may introduce during the execution of multi-step tasks, especially in cases where the models are maliciously exploited.
提供机构:
英国人工智能安全研究所
创建时间:
2024-10-12
搜集汇总
数据集介绍

构建方式
AgentHarm数据集通过精心设计,包含了110个明确的恶意代理任务(经过增强后达到440个),涵盖了11种危害类别,包括欺诈、网络犯罪和骚扰等。该数据集的构建不仅考虑了模型是否拒绝有害请求,还评估了在攻击后代理是否仍能保持其能力以完成多步骤任务。通过这种方式,AgentHarm旨在提供一个全面且可靠的基准,用于评估和研究大型语言模型代理的滥用情况。
特点
AgentHarm数据集的一个显著特点是其广泛的覆盖范围,包括110个独特的和330个增强的代理行为,跨越11种危害类别,并涵盖了广泛的潜在代理工具。此外,该数据集在评分中纳入了模型能力,避免了常见的问题,即攻击虽然被认为是高度成功的,但实际上模型在攻击后变得不那么有能力。AgentHarm还包括一个良性的数据集变体,作为模型能力的基线。
使用方法
AgentHarm数据集的使用方法相对简单,它集成了一个流行的评估框架,并使用了简单的代理工具。用户可以通过该数据集评估模型在面对恶意请求时的表现,包括是否拒绝请求以及在拒绝请求后的模型能力。此外,AgentHarm还提供了一个私有的测试集,用于评估新模型,确保这些模型在没有服务器端日志的情况下也能进行可靠的评估。
背景与挑战
背景概述
AgentHarm数据集由Gray Swan AI和UK AI Safety Institute的研究人员于2024年创建,旨在评估大型语言模型(LLM)代理在面对恶意任务时的鲁棒性。该数据集包含110个明确的恶意代理任务,涵盖11种危害类别,包括欺诈、网络犯罪和骚扰等。AgentHarm的创建背景是,尽管LLM在作为简单聊天机器人时对越狱攻击的鲁棒性已有研究,但当LLM代理使用外部工具执行多阶段任务时,其潜在风险更大,且相关研究不足。AgentHarm的发布旨在促进对LLM代理误用的研究,并评估模型在拒绝有害请求和保持功能能力方面的表现。
当前挑战
AgentHarm数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何评估和提升LLM代理在面对恶意任务时的鲁棒性;二是构建过程中遇到的挑战,包括如何设计多样化和真实的恶意任务,以及如何确保评估的准确性和可靠性。具体挑战包括:1) 如何有效区分和评估LLM代理在多步骤任务中的恶意行为;2) 如何防止数据集在构建和评估过程中受到污染;3) 如何设计有效的攻击和防御策略,以测试和提升LLM代理的安全性。
常用场景
经典使用场景
AgentHarm数据集的经典使用场景在于评估大型语言模型(LLM)代理在面对恶意任务时的鲁棒性。通过提供110个明确恶意的代理任务,涵盖11种危害类别,包括欺诈、网络犯罪和骚扰等,该数据集能够测量模型在拒绝有害请求方面的表现。此外,AgentHarm还要求模型在遭受攻击后仍能保持其完成多步骤任务的能力,从而全面评估模型的安全性和鲁棒性。
衍生相关工作
AgentHarm数据集的发布催生了一系列相关研究工作,特别是在AI安全和鲁棒性评估领域。例如,有研究者基于AgentHarm开发了新的攻击和防御策略,进一步提升了LLM代理的安全性。此外,AgentHarm还启发了对多步骤任务中LLM代理行为的深入研究,推动了AI代理在复杂任务中的应用和安全性评估。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在多阶段任务执行中的应用日益广泛,AgentHarm数据集的最新研究方向聚焦于评估和提升LLM代理在面对恶意攻击时的鲁棒性。该数据集通过模拟11种不同类型的恶意任务,涵盖欺诈、网络犯罪和骚扰等,旨在测量模型在拒绝有害请求和保持多步骤任务完成能力方面的表现。研究结果表明,当前的LLMs在未经过专门防御训练的情况下,对恶意代理请求的抵抗力较弱,且简单的通用越狱模板即可显著提升模型在恶意任务上的表现。这一发现强调了开发针对LLM代理的强健防御机制的紧迫性,以应对日益复杂的滥用风险。
相关研究论文
- 1AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents英国人工智能安全研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



