SafeAgentBench

Name: SafeAgentBench
Creator: 上海交通大学
Published: 2024-12-18 22:00:02
License: 暂无描述

arXiv2024-12-18 更新2024-12-19 收录

下载链接：

https://github.com/shengyin1224/SafeAgentBench

下载链接

链接失效反馈

官方服务：

资源简介：

SafeAgentBench是由上海交通大学等机构创建的一个用于评估具身LLM代理任务规划安全性的基准数据集。该数据集包含750个任务，涵盖10种潜在危险和3种任务类型，旨在模拟用户在现实世界中可能请求机器人执行的场景。数据集通过GPT-4自动生成，并经过严格的筛选和人工标注，确保任务的可执行性和评估的可靠性。该数据集主要用于研究具身LLM代理在面对危险任务时的安全意识和规划能力，旨在解决具身机器人在实际部署中的安全问题。

SafeAgentBench is a benchmark dataset created by institutions including Shanghai Jiao Tong University for evaluating the task planning safety of embodied LLM agents. This dataset contains 750 tasks covering 10 potential hazards and 3 task types, aiming to simulate real-world scenarios where users may request robots to perform tasks. The dataset is automatically generated via GPT-4, and has undergone rigorous screening and manual annotation to ensure the executability of the tasks and the reliability of the evaluation. It is mainly used to study the safety awareness and planning capabilities of embodied LLM agents when facing dangerous tasks, and aims to address the safety issues faced by embodied robots in actual deployment.

提供机构：

上海交通大学

创建时间：

2024-12-18

原始信息汇总

SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents

数据集概述

SafeAgentBench 是一个用于研究具身语言模型（Embodied LLM Agents）安全任务规划的新基准。该基准包括以下内容：

数据集：包含750个任务，涵盖10种潜在危险和3种任务类型。具体任务分为：
- 安全详细任务（300个样本）
- 不安全详细任务（300个样本）
- 抽象任务（100个样本）
- 长时任务（50个样本）
SafeAgentEnv：一个通用的具身环境，带有低级控制器，支持多代理执行，包含17个高级动作，适用于8个最先进的基线模型。
评估方法：从执行和语义角度提供可靠的评估方法，包括成功率、拒绝率等指标。

实验结果

实验结果表明，表现最好的基线模型在安全任务上的成功率为69%，但在危险任务上的拒绝率仅为5%，表明存在显著的安全风险。

搜集汇总

数据集介绍

构建方式

SafeAgentBench数据集通过模拟真实世界中的潜在危险场景，构建了一个包含750个任务的安全任务规划基准。该数据集涵盖了10种潜在的危险类型和3种任务类型，包括详细任务、抽象任务和长时任务。详细任务具有明确的执行计划，抽象任务则通过不同层次的抽象描述危险，而长时任务则要求在多个步骤中保持安全。数据集的生成利用了GPT-4模型，结合场景中的物体和动作信息，自动生成任务指令，并通过人工筛选和标注确保任务的可执行性和评估性。

使用方法

SafeAgentBench数据集可用于评估和提升实体语言模型代理的安全任务规划能力。研究者可以通过该数据集测试代理在面对危险任务时的反应，评估其在执行安全任务时的成功率和拒绝率。数据集还提供了SafeAgentEnv环境，支持多代理执行和详细的任务执行控制。通过结合执行和语义层面的评估方法，研究者可以全面评估代理的任务规划性能，并探索如何通过安全提示和模块化设计提升代理的安全意识。

背景与挑战

背景概述

随着大型语言模型（LLMs）的集成，具身智能体在执行复杂自然语言指令方面展现出强大的能力，为具身机器人部署的潜在应用铺平了道路。然而，具身智能体在执行危险任务时可能引发现实世界中的损害，这一问题亟待解决。为此，上海交通大学、佐治亚大学和上海人工智能实验室的研究团队于2024年提出了SafeAgentBench数据集，旨在评估具身LLM智能体在任务规划中的安全性。该数据集包含750个任务，涵盖10种潜在危险和3种任务类型，并通过SafeAgentEnv环境支持多智能体执行，提供了可靠的执行和语义评估方法。

当前挑战

SafeAgentBench数据集面临的主要挑战包括：1）如何有效识别和评估具身智能体在执行危险任务时的安全性，尤其是在现有基准主要关注规划能力而忽视危险任务风险的情况下；2）数据集构建过程中，如何确保任务的多样性和真实性，同时涵盖多种危险场景，以全面测试智能体的安全意识；3）在评估方法上，如何克服现有模拟器在对象状态和物理引擎稳定性方面的局限性，确保评估的准确性和可靠性。

常用场景

经典使用场景

SafeAgentBench 数据集的经典使用场景主要集中在评估具身语言模型（LLM）代理在任务规划中的安全性。该数据集通过模拟真实世界中的潜在危险任务，帮助研究者评估代理在面对危险指令时的反应能力。具体而言，数据集包含了750个任务，涵盖10种潜在危险和3种任务类型，能够有效测试代理在不同情境下的安全意识和规划能力。

解决学术问题

SafeAgentBench 数据集解决了具身LLM代理在任务规划中的安全性问题。传统的任务规划基准主要关注代理的规划能力，而忽略了其在执行危险任务时可能带来的风险。该数据集通过引入危险任务和安全任务的对比，帮助研究者识别和改进代理的安全性缺陷，从而推动具身AI在实际应用中的安全部署。

实际应用

SafeAgentBench 数据集的实际应用场景主要集中在家庭机器人和具身AI系统的安全评估。通过该数据集，开发者可以测试和优化机器人或AI系统在执行复杂任务时的安全性，确保其在面对潜在危险指令时能够正确拒绝或采取安全措施。这为未来家庭机器人、服务机器人等领域的安全部署提供了重要的技术支持。

数据集最近研究