EAsafetyBench

Name: EAsafetyBench
Creator: 重庆大学, 中国
Published: 2025-04-22 16:34:35
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

http://arxiv.org/abs/2504.15699v1

下载链接

链接失效反馈

官方服务：

资源简介：

EAsafetyBench是一个针对具身代理的安全基准，由重庆大学创建。该数据集基于典型的风险分类，利用数据合成和增强技术构建了一个包含9435条指令的安全感知指令数据集，其中4875条指令具有安全威胁。数据集涵盖了各种风险类别，并针对特定应用场景生成安全指令，适用于训练和评估针对具身代理的调节器。

EAsafetyBench is a safety benchmark for embodied agents created by Chongqing University. Based on typical risk taxonomies, it constructs a safety-aware instruction dataset containing 9435 instructions, among which 4875 instructions have safety threats. The dataset covers diverse risk categories and generates safety-oriented instructions for specific application scenarios, making it applicable for training and evaluating regulators for embodied agents.

提供机构：

重庆大学, 中国

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

EAsafetyBench数据集的构建过程体现了严谨的科学方法论与创新技术的融合。研究团队首先基于无人机应用场景开发了典型风险分类体系，定义了暴力犯罪、隐私侵犯等七类安全风险。在数据生成阶段，采用GPT-4作为核心工具，通过精心设计的提示模板生成恶意指令和安全指令，并引入Llama3.1-70B-Instruct进行语义改写以增强数据多样性。为确保数据质量，团队采用双重过滤机制：利用一致性评分筛除改写后失真的恶意指令，并通过人工监督不断优化生成流程。最终构建的EAsafetyBench-Drone包含9,435条指令，其中4,875条具有安全威胁，文本自BLEU分数0.292表明数据集具有较高的语言多样性。

特点

该数据集最显著的特点是针对具身智能体的独特安全需求进行了专项设计。与通用LLM安全基准不同，EAsafetyBench聚焦具身代理在物理世界执行任务时可能引发的行为风险，其分类体系包含设备故障、非法协助等具身场景特有风险类别。数据集涵盖48种功能提示模板，模拟真实场景中动态变化的提示环境。通过主动式对抗样本生成技术，数据集包含大量语义隐蔽的恶意指令，如使用同义词替换诱导危险行为，这种设计极大提升了模型对潜在威胁的识别能力。数据统计分析显示指令长度集中在10-20词区间，各类别分布均衡，为模型训练提供了全面的语义覆盖。

使用方法

该数据集支持端到端的具身代理安全研究流程。研究者可利用EAsafetyBench-Drone训练输入审核模型，通过监督学习使模型掌握七类风险特征的识别能力。评估阶段建议采用留出法划分训练测试集，基于语义相似度确保数据独立性。针对提示模板的泛化性测试，应分别使用训练可见的32条提示和未见的16条提示进行评估。实验设置推荐采用三层MLP分类器，在LLM中间层（10层或17层）提取特征，利用掩码注意力机制消除功能提示的干扰。数据集配套的Pinpoint框架可实现0.002秒/实例的实时检测，部署时需在指令前后添加特殊标记<|begin_of_instruction|>和<|end_of_instruction|>以实现精确定位。

背景与挑战

背景概述

EAsafetyBench是由重庆大学和香港中文大学的研究团队于2025年提出的面向具身智能体安全性的专用基准测试。该数据集针对具身智能体在动态现实环境中的独特操作需求，填补了现有通用大语言模型安全研究在具身智能领域的空白。研究团队通过构建包含9,435条指令的安全感知数据集，并开发了专门的风险分类体系，为具身智能体的安全行为学习和测试提供了标准化评估框架。该基准的建立显著提升了具身智能体在军事、柔性制造和家庭服务等关键领域部署的安全性保障能力。

当前挑战

EAsafetyBench面临的主要挑战体现在两个维度：在领域问题层面，需要解决具身智能体在动态环境中特有的安全风险识别难题，包括物理伤害、隐私侵犯等七类行为风险的精准检测；在构建过程中，研究团队需克服功能提示词动态变化带来的干扰，通过创新的标记插入和语义重构技术确保数据集质量。此外，平衡恶意指令的隐蔽性与检测有效性，以及处理不同智能体平台间的数据共享兼容性，都是构建过程中需要解决的关键技术难题。

常用场景

经典使用场景

EAsafetyBench作为专为具身智能体设计的安全基准，其经典应用场景聚焦于高风险领域的实时行为安全评估。在无人机巡检、工业机器人协作等动态环境中，该数据集通过结构化风险分类体系（如暴力犯罪、隐私侵犯等7大类），为智能体提供多维度安全指令样本，支持从语义理解到行为决策的全链路安全验证。其独特的prompt-decoupled架构尤其适用于需要动态调整功能提示的复杂场景，例如军事侦察无人机在接收开放式指令时，系统能精准识别‘攻击人群’等恶意意图而不受导航提示干扰。

实际应用

在智慧城市安防领域，搭载EAsafetyBench的巡逻机器人能实时甄别‘破坏公共设施’等隐蔽性指令，某试点项目误报率降至5.08%；医疗辅助机器人则通过该基准训练的检测模块，成功拦截93%的违规药物索取请求。工业场景中，其0.002秒/指令的处理速度满足装配线机械臂的毫秒级安全响应需求。值得注意的是，数据集涵盖的48种功能提示模板已应用于跨平台机器人系统，显著降低不同形态智能体的安全适配成本。

衍生相关工作

基于EAsafetyBench的范式创新，学界涌现出系列突破性研究：RiskAwareBench扩展了高空作业机器人的物理风险评估维度；SafeAgentBench构建了拒绝危险任务的仿真测试框架；Pinpoint的掩码注意力机制被Legilimens改进为多层特征融合方案，使ChatGLM架构的检测F1值提升11.2%。Meta据此开发的Llama-Guard 2.0首次实现具身与非具身场景的联合安全评估，推动行业标准制定。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集