SafeRisks

Name: SafeRisks
Creator: 中国科学技术大学
Published: 2025-04-20 23:12:14
License: 暂无描述

arXiv2025-04-20 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.14650v1

下载链接

链接失效反馈

官方服务：

资源简介：

SafeRisks数据集是由中国科学技术大学的研究团队创建的，包含2027个日常任务及其对应的环境，这些任务和环境的分布涵盖了8个不同的危险类别，如火灾隐患等。数据集通过多智能体行动策略生成，旨在评估和确保任务规划过程中的安全性，适用于提升LLM-based Embodied Agents的任务规划安全性评估和研究。

The SafeRisks dataset was developed by a research team from the University of Science and Technology of China. It contains 2,027 daily tasks and their corresponding environments, with the distribution covering 8 distinct hazard categories such as fire hazards. Constructed using multi-agent action strategies, this dataset aims to evaluate and ensure the safety of task planning processes, and is applicable to safety assessment and research on task planning for LLM-based Embodied Agents.

提供机构：

中国科学技术大学

创建时间：

2025-04-20

搜集汇总

数据集介绍

构建方式

SafeRisks数据集的构建采用了系统化的方法，首先通过分析现有基准测试中的任务执行情况，识别出潜在的安全隐患。研究人员利用多种基于LLM的具身代理在VirtualHome和Behavior-1k基准上进行测试，记录其表现并手动分析安全风险。随后，通过多智能体协作策略（Multi-Agent Acting），结合不同角色视角（如消防员、家长等），生成多样化的危险任务和环境配置。为确保数据质量，采用Rouge-L相似度指标进行去重，最终构建了包含2,027个样本的数据集，覆盖8种危害类别。

使用方法

该数据集主要用于评估和提升具身代理的任务规划安全性。研究者可通过以下流程使用：1）在VirtualHome模拟器中加载任务环境；2）运行待测代理生成动作序列；3）使用内置安全检测器（基于对象-危害类别映射规则）评估过程安全和终止安全违规情况。对于模型训练，可采用Safe-Align方法，将数据集中的正负样本对（安全/危险动作序列）用于偏好优化，重点关注错误首次出现的动作步骤。数据集还可用于分析不同危害类别的模型弱点，或作为安全知识增强的提示语料库。

背景与挑战

背景概述

SafeRisks数据集由来自中国科学技术大学的研究团队于2025年提出，旨在系统评估基于大型语言模型（LLM）的具身智能体在任务规划中的安全性问题。该数据集作为SafePlan-Bench基准的核心组成部分，包含2,027个日常任务及其对应环境，覆盖8类典型安全隐患（如火灾、跌倒等）。研究团队通过多智能体协同生成策略构建数据集，解决了传统安全评估中数据多样性不足的痛点。该工作首次系统揭示了LLM具身智能体在无对抗输入情况下仍会产生的安全隐患，为具身AI安全研究提供了标准化评估工具和知识库，对推动服务机器人、智能家居等实际应用场景的安全部署具有重要意义。

当前挑战

SafeRisks面临的核心挑战体现在两个维度：在领域问题层面，需解决具身智能体因LLM幻觉导致的物理世界知识错位问题，例如智能体规划中将清洁剂直接倾倒地面（滑倒风险）或未关闭炉灶（火灾风险）等违反安全约束的行为；在构建技术层面，研究团队需克服安全标注的主观性（通过建立动作-危害类别的客观映射）、数据生成的多样性不足（提出多智能体角色扮演增强策略）以及评估可靠性（设计可扩展的安全检测器替代存在偏见的LLM评判）。这些挑战使得该数据集成为首个能系统量化具身智能体在长周期任务中累积性风险的基准。

常用场景

经典使用场景

SafeRisks数据集在评估基于大型语言模型（LLM）的具身智能体任务规划安全性方面具有经典应用场景。该数据集通过涵盖8种日常危害类别（如火灾隐患、滑倒风险等）的2027个任务及其对应环境，为研究者提供了一个系统化的基准测试平台。在虚拟家庭环境中，研究人员可利用该数据集模拟智能体执行任务时的潜在危险行为，例如烹饪后未关闭炉灶引发的火灾风险，或清洁地板时不当倾倒清洁剂导致的滑倒隐患。

解决学术问题

SafeRisks有效解决了具身AI领域三个关键学术问题：首先，它填补了任务规划安全性评估标准缺失的空白，通过定义过程安全约束和终止安全约束，建立了可量化的安全验证框架；其次，数据集揭示了LLM智能体在无对抗输入时仍会产生的系统性安全隐患，如因知识错配导致的危险动作序列；更重要的是，该工作提出的Safe-Align方法实现了安全知识与任务性能的协同优化，实验表明能使安全性能提升8.55%-15.22%，为后续研究提供了可扩展的技术范式。

实际应用

在实际应用层面，SafeRisks为智能家居机器人、虚拟助理等具身系统的安全部署提供了重要保障。通过数据集训练的系统能识别厨房场景中刀具随意放置的锐器风险，或检测老年人护理场景未清理的水渍隐患。在工业领域，该框架可迁移至仓储机器人路径规划，避免碰撞或货物堆叠不当引发的安全事故。数据集包含的模块化安全检测器还能集成到现有智能体架构中，实现实时危险预警。

数据集最近研究