AutoSafe 安全数据集
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://auto-safe.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
AutoSafe 安全数据集由华中科技大学等机构创建,包含超过600个风险场景及其对应的安全行为,旨在为未来研究提供一个基准。数据集通过模拟不安全的用户行为,应用自省推理生成安全响应,并构建大规模、多样化、高质量的训练数据集。该数据集可用于评估和提升大型语言模型(LLM)的安全性能,尤其是在面对复杂和动态的用户交互、外部工具使用和潜在的有害行为时。
The AutoSafe safety dataset was developed by institutions including Huazhong University of Science and Technology, containing over 600 risky scenarios and their corresponding safe behaviors, aiming to provide a benchmark for future research. The dataset is constructed by simulating unsafe user behaviors, applying introspective reasoning to generate safe responses, and building a large-scale, diverse and high-quality training dataset. This dataset can be used to evaluate and enhance the safety performance of large language models (LLMs), especially when facing complex and dynamic user interactions, external tool usage, and potentially harmful behaviors.
提供机构:
华中科技大学, 上海交通大学, 杜克大学, 里海大学
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
AutoSafe安全数据集通过系统化的自动化合成数据生成流程构建而成。该流程基于开放式可扩展威胁模型OTS,首先模拟不安全用户行为生成风险场景,随后通过自反思机制生成安全响应,最终构建大规模、多样化且高质量的安全训练数据集。数据集构建过程完全自动化,避免了危险的真实世界数据收集需求。具体而言,研究团队开发了包含工具组-风险结果对的数据集Df,利用LLM生成多样化的用户指令集Du,再通过环境模拟器生成风险轨迹,最终形成包含600多个风险场景及其对应安全动作的完整数据集。
特点
AutoSafe数据集具有三个显著特点:首先,其基于统一的威胁模型OTS,将不安全行为形式化为用户指令、交互环境和智能体行为的相互作用,实现了对多样化安全风险的精确建模;其次,数据集覆盖范围广泛,包含10种风险类型(如隐私泄露、财务损失等),涉及娱乐、商业、健康和金融四大领域,且风险场景涵盖正常指令、欠规范指令和恶意指令三种类型;最后,数据集质量高,通过自动化流程确保数据多样性,同时采用精心设计的评估机制保证数据可靠性,评估者与人类标注者的一致性达到Cohen's κ 0.512。
使用方法
AutoSafe数据集主要用于增强基于LLM的智能体的安全性。使用方法分为三个阶段:首先利用数据集中的风险场景对智能体进行测试,识别其安全漏洞;随后通过自反思机制生成安全动作,构建安全训练集;最后使用该训练集对LLM策略进行微调。实验表明,该方法可使开源模型的安全评分平均提升45.4%,在现实任务中实现28.91%的改进。数据集还可作为基准用于评估智能体面对多样化风险时的安全表现,支持sec@k(智能体在风险场景中连续执行k个安全动作的比例)等评估指标的计算。
背景与挑战
背景概述
AutoSafe安全数据集由华中科技大学、上海交通大学、杜克大学和利哈伊大学的研究团队于2025年5月提出,旨在解决基于大型语言模型(LLM)的智能代理在现实应用中的安全问题。随着LLM代理在数字助手、自主客服和决策支持系统等领域的广泛应用,其安全性问题日益凸显。AutoSafe通过系统化的合成数据生成框架,首次实现了对代理安全性的自动化增强。该数据集包含600多个风险场景及对应的安全响应,为构建更安全的LLM代理提供了重要基准。
当前挑战
AutoSafe面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,LLM代理面临的风险多样且复杂,涉及隐私泄露、金融损失、计算机安全等多方面,传统基于单一领域数据集的安全增强方法难以应对。在构建过程中,如何自动化生成高质量的风险场景数据,同时避免真实危险数据的收集是一大挑战。此外,确保生成的数据覆盖广泛的风险类型和场景,同时保持数据的真实性和多样性,也是构建过程中的关键难点。
常用场景
解决学术问题
AutoSafe数据集解决了LLM代理安全研究中的多个关键学术问题。首先,它通过系统化的威胁模型(OTS)形式化了不安全行为的来源,包括用户指令、交互上下文和代理动作之间的相互作用,从而为风险建模提供了理论基础。其次,数据集通过自动化生成合成数据,避免了危险的真实数据收集,解决了数据稀缺和伦理问题。此外,AutoSafe还提供了一种自反思机制,使代理能够识别危险动作并生成安全响应,从而显著提升了代理的安全性能。这些贡献使得AutoSafe在LLM代理安全研究领域具有重要的学术价值和影响力。
衍生相关工作
AutoSafe数据集衍生了一系列相关的经典研究工作。例如,基于AutoSafe的威胁模型(OTS),研究人员开发了多种安全增强方法,如自反思机制和自动化数据生成技术。这些方法不仅在理论上扩展了LLM代理安全研究的边界,还在实际应用中取得了显著成效。此外,AutoSafe数据集还启发了多个安全评估基准的创建,如SEDA和ToolEmu,这些基准进一步推动了LLM代理安全研究的标准化和可比性。衍生工作还包括对闭源和开源模型的安全性能对比研究,为模型选择和优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



