five

Nemotron-AIQ-Agentic-Safety-Dataset-1.0

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-AIQ-Agentic-Safety-Dataset-1.0
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-AIQ-Agentic-Safety-Dataset 是一个全面的综合数据集,捕获了代理系统内部可能出现的各种新颖的安全和上下文风险。它展示了 NVIDIA 的开源模型 llama-3.3-nemotron-super-49b-v1 在作为 AIQ 研究助手部署时的鲁棒性,并展示了其处理各种代理安全性和安全性挑战的能力。该数据集可用于分析代理安全性风险如何在企业级代理系统中出现和表现,以及评估各种代理识别和减轻此类风险的性能。鉴于当前代理安全性和安全性领域数据集和思想领导的稀缺性,该数据集旨在推进这一关键领域的研究和开发工作。该数据集由 NVIDIA 与 Lakera AI 合作开发。

Nemotron-AIQ-Agentic-Safety-Dataset is a comprehensive integrated dataset that captures a wide range of novel safety and contextual risks that may arise within agentic systems. It demonstrates the robustness of NVIDIA's open-source model llama-3.3-nemotron-super-49b-v1 when deployed as an AIQ research assistant, and showcases its capability to handle various agentic security and safety challenges. This dataset can be used to analyze how agentic safety risks emerge and manifest in enterprise-grade agentic systems, as well as to evaluate the performance of various agentic systems in identifying and mitigating such risks. Given the current scarcity of datasets and thought leadership in the field of agentic safety and security, this dataset aims to advance research and development efforts in this critical area. This dataset was co-developed by NVIDIA and Lakera AI.
提供机构:
NVIDIA
创建时间:
2025-10-23
原始信息汇总

Nemotron-AIQ Agentic Safety Dataset 数据集概述

数据集基本信息

数据集名称:Nemotron-AIQ Agentic Safety Dataset
所有者:NVIDIA Corporation
创建日期:2025年10月29日
语言:英语
许可证:NVIDIA Evaluation Dataset License Agreement
数据规模:2.5GB,约10,796条追踪记录
任务类别:文本生成、问答
标签:代理安全、AI安全、红队测试、攻击检测

数据集描述

Nemotron-AIQ-Agentic-Safety-Dataset是一个综合性数据集,捕获了代理系统中可能出现的广泛新颖安全和安全上下文风险。该数据集展示了NVIDIA开源模型在AIQ研究助手内部部署时的稳健性,可用于分析企业级代理系统中代理安全风险的出现和表现方式,以及评估各种代理在识别和缓解此类风险方面的性能。

数据集结构

数据分割

数据集包含4个分割,代表不同配置:

分割名称 描述 追踪数量 防御状态
security_data_without_defense 无防护的安全评估 ~2,596 无防御
security_data_with_defense 有防护的安全评估 ~2,600 有防御
safety_data_without_defense 无防御的安全评估 ~2,800 无防御
safety_data_without_defense 有防御的安全评估 ~2,800 有防御

数据字段

每个示例包含:

  • trace_id:OTel追踪ID
  • attack_snapshot:攻击元数据的嵌套字典
  • trace:OTEL跨度列表

攻击快照结构差异

安全数据格式

  • 使用每节点风险评分(0.0-1.0浮点数)
  • 每个评估节点获得风险评分

安全数据格式

  • 使用双重评估系统
  • attack_success_rate:攻击传播率指标
  • success:二进制标志,仅当攻击传播到最终工作流跨度时为真

数据收集与标注

数据收集方法:混合(合成、人工)
标注方法:混合(合成、自动化、人工)
数据格式:基于Open Telemetry的标准化追踪

预期用途

直接用途:本数据集仅用于安全研究和开发。应仅作为评估数据集,用于AI解决方案的安全性和安全性内部评估和基准测试。目前不应作为训练数据集来训练AI模型。

伦理考虑

该数据集包含安全和有害的提示及响应,使用户能够评估代理系统是否能够识别不安全和不道德的请求并适当响应。某些内容可能具有攻击性、暴力或令人不安。NVIDIA不支持或同意任何包含的有害内容。

局限性

  • 追踪代表特定的代理配置,可能无法推广到所有代理系统
  • 攻击成功与否取决于上下文,可能随不同LLM版本而变化
  • 数据集专注于英语文本

引用格式

bibtex @dataset{nemotron_aiq_agentic_safety_2025, title={Nemotron-AIQ Agentic Safety Dataset}, author={Shaona Ghosh and Soumili Nandi and Dan Zhao and Kyriacos Shiarlis, Matthew Fiedler and Barnaby Simkin}, year={2025}, publisher={Hugging Face}, note={NVIDIA Corporation}, url={https://huggingface.co/datasets/nvidia/Nemotron-AIQ-Agentic-Safety-Dataset-1.0} }

搜集汇总
数据集介绍
main_image_url
构建方式
在智能体安全研究领域,该数据集通过混合方法构建,融合了合成生成与人工标注的双重机制。具体而言,数据源自AIQ研究助手的运行轨迹记录,采用开放式遥测标准捕获工作流中的交互信息。安全与安防风险场景分别由NVIDIA与Lakera AI合作生成,通过自适应查询机制模拟有害与无害指令的对抗情境,最终形成包含防御机制开启与关闭双模式的标准化轨迹数据。
特点
该数据集的核心特征体现在其多维度的风险评估架构。安全数据采用双重评估体系,既包含攻击成功率等连续指标,也记录攻击是否传播至最终工作流节点的二元判定。安防数据则通过节点级风险评分实现细粒度监控,每个评估节点均分配0.0至1.0区间的风险值。数据集共包含四个独立子集,逾万条标准化轨迹,完整呈现了智能体系统在内容安全与系统安防维度的风险表现。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,利用预置的分析框架进行安全效能评估。针对安全数据,可计算攻击传播率与最终节点突破概率;对于安防数据,则需聚合各节点风险评分以衡量整体防御效果。数据集采用开放式遥测标准的结构化存储,支持对工作流跨度、输入输出内容及攻击元数据的深度解析,为智能体系统的脆弱性检测与防护策略优化提供实证基础。
背景与挑战
背景概述
随着人工智能代理系统的广泛应用,其安全性与可靠性成为关键研究议题。Nemotron-AIQ-Agentic-Safety-Dataset-1.0由NVIDIA公司与Lakera AI于2025年10月联合开发,聚焦于企业级智能代理系统中涌现的新型安全与内容风险。该数据集通过标准化Open Telemetry追踪格式,记录了研究助手场景下约1.08万条交互轨迹,涵盖有防护与无防护两种配置状态,旨在填补当前代理安全领域数据集稀缺的空白,为评估智能代理的风险识别与防御能力提供重要基准。
当前挑战
在代理安全领域,核心挑战在于如何系统化识别多节点工作流中的隐蔽攻击传播路径。该数据集构建过程中面临双重挑战:其一是安全评估方法的异构性,需分别设计基于连续风险评分的安全数据架构与基于二元传播指标的安防数据框架;其二是大规模对抗性样本生成的技术复杂性,需通过合成生成与人工标注相结合的方式,精准模拟包括提示注入、权限越界等新型攻击模式,同时确保追踪数据在分布式系统中的完整性与可解析性。
常用场景
经典使用场景
在智能体系统安全研究领域,该数据集为评估企业级智能体在面临多样化安全威胁时的鲁棒性提供了标准测试基准。通过包含防御机制启用与禁用两种配置下的工作流追踪数据,研究人员能够系统性分析智能体在内容安全与系统安全维度上的风险识别与响应能力,为构建可信赖的AI助手奠定实证基础。
解决学术问题
该数据集有效解决了智能体系统中新兴安全风险缺乏标准化评估框架的学术难题。通过OpenTelemetry标准化追踪结构与多维度攻击快照,首次实现了对工作流层级安全威胁传播路径的量化分析,填补了传统单轮对话安全评估与复杂多步智能体系统安全评估之间的方法论空白,推动了智能体安全研究从定性分析向定量评估的范式转变。
衍生相关工作
该数据集已催生系列创新研究,包括基于图神经网络的智能体工作流异常检测模型、多模态攻击传播路径预测算法等。其标准化数据格式促进了安全评估工具的跨平台兼容性,为后续如AgentGuard、SafeAgentBench等基准系统的开发提供了核心数据支撑,形成智能体安全领域的良性研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作