Nemotron-AIQ-Agentic-Safety-Dataset-1.0
收藏Nemotron-AIQ Agentic Safety Dataset 数据集概述
数据集基本信息
数据集名称:Nemotron-AIQ Agentic Safety Dataset
所有者:NVIDIA Corporation
创建日期:2025年10月29日
语言:英语
许可证:NVIDIA Evaluation Dataset License Agreement
数据规模:2.5GB,约10,796条追踪记录
任务类别:文本生成、问答
标签:代理安全、AI安全、红队测试、攻击检测
数据集描述
Nemotron-AIQ-Agentic-Safety-Dataset是一个综合性数据集,捕获了代理系统中可能出现的广泛新颖安全和安全上下文风险。该数据集展示了NVIDIA开源模型在AIQ研究助手内部部署时的稳健性,可用于分析企业级代理系统中代理安全风险的出现和表现方式,以及评估各种代理在识别和缓解此类风险方面的性能。
数据集结构
数据分割
数据集包含4个分割,代表不同配置:
| 分割名称 | 描述 | 追踪数量 | 防御状态 |
|---|---|---|---|
security_data_without_defense |
无防护的安全评估 | ~2,596 | 无防御 |
security_data_with_defense |
有防护的安全评估 | ~2,600 | 有防御 |
safety_data_without_defense |
无防御的安全评估 | ~2,800 | 无防御 |
safety_data_without_defense |
有防御的安全评估 | ~2,800 | 有防御 |
数据字段
每个示例包含:
trace_id:OTel追踪IDattack_snapshot:攻击元数据的嵌套字典trace:OTEL跨度列表
攻击快照结构差异
安全数据格式:
- 使用每节点风险评分(0.0-1.0浮点数)
- 每个评估节点获得风险评分
安全数据格式:
- 使用双重评估系统
attack_success_rate:攻击传播率指标success:二进制标志,仅当攻击传播到最终工作流跨度时为真
数据收集与标注
数据收集方法:混合(合成、人工)
标注方法:混合(合成、自动化、人工)
数据格式:基于Open Telemetry的标准化追踪
预期用途
直接用途:本数据集仅用于安全研究和开发。应仅作为评估数据集,用于AI解决方案的安全性和安全性内部评估和基准测试。目前不应作为训练数据集来训练AI模型。
伦理考虑
该数据集包含安全和有害的提示及响应,使用户能够评估代理系统是否能够识别不安全和不道德的请求并适当响应。某些内容可能具有攻击性、暴力或令人不安。NVIDIA不支持或同意任何包含的有害内容。
局限性
- 追踪代表特定的代理配置,可能无法推广到所有代理系统
- 攻击成功与否取决于上下文,可能随不同LLM版本而变化
- 数据集专注于英语文本
引用格式
bibtex @dataset{nemotron_aiq_agentic_safety_2025, title={Nemotron-AIQ Agentic Safety Dataset}, author={Shaona Ghosh and Soumili Nandi and Dan Zhao and Kyriacos Shiarlis, Matthew Fiedler and Barnaby Simkin}, year={2025}, publisher={Hugging Face}, note={NVIDIA Corporation}, url={https://huggingface.co/datasets/nvidia/Nemotron-AIQ-Agentic-Safety-Dataset-1.0} }




