Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/jamesdborin/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only是一个专门从源数据集nvidia/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1中提取提示（prompt）内容的数据集。该数据集核心文件为prompts.csv，包含1272条提取记录，每条记录包含完整的prompt文本、分离的系统提示（system_prompt）以及当源行定义可用工具时的结构化工具（tools）信息。数据集中的嵌套值以JSON格式编码存储在CSV单元格内。此外，数据集还提供summary.md文件记录源行数、提取行数、计数差异和失败提示计数，以及null_or_empty_rows.md文件记录提示提取产生空值或空提示的行索引。该数据集作为Nemotron后训练工作流程的一部分创建，专门用于提示相关的分析和应用场景，适用于自然语言处理、提示工程和代理系统开发等任务。

Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only is a dataset specifically extracted from the source dataset nvidia/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1 for prompt content. The core file is prompts.csv, containing 1272 extraction records, each with complete prompt text, separated system_prompt, and structured tools information when the source row defines available tools. Nested values in the dataset are encoded in JSON format within CSV cells. Additionally, the dataset provides summary.md to record source row count, extracted row count, count differences, and failed prompt counts, as well as null_or_empty_rows.md to record row indices where prompt extraction resulted in null or empty prompts. This dataset was created as part of the Nemotron post-training workflow, specifically for prompt-related analysis and application scenarios, suitable for tasks such as natural language processing, prompt engineering, and agent system development.

创建时间：

2026-06-29

原始信息汇总

数据集概述：Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only

基本信息

数据集名称：Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only
来源数据集：nvidia/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1
标签：nemotron、prompt-only、post-training

数据集内容

本数据集是从原始数据集 nvidia/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1 中提取的仅包含提示（prompt）部分的版本。

数据文件

数据集包含以下文件：

prompts.csv：每个源数据行对应一条提示提取记录。记录包含 prompt、分离的 system_prompt，以及当源数据行定义了可用工具时的结构化 tools 字段。嵌套值以 JSON 格式编码在 CSV 单元格中。
summary.md：记录源数据行数、提取行数、行数差异以及失败的提示计数。
null_or_empty_rows.md：记录提取结果为 null 或空提示的行索引。

数据统计

指标	数值
提取行数	1272
失败的提示行数	0
行数差异	0

发布信息

该数据集由用户 jamesdborin 上传，源自 Nemotron Post-Training v3 提示提取器工作流程。

搜集汇总

数据集介绍

构建方式

Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only 数据集源自 nvidia/Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1 的提示提取流程。该数据集仅保留原始数据中的提示部分，通过自动化工作流从每一行源记录中提取 prompt、分离的 system_prompt 以及结构化的 tools 字段（若源记录定义了可用工具）。嵌套值采用 JSON 编码方式嵌入 CSV 单元格中，最终形成 prompts.csv 文件，同时附带 summary.md 和 null_or_empty_rows.md 两个辅助文件，以记录提取统计与异常情况。

特点

该数据集以精简的提示子集为核心，聚焦于间接提示注入场景下的智能体行为学习。其最大特点在于仅包含提示文本，去除了原始数据中的其他干扰信息，使得研究者能够直接针对提示注入的对抗性样本进行强化学习微调。数据集共包含 1272 条记录，无提取失败或空提示行，保证了数据的高完整性和可用性。

使用方法

数据集以 CSV 格式提供，用户可直接加载 prompts.csv 文件，利用其中的 prompt 和 system_prompt 字段作为输入，配合 tools 字段（若存在）构建智能体的上下文环境。适用于基于提示注入的后训练场景，研究人员可将其用于强化学习或指令微调，以提升模型对恶意提示的鲁棒性。加载时需注意 JSON 编码的嵌套字段，建议使用 pandas 或 csv 库结合 json 解析库进行处理。

背景与挑战

背景概述

Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1-prompt-only数据集由NVIDIA的研究团队于近期创建，专注于大型语言模型在智能体应用中的间接提示注入攻击问题。该数据集从原始版本中提取了仅包含提示信息的样本，共1272条记录，旨在为后训练阶段提供针对性的安全优化研究资源。随着大语言模型在工具调用、多轮对话等复杂场景中的广泛应用，间接提示注入已成为威胁模型安全性的关键挑战之一。该数据集的发布为探索模型在对抗性攻击下的鲁棒性提供了标准化评估基准，对推动可信人工智能与安全强化学习领域的发展具有重要价值。

当前挑战

数据集所面临的核心挑战源于间接提示注入攻击的隐蔽性与复杂性：攻击者通过外部信源（如用户输入、文档或工具反馈）嵌入恶意指令，诱使模型执行非授权操作，传统防御方法难以有效检测和阻断此类动态攻击。构建过程中，研究团队需从原始多轮交互数据中精准分离出攻击相关的提示片段，并确保提取后的提示信息在失去上下文后仍能保留攻击意图的关键特征；同时需处理工具定义、系统提示等嵌套结构的序列化问题，最终在保证数据完整性前提下完成1272条无缺失记录的高质量提取，体现了数据精炼与安全检查的双重技术挑战。

常用场景

经典使用场景

该数据集专为研究间接提示注入攻击（Indirect Prompt Injection）在智能体系统中的威胁而设计，广泛用于训练和评估大语言模型（LLM）在对抗性场景下的鲁棒性。研究者通过其分离开的system_prompt与结构化工具调用信息，可精准构建红队测试案例，模拟恶意指令通过外部数据源（如网页、API响应）注入到LLM推理流程的场景，成为Agentic AI安全研究中提示工程与评估的基准数据源。

实际应用

实际应用中，该数据集被安全团队用于自动化测试和加固商业级Agent框架（如AutoGPT、LangChain），通过模拟接收恶意邮件或文档时的不当执行来验证风险。企业可在开发周期中集成其1272条提示，检测LLM在金融咨询、医疗建议等敏感场景下是否受间接指令污染，从而指导数据清洗策略、输入验证规则和安全导流模块的部署。

衍生相关工作

围绕此数据集衍生了多项标志性工作：包括基于奖励模型的对抗性提示优化方法（Nemotron Post-Training家族）、提示提取与脆弱性分析流水线（如James Borin的prompt extractor），以及多层级防御系统benchmark。这些工作共同催生了评估Agent安全性的标准化流程，并启发了IEEE/ACL顶会中关于动态上下文门控机制的研究方向。

以上内容由遇见数据集搜集并总结生成