SamsungSDS-Research/Policy-on-the-Fly-Benchmark

Name: SamsungSDS-Research/Policy-on-the-Fly-Benchmark
Creator: SamsungSDS-Research
Published: 2026-05-06 13:03:58
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/SamsungSDS-Research/Policy-on-the-Fly-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

PoFBench（Policy-on-the-Fly Benchmark）是一个专为测试设计的基准数据集，旨在衡量基于策略的自定义过滤器在LLM（大型语言模型）驱动的系统中的性能。该数据集包含韩语（原始）和英语（翻译）的1,080个实例，覆盖8个策略类别和6种策略组合。数据集的设计核心是通过改变相同提示的策略组合来评估模型是否能够一致地改变其判定结果。PoFBench可用于评估LLM输入/输出过滤系统、AI代理护栏、聊天机器人内容过滤器以及RAG系统安全过滤器的性能。数据集包含有害内容，仅限用于AI安全研究目的。

PoFBench (Policy-on-the-Fly Benchmark) is a test-only benchmark designed to measure the performance of policy-based custom filters in LLM-powered systems. The dataset contains 1,080 instances — 540 in Korean (original) and 540 in English (translated), covering 8 policy categories and 6 policy combinations. The core design of PoFBench is to evaluate whether a model consistently changes its verdict when only the policy combination is changed for the same prompt. PoFBench can be used to evaluate the performance of policy-based filter systems operating in environments such as LLM input/output filtering systems, AI agent guardrails, chatbot content filters, and RAG system safety filters. The dataset includes harmful content and is intended solely for AI safety research purposes.

提供机构：

SamsungSDS-Research

搜集汇总

数据集介绍

构建方式

在大型语言模型（LLM）的应用日益普及的背景下，针对企业级动态安全策略的评估需求应运而生。Policy-on-the-Fly-Benchmark（PoFBench）由此构建，旨在填补现有基准测试在策略条件化过滤能力评估上的空白。数据集由SDS AI部门的专家于2025年10月至12月创建，所有提示（prompt）均以人工方式直接编写，涵盖通用问答、智能体调用和检索增强生成（RAG）等交互模式。策略文本借助Qwen3-235B模型生成，随后经由人工审核校验以确保准确性。为保证标注质量，团队采用GPT-4.0、Gemma3-27B及Qwen3-235B三模型交叉验证，调整策略直至至少两个模型对标签达成一致，最终由人工对提示和策略进行精细化修正。英文数据通过Gemma3-27B从韩文翻译而来，并经过人工审校，确保语言与文化适配。整个流程未涉及外部用户数据或爬取内容，所有场景均为虚构且不含个人可识别信息。

特点

PoFBench的独特之处在于其以“策略即时切换”为核心的评估范式，能够衡量模型在仅改变策略组合时对同一提示的裁决一致性。数据集包含1,080个样本（韩文与英文各540个），覆盖8大企业常见风险类别——如内部信息泄露、有害内容和越狱攻击等。每个提示对应6种策略组合，通过正向与负向的阻断与允许条件交织，形成“阻断33% / 允许67%”的标签分布，可有效检验模型是否真正理解策略内容而非仅凭提示决断。更关键的是，每项数据配备了多达100条策略的评估能力（含99条无关策略），用以检验模型在多策略长上下文推理、相关性判断等方面的稳健性。此外，数据集为测试专用，无训练或验证划分，严格聚焦于评估场景，并依据CC-BY-NC-4.0许可通过门控访问发布，仅供AI安全研究使用。

使用方法

使用PoFBench进行模型评估时，研究者可通过HuggingFace Datasets库便捷加载。调用`load_dataset('SamsungSDS-Research/Policy-on-the-Fly-Benchmark', 'pofbench_en', split='test')`获取英文子集，同理以`pofbench_ko`加载韩文版本。每个样本包含提示（prompt）、完整策略文本（policy）、预期标签（label）及无关策略索引列表（unaffected_policy_list）。在多策略评估场景中，可将全部策略转换为列表，借助索引映射将无关策略文本集成到评估框架中，自由选取数量以测试模型在长上下文下的表现。需注意，部分样本（每语言5条）因受其他策略影响较大，其无关策略列表为空，应谨慎处理。评估指标建议聚焦于策略切换时的标签一致性，即分析模型在6种组合下对同一提示的响应稳定性，从而深入评估策略条件化过滤的真实能力。

背景与挑战

背景概述

PoFBench（Policy-on-the-Fly Benchmark）于2025年10月至12月由SDS AI部门的研究团队创建，旨在评估基于策略的定制化内容过滤系统在大语言模型（LLM）驱动应用中的性能。传统AI安全基准依赖于专家预定义的固定风险分类体系，但在真实企业环境中，同一文本根据具体策略可能被允许或阻止。PoFBench填补了这一空白，通过设计一种“策略组合”机制，测试模型在仅改变策略时是否一致地改变裁决。该基准涵盖8个企业安全域，包含1080个实例（韩语540个、英语540个），并提供最多100条策略的多策略评估能力。论文即将发布，预计将推动策略条件化内容过滤研究，为企业LLM部署的安全性评估提供标准化工具。

当前挑战

PoFBench所解决的核心领域问题是传统AI安全基准无法应对企业环境中策略动态变化的挑战。现有基准仅评估固定风险类别下的内容分类，而真实应用要求过滤系统根据同一提示在不同策略组合下做出差异化裁决。构建过程中面临多重挑战：一是策略设计的复杂性，需要为每个提示精心构造正/负阻断条件与允许条件的组合，确保模型不能仅凭提示本身而必须解读策略内容；二是数据质量保障，需通过三个模型（GPT-4.0、Gemma3-27B、Qwen3-235B）交叉验证并人工调整，直至至少两个模型标答一致；三是避免外部用户数据的敏感问题，所有场景均为虚构，且韩语数据翻译为英语时需确保语言文化差异最小化。

常用场景

经典使用场景

PoFBench作为一项专为评估基于策略的内容过滤器而设计的测试基准，其核心应用在于衡量大规模语言模型（LLM）驱动的系统中自定义过滤策略的合规性。该数据集通过构建8大类风险场景、6种策略组合以及540个韩语和540个英语的测试实例，检验当仅改变策略组合时，模型能否对同一提示词做出不同的屏蔽或放行判决。研究者和工程师可利用此基准对LLM输入输出过滤系统、AI代理护栏、聊天机器人内容过滤器以及检索增强生成（RAG）系统的安全过滤模块进行标准化评估，从而精准定位模型在策略依赖型内容审核中的脆弱性与偏差。

衍生相关工作

PoFBench的发布催生了若干富有成效的后续研究方向。基于其策略组合设计的理念，研究者开始探索多策略冲突下的仲裁机制与动态策略融合算法，相关成果已见诸于自适应护栏系统（Adaptive Guardrails）的研究文献。另有工作借助该数据集验证了策略感知提示工程（Policy-Aware Prompting）在提升LLM合规性方面的有效性，并衍生出轻量级策略推理蒸馏模型。此外，PoFBench中关于元策略（meta-policy）评估的设定，推动了面向AI代理的长上下文敏感度分析方法的进展，部分工作已将其拓展至跨语言、跨文化语境下的安全策略适配研究，显著丰富了可控生成领域的评估工具箱。

数据集最近研究