BARRED
收藏github2026-04-27 更新2026-05-02 收录
下载链接:
https://github.com/plurai-ai/BARRED
下载链接
链接失效反馈官方服务:
资源简介:
BARRED是一个用于评估自定义政策护栏的基准,包括四个护栏任务,覆盖三个领域:对话政策执行、代理输出验证和法规遵从。每个样本包含一个用自然语言表达的政策规则、一个待检查的输入和一个表示政策是否被违反的真实标签。
BARRED is a benchmark for evaluating custom policy guardrails. It includes four guardrail tasks spanning three domains: dialogue policy enforcement, agent output validation, and regulatory compliance. Each sample consists of a policy rule expressed in natural language, an input to be inspected, and a ground truth label indicating whether the policy is violated.
创建时间:
2026-04-27
原始信息汇总
BARRED 数据集概述
基本信息
- 论文标题:BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate
- 数据集用途:评估自定义策略护栏(custom policy guardrails)的基准测试集,用于判断AI输入或输出是否符合给定的自由文本策略规则
- 发布机构:Plurai
- 许可证:Apache 2.0
数据集组成
总体概况
每个样本包含:
- 策略规则:以自然语言表达的需要护栏强制执行的条件
- 输入:待检查的内容(多轮对话、智能体生成的计划或问答对)
- 真实标签:指示策略是否被违反
所有测试集均为人工整理,确保质量和场景多样性。
子数据集详情
| 数据集 | 领域 | 输入类型 | 样本数量 |
|---|---|---|---|
Message repetition(消息重复) |
对话策略执行 | 多轮对话 | 158 |
Privacy disclosure(隐私泄露) |
对话策略执行 | 多轮对话 | 112 |
Plan verification(计划验证) |
智能体输出验证 | 结构化计划 | 116 |
Health advice(健康建议) |
监管合规(医疗) | 问答对 | 200 |
各数据集详细说明
1. 消息重复
- 规则:用户重复或改写相同消息3次
- 特点:在DynaGuard原始34个案例基础上扩展,覆盖多种场景(近似重复、细微改写、不同发言人等)
- 列:
predicate(谓词)、transcript(对话记录)、predicate_label(标签)
2. 隐私泄露
- 规则:AI助手泄露了员工的GPS坐标位置
- 特点:在DynaGuard原始22个案例基础上扩展至112个,涵盖非GPS格式位置暴露、URL中嵌入GPS坐标、不同员工可识别程度等
- 列:
predicate、transcript、predicate_label
3. 计划验证
- 规则:智能体生成的研究计划是否符合指令集(仅使用指定工具、抽象引用而非显式调用、以
<end_plan>结尾) - 特点:在GAIA基准基础上构造,包含多种违反模式(缺失结束标签等)
- 列:
rule(规则)、task_input(任务输入)、original_task_output(原始输出)、violating_task_output(违规输出)、violation_type(违规类型)
4. 健康建议
- 规则:判断AI对问题的回答是否构成健康建议
- 来源:基于HealthE基准,从原始数据集中筛选200个样本并处理成问答对形式
- 列:
predicate、transcript、predicate_label
数据获取方式
HuggingFace 下载
数据集托管于 HuggingFace Hub,地址为:https://huggingface.co/datasets/Plurai/BARRED
加载示例: python from datasets import load_dataset ds = load_dataset("Plurai/BARRED", "message_repetition", split="test")
可用配置名称:message_repetition、gps_disclosure、healthe、plan_verification
本地文件
代码仓库中包含CSV格式的测试文件,可通过配置文件指定路径使用。
评估代码与配置
推理运行
- 运行路径:从
src/目录执行 - 配置文件:位于
config/目录下,对应四个子数据集:test_config_message_repetition.yamltest_config_plan_verification.yamltest_config_healthe.yamltest_config_gps_disclosure.yaml
配置说明
每个配置文件包含:
classification_type:分类类型(input_block或task_and_response)dataset:数据集配置(名称、文件路径或HF数据集、策略规则、标签、评估模型)evaluator:评估模型(LLM配置或微调SLM模型)out_dir:结果输出目录
支持的评估模型
- LLM:Azure OpenAI、Google、Anthropic
- SLM:HuggingFace上的微调小语言模型(如
unsloth/Qwen2.5-7B)
搜集汇总
数据集介绍

构建方式
在人工智能系统安全性与可控性日益受到关注的背景下,BARRED基准测试应运而生。该数据集聚焦于自定义策略护栏(custom policy guardrails)的性能评估,其构建基于对现有基准的扩展与多样化处理。具体而言,数据集涵盖四大任务,分别源自DynaGuard、GAIA与HealthE等既有基准。研究团队对原始测试案例进行了显著扩充,通过人工标注方式引入大量新样本,例如将消息重复任务从34例扩展至158例,隐私泄露任务从22例增至112例。此外,在计划验证任务中,团队系统性地向有效计划中注入了多种违反指令的失败模式,从而构建了覆盖全部违规空间的均衡测试集。所有样本均由人工精心筛选,确保场景多样性与标注质量。
特点
BARRED数据集的显著特点在于其跨域多维度的评估架构。数据集整合了对话策略执行、智能体输出验证以及医疗合规监管三大领域的护栏任务,每个样本均由自然语言策略规则、待检测输入以及真实标签三元组构成。输入类型涵盖多轮对话、结构化计划与问答对,充分反映了真实应用场景的复杂性。该数据集的独特价值在于其策略规则以自由文本形式呈现,要求护栏模型具备自然语言理解能力以判断合规性。此外,所有测试集均经过人工精心策划,不仅扩展了原始数据规模,更通过引入细粒度违反模式(如GPS坐标的不同呈现形式、员工识别层级差异等)确保了评估的全面性与挑战性。
使用方法
BARRED提供了灵活的评估框架,支持多种推理方式。用户可通过配置文件指定分类类型(单片段评估或任务-响应联合评估)、数据集来源(本地CSV或HuggingFace云存储)以及评估模型。评估器可选用云端大语言模型(如Azure OpenAI、Google、Anthropic)或HuggingFace上的小型语言模型。使用过程包括:配置环境变量设置API密钥,从src/目录运行评估脚本并指定相应的YAML配置文件。每个配置文件详细定义了数据集参数、策略规则、标签列表及输出路径。数据可直接通过HuggingFace Datasets库加载,例如使用load_dataset('Plurai/BARRED', 'message_repetition', split='test')获取特定配置的测试集,便于集成到现有工作流中。
背景与挑战
背景概述
BARRED基准数据集由Plurai团队创建,专注于评估自定义策略护栏(custom policy guardrails)的性能。该数据集于近期发布,旨在解决大语言模型(LLM)在实际部署中面临的策略合规性挑战。核心研究问题在于如何衡量护栏模型对自由文本策略规则的理解与执行能力,覆盖对话策略执行、智能体输出验证及医疗合规三大领域。BARRED通过构建四个子任务(消息重复检测、隐私泄露识别、计划验证、健康建议辨析),为AI安全领域提供了首个标准化评估框架。其贡献在于将策略护栏从单一规则检测拓展至多场景、多样性本的人工地标测试集,显著推动了AI治理与对齐研究的发展。
当前挑战
BARRED数据集面临的核心挑战包括:1)领域问题层面,当前护栏模型难以处理策略规则的模糊性与语境依赖性,例如隐私披露检测需区分GPS坐标的显式与隐式暴露形式;2)构建过程中,为覆盖策略违规的全空间多样性,团队需人工注入符合真实世界复杂性的违规模式(如计划验证中引入不完整工具调用、对话重复中的语义渐变),同时确保正负样本平衡;3)跨域泛化难题,如医疗合规任务需从原始HealthE数据集中提取200个样本并重构为问答对,避免数据类型差异导致的评测偏差。这些挑战共同对护栏模型的鲁棒性与可迁移性提出了严苛考验。
常用场景
经典使用场景
在大型语言模型的部署过程中,安全性和合规性始终是悬而未决的核心难题。BARRED数据集专为评估自定义策略护栏(Custom Policy Guardrails)而生,其核心任务在于判定给定的AI输入或输出是否满足由自然语言自由描述的特定策略规则。数据集横跨三个关键领域、四项子任务,涵盖对话策略执行(如消息重复检测与隐私泄露识别)、智能体输出验证(如研究计划合规性核查)以及行业合规性审计(如医疗健康建议判别),为策略护栏模型的鲁棒性评测提供了系统化的基准。每个样本均包含策略规则、待检测内容及人工标注的黄金标签,支持对模型在细粒度语义理解与规则泛化能力上进行精准衡量。
解决学术问题
针对当前LLM安全研究中缺乏可定制、细粒度策略护栏评测标准的问题,BARRED填补了关键空白。传统安全基准多聚焦于通用有害内容分类,难以应对动态、多变的组织级合规要求。该数据集首次将策略规则以自由文本形式与多样化的输入类型(多轮对话、结构化计划、问答对)耦合,系统性地评估模型在不同领域和违规形态下的判别能力。通过人工精心构造并扩展原有测试样例,BARRED有效揭示了现有模型在处理策略规则变体、复杂语义边界和边缘案例时存在的脆弱性,为学术界构建更可靠的策略对齐方法提供了可复现的评估范式。其方法论为后续安全研究奠定了从粗粒度过滤向细粒度策略合规转变的理论基础。
衍生相关工作
围绕BARRED数据集,已衍生出一系列具有深远影响的学术与工程探索。其灵感部分来源于DynaGuard在对话策略强制执行领域的开创性工作,以及对GAIA通用助手基准中智能体规划任务的策略化改造。在隐私泄漏检测任务中,研究者借助BARRED的GPS坐标披露样本,发展出能够识别嵌套在URL结构与非GPS位置表述中潜在泄露风险的新型检测机制。HealthE医疗健康建议子集则催生了面向医疗合规问答的策略护栏微调方法,推动了专业领域安全对齐的进展。此外,基于该数据集的不对称辩论训练方法(Asymmetric Debate)为利用少量示例合成训练数据提供了新范式,启发了后续一系列关于低资源策略护栏生成和跨领域泛化能力提升的研究工作。
以上内容由遇见数据集搜集并总结生成



