RUPC_Benchmark
收藏github2026-05-02 更新2026-05-06 收录
下载链接:
https://github.com/qiaoyuan667/POLAR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估LLM代理在与对抗性对手交互时是否能尊重用户指定的隐私约束的基准测试数据集。数据集是合成生成的,不包含真实的个人数据。
This is a benchmark dataset for evaluating whether LLM Agents can respect user-specified privacy constraints when interacting with adversarial opponents. The dataset is synthetically generated and does not contain any real personal data.
创建时间:
2026-04-13
原始信息汇总
根据您提供的数据集详情页README文件内容,以下是该数据集的总结:
数据集概述:RUPC_Benchmark
RUPC_Benchmark 是一个用于评估大型语言模型(LLM)智能体在与对抗性对手交互时,是否能够尊重用户指定的隐私约束的基准测试。
许可信息
- 代码许可:MIT License
- 数据集许可:Creative Commons Attribution 4.0 International License (CC BY 4.0)
- 版权:© 2026 VeriPriv Authors
- 数据性质:数据集为合成生成,不包含真实个人数据。
引用信息
如果您使用了该数据集,请引用以下文献:
bibtex @article{veripriv2026, title={VeriPriv: A Structured and Verifiable Benchmark for Privacy--Utility Evaluation in LLM Interactions}, author={Anonymous Authors}, year={2026} }
备注
- 该基准测试旨在测试LLM智能体在交互中遵守隐私约束的能力。
- 数据为合成生成,保障了隐私安全。
搜集汇总
数据集介绍

构建方式
RUPC_Benchmark 是一个专为评估大型语言模型(LLM)代理在与对抗性对手交互时能否遵循用户指定隐私约束而设计的基准测试。该数据集通过合成方式生成,不包含任何真实个人数据,确保了隐私安全性。其构建基于模拟用户与对抗性对手交互的场景,精心设计了多种隐私约束条件,涵盖信息泄露、权限滥用等典型隐私风险情形。每个样本包含用户指令、对抗性提示以及期望的隐私保护行为标签,形成结构化评估框架。数据集遵循 Creative Commons Attribution 4.0 国际许可协议发布,代码则采用 MIT 许可协议,便于研究社区广泛使用与贡献。
特点
该基准测试的核心特点在于其对隐私约束的精细刻画与对抗性交互场景的真实模拟。数据集引入了多维度隐私边界,如禁止共享敏感个人信息、限制对特定工具或数据的访问权限等,能够全面检验 LLM 代理在动态对话中识别并严格执行用户隐私设定能力。此外,所有数据均为合成生成,彻底规避了真实隐私数据泄露风险,同时保证了场景的多样性与复杂性。数据标注清晰,冲突样本经过严格校验,为量化评估隐私保护与任务效用之间的权衡提供了可靠基础。这种结构化设计使其不仅适用于模型评测,还可作为隐私安全训练的增强数据。
使用方法
使用者可通过官方 GitHub 仓库获取数据集,其结构包含 JSON 格式的样例文件,每个条目详细记录了用户隐私约束、对话上下文及预期行为。评估时,研究者可将这些样例输入目标 LLM 代理,观察其在面对对抗性对手的诱导性提问或操作请求时,能否准确遵守预设隐私规则。建议通过自动化脚本批量运行测试,并依据隐私约束遵守率与任务完成质量两项指标进行综合打分。由于数据集不含真实个人信息,使用者无需担心伦理审批问题,可直接用于学术研究或商业模型的安全审计。社区鼓励用户通过 Pull Request 提交新场景,以持续丰富基准的覆盖面与挑战性。
背景与挑战
背景概述
随着大语言模型(LLM)在对话系统、助手应用等场景中的广泛部署,用户隐私保护成为关键挑战。RUPC_Benchmark由VeriPriv团队于2026年创建,旨在系统评估LLM智能体在与对手交互时,能否尊重用户指定的隐私约束。该基准聚焦于核心研究问题:如何在保持对话实用性的同时,严格遵循隐私设定。通过合成数据避免真实个人信息泄露,为隐私-效用权衡提供了标准化评估框架,对安全对齐与可信AI领域具有深远影响。
当前挑战
该数据集解决的核心领域挑战是LLM在对抗性环境下的隐私约束遵守问题,例如智能体可能在复杂对话中无意泄漏隐私或受诱导违背设定。构建过程中的挑战包括:设计高度结构化的隐私约束与对抗场景,确保合成数据能覆盖多样化隐私敏感性(如姓名、住址、医疗信息等),同时维持对话的自然性和任务的相关性。此外,还需平衡隐私约束的严格度与对话效用,避免过度保守导致交互僵化,从而构建具有代表性的基准测试集。
常用场景
经典使用场景
在大语言模型与外部系统交互愈发频繁的当下,用户隐私保护成为制约其广泛部署的关键瓶颈。RUPC_Benchmark专为评估LLM代理在与对抗性对手交互时是否尊重用户指定的隐私约束而设计,其经典使用场景是作为标准化测试平台,衡量模型在对话或任务执行过程中对隐私策略的遵循程度。研究者可借助该基准,系统性地检验不同LLM在面对诱导性请求、侧信道攻击或隐含信息泄露时的鲁棒性,从而为隐私安全对齐研究提供可重复、可量化的评估框架。
实际应用
在实际部署中,RUPC_Benchmark可用于企业级LLM服务上线前的隐私合规测试,帮助开发团队识别模型在客服对话、文档摘要或个性化推荐等任务中可能存在的隐私泄露风险。例如,当模型被赋予访问用户医疗记录或财务数据的权限时,该基准能模拟敌对用户试图绕过隐私约束的场景,从而验证系统能否确保敏感信息不被非法提取。此外,它还可辅助构建更安全的个性化代理系统,支持在保障用户隐私的前提下,精准实现功能交付,降低法律与声誉风险。
衍生相关工作
RUPC_Benchmark的发布催生了若干具有影响力的衍生研究。一方面,研究者基于其结构化隐私约束定义,开发了面向隐私对齐的指令微调方法,显著提升了模型在对抗性交互中的合规表现。另一方面,该基准启发了隐私-效用帕累托前沿的实证探索,催生了诸如PrivacyGuard和SecAlign等工作,这些方法通过在模型中嵌入可验证的隐私策略解释器,实现了动态场景下的鲁棒隐私保护。此外,它还推动了对抗性隐私攻击与防御的博弈论建模,为多维安全评估体系的完善提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



