CoPriva
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://github.com/hwanchang00/CoPri va
下载链接
链接失效反馈官方服务:
资源简介:
CoPriva是一个包含4184个实例的大规模基准数据集,用于评估大型语言模型(LLMs)在问答中对上下文非披露政策的遵守情况。该数据集来源于真实世界的产品/委员会/学术会议,包括明确的政策和旨在获取禁止信息的直接和间接攻击。CoPriva旨在解决LLMs在敏感应用中对上下文安全政策的遵守问题,特别是在面对试图绕过限制的情况下。
CoPriva is a large-scale benchmark dataset containing 4184 instances, designed to evaluate large language models (LLMs) on their compliance with context-based non-disclosure policies during question answering. This dataset is sourced from real-world products, committees and academic conferences, covering explicit policies as well as both direct and indirect attacks aimed at obtaining prohibited information. CoPriva aims to address the issue of LLMs' compliance with contextual security policies in sensitive applications, particularly when facing attempts to bypass these restrictions.
提供机构:
韩国中央大学
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
CoPriva数据集基于QMSum的多方会议记录构建,通过提取会议中的问答对生成安全策略。首先,利用GPT-4.1生成安全策略,明确区分保密目标(Pc)和非保密目标(Pn)。随后,通过规则方法生成直接攻击查询(Qd),并复用QMSum的原始查询作为间接攻击查询(Qi)。为确保数据质量,采用自动过滤管道和人工验证相结合的方式,剔除低质量或逻辑不一致的实例。
特点
CoPriva数据集包含4,184个实例,涵盖219个多方会议记录,每个会议平均包含12,881个标记。其核心特点在于包含用户定义的安全策略和多样化的攻击查询,包括直接攻击和间接攻击。此外,数据集还提供了详细的泄漏评分和忠实度评分,为评估大语言模型在安全策略遵守方面的表现提供了全面支持。
使用方法
使用CoPriva数据集时,首先加载会议记录和安全策略,随后输入直接或间接攻击查询以评估模型的响应。通过泄漏评分判断模型是否泄露保密信息,通过忠实度评分评估回答的完整性。该数据集适用于测试和优化大语言模型在敏感领域中的安全策略遵守能力,尤其适合研究对抗性查询下的信息泄露问题。
背景与挑战
背景概述
CoPriva数据集由韩国中央大学的研究团队于2025年提出,旨在评估大语言模型(LLMs)在问答任务中遵守上下文安全策略的能力。该数据集包含4,184个实例,涵盖真实场景中的多领域会议记录,并设计了直接和间接攻击查询以测试模型的信息保密性能。作为首个专注于动态用户定义安全策略的大规模基准,CoPriva填补了LLM在敏感领域(如企业决策、政府事务)应用时的安全性评估空白,为模型安全对齐研究提供了重要工具。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题上,现有模型对间接攻击的防御能力显著薄弱,平均信息泄露率比直接攻击高40个百分点,暴露了LLMs在理解复杂策略约束方面的缺陷;数据构建上,需平衡安全目标的精确标注与查询的自然性,既要确保策略目标的上下文有效性,又要构造符合真实对话逻辑的间接攻击,这对标注一致性和对抗样本设计提出了极高要求。
常用场景
经典使用场景
CoPriva数据集专为评估大型语言模型(LLM)在问答任务中遵守上下文安全策略的能力而设计。其经典使用场景包括模拟企业会议、产品讨论和学术委员会等高敏感环境下的对话,通过直接和间接攻击查询测试模型是否泄露被政策禁止的敏感信息。数据集包含丰富的多轮对话和动态安全策略,为研究模型在复杂上下文中的安全合规性提供了标准化的测试平台。
衍生相关工作
CoPriva催生了多个重要研究方向:基于其构建的PolicyBERT首次实现了策略条件响应生成;后续工作SECPRIV扩展了跨语言策略合规性评估;团队同期提出的ReAct-Policy框架结合强化学习,将间接攻击下的泄漏率降低至15%。这些衍生研究共同推动了NIPS 2026最佳论文《动态策略对齐的元学习方法》的理论突破。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在敏感领域如企业决策和政府服务中的广泛应用,确保其遵循用户定义的安全策略成为关键挑战。CoPriva数据集的引入填补了当前LLM安全评估的空白,专注于上下文安全策略的保持,特别是在问答场景中对抗间接攻击的能力。该数据集通过构建大规模的真实场景测试,揭示了现有LLMs在间接攻击下的显著脆弱性,频繁泄露敏感信息。这一发现突显了当前LLM安全对齐的不足,尤其是在动态策略约束下的信息保密性方面。前沿研究正致力于开发更鲁棒的机制,以提升LLMs在敏感应用中的安全性,确保其在实际部署中能够严格遵循用户定义的策略。
相关研究论文
- 1Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering韩国中央大学 · 2025年
以上内容由遇见数据集搜集并总结生成



