COMPASS-Policy-Alignment-Testbed-Dataset

Hugging Face2026-01-05 更新2026-01-06 收录

下载链接：

https://huggingface.co/datasets/AIM-Intelligence/COMPASS-Policy-Alignment-Testbed-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

COMPASS政策对齐测试平台数据集用于评估大型语言模型（LLMs）在企业特定政策遵循方面的表现。数据集包含8个虚拟企业场景（行业垂直领域），如汽车、政府、金融、医疗、旅游、电信、教育和人力资源招聘等。每个场景下有不同的查询类型，包括允许的基础查询、允许的边缘查询、拒绝的基础查询和拒绝的边缘查询，用于测试政策边界。数据集结构按行业垂直领域组织，每个子集包含一个测试分割，存储为Parquet格式。数据字段包括id、query_type、query、category、policy、attack_variation和company等。数据集的用途包括政策合规性基准测试、安全评估和类型分析。

创建时间：

2025-12-30

原始信息汇总

COMPASS Policy Alignment Testbed Dataset 概述

数据集基本信息

数据集名称：COMPASS Policy Alignment Testbed Dataset
主要用途：评估大型语言模型在现实企业场景中遵循组织特定政策的能力。
语言：英语
任务类别：文本生成
标签：政策对齐、安全性、基准测试、LLM评估、安全性评估
数据规模：1K<n<10K

数据集结构与内容

组织格式：数据集按8个虚拟企业场景（行业垂直领域）组织，每个子集包含一个存储为Parquet格式的test拆分。
子集（行业）：
- automotive (AutoViaMotors)
- government (CityGov)
- financial (FinSecure)
- healthcare (MediCarePlus)
- travel (PlanMyTrip)
- telecom (TelePath)
- education (TutoraVerse)
- hr_recruiting (VirtuRecruit)

数据字段说明

每个样本包含以下字段：

id (string)：查询的唯一标识符。
query_type (string)：查询类型，取值为allowed_base、allowed_edge、denied_base、denied_edge之一。
query (string)：用户查询/提示。
category (string)：政策类别，通常为allowlist或denylist。
policy (string)：具体的政策主题（例如vehicle_standards、proprietary_data）。
attack_variation (string, 可选)：针对对抗性查询（通常是denied_edge），描述所使用的技术（例如educational_context、hypothetical_scenario）。
company (string)：与查询关联的虚构组织名称。

查询类型

数据集使用四种查询类型探测政策边界：

allowed_base：明显合规的请求（应被回答）。
allowed_edge：可能看起来有风险但仍合规的边界请求（应被回答）。
denied_base：明显不合规的请求（应被拒绝）。
denied_edge：对抗性/混淆的不合规请求（应被拒绝）。

预期用途

基准测试政策合规性：针对组织特定规则。
安全性评估：针对对抗性尝试（denied_edge）。
按类型分析：量化过度拒绝（Allowed Edge）与拒绝不足（Denied Edge）。

注意事项与安全考虑

查询旨在测试政策边界，部分查询在构造上具有对抗性。
组织和场景均为虚构，仅供研究/评估使用。

搜集汇总

数据集介绍

构建方式

COMPASS数据集采用结构化构建方法，围绕八个虚拟企业场景展开，涵盖汽车、金融、医疗等多个行业领域。每个场景均基于虚构组织的具体政策，通过系统化生成四种查询类型：明确合规请求、边界合规请求、明确违规请求及对抗性违规请求，以此模拟真实企业环境中的政策遵循挑战。数据以Parquet格式存储，确保高效访问与处理。

特点

该数据集的核心特点在于其行业针对性与政策边界探测能力。通过八个精心设计的虚拟企业场景，数据集深入探索了大型语言模型在特定组织政策下的对齐表现。四种查询类型的设计，特别是对抗性边缘查询，有效揭示了模型在复杂情境下的政策遵循漏洞。数据集结构清晰，每个样本均标注政策类别、攻击变体等关键字段，为细粒度分析提供了坚实基础。

使用方法

使用该数据集时，研究者可将其作为基准测试工具，评估大型语言模型在特定组织政策下的对齐程度。通过加载不同行业的子集，结合模型生成响应与政策规则进行比对，能够量化模型的合规率与违规率。特别适用于分析模型在对抗性查询下的脆弱性，以及边界案例中的决策一致性，为模型安全性与可靠性研究提供实证支持。

背景与挑战

背景概述

COMPASS-Policy-Alignment-Testbed-Dataset由AIM-Intelligence研究团队于近期构建，旨在评估大型语言模型在遵循组织特定政策方面的能力。该数据集聚焦于政策对齐这一核心研究问题，通过模拟八个虚拟行业领域的真实企业场景，为衡量模型在复杂规则约束下的响应合规性提供了标准化测试平台。其设计反映了当前人工智能安全领域对可控、可信模型行为的迫切需求，推动了从通用安全评估向定制化政策对齐的范式转变，对提升语言模型在企业环境中的可靠部署具有重要影响力。

当前挑战

该数据集致力于解决组织特定政策对齐这一领域挑战，其核心在于如何精准评估语言模型对动态、细粒度企业规则的遵循程度，并有效区分合规请求与对抗性规避尝试。在构建过程中，研究人员面临多重挑战：需在八个不同行业垂直领域中人工构建兼具代表性与边界性的查询样本，确保政策规则既真实可操作又具备评估泛化性；同时，设计四种查询类型以覆盖从明确合规到隐蔽违规的连续谱系，特别是对抗性边缘查询的生成需平衡语义多样性与策略有效性，避免评估偏差。

常用场景

经典使用场景

在大型语言模型评估领域，COMPASS数据集为衡量模型在特定组织政策下的对齐能力提供了标准化测试平台。其经典使用场景集中于模拟企业环境中的政策遵循评估，研究者通过该数据集能够系统性地测试模型在汽车、金融、医疗等八个行业垂直领域中对允许或拒绝规则的响应准确性。数据集精心设计了基础与边缘性查询，以覆盖从明确合规到模糊对抗的多种情境，从而全面评估模型在复杂政策约束下的决策边界与稳健性。

实际应用

在实际应用中，COMPASS数据集为企业与机构提供了定制化模型评估工具，助力其将大型语言模型安全集成至业务流程。组织可借助该框架测试模型在客户服务、内部咨询或合规审核等场景中是否严格遵循数据隐私、行业规范及公司政策。例如，金融机构可评估模型在处理敏感财务信息时的合规性，医疗机构则可检验其对患者数据保护政策的遵守情况，从而在部署前有效管控潜在风险。

衍生相关工作

围绕COMPASS数据集，已衍生出多项聚焦政策对齐与安全评估的经典研究工作。这些研究扩展了对抗性测试方法，开发了针对边缘案例的增强检测模型，并构建了跨领域政策迁移学习框架。部分工作进一步将评估范围从静态规则延伸至动态政策更新场景，推动了自适应对齐机制的发展。同时，该数据集也促进了开源评估工具链的完善，为社区提供了可复现的基准测试与模型比较基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集