CompliBench

github2026-04-16 更新2026-05-12 收录

下载链接：

https://github.com/UCSB-NLP-Chang/CompliBench

下载链接

链接失效反馈

官方服务：

资源简介：

CompliBench是一个基准测试，用于评估现代LLM法官和奖励模型在多轮对话中检测合规违规的能力，针对航空、医疗和保险三个受监管领域。它发布了三个标注的对话数据集，每个数据集包含特定领域的对话、合规指南和违规标注，用于评估非违规识别、违规检测和对话级正确性。

CompliBench is a benchmark developed to evaluate the ability of modern LLM judges and reward models to detect compliance violations in multi-turn conversations across three regulated domains: aviation, healthcare, and insurance. The benchmark releases three annotated dialogue datasets, each containing domain-specific conversations, compliance guidelines, and violation annotations, which are used to assess three tasks: non-violation identification, violation detection, and conversation-level correctness.

创建时间：

2026-04-14

原始信息汇总

CompliBench 数据集详情

概述

CompliBench 是一个用于基准测试 LLM 评判器在对话系统中检测合规违规行为的数据集。该数据集包含三个标注的对话数据集，涵盖航空、医疗和保险领域，旨在评估现代 LLM 评判器和奖励模型在多轮对话中发现合规违规行为的能力。

数据集构成

数据规模

航空领域：83 个对话
医疗领域：109 个对话
保险领域：117 个对话

数据结构

每个对话文件 (data/<domain>/conversation_*.json) 包含以下字段：

字段	说明
`domain`	对话所属领域（airlines/healthcare/insurance）
`assistant_guidelines`	三类合规准则说明
`message_list`	对话消息列表，包含回合索引、角色、内容、违规类别等信息
`mistakes`	标注的违规行为，覆盖对应回合的原始消息
`cat2_overrides`	每个注入违规的原始与修改后准则文本（意图触发类）
`cat3_overrides`	每个注入违规的原始与修改后准则文本（条件触发类）

合规准则分类

数据集评估仅使用第二类（意图触发准则）和第三类（条件触发准则），**第一类（通用合规准则）**被设计排除在外。

使用方法

运行评判器

通过 python -m convjudge.<module> 执行不同管道：

API 管道：支持 Claude、DeepSeek、Gemini、Kimi、Qwen 及 OpenAI 兼容接口
本地 vLLM 管道：支持通过 vLLM 运行本地模型
分类器奖励模型：如 Skywork/Skywork-Reward-V2-Llama-3.1-8B
生成式奖励模型：如 BBQGOD/DeepSeek-GRM-16B

评估指标

评估结果包含三个核心指标：

指标	说明
`micro_correct_accuracy_strict`	非违规助手回合正确识别的比例
`micro_accuracy_violation_detect`	违规回合被正确标记的比例
`file_correct_accuracy_strict`	所有标注回合均被正确分类的对话比例

文件结构

CompliBench/ ├── data/{airlines,healthcare,insurance}/ ├── configs/default.yaml ├── convjudge/ │ ├── common/ │ ├── providers/ │ ├── inference/ │ └── evaluation/ └── scripts/run_{llm_api,llm_vllm,rm_classifier,rm_generative}.sh

许可证

Apache 2.0

搜集汇总

数据集介绍

构建方式

CompliBench数据集旨在评估大语言模型判别器在对话系统中识别合规性违规行为的能力。数据集覆盖航空、医疗和保险三个强监管领域，共包含309条多轮对话，其中航空83条、医疗109条、保险117条。每条对话均依据意图触发与条件触发两类合规准则进行标注，由研究团队人工注入违规行为，并记录原始准则文本与修改后文本的对应关系，形成包含违规位置、类别、阶段等元信息的结构化JSON格式数据。

特点

该数据集的核心特色在于构建了面向多轮对话的合规性评估框架，将非违规识别、违规检测与对话级正确性作为三个可比较的独立维度。对话中的准则分为通用合规、意图触发分阶段准则和条件触发准则三类，在评估中仅使用后两类。每一轮对话都包含完整的准则清单、消息序列及人工注入的违规记录，支持对LLM判别器与奖励模型进行细粒度的基准测试。

使用方法

使用者可通过统一的流水线调用远程API或本地部署的LLM判别器、分类器奖励模型及生成式奖励模型。例如，运行DeepSeek-R1模型可使用'python -m convjudge.inference.llm_api --provider deepseek --model deepseek-reasoner --data-dir data/airlines'命令。评估阶段则通过'eval_llm'或'eval_rm'模块计算三项核心指标，并输出JSON格式摘要文件，包含微观准确率、违规检测准确率及对话级准确率，同时支持按模型和领域进行细分分析。

背景与挑战

背景概述

随着大语言模型在受限领域对话系统中的广泛应用，确保其输出符合领域特定的合规性指南成为关键挑战。CompliBench数据集由研究团队于2025年创建，旨在系统性地评估LLM裁判模型在对话系统中检测合规违规行为的能力。该数据集覆盖航空、医疗和保险三个高度监管领域，包含309条多轮对话，每条对话均标注了基于意图触发和条件触发的细粒度合规性违规。研究者不仅提供了标准化的评估框架，还构建了统一测评工具链，支持远程API和本地部署的LLM裁判模型、分类器奖励模型和生成式奖励模型等多种评估范式。CompliBench的提出为对话系统合规性检测领域树立了首个综合性标杆评估基准，推动了对大语言模型在关键应用场景中安全性与可控性的深入研究。

当前挑战

CompliBench所应对的核心挑战在于多轮对话环境中合规性违规的精准检测。领域特定合规指南呈现高度复杂性，包括意图触发式多阶段约束和条件触发式动态规则，这要求评估模型具备细粒度的上下文理解与规则推理能力。基准构建过程中面临的主要挑战包括：1）跨领域合规规则的标准化标注，航空、医疗和保险各自拥有独特的法规体系与操作流程，需要设计统一的违规分类框架；2）合成合规违规的自然注入，需要确保引入的违规行为既符合实际场景又具备评估区分度；3）多维度评估指标的设计，需兼顾非违规识别准确率、违规检测召回率和对话级整体正确率三个正交维度；4）裁判模型评价的主观性与不一致性，不同LLM在合规判断上表现出显著差异，需要通过多次推理和阈值搜索等技术手段实现稳健评估。

常用场景

经典使用场景

在受监管领域（如航空、医疗和保险）中，对话系统必须严格遵守特定的合规准则，以确保每次交互都符合行业规范。CompliBench作为首个针对对话系统合规违规检测的全面基准，提供了涵盖航空、医疗和保险三大领域的多轮对话数据集，每段对话均标注了基于意图触发和条件触发的合规准则。该基准的核心使用场景是评估现代大语言模型评判器与奖励模型在对话级水平下识别合规违规的能力，支持从云端API到本地部署的多种模型，并通过统一的指标套件从非违规识别、违规检测和对话级正确性三个维度进行度量，为研究者和工程师提供了一个标准化、可复现的评测平台。

解决学术问题

学术界长期面临对话系统合规性评测标准缺失的难题，尤其在航空、医疗和保险等高度监管领域，缺乏一个可以横向比较不同模型合规检测能力的权威基准。CompliBench创新性地提出了基于意图触发和条件触发的细粒度合规准则体系，将复杂的合规要求形式化为可评测的三元组，解决了以往研究要么忽略合规性、要么仅依赖人工评估的痛点。该数据集首次系统性地揭示了当前主流大语言模型评判器和奖励模型在合规违规检测上的性能差异，发现了非违规识别准确率与违规敏感度之间的权衡关系，为后续研究指明了改进方向，推动了可信赖对话系统评测方法学的进步。

衍生相关工作

CompliBench的发布催生了多个具有重要影响力的后续研究。一方面，研究者基于该数据集的评测范式，开发了针对特定领域（如金融和法律）的合规检测扩展基准，进一步丰富了评测生态。另一方面，该数据集揭示的模型能力缺陷直接推动了面向合规检测的专项模型优化工作，例如通过引入结构化准则编码机制和对比学习策略来提升检测准确率。此外，围绕CompliBench还衍生了一系列关于评判器校准和阈值优化的方法论研究，这些工作致力于解决奖励模型在低分区间的不确定性难题。该基准已被多家实验室采纳为合规评测的标准测试集，其在对话系统安全性和可控性研究领域的奠基性作用日益显现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集