OpenExempt

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/SergioServantez/OpenExempt

下载链接

链接失效反馈

官方服务：

资源简介：

OpenExempt是一个用于诊断评估语言模型法律推理能力的框架和基准测试。该框架能够根据用户配置动态生成复杂的法律推理任务，并使用专家制作的美国联邦和州法规的符号表示法计算每个任务的黄金解决方案。OpenExempt基准测试包含9,765个样本，分为9个评估套件：3个能力套件（基本能力、中级能力和高级能力）和6个诊断套件（时间推理、推理分解、资产缩放、干扰鲁棒性、奉承鲁棒性和混淆鲁棒性）。每个样本包含唯一标识符、任务提示、黄金解决方案、配置参数和案例详情等字段。所有任务均为英文。

创建时间：

2026-01-12

原始信息汇总

OpenExempt 数据集概述

数据集基本信息

数据集名称: OpenExempt
主要用途: 用于对语言模型进行法律推理能力的诊断性评估。
任务类别: 问答、文本生成
领域标签: 法律、破产法、推理
语言: 英语
许可证: CC BY 4.0
论文地址: http://arxiv.org/abs/2601.13183
代码仓库: https://github.com/servantez/OpenExempt

数据集规模与结构

总样本数: 9,765 个
测试集: 9,300 个样本
验证集: 465 个样本
数据组织: 包含 9 个评估套件（3 个能力套件和 6 个诊断套件）。

能力套件

评估核心法律推理能力，难度递增：

basic_competency: 1,050 个样本（1,000 测试，50 验证）
intermediate_competency: 1,470 个样本（1,400 测试，70 验证）
advanced_competency: 1,470 个样本（1,400 测试，70 验证）

诊断套件

用于探测推理、鲁棒性和错误传播的特定维度：

temporal_reasoning: 525 个样本（500 测试，25 验证）
reasoning_decomposition: 1,470 个样本（1,400 测试，70 验证）
asset_scaling: 1,680 个样本（1,600 测试，80 验证）
distractor_robustness: 525 个样本（500 测试，25 验证）
sycophancy_robustness: 525 个样本（500 测试，25 验证）
obfuscation_robustness: 525 个样本（500 测试，25 验证）

备注: baseline_robustness 套件包含无混淆陈述的任务，作为与鲁棒性套件的直接比较基准。

数据字段说明

每个数据示例包含以下字段：

id: 任务实例的唯一标识符。
prompt: 呈现给模型的自然语言任务提示，包括事实场景、指令和相关法规。
solution: 任务的黄金解决方案，以字符串形式表示（通常包含结构化内容）。
config: 用于构建示例的配置参数，以字符串形式表示。
case: 示例的案例详情，以字符串形式表示。

数据来源与构建方法

来源数据集: 原始
构建框架: OpenExempt 框架能够按需创建复杂的法律推理任务，每个任务场景由用户通过配置设置动态塑造。
解决方案生成: 使用专家制作的相关美国联邦和州法规的符号表示来计算每个任务的黄金解决方案。

引用信息

@misc{servantez2026openexemptdiagnosticbenchmarklegal, title={OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand}, author={Sergio Servantez and Sarah B. Lawsky and Rajiv Jain and Daniel W. Linna Jr. and Kristian Hammond}, year={2026}, eprint={2601.13183}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.13183}, }

搜集汇总

数据集介绍

构建方式

在法学与计算语言学交叉领域，OpenExempt数据集的构建体现了对法律推理能力进行系统性诊断的前沿探索。该数据集依托OpenExempt框架，通过用户可动态配置的参数设置，按需生成复杂的法律推理任务。其核心构建逻辑基于对美国联邦及州成文法的专家级符号化表征，利用这些结构化知识自动计算每个任务的黄金标准答案。数据集共包含9,765个样本，划分为九个评估套件，涵盖从基础到高级的 competency suites 以及针对时序推理、抗干扰性等特定维度的 diagnostic suites，每个样本均包含由框架生成的提示、答案及完整的配置与案例信息。

特点

OpenExempt数据集在法学人工智能评估领域展现出鲜明的结构化与诊断性特征。其设计围绕九个精心划分的评估套件展开，其中三个 competency suites 按难度递增系统评估核心法律推理能力，六个 diagnostic suites 则深入探究时序推理、推理分解、资产规模调整以及针对干扰信息、附和倾向与混淆表述的鲁棒性等特定维度。数据集所有任务均以英文呈现，每个样本不仅包含自然语言提示与黄金答案，还保留了生成任务所用的完整配置参数与案例细节，为模型能力分析提供了可追溯、可复现的细粒度诊断基础。

使用方法

在法学人工智能模型的评估实践中，OpenExempt数据集提供了模块化、多层次的诊断工具。研究者可直接使用其预构建的基准套件对模型进行系统性测试，通过分析模型在不同 competency 与 diagnostic suites 上的表现，精准定位其在法律推理、逻辑分解及抗干扰等方面的能力边界与薄弱环节。数据集的结构化字段，特别是 config 与 case 信息，支持对任务生成逻辑的深度追溯与定制化分析。此外，其背后的开源框架允许用户根据研究需求，动态配置并生成新的定制化法律推理任务，从而拓展评估的维度与场景。

背景与挑战

背景概述

OpenExempt数据集由Sergio Servantez等研究人员于2026年提出，旨在构建一个面向法律推理能力诊断的基准测试框架。该数据集依托美国联邦及州法规的专家级符号化表示，动态生成复杂的法律推理任务，涵盖了从基础到高级的九个评估套件，共计9,765个样本。其核心研究问题聚焦于系统评估语言模型在处理法律条文解释、案例分析和逻辑推演等方面的性能，为法律人工智能领域提供了标准化的评估工具，推动了智能法律辅助系统的发展。

当前挑战

OpenExempt数据集致力于解决法律领域中的复杂推理挑战，包括对法规多维度解读、时序逻辑推理以及抗干扰鲁棒性等问题的系统性评估。在构建过程中，研究人员面临将非结构化的法律条文转化为可计算的符号表示、确保任务生成的一致性与法律准确性，以及设计涵盖不同难度层级和诊断维度的评估套件等挑战。这些挑战要求跨学科协作，整合法学专家知识与计算语言学技术，以保障数据集的科学性与实用性。

常用场景

经典使用场景

在法律人工智能领域，OpenExempt数据集作为诊断性基准，其经典使用场景在于系统评估语言模型在复杂法律推理任务中的表现。该数据集通过动态配置生成多样化任务，涵盖从基础到高级的法律能力测试，例如资产豁免判定、时效性推理等，为研究者提供了标准化工具以量化模型在法律条文理解和逻辑演绎方面的精度与鲁棒性。

衍生相关工作

该数据集衍生了多项经典研究工作，主要集中在法律推理基准的扩展与模型诊断方法的创新上。例如，基于OpenExempt框架，研究者开发了针对特定法规领域的定制化评测任务，并探索了对抗性测试、多步推理增强等技术，进一步推动了法律AI在鲁棒性与泛化能力方面的前沿进展。

数据集最近研究