DeonticBench

github2026-04-27 更新2026-04-10 收录

下载链接：

https://github.com/guangyaodou/DeonticBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeonticBench是一个用于评估大型语言模型在现实世界法律和法规条文上进行道义推理的基准。给定案例事实和法定规则，模型必须通过生成可执行的Prolog程序（少量示例或零示例）或直接用自然语言回答来得出法律上正确的答案。它涵盖五个领域（美国联邦税收、航空公司行李政策、州住房法和USCIS移民上诉），并为每个案例包含经过验证的参考Prolog程序。

DeonticBench is a benchmark for evaluating the deontic reasoning capabilities of Large Language Models (LLMs) in real-world legal and regulatory scenarios. Given case facts and statutory rules, models are required to derive legally correct answers either by generating executable Prolog programs or responding directly in natural language. It covers five domains: U.S. federal taxation, airline baggage policies, state housing laws, and USCIS immigration appeals, and provides validated reference Prolog programs for each case.

创建时间：

2026-04-05

原始信息汇总

DeonticBench 数据集概述

数据集基本信息

数据集名称：DeonticBench
核心用途：评估大语言模型在现实世界法律和法规条例上的道义推理能力。
任务描述：给定案例事实和法规条例，模型必须推导出法律上正确的答案。可通过生成可执行的Prolog程序（小样本或零样本）或直接用自然语言回答。
涵盖领域：美国联邦税法、航空公司行李政策、州住房法、美国公民及移民服务局移民上诉案，共五个领域。
关键特征：每个案例都包含经过验证的参考Prolog程序。

数据集结构与内容

数据获取

主要存储库：完整数据集（包括 whole 划分）托管于 Hugging Face：https://huggingface.co/datasets/gydou/DeonticBench
本仓库内容：仅包含 data/ 目录下的 hard 和 smoke 划分。
法规文件：statutes/ 目录下的法规文件（用于 sara_numeric, sara_binary 和 airline 领域）不属于HuggingFace数据集的一部分，随仓库提供。

数据划分

每个领域包含三种划分：

smoke：5个案例，用于快速完整性检查。
hard：精选的测试子集，包含经过验证的参考Prolog程序。
whole：完整数据集。hard 集始终是 whole 集的子集。

各领域详情

领域	描述	标签类型	Smoke案例数	Hard案例数	Whole案例数
SARA Numeric	美国联邦所得税（§1, §2, §63, §151, §152, ...）	整数（应纳税额，美元）	5	35	100
SARA Binary	个人税法条款的蕴含/矛盾判断	`0` / `1`	5	30	276
Airline	航空公司行李费政策	整数（总成本，美元）	5	80	300
Housing	美国州住房和驱逐法（50个州）	`"yes"` / `"no"`	5	78	5314
USCIS-AAO	美国公民及移民服务局行政上诉办公室移民案件	`"Accepted"` / `"Dismissed"`	5	28	242

数据条目结构

通用字段：

question：自然语言问题。
label：真实答案标签。
reference_prolog：编码适用规则和案例事实的已验证Prolog程序。

各领域特有字段：

SARA Numeric / SARA Binary / Airline：
- statutes：共享的法规文本（SARA为IRC条款；Airline为行李政策）。
- text：案例叙述。
Housing：
- statutes：特定案例的法规摘录。
- state：州名（如 "Michigan"）。
USCIS-AAO：
- statutes：特定案例的适用法律。
- text：案例叙述。
- case_number：AAO案件编号（如 "APR112023_01B5203"）。

评估与实验

支持的推理模式

小样本 (few-shot)：给定法规文本和1-2个Prolog示例，模型为新案例编写Prolog代码。
零样本 (zero-shot)：仅给定法规文本，模型编写Prolog代码。
直接回答 (direct)：模型用自然语言直接回答问题。

支持的模型与API提供商

OpenAI：支持如 o3-2025-04-16, gpt-4.1-2025-04-14, gpt-5-2025-08-07 等模型。
OpenRouter：支持如 anthropic/claude-opus-4, google/gemini-2.5-flash, openai/gpt-5.2-codex 等模型。
Together AI：支持如 Qwen/Qwen3-235B-A22B-Instruct-2507-tput, Qwen/Qwen3-235B-A22B-Thinking-2507 等模型。
本地模型：支持通过vLLM服务本地模型进行推理。

评估方法

执行流程：生成的Prolog代码由SWI-Prolog求解器执行。
评估脚本：使用 scripts/bootstrap_outputs.py 计算自助法准确率±95%置信区间、弃答率和错误率。
正确性判定：
- 数值领域（SARA Numeric, Airline）：允许±1的舍入容差。
- 分类领域：需要精确匹配。
弃答定义：
- Prolog模式：Prolog输出为空/错误/超时。
- 直接回答模式：自由文本答案无法解析为预期的标签类型。

相关资源

论文：https://arxiv.org/abs/2604.04443
交互式看板：USCIS-AAO案例的交互式探索看板：https://uscis-aao-stats-ui-215c824fe945.herokuapp.com/
训练方法：支持SFT、DPO（使用LlamaFactory）和Dr.GRPO（使用verl）三种微调方法。

搜集汇总

数据集介绍

构建方式

在构建DeonticBench数据集的过程中，研究者精心选取了五个具有代表性的现实世界法律与监管领域，包括美国联邦税法、航空公司行李政策、州住房法以及美国公民及移民服务局上诉案例。每个案例均基于真实的法律条文和案例事实，通过专家验证确保其法律正确性。数据集的构建采用了结构化方法，为每个案例提供了自然语言的问题描述、真实标签以及经过验证的Prolog参考程序，这些程序编码了适用的法律规则和案例事实，从而形成了一个既具挑战性又具备可靠基准的评估资源。

特点

DeonticBench数据集的特点在于其跨领域的广泛覆盖和严谨的验证机制。数据集涵盖了从税收计算到移民上诉的多样法律场景，每个领域都提供了详细的法规文本和案例叙述。其核心特征包括为每个案例配备经过专家验证的Prolog参考程序，这些程序确保了推理过程的逻辑正确性。此外，数据集提供了三种不同的评估分割：smoke用于快速验证，hard作为精选测试子集，whole则包含完整数据，满足了从初步测试到全面评估的不同需求。

使用方法

使用DeonticBench数据集时，研究者可以通过提供的推理管道进行模型评估，支持多种解决模式，包括少样本Prolog生成、零样本Prolog生成以及直接自然语言回答。数据集与主流API提供商兼容，如OpenAI、OpenRouter和Together AI，同时也支持通过vLLM在本地部署模型进行评估。评估过程包括生成Prolog代码、通过SWI-Prolog执行器运行代码，并利用引导置信区间计算准确性指标，从而全面衡量模型在义务推理任务上的表现。

背景与挑战

背景概述

DeonticBench 是由 Guangyao Dou 等研究人员于 2026 年提出的一个基准测试数据集，旨在评估大型语言模型在现实世界法律与法规条文上的道义推理能力。该数据集涵盖了美国联邦税法、航空公司行李政策、州住房法以及美国公民及移民服务局上诉案例等五个领域，通过提供案例事实与法规条文，要求模型生成可执行的 Prolog 程序或直接以自然语言回答，从而得出法律上正确的结论。其核心研究问题聚焦于提升模型对复杂规则逻辑的理解与符号推理能力，为法律人工智能领域提供了严谨的评估工具，推动了可解释性推理模型的发展。

当前挑战

DeonticBench 所解决的核心领域问题是道义推理，即模型需从法律条文与案例事实中推导出合规结论，这面临法律文本的歧义性、逻辑条件的嵌套性以及跨领域知识整合的挑战。在数据集构建过程中，研究人员需确保案例的真实性与法律正确性，为每个案例手工验证并编写参考 Prolog 程序，同时处理不同法律领域术语与结构的差异性，以及保持数据规模与质量之间的平衡。

常用场景

经典使用场景

在自然语言处理与法律人工智能交叉领域，DeonticBench作为评估大型语言模型道义推理能力的基准数据集，其经典使用场景聚焦于模型对现实世界法律条文与案例事实的符号化逻辑解析。研究者通常利用该数据集，要求模型在给定法规文本与案情叙述后，通过生成可执行的Prolog程序或直接输出自然语言答案，完成税务计算、行李费用判定、住房法合规性审查等具体任务，从而系统检验模型从复杂规则中推导法律结论的准确性与可靠性。

实际应用

在实际应用层面，DeonticBench所涵盖的联邦税法、航空公司行李政策、州住房法与移民上诉案例，直接对应着法律服务自动化、智能合规助手与政策咨询系统的开发需求。基于该数据集训练的模型能够辅助律师快速检索适用法条、计算税务负债、评估案件胜诉概率，或为航空公司、物业管理机构提供自动化的政策问答服务。这些应用不仅提升了法律服务的效率与可及性，也为构建透明、可解释的监管科技工具提供了技术基础。

衍生相关工作

围绕DeonticBench衍生的经典研究工作主要集中于法律推理模型的架构创新与评估方法拓展。例如，研究者利用其提供的少样本与零样本Prolog生成任务，开发了专用于法律条文解析的神经符号混合模型；同时，基于数据集中跨领域案例的迁移学习研究，探索了模型在不同法系与法规类型中的泛化能力。此外，该数据集也催生了针对法律推理结果可解释性的新评估指标，以及结合强化学习与指令微调的法律专家模型训练范式，进一步丰富了法律人工智能的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集