MASLegalBench

arXiv2025-09-29 更新2025-11-21 收录

下载链接：

https://github.com/HKUST-KnowComp/MASLegalBench

下载链接

链接失效反馈

官方服务：

资源简介：

MASLegalBench是一个专门为多智能体系统（MAS）设计的法律推理基准，它利用了MAS在任务分解、智能体专业化和灵活训练方面的独特优势。该基准以GDPR为应用场景，包含了丰富的背景知识和复杂的推理过程，真实地反映了现实世界法律情况的复杂性。数据集由950个法律案例组成，每个案例都附有详细的背景信息，包括事实、相关法律规则、推理过程和结论。该数据集的构建过程是通过人工设计角色化的MAS，并使用不同的LLMs进行实验来完成的。MASLegalBench旨在解决现有法律推理模型在复杂推理、信息对接和领域知识方面的挑战，为MAS在法律领域的应用提供了评估基础。

MASLegalBench is a legal reasoning benchmark specifically tailored for multi-agent systems (MAS). It leverages the unique strengths of MAS in task decomposition, agent specialization, and flexible training. Taking GDPR as its targeted application scenario, the benchmark encompasses rich background knowledge and complex reasoning workflows, which authentically mirrors the complexity of real-world legal scenarios. The dataset consists of 950 legal cases, each accompanied by detailed background information including case facts, relevant legal provisions, reasoning processes, and final conclusions. The construction of MASLegalBench is completed by manually designing role-based multi-agent systems and conducting experiments with diverse large language models (LLMs). This benchmark aims to address the challenges faced by existing legal reasoning models in complex reasoning, information integration, and domain knowledge, providing a standardized evaluation basis for the application of multi-agent systems in the legal domain.

提供机构：

香港科技大学清华大学

创建时间：

2025-09-29

搜集汇总

数据集介绍

构建方式

在构建MASLegalBench数据集时，研究团队以欧盟《通用数据保护条例》（GDPR）为法律场景，从公开的专家撰写的真实法院案例中系统收集数据。通过结合大型语言模型的PDF解析能力与人工校验，将案例文档转化为层次化的树状结构，确保数据结构的完整性与逻辑清晰性。随后，基于扩展的IRAC法律推理框架，从案例中提取事实、法律规则、规则与事实的对齐关系以及常识推理元素，构建包含950个法律选择题的知识库，涵盖647个是非题和303个四选一题目，每个问题均经过语义忠实性、清晰度与专业深度的三重人工评估验证。

使用方法

使用MASLegalBench时，研究者可基于其结构化知识库模拟多智能体法律推理流程。首先，由元语言模型将复杂法律问题递归分解为原子子任务，分别分配给专精于事实提取、规则匹配、应用对齐及常识推理的角色智能体处理。各智能体依据预设提示模板生成中间结果后，通过检索增强生成技术整合输出，最终由元语言模型综合所有子任务结果生成法律结论。实验配置支持灵活调整智能体组合与检索策略，例如激活不同角色智能体（如法律规则代理与常识推理代理）并采用BM25或嵌入检索方法，以评估多智能体协作对法律判断准确性的提升效果。

背景与挑战

背景概述

随着大型语言模型在多智能体系统中的广泛应用，法律领域的智能推理研究迎来新的发展机遇。由香港科技大学与清华大学联合团队于2025年提出的MASLegalBench数据集，作为ICLR 2026会议成果，聚焦于演绎法律推理场景下的多智能体系统评估。该数据集以欧盟《通用数据保护条例》为法律框架，收录了包含950道法律问题的真实案例，通过扩展IRAC法律分析方法构建结构化知识库，填补了现有法律基准在评估多智能体协作能力方面的空白。

当前挑战

该数据集致力于解决法律演绎推理中存在的核心难题：大型语言模型在复杂法律场景下易出现推理不一致、缺乏法律条文与事实的精准对齐、以及常识推理能力不足等问题。在构建过程中，研究团队面临从非结构化法律文书中提取结构化知识的挑战，包括法律条款与案例事实的精确映射、多步骤推理链的完整性验证，以及确保生成问题的法律专业性与语义忠实度。此外，如何设计能够有效协调专业代理协作的元语言模型架构，亦是该领域亟待突破的技术瓶颈。

常用场景

解决学术问题

该数据集有效解决了法律人工智能领域长期存在的三大核心问题：一是传统大语言模型在法律推理中存在的逻辑不一致性，通过多智能体协作确保推理过程的连贯性；二是法律条文高度抽象与现实案例具体细节之间的语义鸿沟，借助专业化智能体实现精准对齐；三是法律领域知识缺失导致的幻觉现象，通过角色化智能体分工提供可靠的知识支撑。其重要意义在于建立了首个能够系统评估多智能体系统在法律演绎推理中性能的基准框架，为探索智能体协同解决复杂法律问题提供了方法论基础。

实际应用

在实际应用层面，MASLegalBench为构建智能化法律辅助系统提供了重要技术支撑。基于该数据集开发的多智能体系统可应用于企业合规审查、法律咨询自动化、合同风险分析等具体场景。例如，在处理数据隐私保护案件时，系统能够通过事实提取智能体、法规检索智能体、法律适用分析智能体和常识推理智能体的协同工作，实现对GDPR合规性的精准评估。这种多专家协作模式显著提升了法律服务的效率与准确性，为司法信息化建设提供了可行的技术路径。

数据集最近研究