MASLegalBench

arXiv2025-10-01 更新2025-10-02 收录

下载链接：

https://gdpr-info.eu/

下载链接

链接失效反馈

官方服务：

资源简介：

MASLegalBench是一个专为多智能体系统（MAS）设计的法律基准，采用演绎推理方法。该基准以通用数据保护条例（GDPR）为应用场景，包含了丰富的背景知识和复杂的推理过程，有效地反映了现实世界中法律情况的复杂性。数据集由专家编写的真实法庭案件组成，每个案件都补充了丰富的背景细节，总计950个法律案例。数据集的内容包括事实、规则、它们的对齐和常识推理，以及一系列法律问题和相应的答案。这些子问题可以被传递给MAS，其中元LLM与专业代理协作解决它们。MASLegalBench旨在评估MAS在法律领域的潜力，为法律推理任务提供一个新的评估基础。

MASLegalBench is a legal benchmark specifically designed for multi-agent systems (MAS) that adopts deductive reasoning approaches. It takes the General Data Protection Regulation (GDPR) as its application scenario, encompassing rich background knowledge and complex reasoning processes that effectively reflect the complexity of real-world legal scenarios. The dataset comprises 950 real legal cases compiled by experts, with each case supplemented by detailed background information. The content of the dataset covers facts, rules, their alignment, commonsense reasoning, as well as a series of legal questions and their corresponding answers. These sub-questions can be fed into MAS, where a meta LLM collaborates with specialized agents to solve them. MASLegalBench aims to evaluate the potential of MAS in the legal domain, providing a novel evaluation foundation for legal reasoning tasks.

提供机构：

香港科技大学清华大学

创建时间：

2025-09-29

搜集汇总

数据集介绍

构建方式

MASLegalBench的构建过程基于真实GDPR执法案例，通过专家撰写的法律报告作为原始数据源。研究团队采用深度学习方法对PDF格式的案例文档进行结构化解析，构建包含法律规则、事实描述、法律实体性质等要素的知识图谱。在扩展IRAC推理框架指导下，将复杂法律问题分解为事实识别、规则匹配、法律适用和常识推理等子任务，最终形成包含950道多选题的标准化测试集，涵盖647道是非题和303道四选一题目。

特点

该数据集以欧盟《通用数据保护条例》为法律场景，具备高度专业性和现实相关性。其核心特征在于采用多智能体协同推理框架，通过角色化智能体分工模拟真实法律分析流程。数据集提供丰富的上下文信息，包括明确的法律条款、具体案例事实以及法律适用关系，能够有效评估模型在法律演绎推理中的综合能力。此外，数据集经过法律背景专家的严格人工评估，在忠实性、清晰度和专业性三个维度均达到90%以上的质量指标。

使用方法

使用MASLegalBench时需遵循多智能体系统的工作流程：首先由元语言模型将法律案例分解为原子级子任务，随后分配给专门处理事实提取、规则匹配、法律适用和常识推理的角色智能体。各智能体基于检索增强生成技术获取相关知识片段，通过BM25或嵌入检索策略返回处理结果。最终元语言模型整合所有智能体输出，结合原始问题生成法律结论。该方法支持灵活配置智能体组合，可对比分析不同协作模式对法律推理性能的影响。

背景与挑战

背景概述

随着大语言模型在多领域任务中展现出卓越能力，多智能体系统因其任务分解与角色协作的架构优势，逐渐成为复杂问题求解的新范式。香港科技大学与清华大学研究团队于2025年提出MASLegalBench基准数据集，聚焦于法律演绎推理场景，以欧盟《通用数据保护条例》为应用背景，构建包含950道法律选择题的知识库。该数据集通过扩展IRAC法律分析框架，将案例分解为事实识别、规则匹配、法律适用与常识推理等子任务，为评估多智能体系统在法律领域的协同推理能力提供了首个专用测试平台。

当前挑战

该数据集致力于解决法律演绎推理中存在的三大核心挑战：大语言模型在多层次逻辑推演中易出现思维链断裂，法律条文高度抽象性与案例具体事实间的语义鸿沟难以弥合，以及领域知识缺失导致的幻觉现象。在构建过程中，团队面临真实案例结构化转换的复杂性，需通过人工校验确保从法律文书提取的950个问题保持语义忠实度与专业清晰度；同时需设计符合法律推理范式的多智能体协作机制，解决任务分解粒度控制与异构知识融合的技术难题。

常用场景

经典使用场景

在数据保护法规研究领域，MASLegalBench数据集为多智能体系统提供了标准化的评估框架。该数据集基于真实GDPR执法案例构建，通过扩展IRAC法律推理方法，将复杂法律问题分解为事实识别、规则匹配、法律适用和常识推理等子任务。研究人员利用这一数据集评估不同智能体配置在法律推理任务中的协作效能，探索任务分解与角色专业化对法律分析准确性的影响。

解决学术问题

该数据集有效解决了多智能体系统在法律领域缺乏专用评估标准的学术难题。传统法律基准测试主要针对单一智能体设计，难以体现多智能体协作的优势特性。MASLegalBench通过结构化的问题分解机制，为研究多智能体任务分配、知识整合与协同推理提供了实验基础。其构建的950个法律选择题涵盖了从简单二元判断到复杂多选推理的完整谱系，为量化评估法律多智能体系统的推理能力建立了可靠基准。

衍生相关工作

该数据集的发布催生了多智能体法律推理的系统性研究。后续工作围绕智能体协作机制优化展开，包括基于强化学习的任务分配策略、跨智能体知识共享架构设计等方向。部分研究尝试将MASLegalBench的推理框架扩展至其他法律领域，如合同审查、知识产权保护等。这些衍生工作共同推动了法律人工智能从单一模型向协同智能系统的范式转变，为构建下一代法律科技基础设施奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集