Merger Agreement Understanding Dataset (MAUD)
收藏arXiv2023-11-24 更新2024-07-24 收录
下载链接:
https://github.com/TheAtticusProject/maud
下载链接
链接失效反馈官方服务:
资源简介:
MAUD是一个由美国律师协会2021年公共目标交易点研究支持的专业标注阅读理解数据集,包含超过39,000个示例和47,000多个总标注。数据集由并购律师精心策划,用于训练模型理解和分类合同中的特殊法律语言。MAUD是唯一的专家标注并购协议数据集,适用于法律专业和NLP社区作为基准。数据集内容包括从152个英语公共并购协议中提取的法律文本,涉及多种并购交易点,旨在通过回答标准化多选题来评估模型的法律文本理解能力。
MAUD is a professionally annotated reading comprehension dataset supported by the 2021 Public Target Deal Points Study from the American Bar Association. It contains over 39,000 examples and more than 47,000 total annotations. Curated by M&A lawyers, the dataset is developed to train models to understand and classify specialized legal language in contracts. MAUD is the only expert-annotated dataset for merger agreements, serving as a benchmark for both the legal professional community and the NLP community. The dataset includes legal text extracted from 152 English-language public merger agreements, covering a wide range of M&A deal points, and aims to evaluate models' legal text comprehension capabilities via standardized multiple-choice questions.
提供机构:
苏黎世联邦理工学院
创建时间:
2023-01-03
原始信息汇总
Merger Agreement Understanding Dataset (MAUD)
概述
MAUD 是由 Atticus Project 策划的合并协议审查数据集,用于 2021 年美国律师协会公共目标交易点研究。
安装
- 安装支持 GPU 的 PyTorch:https://pytorch.org/get-started/locally/
- 运行
pip install -e . - 解压数据文件:
unzip data.zip
最佳超参数
最佳超参数及其对应的验证分数可在 best_found_hps/*.csv 文件中找到。
训练与评估
- 使用最佳超参数训练模型:运行
scripts/train.sh和scripts/train_multi.sh - 评估模型:运行
scripts/evaluate.sh
引用
如果 MAUD 对你的研究有用,请考虑引用:
@misc{wang2023maud, title={MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement Understanding}, author={Steven H. Wang and Antoine Scardigli and Leonard Tang and Wei Chen and Dimitry Levkin and Anya Chen and Spencer Ball and Thomas Woodside and Oliver Zhang and Dan Hendrycks}, year={2023}, eprint={2301.00876}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
在并购法律文本理解这一极具挑战的领域,MAUD数据集应运而生。该数据集基于美国律师协会2021年公开目标交易点研究,由资深并购律师指导,历经超过一万小时的专家标注工作。标注团队由经过70至100小时专业培训的法学生组成,每份标注经三人小组共识形成,并由经验丰富的并购律师最终审核。数据源来自美国证券交易委员会EDGAR系统收录的152份英文公开并购协议,共计包含39,231个问答对及47,457条标注,覆盖92个标准化的交易点问题。
特点
MAUD作为目前唯一大规模、专家标注的英文法律阅读理解数据集,其独特之处在于聚焦并购协议中关键条款的语义解读。数据集涵盖七大交易点类别,如重大不利影响、交割条件等,每个问题预设标准化答案选项,部分多标签问题被转化为二元选择题以统一格式。为应对长文本挑战,数据集提供主数据集、精简数据集及稀有答案数据集三种形态,其中精简版本通过省略无关文本引导模型聚焦关键信息,稀有答案集则通过专家微调原文以平衡答案分布。
使用方法
使用MAUD时,研究者需将交易点文本与对应问题输入模型,使其从预定义答案列表中做出选择。数据集已按80%-20%比例划分训练集与开发集,并保留20%作为测试集,所有划分均按问答对分层以确保类别均衡。基线实验表明,基于Transformer的模型在部分类别表现优异,但在重大不利影响等长文本类别上仍有显著提升空间。建议采用DeBERTa或BigBird等支持长序列的模型,并可结合精简数据集提升训练效率,利用多任务学习框架同时处理144个分类头以增强泛化能力。
背景与挑战
背景概述
在法律自然语言处理领域,对复杂法律文本的阅读理解始终是一项极具挑战性的任务,其难点不仅在于法律条款的冗长与语义晦涩,更在于高质量专家标注数据的稀缺。为弥合这一鸿沟,由苏黎世联邦理工学院、哈佛大学及Atticus Project等机构的研究人员于2023年共同推出了并购协议理解数据集(MAUD)。该数据集基于美国律师协会2021年公开目标交易要点研究,汇聚了超过39,000个示例与47,000余条标注,由资深并购律师监督、经逾万小时人工标注而成,估值逾五百万美元。作为迄今唯一的大规模、专家标注的英文并购协议阅读理解基准,MAUD为评估和提升模型在专业法律文本上的理解能力提供了宝贵资源。
当前挑战
MAUD所面临的挑战涵盖领域问题与构建过程两个层面。在领域问题方面,其核心任务是推动模型对并购协议中关键条款(如重大不利影响、交易保护条款)的精准语义理解,然而现有模型在条件交割、交易保护及重大不利效应三大最难类别上的AUPR得分仅徘徊于48%至59%之间,凸显出巨大提升空间。在构建过程中,挑战则体现为:法律文本常超过主流模型512词元的处理上限,迫使采用截断策略;专家标注成本高昂,需对36名法律学生进行70至100小时培训,并历经三轮交叉验证与资深律师复核;此外,答案分布高度不均衡,部分答案仅出现在不足三份合同中,迫使研究者额外构建稀有答案子集以缓解数据偏斜。
常用场景
经典使用场景
在法律自然语言处理领域,MAUD数据集的核心应用场景聚焦于对并购协议中关键条款的深度阅读理解。该数据集基于美国律师协会2021年公开目标交易要点研究,涵盖了152份真实并购协议中的92个标准化阅读理解问题,共计超过39,000个示例。研究者可利用MAUD训练模型,从提取的协议条款文本中精准识别并分类诸如重大不利影响、交割条件、对价类型等复杂法律概念的具体语义。这一场景不仅考验模型对长文本与专业术语的解析能力,更要求其掌握法律条款间的逻辑关联与商业意图,为自动化合同审查奠定了坚实基础。
实际应用
在实际应用中,MAUD数据集驱动的模型可深度赋能并购法律实务的智能化转型。法律事务所与公司法务部门可借助基于MAUD训练的AI系统,自动解析并购协议中的关键交易点,例如快速识别对价支付方式、判断重大不利影响的适用标准、以及评估交割条件的满足情况。这不仅大幅提升了合同审查的效率,将原本需要数百小时的人力劳动压缩至分钟级,还通过标准化分析降低了人为疏漏的风险。此外,该技术可延伸至尽职调查、交易谈判支持及合规监控等环节,为商业交易提供实时、精准的法律决策辅助,显著降低法律服务门槛与成本。
衍生相关工作
MAUD数据集的发布催生了一系列具有影响力的衍生研究工作。首先,它作为法律NLP领域的关键基准,直接引发了针对长文本法律理解模型架构的改进探索,如BigBird在MAUD上取得的最优表现,推动了稀疏注意力机制在法律场景中的应用。其次,研究者基于MAUD的多任务学习框架,开发了可同时处理多个交易点问题的联合模型,提升了推理效率。此外,MAUD与CUAD(合同理解标注数据集)形成了互补,共同构建了从条款抽取到语义理解的完整评测体系。未来工作已开始探索利用MAUD的扩展问题描述进行生成式模型提示学习,以及将领域知识融入预训练过程以进一步提升性能,这些工作共同塑造了法律AI研究的前沿方向。
以上内容由遇见数据集搜集并总结生成



