alex-apostolo/filtered-cuad
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alex-apostolo/filtered-cuad
下载链接
链接失效反馈官方服务:
资源简介:
CUAD(Contract Understanding Atticus Dataset)是一个用于法律合同审查的自然语言处理数据集。该数据集包含了510份商业法律合同中的13,000多个标签,涵盖了41个重要条款类别。该数据集是CUAD的过滤版本,排除了2002年之前的合同和非B2B合同,并将41个类别过滤为12个最重要的类别。数据集的主要任务是问答任务,特别是封闭域问答和抽取式问答。数据集的语言为英语,且是单语言的。数据集的创建目的是为了支持法律合同审查的NLP研究和开发,减少合同审查的社会成本,并研究NLP模型在专业领域的泛化能力。
CUAD (Contract Understanding Atticus Dataset) is a natural language processing dataset designed for legal contract review. This dataset includes over 13,000 labels spanning 510 commercial legal contracts, covering 41 critical clause categories. This is a filtered variant of the original CUAD, which excludes contracts created prior to 2002 and non-B2B contracts, and reduces the 41 original categories to the 12 most important ones. The core task supported by this dataset is question answering, specifically closed-domain question answering and extractive question answering. The dataset is entirely in English and is a monolingual corpus. It was developed to support NLP research and development for legal contract review, mitigate the social costs associated with contract review, and investigate the generalization capability of NLP models in professional domains.
提供机构:
alex-apostolo
原始信息汇总
数据集概述
名称: CUAD (Contract Understanding Atticus Dataset)
描述: CUAD是一个专注于法律合同审查的NLP数据集,包含超过13,000个标签,分布在510个商业法律合同中。这些合同被手动标记以识别律师在审查合同时寻找的41个重要条款类别。此数据集是CUAD的过滤版本,排除了2002年之前的合同和非B2B合同,并从41个类别中筛选出12个最关键的类别。
语言: 英语
许可证: CC-BY-4.0
数据集大小: 10K<n<100K
任务类型: 问答(Closed-Domain QA, Extractive QA)
训练/评估索引:
- 配置: 默认
- 任务: 问答
- 任务ID: Extractive_Question_Answering
- 分割:
- 训练分割: train
- 评估分割: test
- 列映射:
- 问题: question
- 上下文: context
- 答案:
- 文本: text
- 答案开始位置: answer_start
- 度量标准:
- 类型: CUAD
- 名称: CUAD
数据集结构
数据实例
每个数据实例包括以下字段:
- id: 字符串类型
- title: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 字典类型,包含:
- text: 字符串类型
- answer_start: 整数类型
数据分割
- 训练集: 5442样本
- 测试集: 936样本
数据集创建
来源数据
- 类型: 商业合同
- 数量: 总共385份合同,涵盖25种不同类型
注释
- 注释者: 法律学生和律师
- 注释过程: 包括法律学生培训、手动合同审查和标记、关键词搜索、类别报告审查、律师审查和最终报告生成。
个人和敏感信息
- 部分合同条款因保护隐私而被编辑,显示为星号或下划线。
搜集汇总
数据集介绍

构建方式
在商业法律合同审查领域,构建高质量数据集对于推动自然语言处理技术应用至关重要。本数据集源自CUAD(Contract Understanding Atticus Dataset),经过精心筛选,保留了2002年之后签署且属于企业间交易的合同,并将原始41个条款类别浓缩为12个核心类别。构建过程依托美国证券交易委员会EDGAR系统的公开合同文件,通过法律专业学生与资深律师协作,历经多轮标注、关键词检索、报告审查及专家复核等严格步骤,确保了标注的准确性与一致性。
特点
该数据集聚焦于法律合同中的关键条款提取任务,其特点体现在专业性与实用性并重。数据规模适中,包含超过500份商业合同,标注涵盖文档名称、缔约方、有效期等12类核心法律要素。标注过程充分考虑了法律文本的复杂性,例如对多段非连续文本的合并处理以及对敏感信息的规范化遮蔽,从而为模型训练提供了高质量、结构化的监督信号。
使用方法
在自然语言处理研究中,该数据集适用于封闭域问答与抽取式问答任务。使用者可按照标准划分的训练集与测试集进行模型微调与评估,每个数据实例包含合同文本、针对特定条款的问题及对应的答案片段与起始位置。借助提供的评估指标,研究者能够系统衡量模型在法律文本理解上的性能,为自动化合同审查等实际应用提供可靠基准。
背景与挑战
背景概述
在法律科技领域,合同审查作为一项高度专业化且成本高昂的任务,长期以来依赖人工处理,效率低下且易出错。为应对这一挑战,Atticus Project团队于2021年推出了CUAD(Contract Understanding Atticus Dataset),这是一个专注于商业法律合同理解的大规模专家标注数据集。该数据集由数十名法律学生、律师及机器学习研究者历时一年协作构建,涵盖了510份商业合同中的超过13,000条标注,涉及41类关键条款识别。其核心研究问题在于通过自然语言处理技术自动化合同审查流程,从而降低法律服务的门槛与成本。CUAD的发布显著推动了法律智能领域的发展,为模型训练与评估提供了高质量基准,促进了跨学科研究与实践应用的深度融合。
当前挑战
CUAD数据集致力于解决法律合同中的信息抽取与问答任务,其核心挑战在于合同文本的复杂性与专业性。法律语言通常包含大量嵌套结构、模糊表述及领域特定术语,使得模型难以准确识别关键条款,例如在长篇合同中定位“管辖法律”或“续约条款”等具体信息。此外,数据构建过程面临多重困难:一是标注需高度依赖法律专家的专业知识,标注者需经过长达70-100小时的培训以确保一致性;二是原始合同来自SEC的EDGAR数据库,格式转换过程中可能出现文本错位或表格信息丢失;三是部分合同存在保密信息红码或无关内容,需通过人工干预进行清理与标准化,这些因素共同增加了数据集构建的复杂性与可靠性要求。
常用场景
经典使用场景
在法律智能领域,合同审查作为一项高度专业化的任务,长期依赖人工处理,耗费大量时间与资源。filtered-cuad数据集通过提供经过专家标注的商业法律合同文本,为自然语言处理模型在封闭域问答任务中的训练与评估奠定了坚实基础。该数据集聚焦于提取式问答,模型需从冗长合同文本中精准定位与特定条款相关的片段,例如识别合同名称、签约方、有效期等关键信息,从而模拟律师在审阅合同时的核心工作流程。
实际应用
在法律科技产业中,该数据集的实际应用价值显著。基于其训练的模型可集成至智能合同审查平台,辅助律师、法务人员以及中小企业快速完成合同初筛。系统能够自动高亮显示关键条款,如非竞争条款、管辖法律、续约条件等,从而大幅提升审查效率,降低人力成本与错误率。这不仅使大型律所能够处理更复杂的案件,也使得法律服务能够惠及资源有限的小微企业与个人,增强其在签署合同前的风险识别能力,促进法律服务的公平与可及性。
衍生相关工作
围绕CUAD数据集,学术界与工业界已衍生出多项经典研究工作。原始论文《CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review》系统介绍了数据集的构建与基线模型性能。后续研究多集中于探索更高效的架构,如基于Transformer的模型在长文本上的应用、针对法律术语的领域预训练、以及结合法律知识的增强方法。这些工作不仅提升了合同条款抽取的准确率,也推动了法律文本理解这一垂直领域的技术发展,为构建更智能、可靠的法律人工智能工具提供了核心驱动力。
以上内容由遇见数据集搜集并总结生成



