ContractNLI
收藏arXiv2021-10-05 更新2024-06-21 收录
下载链接:
https://stanfordnlp.github.io/contract-nli/
下载链接
链接失效反馈官方服务:
资源简介:
ContractNLI是一个针对合同文档级别的自然语言推理数据集,由斯坦福大学创建,包含607份经过标注的合同文档。该数据集旨在通过自然语言推理技术自动化合同审查过程,解决传统手动审查耗时且成本高的问题。数据集中的每份合同都与一系列假设相关联,系统需判断这些假设是否被合同内容所支持、矛盾或未提及,并识别支持决策的证据片段。ContractNLI数据集的应用领域主要集中在法律技术领域,特别是合同审查自动化,旨在提高审查效率和准确性,减少法律服务的不平等。
ContractNLI is a document-level natural language inference (NLI) dataset for contracts, developed by Stanford University, comprising 607 manually annotated contract documents. This dataset aims to automate the contract review workflow through natural language inference techniques, addressing the pain points of time-consuming and costly traditional manual contract review. Each contract in the dataset is paired with a series of hypotheses, and the system is tasked with determining whether each hypothesis is entailed, contradicted, or neutral relative to the contract content, as well as identifying the evidence segments that underpin the system's judgment. The primary application scenarios of the ContractNLI dataset lie in the legal technology field, particularly contract review automation, with the objectives of enhancing review efficiency and accuracy, and reducing inequalities in legal services.
提供机构:
日立美国有限公司, 圣克拉拉, 美国; 斯坦福大学, 斯坦福, 美国
创建时间:
2021-10-05
搜集汇总
数据集介绍

构建方式
在合同审查自动化领域,ContractNLI数据集的构建体现了严谨的学术方法。研究团队从EDGAR系统和互联网搜索引擎中收集了607份保密协议(NDA),通过规则过滤与人工筛选确保数据质量。文档经过文本提取工具处理,移除换行符、检测段落边界,并利用Stanza进行句子分割与标记化。针对17条固定假设,采用示例导向的标注指南,通过众包平台与专业标注员协同完成三层标注流程,确保证据跨度的精确识别与自然语言推理标签的一致性。数据按70:10:20的比例划分为训练、开发和测试集,并依据文档格式进行分层,以保障评估的稳健性。
特点
ContractNLI数据集在自然语言处理与法律文本分析交叉领域展现出独特价值。其核心特点在于将文档级自然语言推理任务应用于合同文本,要求模型对每条假设进行蕴含、矛盾或未提及的三分类判断,并识别合同中的证据跨度。数据集专注于单一合同类型(保密协议),使得假设设计更为精细,覆盖了信息共享、义务存续等17个关键条款。数据分布呈现长文档特性,平均令牌数超过BERT的最大上下文长度,且证据跨度常呈现不连续与页面分散现象。合同特有的语言特征,如通过例外进行的否定,进一步增加了任务的复杂性与研究深度。
使用方法
该数据集主要用于训练与评估文档级自然语言推理模型。研究人员可将合同文本与假设语句作为输入,构建多任务学习框架,同时优化证据识别与关系分类。Span NLI BERT作为基线模型,通过插入特殊[SPAN]标记将证据识别建模为多标签分类,并采用动态上下文分割策略处理长文档。在评估阶段,证据识别采用平均精度均值(mAP)和召回率为0.8时的精度(P@R80)指标,而自然语言推理则使用准确率与针对矛盾、蕴含类别的F1分数。数据集支持对合同语言特性的深入分析,如例外否定与不连续跨度的影响,为法律文本理解模型的改进提供实证基础。
背景与挑战
背景概述
在自然语言处理领域,合同文本的自动化审查逐渐成为研究热点,旨在解决传统人工审核耗时耗力且成本高昂的问题。ContractNLI数据集由斯坦福大学与日立美国有限公司的研究团队于2021年共同创建,专注于文档级自然语言推理在合同领域的应用。该数据集包含607份标注完整的保密协议,核心研究问题在于通过假设语句与合同全文的推理关系分类(蕴含、矛盾或未提及),并定位支持判断的证据文本片段。这一工作不仅推动了法律文本智能化处理的发展,也为自然语言推理任务提供了真实且复杂的应用场景,显著提升了合同自动分析的可行性与精度。
当前挑战
ContractNLI面临的挑战主要体现在两方面:其一,在领域问题层面,合同文本常包含复杂的法律语言结构,如通过例外进行否定的表达方式,以及证据片段在文档中可能非连续分布,这要求模型具备深层次的语义理解和长距离推理能力;其二,在数据集构建过程中,合同格式多样且文本长度常超出预训练模型的最大上下文限制,需设计动态上下文分割策略。同时,标注工作需确保证据片段的独立性与完整性,并处理假设与合同间多对多的复杂关系,这些因素共同增加了数据质量保障与模型优化的难度。
常用场景
经典使用场景
在合同审查自动化领域,ContractNLI数据集被广泛应用于文档级自然语言推理任务。该数据集通过提供大量标注的保密协议文本,支持模型学习从复杂法律文档中推断假设条款与合同内容之间的逻辑关系,包括蕴含、矛盾或未提及三种分类。这一经典场景不仅推动了法律文本理解的技术进步,还为自动化合同分析提供了标准化评估基准。
解决学术问题
ContractNLI数据集有效解决了法律自然语言处理中的多个核心学术问题。它首次将文档级自然语言推理引入合同文本分析,克服了传统信息提取方法仅能识别条款存在而无法理解语义逻辑的局限。该数据集通过标注证据跨度和逻辑关系,为研究长文档理解、复杂推理及法律语言特性提供了重要资源,显著提升了模型在否定例外、不连续跨度等复杂语言现象上的处理能力。
衍生相关工作
基于ContractNLI数据集,研究者们衍生出多项经典工作。Span NLI BERT模型通过将证据识别重构为多标签分类任务,显著提升了长文档处理性能;后续研究进一步探索了假设文本的优化表示方法,并针对法律文本中的否定例外现象设计了专用架构。这些工作共同推动了CUAD、LEGAL-BERT等法律NLP数据集与模型的发展,形成了合同理解领域的技术生态体系。
以上内容由遇见数据集搜集并总结生成



