ContractNLI
收藏github2026-04-18 更新2026-05-17 收录
下载链接:
https://github.com/EdrackBullen/nda_hypothesis_review
下载链接
链接失效反馈官方服务:
资源简介:
ContractNLI是一个用于合同文档级自然语言推理(NLI)的数据集,旨在自动化或支持耗时的合同审查过程。该任务要求系统根据给定的假设(如“协议的某些义务可能在终止后继续存在”)和合同,分类每个假设是否被合同蕴含、矛盾或未提及,并识别证据作为合同中的文本跨度。数据集包含607个非披露协议(NDA)的17个假设标注,是首个利用NLI处理合同的数据集,也是最大的标注合同语料库(截至2021年9月)。数据格式为JSON文件,包括文本、跨度、标注集和标签等信息。
ContractNLI is a dataset for document-level natural language inference (NLI) on contracts, designed to automate or support time-consuming contract review workflows. This task requires the system to classify each given hypothesis (e.g., "Certain obligations of the agreement may continue to exist after termination") along with the corresponding contract as entailed, contradicted, or neutral (unmentioned) by the contract, and identify supporting evidence as text spans within the contract text. The dataset contains annotations for 17 hypotheses across 607 non-disclosure agreements (NDAs). It is the first dataset to apply NLI to contract processing, and as of September 2021, it is the largest annotated contract corpus. The data is stored in JSON files, containing information such as text, spans, annotation sets, and labels.
创建时间:
2026-04-18
原始信息汇总
ContractNLI 数据集概述
数据集简介
ContractNLI 是一个面向合同文档级自然语言推理(NLI)的数据集,旨在自动化/支持耗时的合同审查流程。该数据集于2021年9月发布,是首个将NLI应用于合同领域的数据集,也是截至2021年9月最大的带注释合同语料库。
任务定义
数据集包含两个核心子任务:
- 自然语言推理(NLI):文档级三分类任务,判断假设与合同之间的关系为以下三类之一:
Entailment(蕴含)Contradiction(矛盾)NotMentioned(未提及)
- 证据识别:当NLI标签为
Entailment或Contradiction时,需在合同文本中识别支持该决策的跨度(span)作为证据。这是一个多标签二分类任务,证据跨度可以不连续,但需要全面识别(包括冗余情况)。
数据集规模与构成
- 合同数量:607份非公开协议(NDA)
- 假设数量:17条固定假设(贯穿所有合同,包括测试集)
- 数据集格式:JSON文件格式
JSON数据结构
文档信息(documents)
每条记录包含:
id:文档唯一标识符file_name:原始文件名text:完整合同文本document_type:文档来源类型(search-pdf、sec-text、sec-html)url:文档来源URLspans:跨度列表,以起始和结束字符索引对表示annotation_sets:注释集合列表(每个文档仅有一个注释,可通过document[annotation_sets][0][annotations]访问)
注释信息(annotations)
- 键为假设键(如
nda-1) choice:NLI分类结果(Entailment、Contradiction或NotMentioned)spans:证据跨度索引列表(当choice为NotMentioned时为空)
假设标签(labels)
- 键为假设键
short_description:假设的简短描述hypothesis:假设的完整文本(用于NLI)
基线系统
论文提出了Span NLI BERT作为强基线模型,其特点包括:
- 将证据识别建模为跨度的多标签分类问题,而非预测起始和结束标记
- 引入更复杂的上下文分割策略以处理长文档
- 显著优于现有模型
基线系统实现可访问:https://github.com/stanfordnlp/contract-nli-bert
许可证
数据集采用CC BY 4.0许可证发布。详细条款请参见:https://creativecommons.org/licenses/by/4.0/
引用信息
如使用该数据集,请引用以下论文:
bibtex @inproceedings{koreeda-manning-2021-contractnli, title = "ContractNLI: A Dataset for Document-level Natural Language Inference for Contracts", author = "Koreeda, Yuta and Manning, Christopher D.", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", year = "2021", publisher = "Association for Computational Linguistics" }
版本与更新
- 2021年10月5日:初始版本发布
联系方式
如有数据集相关问题,可通过以下方式联系:
- 邮箱:koreeda@stanford.edu
- GitHub仓库:创建Issues
搜集汇总
数据集介绍

构建方式
ContractNLI数据集专为合同领域的文档级自然语言推理任务而设计,旨在通过自动化技术辅助合同审查这一耗时流程。该数据集以607份非公开协议(NDAs)为基础,构建了17条固定的假设条款,每条假设均对应三类标签——蕴含、矛盾或未提及。构建过程中,每份合同文本被划分为以句子或列表项为单位的片段,标注人员需针对每条假设判断其与合同整体内容的关系,并在蕴含或矛盾时从合同文本中定位支持决策的连续或不连续片段作为证据。数据集以JSON格式存储,包含原始文本、片段索引、多组标注集及假设定义,其中标注集支持同一文档的多轮标注,但当前版本仅采用单次标注。此外,数据来源涵盖搜索引擎PDF、SEC文件文本及HTML文件,确保了多样性与实用性。
特点
ContractNLI作为首个将自然语言推理应用于合同领域的数据集,亦是截至2021年9月规模最大的标注合同语料库,其在机器学习和语言学视角均展现出独特挑战。从机器学习角度看,标签分布呈现高度不平衡性,蕴含与矛盾类别仅占少数,而任务天然具备多任务属性——需同时完成三分类推理与证据片段的二元识别,且训练数据相对稀缺。从语言学角度看,合同文本的特殊句式,尤其是通过例外条款实现的否定表达,显著增加了推理难度。此外,证据识别任务中允许非连续且冗余的片段,要求模型具备全面的语义抽取能力,这些特性共同促使ContractNLI成为评估模型长文档理解与复杂语义推理能力的理想基准。
使用方法
使用ContractNLI数据集时,用户可直接加载提供的JSON文件,通过访问documents键获取每份合同的完整文本(text)与预定义的片段索引(spans)。对于NLI任务,需根据labels字典中的hypothesis字段获取17条假设的具体表述,并在annotation_sets中读取每条假设对应的choice标签(Entailment、Contradiction或NotMentioned)。证据识别任务需关注choice为蕴含或矛盾的假设,其spans字段为片段索引列表,指向文本中的证据位置;当标签为NotMentioned时,spans为空列表。数据集已划分为训练、开发与测试子集,用户可忽略id、file_name等辅助字段,或利用document_type与url信息进行领域分析。针对长文档处理,作者提出的Span NLI BERT基线模型采用分段上下文分割与多标签分类策略,用户可参考其开源实现进行复现或改进。
背景与挑战
背景概述
ContractNLI是由斯坦福大学的Yuta Koreeda和Christopher D. Manning于2021年创建的数据集,旨在利用文档级自然语言推理技术自动化合同审查这一耗时流程。该数据集聚焦于非披露协议(NDA),为17个假设在607份合同上提供了标注,成为首个将NLI应用于合同领域的基准资源,也是截至2021年9月最大的注释合同语料库。其核心研究问题在于使系统能够判断假设与合同之间的蕴涵、矛盾或未提及关系,并定位证据片段,从而推动法律文本智能理解的发展,对自然语言处理与法律交叉领域具有重要影响力。
当前挑战
ContractNLI面临的挑战涵盖领域与构建两个层面。领域问题上,合同语言的独特特征,如通过例外条款表达的否定,使NLI任务异常复杂,同时样本类别分布不平衡且训练数据稀缺,对机器学习模型构成严峻考验。构建过程中,需克服文档级长文本处理难题,确保证据的全面识别与非连续跨度标注的准确性,此外,多任务特性要求系统同时完成分类和证据定位,且仅有的单一标注来源限制了数据多样性,增加了模型泛化的难度。
常用场景
经典使用场景
ContractNLI数据集专为合同领域的文档级自然语言推理任务而设计,其经典使用场景在于自动化合同审查中对于条款蕴含关系的判断。研究人员通常利用该数据集训练模型,对给定的合同文本与预设假设(如“保密信息应由披露方明确标识”)进行三分类推理,判断假设是否被合同所蕴含、与其矛盾或未被提及。同时,模型还需从合同文本中定位支持决策的片段作为证据,从而实现精细化的条款语义理解。这一过程模拟了法律专业人士审阅合同时的逻辑推理链条,为自然语言处理技术在法律文本分析中的应用奠定了坚实基础。
衍生相关工作
ContractNLI的发布催生了一系列后续研究,其中最具代表性的是其附带基准模型Span NLI BERT,该模型通过将证据识别重构为跨度级多标签分类任务,并引入针对长文档的上下文分割策略,大幅优于传统的序列标注方法。此外,研究者在此基础上发展出融合法律知识图谱的推理增强模型、利用对比学习缓解标签不平衡的算法,以及面向多语言合同的跨域迁移框架。更广义地,该数据集还启发了金融风险文档分析、医疗知情同意书审查等相邻领域的文档级NLI数据集构建,形成了从领域专属到通用化推理的技术演进路线。
数据集最近研究
最新研究方向
在合同审查自动化领域,ContractNLI数据集引领了文档级自然语言推理的前沿探索,尤其聚焦于长文本中蕴含、矛盾及未提及关系的精细判别与跨句证据定位。近年来,研究热点围绕如何应对合同语言特有的否定例外和法律术语复杂性,推动多任务学习与不平衡标注分布下的模型优化。该数据集的发布不仅加速了智能法律文本分析的发展,还催生了如Span NLI BERT等高效基线模型,为法律科技在风险评估、合规审查等实际场景中的落地提供了坚实的基准与启示。
以上内容由遇见数据集搜集并总结生成



