DocNLI
收藏Hugging Face2026-05-12 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/xuanr-knockri/DocNLI
下载链接
链接失效反馈官方服务:
资源简介:
DocNLI是一个用于文档级自然语言推理的大规模数据集,旨在支持对较长文本段落(作为前提)与相应假设之间蕴含关系的研究与模型训练。数据以标准分割形式组织,包含训练集、验证集和测试集。每个数据样本由三个核心字段构成:前提(字符串类型)、假设(字符串类型)和标签(字符串类型)。标签为二分类,表示前提与假设之间的逻辑关系,具体为“蕴含”或“非蕴含”。数据集语言为英语。
DocNLI is a large-scale dataset for document-level natural language inference, designed to support research and model training on entailment relationships between longer text passages (as premises) and corresponding hypotheses. The data is organized in standard splits, including training, validation, and test sets. Each data sample consists of three core fields: premise (string type), hypothesis (string type), and label (string type). The label is binary, indicating the logical relationship between the premise and hypothesis, specifically entailment or not_entailment. The dataset language is English.
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
DocNLI(Document-level Natural Language Inference)数据集是针对自然语言推断(NLI)任务在文档层面扩展的代表性资源。该数据集基于原始论文《DocNLI: A large-scale dataset for document-level natural language inference》构建,其核心思路是将句子级别的NLI语料拓展至文档级别,通过将同一主题下的多个句子作为前提(premise)与假设(hypothesis)进行配对,从而模拟真实场景中跨句推理的复杂性。具体而言,构建过程融合了多源文本(如新闻报道、科学论文等)进行结构化重组,确保前提与假设之间的语义关系既包含局部信息也隐含全局逻辑,最终形成包含“蕴含”(entailment)与“非蕴含”(not_entailment)二分类标签的大规模样本集。
使用方法
使用DocNLI数据集时,研究人员可通过HuggingFace的datasets库直接加载,例如调用`load_dataset('doc_nli')`命令,即可获得按‘train’、‘val’、‘test’分割的数据迭代器。每个样本中的‘premise’字段包含文档级上下文,‘hypothesis’字段则代表待验证的陈述,模型需输出‘entailment’或‘not_entailment’二分类预测。鉴于其JSON格式的便捷性,用户亦可手动解析原始文件(如train.json.zip)以进行自定义预处理。建议在应用时结合长文本编码器(如Longformer或BigBird),以充分利用文档级语义特征,同时参考原论文的评估指标(如准确率与F1值)进行性能验证。
背景与挑战
背景概述
DocNLI数据集由Yin等人于2021年提出,是自然语言推理(NLI)领域向文档级理解迈进的重要里程碑。传统NLI研究多聚焦于句子对之间的推理关系,而DocNLI则突破了这一局限,致力于探索文档层面的语义蕴含任务。该数据集由Salesforce Research和耶鲁大学的研究人员共同构建,旨在解决现有NLI语料库无法有效捕捉文档结构与长程依赖关系的瓶颈。DocNLI的发布推动了机器阅读理解与长篇文本推理的发展,为构建更具语境理解能力的语言模型提供了标准化的评估基准。
当前挑战
DocNLI的核心挑战在于文档级推理的复杂性,任务要求模型在跨段落、跨句子的长文本中识别蕴含关系,而非简单的局部词义匹配。构建过程中,研究者面临从大规模开放域文档中自动生成高质量蕴含对的技术难点,需巧妙地融合句式复用与语义改写策略,同时避免噪声与歧义。此外,该数据集需解决标注一致性难题,确保不同文档长度与主题下的标签分布均衡,这对提升模型泛化能力至关重要。
常用场景
经典使用场景
DocNLI作为大规模文档级自然语言推理数据集,其核心使用场景在于评估和推动模型对长文本语义关系的深层理解。与传统的句子级NLI任务不同,DocNLI将前提设定为完整文档或段落,假设则是对该文档内容的推断或概括。经典用法包括训练模型判断假设是否蕴含于文档之中,从而检测模型在跨句子乃至跨段落的信息整合、因果推理和矛盾识别能力。
解决学术问题
该数据集致力于解决自然语言推理领域长期存在的粒度不足问题,传统NLI数据集如SNLI和MNLI多局限于单句或短文本,无法捕捉文档层级中复杂的语义交互与逻辑结构。DocNLI通过引入文档段落的上下文依赖关系,为学术研究提供评估长程推理、跨句指代消解以及篇章归纳等能力的基准,有效填补了篇章级文本蕴含分析的数据空白,对提升自然语言理解的全面性与鲁棒性具有深远意义。
实际应用
在实际应用层面,DocNLI推动了摘要系统一致性校验、法律文书审查、知识库问答等场景的进步。例如,在自动文摘任务中,模型需判断生成的摘要是否忠实于原文内容,DocNLI可为此提供含蕴含标注的训练资源;在智能客服与信息检索中,能够验证用户问题是否被文档段落充分覆盖,从而支撑更可靠的文本匹配和证据抽取系统。
数据集最近研究
最新研究方向
DocNLI作为一项突破性的文档级自然语言推理数据集,正推动着NLI研究从句子级别向篇章级别的深刻范式转变。当前前沿方向聚焦于构建长文本多句子间的复杂语义逻辑推理能力,特别是在法律文档解析、科学文献摘要一致性验证及多轮对话理解等跨句子依赖关系密集的场景中。该数据集通过涵盖超过一百万个包含充分上下文的前提与假设对,为模型在篇章层级捕捉蕴含、矛盾及中立关系提供了严苛的评估基准。近期热点事件包括将其与大型语言模型的阅读理解能力结合,探索在零样本或少样本设置下文档推理的泛化性,同时其作为预训练语料,显著提升了模型对跨段落结构化信息的敏感性。DocNLI的诞生不仅填补了传统句子级标注在现实应用中的鸿沟,更深刻影响了基于长程依赖的语义理解框架的演进,成为推动可解释、鲁棒性AI系统在复杂文本处理领域落地的关键基石。
以上内容由遇见数据集搜集并总结生成



