nli4wills-corpus

github2023-11-07 更新2024-05-31 收录

下载链接：

https://github.com/ml4ai/nli4wills-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于评估法律遗嘱声明的有效性，包含三种类型的输入信息（法律遗嘱声明、条件和法律），并操作于文本长度的实用中间空间，既大于句子级文本数据集，又短于文档级推理数据集。

This dataset focuses on evaluating the validity of legal will declarations, encompassing three types of input information (legal will declarations, conditions, and laws), and operates within a practical intermediate space of text length, which is larger than sentence-level text datasets yet shorter than document-level reasoning datasets.

创建时间：

2022-10-21

原始信息汇总

数据集概述

数据集特点

专注领域：评估法律遗嘱声明的有效性。
数据内容：包含三种类型的输入信息（法律遗嘱声明、条件、法律）。
文本长度：介于句子级和文档级之间，适合捕捉法律细节。

模型训练

训练结果：在该数据集上训练了八种神经NLI模型，所有模型均达到超过80%的宏观F1分数和准确率。
模型性能：在跨州转移模型时，性能有所下降。例如，田纳西州模型和爱达荷州模型的F1分数在预测本州数据时分别为96.41和92.03，而在预测对方州数据时分别下降至66.32和81.60。

数据集使用

数据结构：数据集包含ID号、三种输入类型（法律遗嘱声明、法律、条件）和分类（支持、反驳、无关）。
预处理：使用前需将输入文本连接并截断，可通过提供的代码“Truncation.py”进行。
模型训练：支持训练transformer和sentence-transformer模型，具体代码为“Transformers.py”和“Sentence_Transformers.py”。

预训练模型

模型位置：预训练模型存储于HuggingFace模型库。
模型列表：包括bert-base-uncased、distilbert-base-uncased等多种模型，分别针对田纳西州和爱达荷州进行了训练。

许可证

使用许可：本数据集遵循Creative Commons Attribution-NonCommercial 4.0 International License。

搜集汇总

数据集介绍

构建方式

nli4wills-corpus数据集的构建聚焦于法律遗嘱声明的有效性评估，通过整合法律遗嘱声明、条件和法律条文三类输入信息，形成了一个独特的自然语言推理数据集。该数据集在文本长度上采取了折中策略，既超越了仅包含句子级别文本的数据集，又避免了文档级别推理数据集的冗长，从而在捕捉法律细节与保持文本简洁性之间找到了平衡。

使用方法

nli4wills-corpus数据集的使用方法包括数据预处理、模型训练和推理验证。用户需首先克隆代码库并安装相关依赖，随后根据实际路径调整代码以加载数据集。数据集需进行拼接和截断处理，用户可使用提供的预处理代码或直接使用已截断的数据集。模型训练支持多种Transformer和Sentence-Transformer架构，用户可通过运行指定脚本进行训练。此外，预训练模型可通过HuggingFace平台获取，便于快速部署和验证。

背景与挑战

背景概述

nli4wills-corpus数据集由Alice Kwak等人于2022年提出，旨在通过自然语言推理（NLI）技术评估法律遗嘱声明的有效性。该数据集由美国亚利桑那大学的研究团队开发，并在2022年EMNLP会议的Findings部分以及2023年自然法律语言处理研讨会（NLLP）上发表了相关研究成果。数据集的核心研究问题在于如何通过法律遗嘱声明、条件和法律条文之间的逻辑关系，判断声明的有效性。这一研究不仅推动了法律文本的自动化处理，还为跨州法律文本的迁移学习提供了实证支持。

当前挑战

nli4wills-corpus数据集面临的主要挑战包括两个方面。首先，在法律领域，不同州的法律条文在术语、格式和章节编号上存在显著差异，这导致模型在跨州迁移时性能显著下降。例如，模型在州内预测的F1分数高达96.41，而在跨州预测时降至66.32。其次，数据集的构建过程中，研究人员需要在文本长度上找到一个平衡点：既不能过于简短而丢失法律细节，也不能过于冗长而增加计算复杂度。此外，模型的训练和推理过程对计算资源要求较高，尤其是在处理长文本时，GPU资源的依赖性限制了其广泛应用。

常用场景

经典使用场景

nli4wills-corpus数据集主要用于自然语言推理（NLI）任务，特别是在法律遗嘱声明的有效性评估中。该数据集通过结合法律遗嘱声明、条件和法律条文，提供了一个独特的中间文本长度空间，既超越了句子级别的文本限制，又避免了文档级别的复杂性。这使得它成为训练和评估法律领域NLI模型的理想选择。

解决学术问题

该数据集解决了法律领域中自然语言推理模型的有效性问题，特别是在跨州法律文本的迁移学习中的挑战。通过提供详细的法律遗嘱声明和相关法律条文，数据集帮助研究者理解模型在不同州法律文本之间的迁移能力，揭示了法律文本风格和格式差异对模型性能的影响。这一研究为法律文本的标准化提供了实证支持，并为未来的NLI系统改进提供了方向。

实际应用

nli4wills-corpus数据集在实际应用中具有广泛的价值，特别是在法律文本分析和自动化法律咨询系统中。通过训练和微调NLI模型，该数据集可以用于评估遗嘱声明的合法性，帮助律师和法律专家快速识别潜在的法律问题。此外，它还可以用于开发跨州法律文本的自动化处理工具，提升法律文档处理的效率和准确性。

数据集最近研究