nli4wills-corpus
收藏github2023-11-07 更新2024-05-31 收录
下载链接:
https://github.com/ml4ai/nli4wills-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于评估法律遗嘱声明的有效性,包含三种类型的输入信息(法律遗嘱声明、条件和法律),并操作于文本长度的实用中间空间,既大于句子级文本数据集,又短于文档级推理数据集。
This dataset focuses on evaluating the validity of legal will declarations, encompassing three types of input information (legal will declarations, conditions, and laws), and operates within a practical intermediate space of text length, which is larger than sentence-level text datasets yet shorter than document-level reasoning datasets.
创建时间:
2022-10-21
原始信息汇总
数据集概述
数据集特点
- 专注领域:评估法律遗嘱声明的有效性。
- 数据内容:包含三种类型的输入信息(法律遗嘱声明、条件、法律)。
- 文本长度:介于句子级和文档级之间,适合捕捉法律细节。
模型训练
- 训练结果:在该数据集上训练了八种神经NLI模型,所有模型均达到超过80%的宏观F1分数和准确率。
- 模型性能:在跨州转移模型时,性能有所下降。例如,田纳西州模型和爱达荷州模型的F1分数在预测本州数据时分别为96.41和92.03,而在预测对方州数据时分别下降至66.32和81.60。
数据集使用
- 数据结构:数据集包含ID号、三种输入类型(法律遗嘱声明、法律、条件)和分类(支持、反驳、无关)。
- 预处理:使用前需将输入文本连接并截断,可通过提供的代码“Truncation.py”进行。
- 模型训练:支持训练transformer和sentence-transformer模型,具体代码为“Transformers.py”和“Sentence_Transformers.py”。
预训练模型
- 模型位置:预训练模型存储于HuggingFace模型库。
- 模型列表:包括bert-base-uncased、distilbert-base-uncased等多种模型,分别针对田纳西州和爱达荷州进行了训练。
许可证
- 使用许可:本数据集遵循Creative Commons Attribution-NonCommercial 4.0 International License。
搜集汇总
数据集介绍

构建方式
nli4wills-corpus数据集的构建聚焦于法律遗嘱声明的有效性评估,通过整合法律遗嘱声明、条件和法律条文三类输入信息,形成了一个独特的自然语言推理数据集。该数据集在文本长度上采取了折中策略,既超越了仅包含句子级别文本的数据集,又避免了文档级别推理数据集的冗长,从而在捕捉法律细节与保持文本简洁性之间找到了平衡。
使用方法
nli4wills-corpus数据集的使用方法包括数据预处理、模型训练和推理验证。用户需首先克隆代码库并安装相关依赖,随后根据实际路径调整代码以加载数据集。数据集需进行拼接和截断处理,用户可使用提供的预处理代码或直接使用已截断的数据集。模型训练支持多种Transformer和Sentence-Transformer架构,用户可通过运行指定脚本进行训练。此外,预训练模型可通过HuggingFace平台获取,便于快速部署和验证。
背景与挑战
背景概述
nli4wills-corpus数据集由Alice Kwak等人于2022年提出,旨在通过自然语言推理(NLI)技术评估法律遗嘱声明的有效性。该数据集由美国亚利桑那大学的研究团队开发,并在2022年EMNLP会议的Findings部分以及2023年自然法律语言处理研讨会(NLLP)上发表了相关研究成果。数据集的核心研究问题在于如何通过法律遗嘱声明、条件和法律条文之间的逻辑关系,判断声明的有效性。这一研究不仅推动了法律文本的自动化处理,还为跨州法律文本的迁移学习提供了实证支持。
当前挑战
nli4wills-corpus数据集面临的主要挑战包括两个方面。首先,在法律领域,不同州的法律条文在术语、格式和章节编号上存在显著差异,这导致模型在跨州迁移时性能显著下降。例如,模型在州内预测的F1分数高达96.41,而在跨州预测时降至66.32。其次,数据集的构建过程中,研究人员需要在文本长度上找到一个平衡点:既不能过于简短而丢失法律细节,也不能过于冗长而增加计算复杂度。此外,模型的训练和推理过程对计算资源要求较高,尤其是在处理长文本时,GPU资源的依赖性限制了其广泛应用。
常用场景
经典使用场景
nli4wills-corpus数据集主要用于自然语言推理(NLI)任务,特别是在法律遗嘱声明的有效性评估中。该数据集通过结合法律遗嘱声明、条件和法律条文,提供了一个独特的中间文本长度空间,既超越了句子级别的文本限制,又避免了文档级别的复杂性。这使得它成为训练和评估法律领域NLI模型的理想选择。
解决学术问题
该数据集解决了法律领域中自然语言推理模型的有效性问题,特别是在跨州法律文本的迁移学习中的挑战。通过提供详细的法律遗嘱声明和相关法律条文,数据集帮助研究者理解模型在不同州法律文本之间的迁移能力,揭示了法律文本风格和格式差异对模型性能的影响。这一研究为法律文本的标准化提供了实证支持,并为未来的NLI系统改进提供了方向。
实际应用
nli4wills-corpus数据集在实际应用中具有广泛的价值,特别是在法律文本分析和自动化法律咨询系统中。通过训练和微调NLI模型,该数据集可以用于评估遗嘱声明的合法性,帮助律师和法律专家快速识别潜在的法律问题。此外,它还可以用于开发跨州法律文本的自动化处理工具,提升法律文档处理的效率和准确性。
数据集最近研究
最新研究方向
近年来,nli4wills-corpus数据集在自然语言推理(NLI)领域的研究中展现了其独特价值,尤其是在法律文本的语义理解与推理方面。该数据集聚焦于评估法律遗嘱声明的有效性,结合了法律条文、条件和遗嘱声明三种输入信息,填补了句子级与文档级推理之间的空白。最新的研究方向集中在跨州法律文本的模型迁移问题上,研究表明,尽管模型在州内数据上表现优异(F1分数高达96.41和92.03),但在跨州预测时性能显著下降(F1分数降至66.32和81.60)。这一现象揭示了法律文本风格差异和法规编号格式不一致对模型迁移的挑战,为未来法律文本标准化和跨领域NLI模型的优化提供了重要启示。
以上内容由遇见数据集搜集并总结生成



