five

LexSumm|法律摘要数据集|自然语言处理数据集

收藏
arXiv2024-10-12 更新2024-10-16 收录
法律摘要
自然语言处理
下载链接:
https://github.com/TUMLegalTech/LexSumm-LexT5
下载链接
链接失效反馈
资源简介:
LexSumm是一个专为评估英语法律摘要任务而设计的基准数据集,由八个来自不同司法管辖区的英语法律摘要数据集组成,涵盖美国、英国、欧盟和印度。数据集内容包括法律文件及其摘要,旨在训练和评估法律摘要模型。数据集的创建过程涉及从多个法律系统中收集和整理法律文档,并通过专家编写摘要。LexSumm的应用领域主要集中在法律文本理解和生成任务,旨在通过自动化摘要生成提高法律专业人士的工作效率。
提供机构:
慕尼黑工业大学计算、信息和技术学院
创建时间:
2024-10-12
原始信息汇总

LexT5: Benchmarking and Modeling Generative Legal Tasks in English

数据集概述

数据集名称

  • LexSumm

数据集描述

  • LexSumm 包含八个来自不同司法管辖区的法律摘要数据集,涵盖美国、英国、欧盟和印度。

数据集组成

  • BillSum: 美国国会法案及其由国会研究服务机构提供的摘要。
  • InAbs: 印度最高法院案件及其作为摘要的判决要点。
  • UKAbs: 英国最高法院判决及其官方新闻摘要。
  • EurLexSum: 来自EUR-Lex平台的欧盟立法摘要。
  • GovReport: 美国政府问责局报告及其专家撰写的摘要。
  • MultiLexSum-Long: 美国民权诉讼的多段落摘要。
  • MultiLexSum-Short: 美国民权诉讼的单段落摘要。
  • MultiLexSum-Tiny: 美国民权诉讼的推特式单句摘要。

数据集格式

  • 每个数据集包含以下列:input, output, 和 id

数据集下载

模型

模型名称

  • LexT5

模型描述

  • LexT5 是一个面向法律领域的序列到序列模型,旨在解决现有仅编码器模型在法律领域的局限性。

模型版本

  • LexT5-Small: 60M参数
  • LexT5-Base: 220M参数
  • LexT5-Large: 770M参数

模型下载

引用

引用信息

  • 使用 LexT5LexSumm 时,请引用相关论文。
AI搜集汇总
数据集介绍
main_image_url
构建方式
LexSumm数据集的构建旨在填补现有法律自然语言处理(NLP)基准在生成任务方面的空白。该数据集由八个来自不同司法管辖区的英语法律摘要数据集组成,包括美国、英国、欧盟和印度。这些数据集涵盖了从立法到司法判决的多种法律文档类型,通过精心策划和标注,确保了数据集的多样性和代表性。LexSumm的构建不仅包括原始法律文档的收集,还包括对这些文档进行摘要生成,以提供高质量的参考摘要,从而为法律摘要任务提供了一个全面的评估平台。
特点
LexSumm数据集的一个显著特点是其跨司法管辖区的多样性,这使得模型能够在不同法律体系下进行训练和评估。此外,数据集中的文档长度普遍较长,这为处理长文本的模型提出了挑战。LexSumm还包含了不同粒度的摘要,从单句摘要到多段落摘要,这使得研究者可以探索不同层次的摘要生成技术。数据集的构建还考虑了摘要的忠实度和抽象度,通过覆盖率和密度等指标来评估摘要的质量,从而确保了数据集在法律摘要任务中的实用性和挑战性。
使用方法
LexSumm数据集主要用于训练和评估法律摘要模型。研究者可以使用该数据集进行模型的预训练和微调,以提高模型在法律文档摘要任务中的表现。数据集的多样性和高质量的参考摘要使其成为评估模型在不同法律场景下泛化能力的重要工具。此外,LexSumm还可以用于探索长文本处理技术,如长上下文模型和检索增强技术,以应对法律文档的复杂性和长度。通过在LexSumm上的实验,研究者可以系统地比较不同方法的性能,从而推动法律NLP领域的发展。
背景与挑战
背景概述
在自然语言处理(NLP)领域不断演进的背景下,基准测试作为衡量进展的标尺发挥着至关重要的作用。然而,现有的法律NLP基准主要集中在预测任务上,忽视了生成任务。为此,Santosh T.Y.S.S、Cornelius Weiss和Matthias Grabmair等研究人员于2024年推出了LexSumm,这是一个专为评估英语法律摘要任务而设计的基准。LexSumm包含了来自美国、英国、欧盟和印度等多个司法管辖区的八个法律摘要数据集。此外,他们还发布了LexT5,一个面向法律领域的序列到序列模型,旨在解决现有BERT风格仅编码器模型在法律领域的局限性。LexSumm和LexT5的推出,不仅填补了法律NLP领域生成任务评估的空白,还为该领域的进一步研究提供了坚实的基础。
当前挑战
LexSumm数据集在构建和应用过程中面临多项挑战。首先,法律文档的独特性,如其长篇幅,对预训练模型如BART和T5提出了挑战。其次,法律领域的专业术语和复杂结构要求模型具备高度的抽象和忠实度。此外,LexSumm涵盖多个司法管辖区的数据,增加了数据处理的复杂性和多样性。在构建过程中,研究人员需克服数据获取、标注和跨领域知识融合的难题。最后,现有评估指标如ROUGE和BERTScore虽广泛使用,但可能无法完全捕捉法律内容的细微差别和复杂性,这要求开发更专业的评估方法。
常用场景
经典使用场景
LexSumm数据集在法律领域中的经典应用场景主要集中在法律文档的自动摘要生成。通过整合来自美国、英国、欧盟和印度的八个法律摘要数据集,LexSumm为评估和训练法律摘要模型提供了丰富的资源。这些模型能够处理法律文档的长度和复杂性,生成准确且忠实于原文的摘要,从而帮助法律专业人士快速理解大量法律文本的核心内容。
解决学术问题
LexSumm数据集解决了法律自然语言处理(NLP)领域中长期存在的生成任务评估缺失问题。传统的法律NLP基准主要关注预测任务,而LexSumm填补了这一空白,专注于法律文档的生成任务,特别是摘要生成。这不仅推动了法律NLP技术的发展,还为研究人员提供了一个标准化的评估平台,促进了法律摘要模型的创新和改进。
衍生相关工作
LexSumm数据集的发布催生了一系列相关研究工作。例如,研究人员基于LexSumm开发了LexT5模型,这是一个专门针对法律文本的序列到序列模型,显著提升了法律文档摘要的生成质量。此外,LexSumm还促进了长文本处理技术的发展,如LED、LongT5和PRIMERA等模型,这些模型在处理法律文档的长度和复杂性方面表现出色。这些衍生工作不仅丰富了法律NLP的研究领域,还为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

eming/stock_price_trunked_128_12

该数据集包含股票交易相关的详细信息,如交易日期、收盘价、不同周期的移动平均线(MA3, MA5, MA10, MA20, MA60)、MACD指标、股票代码、预测值及预测日期。数据集分为训练集,共有121379个样本,总大小为1126032983字节。

hugging_face 收录

Office-31, Office-Home, VisDA-2017, DomainNet

Office-31是一个包含31个类别的办公用品图像数据集,Office-Home包含65个类别的日常用品图像数据集,VisDA-2017是一个用于视觉领域自适应挑战的数据集,DomainNet是一个大规模的多领域图像数据集。

github 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录