Multi-LexSum

github2022-12-15 更新2024-05-31 收录

下载链接：

https://github.com/multilexsum/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-LexSum是一个针对美国民权诉讼的多文档摘要数据集，提供三种粒度的摘要。

Multi-LexSum is a multi-document summarization dataset focused on U.S. civil rights litigation, offering summaries at three levels of granularity.

创建时间：

2022-06-15

原始信息汇总

数据集概述

名称： Multi-LexSum

描述： Multi-LexSum是一个多文档摘要数据集，专注于民事权利诉讼案件的摘要，提供三种粒度的摘要。

更新信息： 数据集已更新至HuggingFace Datasets Hub，可通过allenai/multi_lexsum访问。

数据集使用

快速开始： python from datasets import load_dataset multi_lexsum = load_dataset("allenai/multi_lexsum", name="v20220616") example = multi_lexsum["validation"][0] example["sources"] for sum_len in ["long", "short", "tiny"]: print(example["summary/" + sum_len])

训练模型

模型列表：

模型名称	输入	输出	最大输入长度	最大输出长度	Rouge-2分数
摘要源文档（长模型）
`allenai/led-base-16384-multi_lexsum-source-long`	`D`	`L`	16384	1024	25.17
`allenai/led-base-16384-multi_lexsum-source-short`	`D`	`S`	16384	256	22.08
`allenai/led-base-16384-multi_lexsum-source-tiny`	`D`	`T`	16384	128	9.84
`allenai/primera-multi_lexsum-source-long`	`D`	`L`	4096	1024	27.32
`allenai/primera-multi_lexsum-source-short`	`D`	`S`	4096	256	21.04
`allenai/primera-multi_lexsum-source-tiny`	`D`	`T`	4096	128	9.26
摘要摘要
`allenai/bart-large-multi_lexsum-long-short`	`L`	`S`	1024	256	37.02
`allenai/bart-large-multi_lexsum-long-tiny`	`L`	`T`	1024	256	13.05
`allenai/bart-large-multi_lexsum-short-tiny`	`S`	`T`	1024	128	15.20
`allenai/pegasus-multi_lexsum-long-short`	`L`	`S`	1024	256	35.62
`allenai/pegasus-multi_lexsum-long-tiny`	`L`	`T`	1024	256	14.44
`allenai/pegasus-multi_lexsum-short-tiny`	`S`	`T`	1024	128	16.15
多任务摘要
`allenai/bart-large-multi_lexsum-source-multitask`	`L`	`S`	1024	1024	-
`allenai/bart-large-multi_lexsum-long-multitask`	`L`	`S`	1024	256	-

许可证

数据集许可证：

数据集本身遵循Open Data Commons Attribution License (ODC-By)。
案例摘要和元数据遵循Creative Commons Attribution License (CC BY-NC)。
源文档为公共领域。
商业用户需联系info@clearinghouse.net以获取摘要和元数据的免费使用许可，但限制摘要的重新发布。
下载和加载数据集的相应代码遵循Apache License 2.0。

引用

@article{Shen2022MultiLexSum, author = {Zejiang Shen and Kyle Lo and Lauren Yu and Nathan Dahlberg and Margo Schlanger and Doug Downey}, title = {Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities}, journal = {CoRR}, volume = {abs/2206.10883}, year = {2022}, url = {https://doi.org/10.48550/arXiv.2206.10883}, doi = {10.48550/arXiv.2206.10883} }

搜集汇总

数据集介绍

构建方式

Multi-LexSum数据集的构建基于真实世界的民权诉讼案件，涵盖了多篇法律文档及其摘要。研究人员从公开的法律文档中提取信息，并通过专业法律人士的参与，生成了三种不同粒度的摘要：长摘要、短摘要和极短摘要。这一过程确保了数据的多样性和专业性，同时保留了法律文档的复杂性和细节。

特点

Multi-LexSum数据集的一个显著特点是其多粒度摘要结构，涵盖了从详细到简洁的不同层次摘要。这种设计使得数据集能够支持多种自然语言处理任务，如多文档摘要生成、摘要压缩等。此外，数据集中的摘要均由法律专家撰写，确保了内容的准确性和权威性。数据集的多样性和专业性使其成为法律领域自然语言处理研究的宝贵资源。

使用方法

Multi-LexSum数据集可通过HuggingFace Datasets Hub轻松加载和使用。用户可以通过简单的Python代码加载数据集，并访问其中的法律文档及其摘要。数据集还提供了预训练模型，用户可以直接使用这些模型进行摘要生成任务。通过提供的示例代码和预训练模型，研究人员可以快速上手并进行相关实验，探索多文档摘要生成的前沿技术。

背景与挑战

背景概述

Multi-LexSum数据集由Allen Institute for AI的研究团队于2022年创建，旨在解决多文档摘要生成领域中的挑战，特别是在民权诉讼案件中的应用。该数据集包含了多个粒度的摘要，涵盖了长、短和极短三种摘要形式，为研究人员提供了一个丰富的实验平台。该数据集在NeurIPS 2022会议上发布，并迅速成为自然语言处理领域的重要资源，推动了多文档摘要技术的发展。其核心研究问题在于如何从复杂的法律文档中提取关键信息，并生成不同长度的摘要，以满足不同用户的需求。Multi-LexSum的出现不仅填补了法律领域多文档摘要数据集的空白，还为相关领域的模型训练和评估提供了重要支持。

当前挑战

Multi-LexSum数据集在解决多文档摘要问题时面临多重挑战。首先，法律文档通常具有复杂的结构和专业术语，如何从中提取关键信息并生成准确的摘要是一个技术难题。其次，数据集要求生成不同粒度的摘要，这需要模型具备灵活的处理能力，能够在保持信息完整性的同时适应不同长度的输出。此外，数据集的构建过程也面临挑战，包括如何从大量法律文档中筛选出具有代表性的案例，并确保摘要的准确性和一致性。这些挑战不仅考验了模型的性能，也对数据集的标注和质量控制提出了更高的要求。

常用场景

经典使用场景

Multi-LexSum数据集在自然语言处理领域，尤其是多文档摘要生成任务中，展现了其独特的价值。该数据集通过提供不同粒度的摘要，使得研究者能够探索从长篇法律文书中提取关键信息的有效方法。其经典使用场景包括法律文书的自动化摘要生成，帮助法律从业者快速理解案件的核心内容。

实际应用

在实际应用中，Multi-LexSum数据集被广泛用于法律领域的自动化工具开发。例如，律师事务所可以利用该数据集训练模型，自动生成案件摘要，从而提高工作效率。此外，该数据集还可用于法律教育，帮助学生快速掌握复杂案件的核心要点，提升学习效率。

衍生相关工作

Multi-LexSum数据集衍生了许多相关的研究工作，尤其是在多文档摘要生成领域。基于该数据集，研究者开发了多种先进的摘要生成模型，如LED和PRIMERA等。这些模型不仅在法律文本摘要生成中表现出色，还被推广到其他领域的多文档摘要任务中，进一步推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集