EUR-Lex-Sum

Name: EUR-Lex-Sum
Creator: 海德堡大学计算机科学研究所
Published: 2022-10-25 01:58:59
License: 暂无描述

arXiv2022-10-25 更新2024-06-21 收录

下载链接：

https://github.com/achouhan93/eur-lex-sum

下载链接

链接失效反馈

官方服务：

资源简介：

EUR-Lex-Sum是一个基于欧洲联盟法律平台EUR-Lex的法律行为手动精选摘要的多语种和跨语种数据集。该数据集包含24种官方欧洲语言的跨语种段落对齐数据，每种语言最多有1,500对文档/摘要，其中375对是跨语言对齐的。数据集的创建旨在解决法律领域长文档摘要的挑战，特别是在多语种和跨语种设置中的应用。创建过程中，数据从EUR-Lex平台获取，经过筛选和处理，确保了数据的质量和多样性。该数据集适用于评估和研究特定领域的跨语种摘要生成，尤其是在处理长文档时的应用。

EUR-Lex-Sum is a multilingual and cross-lingual dataset of manually curated summaries of legal acts based on the European Union's legal platform EUR-Lex. It contains cross-lingual paragraph-aligned data across 24 official European languages, with up to 1,500 document-summary pairs per language, among which 375 pairs are cross-lingually aligned. This dataset was developed to address the challenges of long-document summarization in the legal domain, particularly for applications in multilingual and cross-lingual settings. Data was sourced from the EUR-Lex platform during its creation, then filtered and processed to ensure its quality and diversity. This dataset is suitable for evaluating and researching domain-specific cross-lingual summarization, especially for applications involving long documents.

提供机构：

海德堡大学计算机科学研究所

创建时间：

2022-10-25

搜集汇总

数据集介绍

构建方式

EUR-Lex-Sum数据集的构建基于欧洲联盟法律平台（EUR-Lex）上的法律法案的手动精选摘要。该数据集涵盖了24种官方欧洲语言，每种语言最多包含1,500个文档/摘要对，其中包括375个跨语言对齐的法律法案，这些法案在所有24种语言中均有文本可用。数据集的创建过程包括从EUR-Lex平台爬取法律文档及其摘要，通过过滤和清洗确保数据质量，并进行语言对齐以支持跨语言的摘要生成任务。

特点

EUR-Lex-Sum数据集的主要特点是其多语言和跨语言的特性，这使得它能够支持多种语言环境下的长篇摘要生成任务。此外，该数据集包含了法律领域的专业文本，具有较高的抽象性和复杂性，为研究领域特定的跨语言摘要提供了宝贵的资源。数据集中的文档和摘要均经过严格的质量控制，确保了数据的高可靠性和适用性。

使用方法

EUR-Lex-Sum数据集适用于多种自然语言处理任务，特别是长篇摘要生成和跨语言摘要生成。研究者和开发者可以利用该数据集训练和评估摘要生成模型，特别是在法律文本处理领域。数据集提供了详细的文档和摘要对，支持单语言和多语言的实验设置，同时也提供了基础的提取式和跨语言基线模型，为未来的研究提供了参考点。

背景与挑战

背景概述

EUR-Lex-Sum 数据集由海德堡大学计算机科学研究所的 Dennis Aumiller、Ashish Chouhan 和 Michael Gertz 于 2022 年创建，专注于法律领域的长篇跨语言摘要任务。该数据集基于欧洲联盟法律平台（EUR-Lex）上的法律法案，提供了多达 24 种官方欧洲语言的文档及其摘要，形成了跨语言段落对齐的数据集。EUR-Lex-Sum 的创建旨在解决现有摘要数据集主要集中在新闻文章或类似文本上的问题，以及它们大多是单语言的局限性。该数据集的推出对法律文本摘要领域具有重要意义，为跨语言和低资源语言环境下的摘要研究提供了宝贵的资源。

当前挑战

EUR-Lex-Sum 数据集面临的主要挑战包括：1) 法律文本的极端长度和语言多样性，这使得内容选择和摘要生成变得尤为复杂；2) 构建过程中遇到的挑战，如文档和摘要的获取、对齐以及处理多文档摘要的情况；3) 数据集的跨语言特性要求模型具备强大的跨语言处理能力，尤其是在处理低资源语言时；4) 法律文本的特殊性，如结构复杂性和术语的专业性，增加了摘要任务的难度。此外，数据集的评估也面临挑战，传统的基于 n-gram 的 ROUGE 评分可能无法完全反映摘要的质量，特别是在事实一致性和流畅性方面。

常用场景

经典使用场景

EUR-Lex-Sum 数据集在法律领域的长文本摘要任务中展现了其经典应用场景。该数据集包含了欧盟法律文件及其对应的多语言摘要，为跨语言和多语言摘要模型提供了丰富的训练和评估资源。研究者可以利用这些数据来开发和评估能够处理长文本、多语言和法律领域特有复杂性的摘要系统。

衍生相关工作

EUR-Lex-Sum 数据集的发布催生了一系列相关研究工作，特别是在长文本处理和跨语言摘要领域。例如，研究者们基于该数据集开发了新的长文本处理模型，如 Longformer 和 LED，以应对法律文本的极端长度。此外，跨语言摘要技术的研究也得到了推动，出现了多种基于翻译和生成模型的跨语言摘要方法。

数据集最近研究