dennlinger/eur-lex-sum

Name: dennlinger/eur-lex-sum
Creator: dennlinger
Published: 2022-11-11 14:25:06
License: 暂无描述

Hugging Face2022-11-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dennlinger/eur-lex-sum

下载链接

链接失效反馈

官方服务：

资源简介：

EUR-Lex-Sum数据集是一个多语言资源，主要用于法律领域的文本摘要任务。该数据集基于欧盟发布的法律文件的人工摘要，特点是提供了较少数量的高质量人工摘要样本，每个样本的参考文本和摘要都比类似数据集长得多。数据集支持欧盟的24种官方语言，且验证集和测试集的样本在所有语言中完全对齐。数据集的结构包括数据实例、数据字段和数据分割，数据实例包含法律文件的全文和摘要，数据字段包括Celex ID、参考文本和摘要。数据集的创建目的是为了提供自动文本摘要研究的资源，特别是长文本摘要和跨语言摘要任务。数据集的来源是EUR-Lex平台，数据经过过滤和处理，确保每个样本的唯一性和质量。

EUR-Lex-Sum dataset is a multilingual resource primarily intended for text summarization tasks in the legal domain. This dataset is built upon human-written summaries of legal documents released by the European Union, and is characterized by offering a limited number of high-quality human-annotated summary samples, where both the source text and the summary of each sample are considerably longer than their counterparts in comparable datasets. The dataset supports all 24 official languages of the European Union, and the samples in the validation and test sets are fully aligned across all languages. The structure of the dataset includes data instances, data fields, and data splits: each data instance contains the full text and summary of a legal document, while the data fields include Celex ID, source text, and summary. The dataset was developed to provide a resource for automatic text summarization research, especially for long-text summarization and cross-lingual summarization tasks. The dataset originates from the EUR-Lex platform, and the data has been filtered and processed to ensure the uniqueness and quality of each sample.

提供机构：

dennlinger

原始信息汇总

数据集概述

数据集名称

名称: EUR-Lex-Sum
别名: eur-lex-sum

数据集属性

语言: 支持24种欧洲联盟官方语言，包括保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语和瑞典语。
许可证: CC-BY-4.0
多语言性: 多语言
大小: 10K<n<100K
来源: 原始数据
标签: 法律、eur-lex、专家总结、平行语料库、多语言
任务类别: 翻译、总结

数据集内容

描述: EUR-Lex-Sum是一个多语言资源，专为法律领域的文本总结设计。数据集基于欧洲联盟发布的人工编写的法律行为总结。
特点: 引入高质量的人工编写样本，每个样本的参考文献（和总结）比同类数据集更长。为法律文本提供了一个具有挑战性的特定领域应用，这些文本在非英语语言中迄今为止代表性不足。
结构: 数据实例包含唯一标识符（Celex ID）、原始长篇法律行为文本及其相关总结。

数据集用途

总结任务: 主要适用于总结任务，可用作小规模训练资源。评估指标为ROUGE。
跨语言总结: 由于数据集样本存在于多种语言中，可用作跨语言基准。
长篇总结: 特别适用于长篇总结，提供比新闻基础总结数据集长约10倍的总结文本。

数据集创建

来源: 数据从EUR-Lex平台爬取，仅使用具有HTML文本版本的样本，确保跨语言的段落级对齐。
注释: 由欧洲联盟外部专业人员根据欧盟发布的注释指南进行，目标长度为600-800字。

使用考虑

社会影响: 可用于提供以前代表性不足的语言的总结系统，例如爱尔兰语和马耳他语。
偏见讨论: 存在语言和时间偏见，数据集主要关注欧盟相关内容，可能偏向西方中心内容。

附加信息

数据集管理: 由海德堡大学数据库系统研究组的Ashish Chouhan和Dennis Aumiller创建和维护。
引用信息: 请参考提供的引用格式。

搜集汇总

数据集介绍

构建方式

EUR-Lex-Sum数据集的构建基于欧洲联盟发布的法律文件的摘要。该数据集的构建者从EUR-Lex平台爬取了具有HTML版本的法律文件，这些文件确保了跨语言的文本对齐。数据集的构建者仅使用了具有摘要的样本，并为每个法律文件提供了唯一标识符（Celex ID），以及原始长篇法律文件和其相关摘要的完整文本。为了满足单文档摘要的需求，构建者选择了最长的参考文档，并确保了数据集中没有重复的参考或摘要。数据集提供了预分的训练、验证和测试集。

使用方法

使用EUR-Lex-Sum数据集时，首先需要下载并解压缩数据集文件。数据集文件包含了预分的训练、验证和测试集。每个数据实例包含Celex ID、原始长篇法律文件的完整文本和其相关摘要的文本。用户可以根据自己的研究需求选择使用整个数据集或特定语言的数据集。对于摘要任务，可以使用ROUGE等评价指标来评估模型性能。对于跨语言摘要任务，可以将不同语言对的样本进行比较，以评估跨语言系统的性能。此外，数据集还可以用于长篇摘要研究，因为其提供的摘要文本比基于新闻的摘要数据集长10倍左右。

背景与挑战

背景概述

EUR-Lex-Sum数据集是一个多语种资源，旨在为法律领域的文本摘要提供支持。该数据集基于由欧洲联盟发布的法律行为的人类撰写摘要。它通过引入一个较小的高质量人工撰写样本集来区分自己，每个样本都比可比数据集中的参考（和摘要！）更长。此外，基础法律行为为法律文本提供了一个具有挑战性的特定领域应用，这些法律文本迄今为止在非英语语言中代表性不足。对于每个法律行为，样本可提供多达24种语言（欧盟官方认可的语言）；验证和测试样本完全由所有语言中可用的样本组成，并且在段落级别上对所有语言进行对齐。

当前挑战

EUR-Lex-Sum数据集的挑战包括：1）领域问题挑战：数据集旨在解决长文本摘要和跨语言摘要的问题，特别是对于法律领域的长文本摘要，这对于现有模型是一个挑战。2）构建挑战：在数据集构建过程中，研究人员面临着数据收集和预处理、多语言对齐、以及处理长文本摘要带来的上下文长度限制等挑战。

常用场景

经典使用场景

EUR-Lex-Sum数据集是一个多语言资源，旨在用于法律领域的文本摘要。它基于欧盟发布的法律行为的由人工编写的摘要。该数据集的独特之处在于引入了一个较小的高质量人工编写样本集，每个样本都有比可比数据集长得多的参考（和摘要）。此外，底层的法律行为为法律文本提供了一个具有挑战性的领域特定应用，迄今为止，非英语语言中的法律文本在非英语语言中代表性不足。对于每个法律行为，样本最多可用24种语言（欧盟官方认定的语言）；验证和测试样本完全由所有语言中的样本组成，并且在段落级别上对所有语言进行了对齐。

解决学术问题

EUR-Lex-Sum数据集解决了自动文本摘要研究中尚未充分探索的方面。特别是，我们希望鼓励探索不受通常512个标记上下文窗口限制的抽象摘要系统，这对于（短）新闻文章来说通常效果很好，但对于生成长形式摘要或甚至无法处理较长的源文本来说并不适用。此外，现有资源主要关注单一（非常专业化）领域，即新闻文章摘要。我们希望为法律摘要提供另一个资源，许多语言甚至没有现有的数据集。此外，我们发现没有以前的系统利用了EUR-Lex平台中的人工编写样本，这些样本为摘要研究提供了优秀的训练实例来源。我们还发现了一个并行创建的资源，该资源基于EUR-Lex文件，提供了一个类似构建的单语（英语）语料库。但是，我们提供了一个更彻底的筛选过程，并将该过程扩展到其他23种欧盟语言。

实际应用

EUR-Lex-Sum数据集可用于提供先前代表性不足的语言的摘要系统。例如，爱尔兰语和马耳他语（以及其他语言）的语言样本使这些语言的开发和评估成为可能。成功的跨语言系统还可以为法律行为创建自动化的法律摘要，可能使欧洲国家的外国人能够自动翻译类似的特定于国家的法律行为。鉴于训练数据的有限性，该数据集也适合作为低资源方法的测试平台，尤其是在与强大的无监督（提取式）摘要系统相比的情况下。我们还注意到，摘要被明确提供为“不具有法律约束力”，这意味着（具有法律约束力的）原始法律行为中存在遗漏的细节。

数据集最近研究