five

EUR-Lex-Sum|法律摘要数据集|多语种数据数据集

收藏
arXiv2022-10-25 更新2024-06-21 收录
法律摘要
多语种数据
下载链接:
https://github.com/achouhan93/eur-lex-sum
下载链接
链接失效反馈
资源简介:
EUR-Lex-Sum是一个基于欧洲联盟法律平台EUR-Lex的法律行为手动精选摘要的多语种和跨语种数据集。该数据集包含24种官方欧洲语言的跨语种段落对齐数据,每种语言最多有1,500对文档/摘要,其中375对是跨语言对齐的。数据集的创建旨在解决法律领域长文档摘要的挑战,特别是在多语种和跨语种设置中的应用。创建过程中,数据从EUR-Lex平台获取,经过筛选和处理,确保了数据的质量和多样性。该数据集适用于评估和研究特定领域的跨语种摘要生成,尤其是在处理长文档时的应用。
提供机构:
海德堡大学计算机科学研究所
创建时间:
2022-10-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
EUR-Lex-Sum数据集的构建基于欧洲联盟法律平台(EUR-Lex)上的法律法案的手动精选摘要。该数据集涵盖了24种官方欧洲语言,每种语言最多包含1,500个文档/摘要对,其中包括375个跨语言对齐的法律法案,这些法案在所有24种语言中均有文本可用。数据集的创建过程包括从EUR-Lex平台爬取法律文档及其摘要,通过过滤和清洗确保数据质量,并进行语言对齐以支持跨语言的摘要生成任务。
特点
EUR-Lex-Sum数据集的主要特点是其多语言和跨语言的特性,这使得它能够支持多种语言环境下的长篇摘要生成任务。此外,该数据集包含了法律领域的专业文本,具有较高的抽象性和复杂性,为研究领域特定的跨语言摘要提供了宝贵的资源。数据集中的文档和摘要均经过严格的质量控制,确保了数据的高可靠性和适用性。
使用方法
EUR-Lex-Sum数据集适用于多种自然语言处理任务,特别是长篇摘要生成和跨语言摘要生成。研究者和开发者可以利用该数据集训练和评估摘要生成模型,特别是在法律文本处理领域。数据集提供了详细的文档和摘要对,支持单语言和多语言的实验设置,同时也提供了基础的提取式和跨语言基线模型,为未来的研究提供了参考点。
背景与挑战
背景概述
EUR-Lex-Sum 数据集由海德堡大学计算机科学研究所的 Dennis Aumiller、Ashish Chouhan 和 Michael Gertz 于 2022 年创建,专注于法律领域的长篇跨语言摘要任务。该数据集基于欧洲联盟法律平台(EUR-Lex)上的法律法案,提供了多达 24 种官方欧洲语言的文档及其摘要,形成了跨语言段落对齐的数据集。EUR-Lex-Sum 的创建旨在解决现有摘要数据集主要集中在新闻文章或类似文本上的问题,以及它们大多是单语言的局限性。该数据集的推出对法律文本摘要领域具有重要意义,为跨语言和低资源语言环境下的摘要研究提供了宝贵的资源。
当前挑战
EUR-Lex-Sum 数据集面临的主要挑战包括:1) 法律文本的极端长度和语言多样性,这使得内容选择和摘要生成变得尤为复杂;2) 构建过程中遇到的挑战,如文档和摘要的获取、对齐以及处理多文档摘要的情况;3) 数据集的跨语言特性要求模型具备强大的跨语言处理能力,尤其是在处理低资源语言时;4) 法律文本的特殊性,如结构复杂性和术语的专业性,增加了摘要任务的难度。此外,数据集的评估也面临挑战,传统的基于 n-gram 的 ROUGE 评分可能无法完全反映摘要的质量,特别是在事实一致性和流畅性方面。
常用场景
经典使用场景
EUR-Lex-Sum 数据集在法律领域的长文本摘要任务中展现了其经典应用场景。该数据集包含了欧盟法律文件及其对应的多语言摘要,为跨语言和多语言摘要模型提供了丰富的训练和评估资源。研究者可以利用这些数据来开发和评估能够处理长文本、多语言和法律领域特有复杂性的摘要系统。
衍生相关工作
EUR-Lex-Sum 数据集的发布催生了一系列相关研究工作,特别是在长文本处理和跨语言摘要领域。例如,研究者们基于该数据集开发了新的长文本处理模型,如 Longformer 和 LED,以应对法律文本的极端长度。此外,跨语言摘要技术的研究也得到了推动,出现了多种基于翻译和生成模型的跨语言摘要方法。
数据集最近研究
最新研究方向
在法律领域的长文本摘要生成中,EUR-Lex-Sum数据集的最新研究方向主要集中在跨语言和多语言的摘要生成任务上。该数据集包含了欧洲联盟法律平台上的法律文件及其人工编写的摘要,涵盖了24种官方欧洲语言,为跨语言和低资源语言的摘要生成提供了丰富的资源。研究者们通过详细的数据获取过程和关键特征的比较,揭示了该数据集在领域特定跨语言摘要生成中的挑战和开放问题。此外,实验结果表明,现有的提取式和跨语言基线模型在处理极端长度的文本和语言多样性方面仍存在局限,这为未来的研究提供了新的方向,特别是在长文本处理和多语言支持方面。
相关研究论文
  • 1
    EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain海德堡大学计算机科学研究所 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录