five

dennlinger/eur-lex-sum|法律文本摘要数据集|多语言处理数据集

收藏
hugging_face2022-11-11 更新2024-03-04 收录
法律文本摘要
多语言处理
下载链接:
https://hf-mirror.com/datasets/dennlinger/eur-lex-sum
下载链接
链接失效反馈
资源简介:
EUR-Lex-Sum数据集是一个多语言资源,主要用于法律领域的文本摘要任务。该数据集基于欧盟发布的法律文件的人工摘要,特点是提供了较少数量的高质量人工摘要样本,每个样本的参考文本和摘要都比类似数据集长得多。数据集支持欧盟的24种官方语言,且验证集和测试集的样本在所有语言中完全对齐。数据集的结构包括数据实例、数据字段和数据分割,数据实例包含法律文件的全文和摘要,数据字段包括Celex ID、参考文本和摘要。数据集的创建目的是为了提供自动文本摘要研究的资源,特别是长文本摘要和跨语言摘要任务。数据集的来源是EUR-Lex平台,数据经过过滤和处理,确保每个样本的唯一性和质量。
提供机构:
dennlinger
原始信息汇总

数据集概述

数据集名称

  • 名称: EUR-Lex-Sum
  • 别名: eur-lex-sum

数据集属性

  • 语言: 支持24种欧洲联盟官方语言,包括保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语和瑞典语。
  • 许可证: CC-BY-4.0
  • 多语言性: 多语言
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 标签: 法律、eur-lex、专家总结、平行语料库、多语言
  • 任务类别: 翻译、总结

数据集内容

  • 描述: EUR-Lex-Sum是一个多语言资源,专为法律领域的文本总结设计。数据集基于欧洲联盟发布的人工编写的法律行为总结。
  • 特点: 引入高质量的人工编写样本,每个样本的参考文献(和总结)比同类数据集更长。为法律文本提供了一个具有挑战性的特定领域应用,这些文本在非英语语言中迄今为止代表性不足。
  • 结构: 数据实例包含唯一标识符(Celex ID)、原始长篇法律行为文本及其相关总结。

数据集用途

  • 总结任务: 主要适用于总结任务,可用作小规模训练资源。评估指标为ROUGE。
  • 跨语言总结: 由于数据集样本存在于多种语言中,可用作跨语言基准。
  • 长篇总结: 特别适用于长篇总结,提供比新闻基础总结数据集长约10倍的总结文本。

数据集创建

  • 来源: 数据从EUR-Lex平台爬取,仅使用具有HTML文本版本的样本,确保跨语言的段落级对齐。
  • 注释: 由欧洲联盟外部专业人员根据欧盟发布的注释指南进行,目标长度为600-800字。

使用考虑

  • 社会影响: 可用于提供以前代表性不足的语言的总结系统,例如爱尔兰语和马耳他语。
  • 偏见讨论: 存在语言和时间偏见,数据集主要关注欧盟相关内容,可能偏向西方中心内容。

附加信息

  • 数据集管理: 由海德堡大学数据库系统研究组的Ashish Chouhan和Dennis Aumiller创建和维护。
  • 引用信息: 请参考提供的引用格式。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录