NCube/europa
收藏Hugging Face2024-08-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NCube/europa
下载链接
链接失效反馈官方服务:
资源简介:
EUROPA数据集是一个专门用于训练和评估多语言关键词生成模型的法律领域数据集。该数据集包含来自欧盟法院的法律判决,涵盖了所有24种欧盟官方语言。数据集的结构包括celex_id、lang、input_text和keyphrases等特征,并且按照时间顺序分为训练集、验证集和测试集。数据集的创建者是由N3团队,并且使用了MIT许可证。
EUROPA数据集是一个专门用于训练和评估多语言关键词生成模型的法律领域数据集。该数据集包含来自欧盟法院的法律判决,涵盖了所有24种欧盟官方语言。数据集的结构包括celex_id、lang、input_text和keyphrases等特征,并且按照时间顺序分为训练集、验证集和测试集。数据集的创建者是由N3团队,并且使用了MIT许可证。
提供机构:
NCube
原始信息汇总
数据集卡片 - EUROPA
数据集详情
数据集描述
EUROPA 是一个专为训练和评估多语言法律领域关键词生成模型设计的数据集。它包含来自欧盟法院(EU)的法律判决,涵盖所有24种官方欧盟语言。
关键特点:
-
多语言:涵盖24种官方欧盟语言。
-
领域特定:专注于法律文档。
-
来源:源自欧盟法院的判决。
-
策划团队:N3团队
-
语言:法语、德语、英语、意大利语、荷兰语、希腊语、丹麦语、葡萄牙语、西班牙语、瑞典语、芬兰语、立陶宛语、爱沙尼亚语、捷克语、匈牙利语、拉脱维亚语、斯洛文尼亚语、波兰语、马耳他语、斯洛伐克语、罗马尼亚语、保加利亚语、克罗地亚语、爱尔兰语
-
许可:MIT许可证
数据集结构
- celex_id:继承自欧盟法院的CELEX标识符。同一判决的不同翻译版本共享相同的celex_id。如果您希望为每个实例设置唯一标识符,可以将
lang和celex_id值连接起来; - lang:ISO 639-1语言代码;
- input:判决的转录或翻译;
- keyphrases:欧盟法院起草的参考关键词。
如我们的论文所述,数据集按时间顺序划分,以评估模型的时序泛化能力:
- 训练集:1957年至2010年(131,076个实例);
- 验证集:2011年至2015年(63,373个实例);
- 测试集:2016年至2023年(90,508个实例)。
引用
@article{salaun2024europa, title={EUROPA: A Legal Multilingual Keyphrase Generation Dataset}, author={Sala{"u}n, Olivier and Piedboeuf, Fr{e}d{e}ric and Le Berre, Guillaume and Hermelo, David Alfonso and Langlais, Philippe}, journal={arXiv preprint arXiv:2403.00252}, year={2024} }



