five

community-datasets/eu_regulatory_ir

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/eu_regulatory_ir
下载链接
链接失效反馈
官方服务:
资源简介:
RegIR数据集包含两个子数据集EU2UK和UK2EU,主要用于文档检索任务。数据集中的文档涉及欧盟指令和英国法规,假设英国法规与欧盟指令之间存在相关性。数据集的结构包括文档ID、发布年份、文本内容和相关文档列表。数据集分为训练集、开发集、测试集和文档池,分别包含不同数量的查询和文档。数据集的创建基于公开的欧盟和英国法规数据,并由Chalkidis等人(2021)进行整理。数据集的语言为英语,且不包含个人或敏感信息。

The RegIR dataset consists of two subsets, EU2UK and UK2EU, which are primarily designed for document retrieval tasks. Documents in the dataset cover EU directives and UK regulations, with the assumption that there exists a correlation between UK regulations and EU directives. The dataset structure includes document ID, release year, text content, and list of relevant documents. The dataset is split into training set, development set, test set, and document pool, which respectively contain different numbers of queries and documents. The dataset was constructed based on publicly available EU and UK regulatory data, and was curated by Chalkidis et al. (2021). The dataset is in English and does not contain any personal or sensitive information.
提供机构:
community-datasets
原始信息汇总

数据集卡片 for the RegIR datasets

数据集描述

数据集摘要

该数据集包含两个子集:EU2UK 和 UK2EU,分别包含欧盟指令和英国法规。这些数据可以作为查询和文档,基于一个基本假设:英国法律与欧盟指令的转置相关,反之亦然。

支持的任务和排行榜

  • EU2UK (eu2uk): 给定一个欧盟指令 Q,从所有可用的英国法规中检索相关文档。相关文档是那些转置欧盟指令的文档。
  • UK2EU (uk2eu): 给定一个英国法规 Q,从所有可用的欧盟指令中检索相关文档。相关文档是那些被英国法规转置的文档。

语言

所有文档均为英语。

数据集结构

数据实例

json { "document_id": "31977L0794", "publication_year": "1977", "text": "Commission Directive 77/794/EEC ... of agricultural levies and customs duties", "relevant_documents": ["UKPGA19800048", "UKPGA19770036"] }

数据字段

  • document_id: (str) 文档的ID。
  • publication_year: (str) 文档的出版年份。
  • text: (str) 文档的文本内容。
  • relevant_documents: (List[str]) 相关文档的列表,以它们的 document_id 表示。

数据分割

EU2UK 数据集

分割 查询数量 平均相关文档数量
训练 1,400 1.79
开发 300 2.09
测试 300 1.74
文档池(语料库): 52,515 英国法规

UK2EU 数据集

分割 查询数量 平均相关文档数量
训练 1,500 1.90
开发 300 1.46
测试 300 1.29
文档池(语料库): 3,930 欧盟指令

数据集创建

策划理由

该数据集由 Chalkidis 等人(2021)策划。转置对由欧盟出版办公室(https://publications.europa.eu/en)公开提供。

源数据

初始数据收集和规范化

原始数据来自 EUR-Lex 门户(https://eur-lex.europa.eu)和 Legislation.GOV.UK(http://legislation.gov.uk/),以未处理格式提供。转置对由欧盟成员国(此处为英国)提供,并从欧盟出版办公室的 SPARQL 端点(http://publications.europa.eu/webapi/rdf/sparql)下载。

注释

注释过程

  • 原始数据来自 EUR-Lex 门户(https://eur-lex.europa.eu)和 Legislation.GOV.UK(http://legislation.gov.uk/),以未处理格式提供。
  • 转置对由欧盟成员国(此处为英国)提供,并从欧盟出版办公室的 SPARQL 端点(http://publications.europa.eu/webapi/rdf/sparql)下载。

注释者

欧盟出版办公室(https://publications.europa.eu/en)

个人和敏感信息

该数据集不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

Chalkidis 等人(2021)

许可信息

欧盟数据

© European Union, 1998-2021

委员会的文档重用政策基于决定 2011/833/EU。除非另有说明,您可以出于商业或非商业目的重用 EUR-Lex 中发布的法律文件。

该网站的编辑内容的版权,欧盟立法的摘要和合并文本的版权,由欧盟拥有,并根据知识共享署名 4.0 国际许可​​(Creative Commons Attribution 4.0 International licence)授权。这意味着您可以重用内容,前提是您承认来源并指出您所做的任何更改。

来源:https://eur-lex.europa.eu/content/legal-notice/legal-notice.html 阅读更多:https://eur-lex.europa.eu/content/help/faq/reuse-contents-eurlex.html

英国数据

我们鼓励您自由灵活地使用和重用本许可下可用的信息,只需满足一些条件。

您可以自由地:

  • 复制、发布、分发和传输信息;
  • 改编信息;
  • 出于商业和非商业目的利用信息,例如,通过将信息与其他信息结合,或将信息包含在您自己的产品或应用程序中。

您必须(在执行上述任何操作时):

通过包含或链接到信息提供者指定的任何归属声明,并在可能的情况下提供指向本许可的链接:http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/。

引用信息

@inproceedings{chalkidis-etal-2021-regir, title = "Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations", author = "Chalkidis, Ilias and Fergadiotis, Manos and Manginas, Nikos and Katakalou, Eva, and Malakasiotis, Prodromos", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021)", year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/2101.10726", }

贡献

感谢 @iliaschalkidis 添加此数据集。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含欧盟指令和英国法规的对应关系,支持两种信息检索任务:1)给定欧盟指令检索相关英国法规(EU2UK);2)给定英国法规检索相关欧盟指令(UK2EU)。数据集包含约6万条法律文档,分为训练集、开发集和测试集,适用于研究法律文档检索和跨司法管辖区法律对应关系分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作