community-datasets/eu_regulatory_ir
收藏数据集卡片 for the RegIR datasets
数据集描述
数据集摘要
该数据集包含两个子集:EU2UK 和 UK2EU,分别包含欧盟指令和英国法规。这些数据可以作为查询和文档,基于一个基本假设:英国法律与欧盟指令的转置相关,反之亦然。
支持的任务和排行榜
- EU2UK (
eu2uk): 给定一个欧盟指令 Q,从所有可用的英国法规中检索相关文档。相关文档是那些转置欧盟指令的文档。 - UK2EU (
uk2eu): 给定一个英国法规 Q,从所有可用的欧盟指令中检索相关文档。相关文档是那些被英国法规转置的文档。
语言
所有文档均为英语。
数据集结构
数据实例
json { "document_id": "31977L0794", "publication_year": "1977", "text": "Commission Directive 77/794/EEC ... of agricultural levies and customs duties", "relevant_documents": ["UKPGA19800048", "UKPGA19770036"] }
数据字段
document_id: (str) 文档的ID。publication_year: (str) 文档的出版年份。text: (str) 文档的文本内容。relevant_documents: (List[str]) 相关文档的列表,以它们的document_id表示。
数据分割
EU2UK 数据集
| 分割 | 查询数量 | 平均相关文档数量 |
|---|---|---|
| 训练 | 1,400 | 1.79 |
| 开发 | 300 | 2.09 |
| 测试 | 300 | 1.74 |
| 文档池(语料库): 52,515 英国法规 |
UK2EU 数据集
| 分割 | 查询数量 | 平均相关文档数量 |
|---|---|---|
| 训练 | 1,500 | 1.90 |
| 开发 | 300 | 1.46 |
| 测试 | 300 | 1.29 |
| 文档池(语料库): 3,930 欧盟指令 |
数据集创建
策划理由
该数据集由 Chalkidis 等人(2021)策划。转置对由欧盟出版办公室(https://publications.europa.eu/en)公开提供。
源数据
初始数据收集和规范化
原始数据来自 EUR-Lex 门户(https://eur-lex.europa.eu)和 Legislation.GOV.UK(http://legislation.gov.uk/),以未处理格式提供。转置对由欧盟成员国(此处为英国)提供,并从欧盟出版办公室的 SPARQL 端点(http://publications.europa.eu/webapi/rdf/sparql)下载。
注释
注释过程
- 原始数据来自 EUR-Lex 门户(https://eur-lex.europa.eu)和 Legislation.GOV.UK(http://legislation.gov.uk/),以未处理格式提供。
- 转置对由欧盟成员国(此处为英国)提供,并从欧盟出版办公室的 SPARQL 端点(http://publications.europa.eu/webapi/rdf/sparql)下载。
注释者
欧盟出版办公室(https://publications.europa.eu/en)
个人和敏感信息
该数据集不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Chalkidis 等人(2021)
许可信息
欧盟数据
© European Union, 1998-2021
委员会的文档重用政策基于决定 2011/833/EU。除非另有说明,您可以出于商业或非商业目的重用 EUR-Lex 中发布的法律文件。
该网站的编辑内容的版权,欧盟立法的摘要和合并文本的版权,由欧盟拥有,并根据知识共享署名 4.0 国际许可(Creative Commons Attribution 4.0 International licence)授权。这意味着您可以重用内容,前提是您承认来源并指出您所做的任何更改。
来源:https://eur-lex.europa.eu/content/legal-notice/legal-notice.html 阅读更多:https://eur-lex.europa.eu/content/help/faq/reuse-contents-eurlex.html
英国数据
我们鼓励您自由灵活地使用和重用本许可下可用的信息,只需满足一些条件。
您可以自由地:
- 复制、发布、分发和传输信息;
- 改编信息;
- 出于商业和非商业目的利用信息,例如,通过将信息与其他信息结合,或将信息包含在您自己的产品或应用程序中。
您必须(在执行上述任何操作时):
通过包含或链接到信息提供者指定的任何归属声明,并在可能的情况下提供指向本许可的链接:http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/。
引用信息
@inproceedings{chalkidis-etal-2021-regir, title = "Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations", author = "Chalkidis, Ilias and Fergadiotis, Manos and Manginas, Nikos and Katakalou, Eva, and Malakasiotis, Prodromos", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021)", year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/2101.10726", }
贡献
感谢 @iliaschalkidis 添加此数据集。




