five

dglover1/mapa-eur-lex

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dglover1/mapa-eur-lex
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言的欧洲数据集,主要用于法律领域中的敏感实体检测任务。数据集是MAPA EUR-LEX数据集的完整版本,最初由joelniklaus转换为Huggingface格式。由于源MAPA仓库中的3个西班牙语EUR-LEX WebAnno TSV文件格式错误,这些文件在原始转换中被省略,导致西班牙语数据不足。这些文件已手动修复,并使用joelniklaus的转换脚本重新解析了整个数据集。数据集包含多种语言,如西班牙语、德语、葡萄牙语、斯洛伐克语、斯洛文尼亚语和瑞典语等。数据集的许可证为CC BY 4.0,并提供了相关的引用信息。

This is a multilingual European dataset primarily intended for sensitive entity detection tasks in the legal domain. This dataset is the full version of the MAPA EUR-LEX dataset, which was originally converted to the Hugging Face format by joelniklaus. Due to formatting errors in three Spanish EUR-LEX WebAnno TSV files within the original MAPA repository, these files were omitted during the initial conversion, resulting in insufficient Spanish-language data. These files have been manually repaired, and the entire dataset has been re-parsed using joelniklaus's conversion script. The dataset covers multiple languages including Spanish, German, Portuguese, Slovak, Slovenian, Swedish and others. It is licensed under CC BY 4.0, and relevant citation information is provided.
提供机构:
dglover1
原始信息汇总

数据集卡片:多语言欧洲法律领域敏感实体检测数据集

数据集描述

数据集摘要

该数据集是MAPA EUR-LEX数据集的完整版本,最初由joelniklaus转换为Huggingface格式。原始MAPA存储库中的3个(西班牙语)EUR-LEX WebAnno TSV文件格式错误,因此在原始转换中被省略,导致西班牙语数据代表性不足。这些文件已手动修复,并使用joelniklaus的转换脚本重新解析整个数据集。脚本稍作修改,以在"sentence"列中包含每个示例的原始句子。

分割分布

除西班牙语外,所有语言的数据集分割均保持与joelniklaus数据集一致。由于可用数据的增加,西班牙语样本的分割发生了变化。

可选地,为了创建具有改进标签实体分布的平衡分割,可以使用以下代码:

python from datasets import load_dataset, concatenate_datasets

mapa = load_dataset("dglover1/mapa-eur-lex") mapa = concatenate_datasets((mapa["train"], mapa["validation"], mapa["test"])) mapa = mapa.train_test_split(test_size=0.2, seed=1) mapa = mapa.flatten_indices()

请注意,这仅创建了训练/测试分割。对于训练/测试/验证,您可以进一步分割训练集或测试集并相应重命名。

许可信息

Attribution 4.0 International (CC BY 4.0)

引用信息

bibtex @article{DeGibertBonet2022, author = {{de Gibert Bonet}, Ona and {Garc{{i}}a Pablos}, Aitor and Cuadros, Montse and Melero, Maite}, journal = {Proceedings of the Language Resources and Evaluation Conference}, number = {June}, pages = {3751--3760}, title = {{Spanish Datasets for Sensitive Entity Detection in the Legal Domain}}, url = {https://aclanthology.org/2022.lrec-1.400}, year = {2022} }

贡献

感谢@JoelNiklaus@kapllan添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作