dglover1/mapa-eur-lex
收藏数据集卡片:多语言欧洲法律领域敏感实体检测数据集
数据集描述
数据集摘要
该数据集是MAPA EUR-LEX数据集的完整版本,最初由joelniklaus转换为Huggingface格式。原始MAPA存储库中的3个(西班牙语)EUR-LEX WebAnno TSV文件格式错误,因此在原始转换中被省略,导致西班牙语数据代表性不足。这些文件已手动修复,并使用joelniklaus的转换脚本重新解析整个数据集。脚本稍作修改,以在"sentence"列中包含每个示例的原始句子。
分割分布
除西班牙语外,所有语言的数据集分割均保持与joelniklaus数据集一致。由于可用数据的增加,西班牙语样本的分割发生了变化。
可选地,为了创建具有改进标签实体分布的平衡分割,可以使用以下代码:
python from datasets import load_dataset, concatenate_datasets
mapa = load_dataset("dglover1/mapa-eur-lex") mapa = concatenate_datasets((mapa["train"], mapa["validation"], mapa["test"])) mapa = mapa.train_test_split(test_size=0.2, seed=1) mapa = mapa.flatten_indices()
请注意,这仅创建了训练/测试分割。对于训练/测试/验证,您可以进一步分割训练集或测试集并相应重命名。
许可信息
Attribution 4.0 International (CC BY 4.0)
引用信息
bibtex @article{DeGibertBonet2022, author = {{de Gibert Bonet}, Ona and {Garc{{i}}a Pablos}, Aitor and Cuadros, Montse and Melero, Maite}, journal = {Proceedings of the Language Resources and Evaluation Conference}, number = {June}, pages = {3751--3760}, title = {{Spanish Datasets for Sensitive Entity Detection in the Legal Domain}}, url = {https://aclanthology.org/2022.lrec-1.400}, year = {2022} }
贡献
感谢@JoelNiklaus和@kapllan添加此数据集。



