five

joelniklaus/mapa

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/mapa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由来自EUR-Lex的12份文档(西班牙语为9份,由于解析错误)组成,EUR-Lex是一个包含欧盟24种官方语言的法院判决和法律处置的多语言语料库。这些文档已根据MAPA项目的指南进行了命名实体注释,该指南预见了两层注释,一层是通用的,另一层是更细粒度的。注释后的语料库可用于命名实体识别/分类。数据集支持的任务是命名实体识别和分类(NERC),支持的语言包括bg、cs、da、de、el、en、es、et、fi、fr、ga、hu、it、lt、lv、mt、nl、pt、ro、sk、sv。数据集的结构为jsonl格式,包含训练、验证和测试三个数据分割。注释过程分为粗粒度和细粒度两个层次,分别使用了不同的标签集。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集描述

数据集摘要

  • 名称: Multilingual European Datasets for Sensitive Entity Detection in the Legal Domain
  • 内容: 包含12个文档,主要用于西班牙语的敏感实体检测,源自EUR-Lex的多语言法律文件。
  • 用途: 用于命名实体识别和分类(NERC)。
  • 语言: 支持多种语言,包括bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pt, ro, sk, sv。

支持的任务和排行榜

  • 任务: 命名实体识别和分类(NERC)。

语言支持

  • 语言列表: bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pt, ro, sk, sv。

数据集结构

数据实例

  • 格式: jsonl。
  • 分割: 包含训练、验证和测试集。

数据字段

  • language: 句子语言。
  • type: 文档类型,目前仅支持EUR-LEX。
  • file_name: 文档文件名。
  • sentence_number: 句子在文档中的编号。
  • tokens: 句子中的词列表。
  • coarse_grained: 粗粒度标注。
  • fine_grained: 细粒度标注。

数据分割

  • 分割详情: 每个语言的训练、验证和测试文件数量及句子数量。

数据集创建

来源数据

  • 数据源: EUR-Lex corpus。
  • 语言生产者: 律师。

标注过程

  • 标注工具: INCePTION。
  • 标注者数量: 1。
  • 标注层次: 两级,包括粗粒度和细粒度。

许可证

  • 许可证类型: CC-BY-4.0。

引用信息

@article{DeGibertBonet2022, author = {{de Gibert Bonet}, Ona and {Garc{{i}}a Pablos}, Aitor and Cuadros, Montse and Melero, Maite}, journal = {Proceedings of the Language Resources and Evaluation Conference}, number = {June}, pages = {3751--3760}, title = {{Spanish Datasets for Sensitive Entity Detection in the Legal Domain}}, url = {https://aclanthology.org/2022.lrec-1.400}, year = {2022} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个多语言命名实体识别数据集,专注于法律领域,基于EUR-Lex欧盟法律文档构建,支持21种欧盟官方语言。数据集采用双层标注体系,包含粗粒度和细粒度实体标签,旨在用于敏感实体检测和匿名化工具开发。数据以json格式提供,分为训练、验证和测试集,总行数约41.8k。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作