elenanereiss/german-ler
收藏Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elenanereiss/german-ler
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别的德国法律文档数据集,包含约67,000个句子和54,000个标注实体。数据集提供了两种不同粒度的标注:19个细粒度语义类别和7个粗粒度类别。数据集来源于德国联邦法院的判决书,经过人工标注,涵盖了法律领域特有的实体类型。数据集的主要目的是支持法律文档中的命名实体识别任务,特别是识别法律规范、法律机构等特定领域的实体。
提供机构:
elenanereiss
原始信息汇总
数据集概述
数据集名称
- 名称: German Named Entity Recognition in Legal Documents
- 别名: German LER
数据集基本信息
- 语言: 德语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 数据集大小: 1M<n<10M
- 源数据: 原始数据
数据集内容
- 描述: 该数据集包含德国联邦法院裁决的法律文件,用于命名实体识别。数据集由人工标注,包含19个细粒度的实体类别。数据集包含约67,000个句子和54,000个标注实体。NER标签使用
BIO标签方案。 - 实体类别: 数据集包含两种不同的标注版本,一种包含19个细粒度语义类别(
ner_tags),另一种包含7个粗粒度类别(ner_coarse_tags)。总共有53,632个标注实体,其中大多数(74.34%)是法律实体,其余为人物、地点和组织(25.66%)。
数据集结构
- 数据实例: 每个实例包含一个ID、一组令牌(tokens)、一组细粒度NER标签(ner_tags)和一组粗粒度NER标签(ner_coarse_tags)。
- 数据字段:
id: 字符串类型tokens: 字符串序列,长度可变ner_tags: 类别标签序列,类别数为39ner_coarse_tags: 类别标签序列,类别数为15
- 数据分割:
- 训练集: 53,384个输入句子
- 验证集: 6,666个输入句子
- 测试集: 6,673个输入句子
数据集创建
- 来源数据: 数据集来源于2017年和2018年的法院裁决,由联邦司法和消费者保护部发布。
- 数据收集与规范化: 从XML文档中提取数据,删除元数据和段落编号,使用SoMaJo进行分词,并在WebAnno中手动标注。
- 标注过程: 详细信息请参见标注指南。
使用注意事项
- 个人和敏感信息: 所有个人信息已为隐私原因匿名化。
许可证信息
- 许可证: CC BY-SA 4.0
引用信息
@misc{https://doi.org/10.48550/arxiv.2003.13016,
doi = {10.48550/ARXIV.2003.13016},
url = {https://arxiv.org/abs/2003.13016},
author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián},
keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {A Dataset of German Legal Documents for Named Entity Recognition},
publisher = {arXiv},
year = {2020},
copyright = {arXiv.org perpetual, non-exclusive license}
}



