five

elenanereiss/german-ler

收藏
Hugging Face2022-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elenanereiss/german-ler
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于命名实体识别的德国法律文档数据集,包含约67,000个句子和54,000个标注实体。数据集提供了两种不同粒度的标注:19个细粒度语义类别和7个粗粒度类别。数据集来源于德国联邦法院的判决书,经过人工标注,涵盖了法律领域特有的实体类型。数据集的主要目的是支持法律文档中的命名实体识别任务,特别是识别法律规范、法律机构等特定领域的实体。
提供机构:
elenanereiss
原始信息汇总

数据集概述

数据集名称

  • 名称: German Named Entity Recognition in Legal Documents
  • 别名: German LER

数据集基本信息

  • 语言: 德语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 数据集大小: 1M<n<10M
  • 源数据: 原始数据

数据集内容

  • 描述: 该数据集包含德国联邦法院裁决的法律文件,用于命名实体识别。数据集由人工标注,包含19个细粒度的实体类别。数据集包含约67,000个句子和54,000个标注实体。NER标签使用BIO标签方案。
  • 实体类别: 数据集包含两种不同的标注版本,一种包含19个细粒度语义类别(ner_tags),另一种包含7个粗粒度类别(ner_coarse_tags)。总共有53,632个标注实体,其中大多数(74.34%)是法律实体,其余为人物、地点和组织(25.66%)。

数据集结构

  • 数据实例: 每个实例包含一个ID、一组令牌(tokens)、一组细粒度NER标签(ner_tags)和一组粗粒度NER标签(ner_coarse_tags)。
  • 数据字段:
    • id: 字符串类型
    • tokens: 字符串序列,长度可变
    • ner_tags: 类别标签序列,类别数为39
    • ner_coarse_tags: 类别标签序列,类别数为15
  • 数据分割:
    • 训练集: 53,384个输入句子
    • 验证集: 6,666个输入句子
    • 测试集: 6,673个输入句子

数据集创建

  • 来源数据: 数据集来源于2017年和2018年的法院裁决,由联邦司法和消费者保护部发布。
  • 数据收集与规范化: 从XML文档中提取数据,删除元数据和段落编号,使用SoMaJo进行分词,并在WebAnno中手动标注。
  • 标注过程: 详细信息请参见标注指南

使用注意事项

  • 个人和敏感信息: 所有个人信息已为隐私原因匿名化。

许可证信息

  • 许可证: CC BY-SA 4.0

引用信息

@misc{https://doi.org/10.48550/arxiv.2003.13016, doi = {10.48550/ARXIV.2003.13016}, url = {https://arxiv.org/abs/2003.13016},
author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián},
keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {A Dataset of German Legal Documents for Named Entity Recognition},
publisher = {arXiv},
year = {2020},
copyright = {arXiv.org perpetual, non-exclusive license} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作