elenanereiss/german-ler

Name: elenanereiss/german-ler
Creator: elenanereiss
Published: 2022-10-26 08:32:17
License: 暂无描述

Hugging Face2022-10-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/elenanereiss/german-ler

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于命名实体识别的德国法律文档数据集，包含约67,000个句子和54,000个标注实体。数据集提供了两种不同粒度的标注：19个细粒度语义类别和7个粗粒度类别。数据集来源于德国联邦法院的判决书，经过人工标注，涵盖了法律领域特有的实体类型。数据集的主要目的是支持法律文档中的命名实体识别任务，特别是识别法律规范、法律机构等特定领域的实体。

提供机构：

elenanereiss

原始信息汇总

数据集概述

数据集名称

名称: German Named Entity Recognition in Legal Documents
别名: German LER

数据集基本信息

语言: 德语
许可证: CC-BY-4.0
多语言性: 单语种
数据集大小: 1M<n<10M
源数据: 原始数据

数据集内容

描述: 该数据集包含德国联邦法院裁决的法律文件，用于命名实体识别。数据集由人工标注，包含19个细粒度的实体类别。数据集包含约67,000个句子和54,000个标注实体。NER标签使用BIO标签方案。
实体类别: 数据集包含两种不同的标注版本，一种包含19个细粒度语义类别(ner_tags)，另一种包含7个粗粒度类别(ner_coarse_tags)。总共有53,632个标注实体，其中大多数（74.34%）是法律实体，其余为人物、地点和组织（25.66%）。

数据集结构

数据实例: 每个实例包含一个ID、一组令牌（tokens）、一组细粒度NER标签（ner_tags）和一组粗粒度NER标签（ner_coarse_tags）。
数据字段:
- id: 字符串类型
- tokens: 字符串序列，长度可变
- ner_tags: 类别标签序列，类别数为39
- ner_coarse_tags: 类别标签序列，类别数为15
数据分割:
- 训练集: 53,384个输入句子
- 验证集: 6,666个输入句子
- 测试集: 6,673个输入句子

数据集创建

来源数据: 数据集来源于2017年和2018年的法院裁决，由联邦司法和消费者保护部发布。
数据收集与规范化: 从XML文档中提取数据，删除元数据和段落编号，使用SoMaJo进行分词，并在WebAnno中手动标注。
标注过程: 详细信息请参见标注指南。

使用注意事项

个人和敏感信息: 所有个人信息已为隐私原因匿名化。

许可证信息

许可证: CC BY-SA 4.0

引用信息

@misc{https://doi.org/10.48550/arxiv.2003.13016, doi = {10.48550/ARXIV.2003.13016}, url = {https://arxiv.org/abs/2003.13016},
author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián},
keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {A Dataset of German Legal Documents for Named Entity Recognition},
publisher = {arXiv},
year = {2020},
copyright = {arXiv.org perpetual, non-exclusive license} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集