tudarmstadt-lt/germaner
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/tudarmstadt-lt/germaner
下载链接
链接失效反馈官方服务:
资源简介:
GermaNER是一个用于德语命名实体识别(NER)的数据集。数据集包含26200个训练实例,每个实例包括id、tokens和ner_tags三个字段。ner_tags使用IOB格式编码,表示命名实体的类别,如B-LOC、B-ORG等。数据集的语言为德语,许可证为Apache 2.0。
提供机构:
tudarmstadt-lt
原始信息汇总
数据集概述
基本信息
- 数据集名称: GermaNER
- 语言: 德语
- 许可证: Apache-2.0
- 数据集大小: 10K<n<100K
- 任务类别: 词性标注
- 任务ID: 命名实体识别
数据集结构
数据实例
一个示例实例如下: json { "id": "3", "ner_tags": [1, 5, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8], "tokens": ["Bayern", "München", "ist", "wieder", "alleiniger", "Top-", "Favorit", "auf", "den", "Gewinn", "der", "deutschen", "Fußball-Meisterschaft", "."] }
数据字段
每个实例包含以下字段:
id: 字符串类型的IDtokens: 字符串序列ner_tags: 每个token的NER标签(编码为IOB)
NER标签包括:B-LOC (0), B-ORG (1), B-OTH (2), B-PER (3), I-LOC (4), I-ORG (5), I-OTH (6), I-PER (7), O (8)
数据分割
数据集仅提供训练部分,包含26200个数据实例。
许可证信息
GermaNER的许可证为Apache License 2.0,允许学术和商业用途,无限制。
引用信息
bibtex @inproceedings{Benikova2015GermaNERFO, title={GermaNER: Free Open German Named Entity Recognition Tool}, author={Darina Benikova and Seid Muhie Yimam and P. Santhanam and Chris Biemann}, booktitle={GSCL}, year={2015} }



