five

tudarmstadt-lt/germaner

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/tudarmstadt-lt/germaner
下载链接
链接失效反馈
官方服务:
资源简介:
GermaNER是一个用于德语命名实体识别(NER)的数据集。数据集包含26200个训练实例,每个实例包括id、tokens和ner_tags三个字段。ner_tags使用IOB格式编码,表示命名实体的类别,如B-LOC、B-ORG等。数据集的语言为德语,许可证为Apache 2.0。
提供机构:
tudarmstadt-lt
原始信息汇总

数据集概述

基本信息

  • 数据集名称: GermaNER
  • 语言: 德语
  • 许可证: Apache-2.0
  • 数据集大小: 10K<n<100K
  • 任务类别: 词性标注
  • 任务ID: 命名实体识别

数据集结构

数据实例

一个示例实例如下: json { "id": "3", "ner_tags": [1, 5, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8], "tokens": ["Bayern", "München", "ist", "wieder", "alleiniger", "Top-", "Favorit", "auf", "den", "Gewinn", "der", "deutschen", "Fußball-Meisterschaft", "."] }

数据字段

每个实例包含以下字段:

  • id: 字符串类型的ID
  • tokens: 字符串序列
  • ner_tags: 每个token的NER标签(编码为IOB)

NER标签包括:B-LOC (0), B-ORG (1), B-OTH (2), B-PER (3), I-LOC (4), I-ORG (5), I-OTH (6), I-PER (7), O (8)

数据分割

数据集仅提供训练部分,包含26200个数据实例。

许可证信息

GermaNER的许可证为Apache License 2.0,允许学术和商业用途,无限制。

引用信息

bibtex @inproceedings{Benikova2015GermaNERFO, title={GermaNER: Free Open German Named Entity Recognition Tool}, author={Darina Benikova and Seid Muhie Yimam and P. Santhanam and Chris Biemann}, booktitle={GSCL}, year={2015} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作