nwu-ctext/afrikaans_ner_corpus
收藏数据集概述
数据集描述
- 名称: Afrikaans Ner Corpus
- 语言: 南非语 (Afrikaans)
- 许可证: Creative Commons Attribution 2.5 South Africa License
- 数据集大小: 4025651 字节
- 下载大小: 944804 字节
- 数据集创建者: The Centre for Text Technology (CTexT), North-West University, South Africa
- 数据来源: 南非政府域名文档,从 gov.za 网站爬取
- 任务类别: 命名实体识别 (Named Entity Recognition, NER)
数据集结构
数据实例
数据点由空行分隔的句子和制表符分隔的标记和标签组成。
示例: json { "id": "0", "ner_tags": [0, 0, 0, 0, 0], "tokens": ["Vertaling", "van", "die", "inligting", "in"] }
数据字段
id: 样本的IDtokens: 示例文本的标记ner_tags: 每个标记的NER标签
NER标签对应列表:
"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"
NER标签格式与CoNLL共享任务相同:B表示短语的第一个项目,I表示任何非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和其他(MISC)。(OUT)用于表示不属于任何命名实体的标记。
数据分割
数据未分割。
数据集创建
数据收集和规范化
数据基于南非政府域名文档,从 gov.za 网站爬取。
注释过程
数据在NCHLT文本资源开发项目中进行注释。
许可证信息
数据集使用Creative Commons Attribution 2.5 South Africa License。
引用信息
bibtex @inproceedings{afrikaans_ner_corpus, author = { Gerhard van Huyssteen and Martin Puttkammer and E.B. Trollip and J.C. Liversage and Roald Eiselen}, title = {NCHLT Afrikaans Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/299}, }



