nwu-ctext/isizulu_ner_corpus
收藏数据集卡片 for Isizulu Ner Corpus
数据集描述
数据集概述
Isizulu Ner Corpus 是一个由南非北西大学(North-West University)的文本技术中心(CTexT)开发的祖鲁语数据集。该数据集基于南非政府领域的文档,并从 gov.za 网站爬取。它旨在支持祖鲁语的命名实体识别(NER)任务,并使用 CoNLL 共享任务的标注标准。
支持的任务和排行榜
[更多信息需补充]
语言
支持的语言是祖鲁语。
数据集结构
数据实例
一个数据点由空行分隔的句子组成,每个句子包含制表符分隔的词和标签。
示例: json { "id": "0", "ner_tags": [7, 8, 0, 0, 0], "tokens": ["Lesi", "sigaba", "se-website", ",", "esikhonjiswe"] }
数据字段
id: 样本的IDtokens: 示例文本的词ner_tags: 每个词的NER标签
NER标签对应以下列表:
"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"
NER标签的格式与CoNLL共享任务相同:B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和其他(MISC)。(OUT)用于表示不属于任何命名实体的词。
数据分割
数据未进行分割。
数据集创建
策划理由
该数据集的创建旨在帮助引入新的语言资源——祖鲁语。
[更多信息需补充]
源数据
初始数据收集和规范化
数据基于南非政府领域的文档,并从 gov.za 网站爬取。
源语言生产者
数据由南非政府网站(gov.za)的作者生产。
标注
标注过程
[更多信息需补充]
标注者
数据在NCHLT文本资源开发项目期间进行标注。
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
标注数据集由北西大学(North-West University)的文本技术中心(CTexT)开发。
许可信息
数据集使用Creative Commons Attribution 2.5 South Africa License许可。
引用信息
@inproceedings{isizulu_ner_corpus, author = {A.N. Manzini and Roald Eiselen}, title = {NCHLT isiZulu Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/319}, }
贡献
感谢@yvonnegitau添加此数据集。




