nwu-ctext/isixhosa_ner_corpus

Name: nwu-ctext/isixhosa_ner_corpus
Creator: nwu-ctext
Published: 2024-01-18 11:06:47
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/nwu-ctext/isixhosa_ner_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

IsiXhosa Ner Corpus是由南非西北大学文本技术中心（CTexT）开发的Xhosa语言数据集，数据来源于南非政府网站（gov.za），旨在支持Xhosa语言的命名实体识别（NER）任务。数据集遵循CoNLL共享任务的标注标准，包含句子、分词和NER标签。数据集未进行分割，所有数据均用于训练。

提供机构：

nwu-ctext

原始信息汇总

数据集概述

数据集描述

数据集摘要

IsixhosaNerCorpus 是一个由 The Centre for Text Technology (CTexT), North-West University, South Africa 开发的 Xhosa 语数据集。该数据集基于南非政府领域的文档，从 gov.za 网站爬取，旨在支持 Xhosa 语的命名实体识别（NER）任务。数据集采用 CoNLL 共享任务的标注标准。

支持的任务和排行榜

[更多信息需补充]

语言

支持的语言是 Xhosa。

数据集结构

数据实例

一个数据点由空行分隔的句子组成，每个句子包含制表符分隔的词和标签。

示例： json { id: 0, ner_tags: [7, 8, 5, 6, 0], tokens: [Injongo, ye-website, yaseMzantsi, Afrika, kukuvelisa] }

数据字段

id: 样本的ID
tokens: 示例文本的词
ner_tags: 每个词的NER标签

NER标签对应以下列表：

"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"

NER标签格式与CoNLL共享任务相同：B表示短语的第一个词，I表示非初始词。有四种短语类型：人名（PER）、组织（ORG）、地点（LOC）和其他（MISC）。（OUT）用于标记不属于任何命名实体的词。

数据分割

数据未进行分割。

数据集创建

策划理由

数据集的创建旨在帮助引入新的语言资源——Xhosa语。

[更多信息需补充]

源数据

初始数据收集和规范化

数据基于南非政府领域的文档，从 gov.za 网站爬取。

[更多信息需补充]

源语言生产者

数据由南非政府网站（gov.za）的作者生产。

[更多信息需补充]

标注

标注过程

[更多信息需补充]

标注者

数据在NCHLT文本资源开发项目期间进行标注。

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

标注数据集由 Centre for Text Technology (CTexT, North-West University, South Africa) 开发。

更多信息

许可信息

数据集使用 Creative Commons Attribution 2.5 South Africa License 许可。

引用信息

@inproceedings{isixhosa_ner_corpus, author = { K. Podile and Roald Eiselen}, title = {NCHLT isiXhosa Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/312}, }

贡献

感谢 @yvonnegitau 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集