five

nwu-ctext/setswana_ner_corpus

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/nwu-ctext/setswana_ner_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Setswana NER Corpus是一个用于支持Setswana语言命名实体识别(NER)任务的数据集,由南非西北大学的文本技术中心(CTexT)开发。数据来源于南非政府网站,并遵循CoNLL共享任务的注释标准。数据集包含句子、标记和NER标签,用于识别人名、组织名、地名和其他杂项名称。
提供机构:
nwu-ctext
原始信息汇总

Setswana NER Corpus 数据集概述

数据集描述

数据集摘要

Setswana NER Corpus 是一个由南非北西大学文本技术中心(CTexT)开发的塞茨瓦纳语数据集。该数据集基于南非政府领域的文档,并从 gov.za 网站爬取。它旨在支持塞茨瓦纳语的命名实体识别(NER)任务,使用 CoNLL 共享任务的标注标准。

支持的任务和排行榜

[更多信息需补充]

语言

支持的语言是塞茨瓦纳语。

数据集结构

数据实例

数据点由空行分隔的句子和制表符分隔的标记和标签组成。 json { "id": "0", "ner_tags": [0, 0, 0, 0, 0], "tokens": ["Ka", "dinako", "dingwe", ",", "go"] }

数据字段

  • id: 样本的ID
  • tokens: 示例文本的标记
  • ner_tags: 每个标记的NER标签

NER标签对应以下列表:

"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"

NER标签格式与CoNLL共享任务相同:B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和其他(MISC)。(OUT)用于表示不属于任何命名实体的标记。

数据分割

数据未进行分割。

数据集创建

策划理由

数据集的创建旨在为新的语言——塞茨瓦纳语引入资源。

[更多信息需补充]

源数据

初始数据收集和规范化

数据基于南非政府领域,并从 gov.za 网站爬取。

[更多信息需补充]

源语言生产者

数据由南非政府网站(gov.za)的作者生产。

[更多信息需补充]

标注

标注过程

[更多信息需补充]

标注者

数据在NCHLT文本资源开发项目期间进行标注。

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的考虑因素

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

标注数据集由北西大学文本技术中心(CTexT)开发。

更多信息

许可信息

数据集使用Creative Commons Attribution 2.5 South Africa License许可。

引用信息

@inproceedings{sepedi_ner_corpus, author = {S.S.B.M. Phakedi and Roald Eiselen}, title = {NCHLT Setswana Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/341}, }

贡献

感谢@yvonnegitau添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作