nwu-ctext/afrikaans_ner_corpus

Name: nwu-ctext/afrikaans_ner_corpus
Creator: nwu-ctext
Published: 2024-01-09 11:51:47
License: 暂无描述

Hugging Face2024-01-09 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/nwu-ctext/afrikaans_ner_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Afrikaans Ner Corpus是一个南非荷兰语数据集，由南非西北大学的文本技术中心（CTexT）开发。该数据集基于南非政府领域的文档，并从gov.za网站爬取，旨在支持南非荷兰语的命名实体识别（NER）任务。数据集采用了CoNLL共享任务的注释标准，包含8962个训练样本。数据字段包括id、tokens和ner_tags，其中NER标签遵循CoNLL格式，包括人名（PER）、组织名（ORG）、地名（LOC）和杂项名（MISC）。数据集未进行分割，且使用Creative Commons Attribution 2.5 South Africa License许可。

提供机构：

nwu-ctext

原始信息汇总

数据集概述

数据集描述

名称: Afrikaans Ner Corpus
语言: 南非语 (Afrikaans)
许可证: Creative Commons Attribution 2.5 South Africa License
数据集大小: 4025651 字节
下载大小: 944804 字节
数据集创建者: The Centre for Text Technology (CTexT), North-West University, South Africa
数据来源: 南非政府域名文档，从 gov.za 网站爬取
任务类别: 命名实体识别 (Named Entity Recognition, NER)

数据集结构

数据实例

数据点由空行分隔的句子和制表符分隔的标记和标签组成。

示例: json { "id": "0", "ner_tags": [0, 0, 0, 0, 0], "tokens": ["Vertaling", "van", "die", "inligting", "in"] }

数据字段

id: 样本的ID
tokens: 示例文本的标记
ner_tags: 每个标记的NER标签

NER标签对应列表:

"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"

NER标签格式与CoNLL共享任务相同：B表示短语的第一个项目，I表示任何非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和其他(MISC)。(OUT)用于表示不属于任何命名实体的标记。

数据分割

数据未分割。

数据集创建

数据收集和规范化

数据基于南非政府域名文档，从 gov.za 网站爬取。

注释过程

数据在NCHLT文本资源开发项目中进行注释。

许可证信息

数据集使用Creative Commons Attribution 2.5 South Africa License。

引用信息

bibtex @inproceedings{afrikaans_ner_corpus, author = { Gerhard van Huyssteen and Martin Puttkammer and E.B. Trollip and J.C. Liversage and Roald Eiselen}, title = {NCHLT Afrikaans Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/299}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集