UdS-LSV/hausa_voa_ner

Name: UdS-LSV/hausa_voa_ner
Creator: UdS-LSV
Published: 2024-01-18 11:05:04
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/UdS-LSV/hausa_voa_ner

下载链接

链接失效反馈

官方服务：

资源简介：

Hausa VOA NER Corpus是一个用于豪萨语命名实体识别（NER）的数据集，基于VOA Hausa新闻语料库。数据集包含训练、验证和测试三个部分，分别有1014、145和291个句子。数据集的标注由专家生成，支持的任务是命名实体识别。数据集的结构包括id、tokens和ner_tags三个字段，其中ner_tags遵循CoNLL共享任务的格式，标注了人名、组织、地点和日期等实体。

提供机构：

UdS-LSV

原始信息汇总

Hausa VOA NER Corpus 数据集概述

数据集描述

数据集名称: Hausa VOA NER Corpus
数据集类型: 命名实体识别（NER）
语言: 豪萨语（Hausa）
许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
数据集大小: 1K<n<10K
源数据: 原始数据

数据集结构

数据实例

数据点由空行分隔的句子组成，每个句子包含制表符分隔的词和标签。

示例： json { "id": "0", "ner_tags": ["B-PER", "O", "O", "B-LOC", "O"], "tokens": ["Trump", "ya", "ce", "Rasha", "ma"] }

数据字段

id: 样本的ID
tokens: 样本的词
ner_tags: 每个词的NER标签

NER标签对应以下列表：

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE"

标签格式与CoNLL共享任务相同：B表示短语的第一个词，I表示非初始词。短语类型包括人名（PER）、组织（ORG）、地点（LOC）和日期与时间（DATE）。O表示不属于任何命名实体的词。

数据分割

训练集: 1015个样本
验证集: 146个样本
测试集: 292个样本

数据集创建

创建理由

数据集的创建旨在为豪萨语引入资源。

源数据

数据集基于新闻领域，从VOA Hausa新闻网站爬取。

标注

数据由Jesujoba Alabi和David Adelani标注，用于论文《Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages》。

使用数据的注意事项

社会影响

[待补充]

偏见讨论

[待补充]

其他已知限制

[待补充]

附加信息

数据集管理者

数据集由德国萨尔兰大学的学生开发。

许可证信息

数据集采用Creative Commons Attribution 4.0许可证。

引用信息

bibtex @inproceedings{hedderich-etal-2020-transfer, title = "Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on {A}frican Languages", author = "Hedderich, Michael A. and Adelani, David and Zhu, Dawei and Alabi, Jesujoba and Markus, Udia and Klakow, Dietrich", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.204", doi = "10.18653/v1/2020.emnlp-main.204", pages = "2580--2591", }

贡献

感谢@dadelani添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集