five

UdS-LSV/hausa_voa_ner

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/UdS-LSV/hausa_voa_ner
下载链接
链接失效反馈
官方服务:
资源简介:
Hausa VOA NER Corpus是一个用于豪萨语命名实体识别(NER)的数据集,基于VOA Hausa新闻语料库。数据集包含训练、验证和测试三个部分,分别有1014、145和291个句子。数据集的标注由专家生成,支持的任务是命名实体识别。数据集的结构包括id、tokens和ner_tags三个字段,其中ner_tags遵循CoNLL共享任务的格式,标注了人名、组织、地点和日期等实体。
提供机构:
UdS-LSV
原始信息汇总

Hausa VOA NER Corpus 数据集概述

数据集描述

  • 数据集名称: Hausa VOA NER Corpus
  • 数据集类型: 命名实体识别(NER)
  • 语言: 豪萨语(Hausa)
  • 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据

数据集结构

数据实例

数据点由空行分隔的句子组成,每个句子包含制表符分隔的词和标签。

示例: json { "id": "0", "ner_tags": ["B-PER", "O", "O", "B-LOC", "O"], "tokens": ["Trump", "ya", "ce", "Rasha", "ma"] }

数据字段

  • id: 样本的ID
  • tokens: 样本的词
  • ner_tags: 每个词的NER标签

NER标签对应以下列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE"

标签格式与CoNLL共享任务相同:B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和日期与时间(DATE)。O表示不属于任何命名实体的词。

数据分割

  • 训练集: 1015个样本
  • 验证集: 146个样本
  • 测试集: 292个样本

数据集创建

创建理由

数据集的创建旨在为豪萨语引入资源。

源数据

数据集基于新闻领域,从VOA Hausa新闻网站爬取。

标注

数据由Jesujoba Alabi和David Adelani标注,用于论文《Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages》。

使用数据的注意事项

社会影响

[待补充]

偏见讨论

[待补充]

其他已知限制

[待补充]

附加信息

数据集管理者

数据集由德国萨尔兰大学的学生开发。

许可证信息

数据集采用Creative Commons Attribution 4.0许可证。

引用信息

bibtex @inproceedings{hedderich-etal-2020-transfer, title = "Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on {A}frican Languages", author = "Hedderich, Michael A. and Adelani, David and Zhu, Dawei and Alabi, Jesujoba and Markus, Udia and Klakow, Dietrich", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.204", doi = "10.18653/v1/2020.emnlp-main.204", pages = "2580--2591", }

贡献

感谢@dadelani添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作