UdS-LSV/hausa_voa_ner
收藏Hausa VOA NER Corpus 数据集概述
数据集描述
- 数据集名称: Hausa VOA NER Corpus
- 数据集类型: 命名实体识别(NER)
- 语言: 豪萨语(Hausa)
- 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
数据集结构
数据实例
数据点由空行分隔的句子组成,每个句子包含制表符分隔的词和标签。
示例: json { "id": "0", "ner_tags": ["B-PER", "O", "O", "B-LOC", "O"], "tokens": ["Trump", "ya", "ce", "Rasha", "ma"] }
数据字段
id: 样本的IDtokens: 样本的词ner_tags: 每个词的NER标签
NER标签对应以下列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE"
标签格式与CoNLL共享任务相同:B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和日期与时间(DATE)。O表示不属于任何命名实体的词。
数据分割
- 训练集: 1015个样本
- 验证集: 146个样本
- 测试集: 292个样本
数据集创建
创建理由
数据集的创建旨在为豪萨语引入资源。
源数据
数据集基于新闻领域,从VOA Hausa新闻网站爬取。
标注
数据由Jesujoba Alabi和David Adelani标注,用于论文《Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on African Languages》。
使用数据的注意事项
社会影响
[待补充]
偏见讨论
[待补充]
其他已知限制
[待补充]
附加信息
数据集管理者
数据集由德国萨尔兰大学的学生开发。
许可证信息
数据集采用Creative Commons Attribution 4.0许可证。
引用信息
bibtex @inproceedings{hedderich-etal-2020-transfer, title = "Transfer Learning and Distant Supervision for Multilingual Transformer Models: A Study on {A}frican Languages", author = "Hedderich, Michael A. and Adelani, David and Zhu, Dawei and Alabi, Jesujoba and Markus, Udia and Klakow, Dietrich", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.204", doi = "10.18653/v1/2020.emnlp-main.204", pages = "2580--2591", }
贡献
感谢@dadelani添加此数据集。



