five

DS4H-ICTU/yat-ner-dataset

收藏
Hugging Face2026-02-10 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/DS4H-ICTU/yat-ner-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集支持**Yambeta(yat)**(一种在喀麦隆使用的低资源班图语)的命名实体识别(NER)任务。数据集来源于Yambeta圣经文本,并通过**基于词典的BIO标注流程**和Yambeta特定的WordPiece分词器进行了自动预标注。数据集包含PER(人物)、LOC(地点)、ORG(组织)三种实体类型,标注类型为银标(自动预标注)。数据集总共有7897个句子和250176个WordPiece分词。

This dataset supports Named Entity Recognition (NER) for **Yambeta (yat)**, a low-resource Bantu language spoken in Cameroon. The corpus is derived from Yambeta Bible text and **automatically pre-annotated** using a **gazetteer-driven BIO tagging pipeline** and a Yambeta-specific WordPiece tokenizer. The dataset includes three entity types: PER (person), LOC (location), and ORG (organization), with silver-standard (automatic pre-annotation) labels. The dataset contains 7897 sentences and 250176 WordPiece tokens.
提供机构:
DS4H-ICTU
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作