ajesujoba/yoruba_gv_ner

Name: ajesujoba/yoruba_gv_ner
Creator: ajesujoba
Published: 2024-01-18 11:18:53
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ajesujoba/yoruba_gv_ner

下载链接

链接失效反馈

官方服务：

资源简介：

Yoruba GV NER Corpus是一个用于约鲁巴语命名实体识别（NER）的数据集，基于Global Voices新闻语料库创建。Global Voices是一个多语言新闻平台，覆盖超过50种语言，大部分文本是从其他语言翻译成约鲁巴语的。该数据集的创建旨在为约鲁巴语引入资源，数据来源于Global Voices约鲁巴语新闻，由记者、翻译、博主和人权活动家贡献。数据集由Saarland大学的学生开发，遵循Creative Commons Attribution 3.0许可。

提供机构：

ajesujoba

原始信息汇总

数据集概述

名称: Yoruba GV NER Corpus

语言: 约鲁巴语（Yorùbá）

许可: Creative Commons Attribution 3.0 (cc-by-3.0)

多语言性: 单语种

大小: 1K<n<10K

源数据: 原始数据

任务类别: 词元分类

任务ID: 命名实体识别（named-entity-recognition）

数据集结构

数据实例

每个数据点包含句子、分隔的空行以及制表符分隔的词元和标签。示例：

{id: 0, ner_tags: [B-LOC, 0, 0, 0, 0], tokens: [Tanzania, fi, Ajìjàgbara, Ọmọ, Orílẹ̀-èdèe] }

数据字段

id: 样本的ID
tokens: 示例文本的词元
ner_tags: 每个词元的NER标签

NER标签对应列表：

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

其中，B表示短语的第一个词，I表示非初始词。短语类型包括人名（PER）、组织（ORG）、地点（LOC）和日期（DATE）。(O)表示不属于任何命名实体的词元。

数据分割

训练集: 817个样本，358885字节
验证集: 117个样本，50161字节
测试集: 237个样本，96518字节

数据集创建

源数据

初始数据收集和规范化: 数据集基于新闻领域，从Global Voices Yorùbá新闻爬取。
源语言生产者: 数据由全球的记者、翻译、博客作者和维权人士贡献。大部分文本是从其他语言翻译成约鲁巴语。

注释

注释过程: 未详细说明
注释者: Jesujoba Alabi和David Adelani，注释工作基于论文《Massive vs. Curated Embeddings for Low-Resourced Languages: the case of Yorùbá and Twi》。

许可信息

数据集遵循Creative Commons Attribution 3.0许可。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集