ajesujoba/yoruba_gv_ner
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ajesujoba/yoruba_gv_ner
下载链接
链接失效反馈官方服务:
资源简介:
Yoruba GV NER Corpus是一个用于约鲁巴语命名实体识别(NER)的数据集,基于Global Voices新闻语料库创建。Global Voices是一个多语言新闻平台,覆盖超过50种语言,大部分文本是从其他语言翻译成约鲁巴语的。该数据集的创建旨在为约鲁巴语引入资源,数据来源于Global Voices约鲁巴语新闻,由记者、翻译、博主和人权活动家贡献。数据集由Saarland大学的学生开发,遵循Creative Commons Attribution 3.0许可。
Yoruba GV NER Corpus是一个用于约鲁巴语命名实体识别(NER)的数据集,基于Global Voices新闻语料库创建。Global Voices是一个多语言新闻平台,覆盖超过50种语言,大部分文本是从其他语言翻译成约鲁巴语的。该数据集的创建旨在为约鲁巴语引入资源,数据来源于Global Voices约鲁巴语新闻,由记者、翻译、博主和人权活动家贡献。数据集由Saarland大学的学生开发,遵循Creative Commons Attribution 3.0许可。
提供机构:
ajesujoba
原始信息汇总
数据集概述
名称: Yoruba GV NER Corpus
语言: 约鲁巴语(Yorùbá)
许可: Creative Commons Attribution 3.0 (cc-by-3.0)
多语言性: 单语种
大小: 1K<n<10K
源数据: 原始数据
任务类别: 词元分类
任务ID: 命名实体识别(named-entity-recognition)
数据集结构
数据实例
每个数据点包含句子、分隔的空行以及制表符分隔的词元和标签。示例:
{id: 0, ner_tags: [B-LOC, 0, 0, 0, 0], tokens: [Tanzania, fi, Ajìjàgbara, Ọmọ, Orílẹ̀-èdèe] }
数据字段
id: 样本的IDtokens: 示例文本的词元ner_tags: 每个词元的NER标签
NER标签对应列表:
"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",
其中,B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和日期(DATE)。(O)表示不属于任何命名实体的词元。
数据分割
- 训练集: 817个样本,358885字节
- 验证集: 117个样本,50161字节
- 测试集: 237个样本,96518字节
数据集创建
源数据
- 初始数据收集和规范化: 数据集基于新闻领域,从Global Voices Yorùbá新闻爬取。
- 源语言生产者: 数据由全球的记者、翻译、博客作者和维权人士贡献。大部分文本是从其他语言翻译成约鲁巴语。
注释
- 注释过程: 未详细说明
- 注释者: Jesujoba Alabi和David Adelani,注释工作基于论文《Massive vs. Curated Embeddings for Low-Resourced Languages: the case of Yorùbá and Twi》。
许可信息
数据集遵循Creative Commons Attribution 3.0许可。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



