five

ajesujoba/yoruba_gv_ner

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ajesujoba/yoruba_gv_ner
下载链接
链接失效反馈
官方服务:
资源简介:
Yoruba GV NER Corpus是一个用于约鲁巴语命名实体识别(NER)的数据集,基于Global Voices新闻语料库创建。Global Voices是一个多语言新闻平台,覆盖超过50种语言,大部分文本是从其他语言翻译成约鲁巴语的。该数据集的创建旨在为约鲁巴语引入资源,数据来源于Global Voices约鲁巴语新闻,由记者、翻译、博主和人权活动家贡献。数据集由Saarland大学的学生开发,遵循Creative Commons Attribution 3.0许可。

Yoruba GV NER Corpus是一个用于约鲁巴语命名实体识别(NER)的数据集,基于Global Voices新闻语料库创建。Global Voices是一个多语言新闻平台,覆盖超过50种语言,大部分文本是从其他语言翻译成约鲁巴语的。该数据集的创建旨在为约鲁巴语引入资源,数据来源于Global Voices约鲁巴语新闻,由记者、翻译、博主和人权活动家贡献。数据集由Saarland大学的学生开发,遵循Creative Commons Attribution 3.0许可。
提供机构:
ajesujoba
原始信息汇总

数据集概述

名称: Yoruba GV NER Corpus

语言: 约鲁巴语(Yorùbá)

许可: Creative Commons Attribution 3.0 (cc-by-3.0)

多语言性: 单语种

大小: 1K<n<10K

源数据: 原始数据

任务类别: 词元分类

任务ID: 命名实体识别(named-entity-recognition)

数据集结构

数据实例

每个数据点包含句子、分隔的空行以及制表符分隔的词元和标签。示例:

{id: 0, ner_tags: [B-LOC, 0, 0, 0, 0], tokens: [Tanzania, fi, Ajìjàgbara, Ọmọ, Orílẹ̀-èdèe] }

数据字段

  • id: 样本的ID
  • tokens: 示例文本的词元
  • ner_tags: 每个词元的NER标签

NER标签对应列表:

"O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-DATE", "I-DATE",

其中,B表示短语的第一个词,I表示非初始词。短语类型包括人名(PER)、组织(ORG)、地点(LOC)和日期(DATE)。(O)表示不属于任何命名实体的词元。

数据分割

  • 训练集: 817个样本,358885字节
  • 验证集: 117个样本,50161字节
  • 测试集: 237个样本,96518字节

数据集创建

源数据

  • 初始数据收集和规范化: 数据集基于新闻领域,从Global Voices Yorùbá新闻爬取。
  • 源语言生产者: 数据由全球的记者、翻译、博客作者和维权人士贡献。大部分文本是从其他语言翻译成约鲁巴语。

注释

  • 注释过程: 未详细说明
  • 注释者: Jesujoba Alabi和David Adelani,注释工作基于论文《Massive vs. Curated Embeddings for Low-Resourced Languages: the case of Yorùbá and Twi》。

许可信息

数据集遵循Creative Commons Attribution 3.0许可。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作