five

ignatius/igbo_monolingual

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ignatius/igbo_monolingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个单语伊博语(Igbo)句子集合,包含多个配置,如BBC Igbo、Igbo Radio以及多个JW相关的文本。数据集主要用于文本生成和掩码语言建模任务。每个配置有不同的数据字段,例如标题、内容、日期等。数据集的规模从小于1K到1K-10K不等。数据集的创建、注释过程、个人和敏感信息等方面的详细信息尚未提供。
提供机构:
ignatius
原始信息汇总

数据集概述

名称: Igbo Monolingual Dataset

语言: Igbo (ig)

许可证: unknown

多语言性: monolingual

大小类别:

  • 1K<n<10K
  • n<1K

任务类别:

  • text-generation
  • fill-mask

任务ID:

  • language-modeling
  • masked-language-modeling

数据集结构

数据实例

  • eze_goes_to_school: 包含格式、标题、章节(标题和内容)。
  • bbc-igbo: 包含来源、标题、描述、日期、头条、内容、标签。
  • igbo-radio: 包含来源、头条、作者、日期、描述、内容。
  • jw-ot-igbo, jw-nt-igbo: 包含格式、标题、章节(标题和内容)。
  • jw-books, jw-teta, jw-ulo_nche, jw-ulo_nche_naamu: 包含标题、内容、格式、日期。

数据字段

  • eze_goes_to_school:
    • format: string
    • title: string
    • chapters: sequence of title (string) and content (string)
  • bbc-igbo:
    • source: string
    • title: string
    • description: string
    • date: string
    • headline: string
    • content: string
    • tags: sequence of string
  • igbo-radio:
    • source: string
    • headline: string
    • author: string
    • date: string
    • description: string
    • content: string
  • jw-ot-igbo, jw-nt-igbo:
    • format: string
    • title: string
    • chapters: sequence of title (string) and content (string)
  • jw-books, jw-teta, jw-ulo_nche, jw-ulo_nche_naamu:
    • title: string
    • content: string
    • format: string
    • date: string

数据分割

配置名称 训练样本数
bbc-igbo 1297
eze_goes_to_school 1
igbo-radio 440
jw-books 48
jw-nt-igbo 27
jw-ot-igbo 39
jw-teta 37
jw-ulo_nche 55
jw-ulo_nche_naamu 88
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作