ignatius/igbo_monolingual
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ignatius/igbo_monolingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个单语伊博语(Igbo)句子集合,包含多个配置,如BBC Igbo、Igbo Radio以及多个JW相关的文本。数据集主要用于文本生成和掩码语言建模任务。每个配置有不同的数据字段,例如标题、内容、日期等。数据集的规模从小于1K到1K-10K不等。数据集的创建、注释过程、个人和敏感信息等方面的详细信息尚未提供。
提供机构:
ignatius
原始信息汇总
数据集概述
名称: Igbo Monolingual Dataset
语言: Igbo (ig)
许可证: unknown
多语言性: monolingual
大小类别:
- 1K<n<10K
- n<1K
任务类别:
- text-generation
- fill-mask
任务ID:
- language-modeling
- masked-language-modeling
数据集结构
数据实例
- eze_goes_to_school: 包含格式、标题、章节(标题和内容)。
- bbc-igbo: 包含来源、标题、描述、日期、头条、内容、标签。
- igbo-radio: 包含来源、头条、作者、日期、描述、内容。
- jw-ot-igbo, jw-nt-igbo: 包含格式、标题、章节(标题和内容)。
- jw-books, jw-teta, jw-ulo_nche, jw-ulo_nche_naamu: 包含标题、内容、格式、日期。
数据字段
- eze_goes_to_school:
- format: string
- title: string
- chapters: sequence of title (string) and content (string)
- bbc-igbo:
- source: string
- title: string
- description: string
- date: string
- headline: string
- content: string
- tags: sequence of string
- igbo-radio:
- source: string
- headline: string
- author: string
- date: string
- description: string
- content: string
- jw-ot-igbo, jw-nt-igbo:
- format: string
- title: string
- chapters: sequence of title (string) and content (string)
- jw-books, jw-teta, jw-ulo_nche, jw-ulo_nche_naamu:
- title: string
- content: string
- format: string
- date: string
数据分割
| 配置名称 | 训练样本数 |
|---|---|
| bbc-igbo | 1297 |
| eze_goes_to_school | 1 |
| igbo-radio | 440 |
| jw-books | 48 |
| jw-nt-igbo | 27 |
| jw-ot-igbo | 39 |
| jw-teta | 37 |
| jw-ulo_nche | 55 |
| jw-ulo_nche_naamu | 88 |



