Tommy0201/WebScraped_Igbo_To_Eng
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Tommy0201/WebScraped_Igbo_To_Eng
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于BBC Igbo、Igbo.gov和Ted Talk Igbo,用于训练的数据集包含106693个句子,5008个句子和175个句子。评估和测试数据集来自flores-200。数据集包含两个特征:igbo和english,均为字符串类型。数据集分为训练集、评估集和测试集,分别包含111876、997和1012个例子。数据集主要用于翻译任务,支持伊博语(ig)和英语(en)。数据集大小类别为100K<n<1M。
The dataset is sourced from multiple resources including BBC Igbo, Igbo.gov, and Ted Talk Igbo, with training datasets containing 106693 sentences, 5008 sentences, and 175 sentences respectively. The evaluation and test datasets are from flores-200. The dataset includes two features: igbo and english, both of string type. The dataset is divided into training, evaluation, and test sets, containing 111876, 997, and 1012 examples respectively. The dataset is primarily used for translation tasks, supporting Igbo (ig) and English (en). The size category of the dataset is 100K<n<1M.
提供机构:
Tommy0201
原始信息汇总
数据集概述
数据来源
- 训练数据集:
- BBC Igbo (106693 句子)
- Igbo.gov (5008 句子)
- Ted Talk Igbo (175 句子)
- 评估和测试数据集:
- flores-200
数据特征
- 名称: igbo
- 数据类型: string
- 名称: english
- 数据类型: string
数据分割
- 训练集 (train)
- 字节数: 25663786
- 样本数: 111876
- 评估集 (eval)
- 字节数: 285029
- 样本数: 997
- 测试集 (test)
- 字节数: 303236
- 样本数: 1012
数据大小
- 下载大小: 16633767
- 数据集总大小: 26252051
配置
- 配置名称: default
- 数据文件路径:
- 训练集: data/train-*
- 评估集: data/eval-*
- 测试集: data/test-*
- 数据文件路径:
任务类别
- 翻译
语言
- ig
- en
数据集规模
- 100K<n<1M



