community-datasets/um005
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/um005
下载链接
链接失效反馈官方服务:
资源简介:
UMC005 English-Urdu数据集是一个包含英语和乌尔都语双语翻译的数据集。数据集分为三个配置:all、bible和quran,每个配置都包含训练、验证和测试集。数据集的详细信息如数据实例、字段和分割等未在README中详细说明。
The UMC005 English-Urdu dataset is a bilingual translation dataset containing English and Urdu. The dataset is divided into three configurations: all, bible, and quran, each containing training, validation, and test sets. Detailed information such as data instances, fields, and splits is not specified in the README.
提供机构:
community-datasets
原始信息汇总
数据集卡片 UMC005 English-Urdu
数据集描述
数据集概要
UMC005 English-Urdu 数据集是一个多语言翻译数据集,包含英语和乌尔都语的翻译文本。数据集分为三个配置:bible、quran 和 all。
支持的任务和排行榜
该数据集主要支持翻译任务。
语言
数据集包含英语(en)和乌尔都语(ur)两种语言。
数据集结构
数据实例
数据集包含以下配置:
-
bible
- 特征:
- id: 字符串类型
- translation: 翻译特征,包含 ur 和 en 两种语言
- 数据分割:
- train: 7400 个样本,2350730 字节
- validation: 300 个样本,113476 字节
- test: 257 个样本,104678 字节
- 下载大小:3683565 字节
- 数据集大小:2568884 字节
- 特征:
-
quran
- 特征:
- id: 字符串类型
- translation: 翻译特征,包含 ur 和 en 两种语言
- 数据分割:
- train: 6000 个样本,2929711 字节
- validation: 214 个样本,43499 字节
- test: 200 个样本,44413 字节
- 下载大小:3683565 字节
- 数据集大小:3017623 字节
- 特征:
-
all
- 特征:
- id: 字符串类型
- translation: 翻译特征,包含 ur 和 en 两种语言
- 数据分割:
- train: 13400 个样本,5280441 字节
- validation: 514 个样本,156963 字节
- test: 457 个样本,149079 字节
- 下载大小:3683565 字节
- 数据集大小:5586483 字节
- 特征:
数据字段
每个样本包含以下字段:
- id: 字符串类型
- translation: 翻译特征,包含 ur 和 en 两种语言
数据分割
数据集分为训练集、验证集和测试集,具体样本数量和字节数如上所述。



