community-datasets/um005

Name: community-datasets/um005
Creator: community-datasets
Published: 2024-06-26 09:05:47
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/um005

下载链接

链接失效反馈

官方服务：

资源简介：

UMC005 English-Urdu数据集是一个包含英语和乌尔都语双语翻译的数据集。数据集分为三个配置：all、bible和quran，每个配置都包含训练、验证和测试集。数据集的详细信息如数据实例、字段和分割等未在README中详细说明。

The UMC005 English-Urdu dataset is a bilingual translation dataset containing English and Urdu. The dataset is divided into three configurations: all, bible, and quran, each containing training, validation, and test sets. Detailed information such as data instances, fields, and splits is not specified in the README.

提供机构：

community-datasets

原始信息汇总

数据集卡片 UMC005 English-Urdu

数据集描述

数据集概要

UMC005 English-Urdu 数据集是一个多语言翻译数据集，包含英语和乌尔都语的翻译文本。数据集分为三个配置：bible、quran 和 all。

支持的任务和排行榜

该数据集主要支持翻译任务。

语言

数据集包含英语（en）和乌尔都语（ur）两种语言。

数据集结构

数据实例

数据集包含以下配置：

bible
- 特征：
  - id: 字符串类型
  - translation: 翻译特征，包含 ur 和 en 两种语言
- 数据分割：
  - train: 7400 个样本，2350730 字节
  - validation: 300 个样本，113476 字节
  - test: 257 个样本，104678 字节
- 下载大小：3683565 字节
- 数据集大小：2568884 字节
quran
- 特征：
  - id: 字符串类型
  - translation: 翻译特征，包含 ur 和 en 两种语言
- 数据分割：
  - train: 6000 个样本，2929711 字节
  - validation: 214 个样本，43499 字节
  - test: 200 个样本，44413 字节
- 下载大小：3683565 字节
- 数据集大小：3017623 字节
all
- 特征：
  - id: 字符串类型
  - translation: 翻译特征，包含 ur 和 en 两种语言
- 数据分割：
  - train: 13400 个样本，5280441 字节
  - validation: 514 个样本，156963 字节
  - test: 457 个样本，149079 字节
- 下载大小：3683565 字节
- 数据集大小：5586483 字节

数据字段

每个样本包含以下字段：

id: 字符串类型
translation: 翻译特征，包含 ur 和 en 两种语言

数据分割

数据集分为训练集、验证集和测试集，具体样本数量和字节数如上所述。

5,000+

优质数据集

54 个

任务类型

进入经典数据集