five

community-datasets/um005

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/um005
下载链接
链接失效反馈
官方服务:
资源简介:
UMC005 English-Urdu数据集是一个包含英语和乌尔都语双语翻译的数据集。数据集分为三个配置:all、bible和quran,每个配置都包含训练、验证和测试集。数据集的详细信息如数据实例、字段和分割等未在README中详细说明。

The UMC005 English-Urdu dataset is a bilingual translation dataset containing English and Urdu. The dataset is divided into three configurations: all, bible, and quran, each containing training, validation, and test sets. Detailed information such as data instances, fields, and splits is not specified in the README.
提供机构:
community-datasets
原始信息汇总

数据集卡片 UMC005 English-Urdu

数据集描述

数据集概要

UMC005 English-Urdu 数据集是一个多语言翻译数据集,包含英语和乌尔都语的翻译文本。数据集分为三个配置:bible、quran 和 all。

支持的任务和排行榜

该数据集主要支持翻译任务。

语言

数据集包含英语(en)和乌尔都语(ur)两种语言。

数据集结构

数据实例

数据集包含以下配置:

  • bible

    • 特征:
      • id: 字符串类型
      • translation: 翻译特征,包含 ur 和 en 两种语言
    • 数据分割:
      • train: 7400 个样本,2350730 字节
      • validation: 300 个样本,113476 字节
      • test: 257 个样本,104678 字节
    • 下载大小:3683565 字节
    • 数据集大小:2568884 字节
  • quran

    • 特征:
      • id: 字符串类型
      • translation: 翻译特征,包含 ur 和 en 两种语言
    • 数据分割:
      • train: 6000 个样本,2929711 字节
      • validation: 214 个样本,43499 字节
      • test: 200 个样本,44413 字节
    • 下载大小:3683565 字节
    • 数据集大小:3017623 字节
  • all

    • 特征:
      • id: 字符串类型
      • translation: 翻译特征,包含 ur 和 en 两种语言
    • 数据分割:
      • train: 13400 个样本,5280441 字节
      • validation: 514 个样本,156963 字节
      • test: 457 个样本,149079 字节
    • 下载大小:3683565 字节
    • 数据集大小:5586483 字节

数据字段

每个样本包含以下字段:

  • id: 字符串类型
  • translation: 翻译特征,包含 ur 和 en 两种语言

数据分割

数据集分为训练集、验证集和测试集,具体样本数量和字节数如上所述。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作