HaiderSultanArc/MT-Urdu-English
收藏Hugging Face2023-11-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HaiderSultanArc/MT-Urdu-English
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含英语和乌尔都语的文本对,主要用于机器翻译任务。数据集分为训练集和测试集,训练集包含5646138个样本,测试集包含1411535个样本。数据集的总大小为1401926035字节,下载大小为873598433字节。
提供机构:
HaiderSultanArc
原始信息汇总
数据集概述
许可证
- MIT许可证
配置
- 默认配置
- 数据文件
- 训练集:
data/train-* - 测试集:
data/test-*
- 训练集:
- 数据文件
数据集信息
- 特征
- 英文 (
en): 字符串类型 - 乌尔都语 (
ur): 字符串类型
- 英文 (
- 拆分
- 训练集
- 字节数: 1121540748.544574
- 样本数: 5646138
- 测试集
- 字节数: 280385286.4554259
- 样本数: 1411535
- 训练集
- 下载大小: 873598433
- 数据集大小: 1401926035
任务类别
- 翻译
- 文本到文本生成
语言
- 英文
- 乌尔都语
数据集名称
- English Urdu Pairs for Machine Translation
数据集大小类别
- 1M<n<10M



