hiimbach/mtet
收藏Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hiimbach/mtet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于翻译任务的双语数据集,包含英语和越南语的句子对。数据集是从另一个数据集克隆而来,并进行了样本增强,以支持英越和越英双向翻译。然而,该数据集仅保留了英越翻译的样本,并去除了重复项。原始版本属于VietAI,但目前无法访问。数据集包含训练集和测试集,训练集有3,750,006个样本,测试集有416,668个样本。
该数据集是一个用于翻译任务的双语数据集,包含英语和越南语的句子对。数据集是从另一个数据集克隆而来,并进行了样本增强,以支持英越和越英双向翻译。然而,该数据集仅保留了英越翻译的样本,并去除了重复项。原始版本属于VietAI,但目前无法访问。数据集包含训练集和测试集,训练集有3,750,006个样本,测试集有416,668个样本。
提供机构:
hiimbach
原始信息汇总
数据集概述
任务类别
- 翻译
语言
- 英语(en)
- 越南语(vi)
数据集大小
- 1M<n<10M
数据集来源与处理
- 该数据集是从另一个数据集克隆而来,原始数据集链接为https://huggingface.co/datasets/phongmt184172/mtet。
- 原始数据集样本数量从约4.2M增加到约8.3M,支持英-越和越-英双向翻译。
- 本数据集仅关注英-越翻译,因此移除了重复样本。
原始数据集归属
- 原始数据集属于VietAI,其GitHub仓库链接为https://github.com/vietai/mTet。
相关文献
- 关于该数据集的详细信息,可参考论文https://arxiv.org/abs/2210.05610。



