hiimbach/mtet

Name: hiimbach/mtet
Creator: hiimbach
Published: 2024-06-19 03:10:41
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hiimbach/mtet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于翻译任务的双语数据集，包含英语和越南语的句子对。数据集是从另一个数据集克隆而来，并进行了样本增强，以支持英越和越英双向翻译。然而，该数据集仅保留了英越翻译的样本，并去除了重复项。原始版本属于VietAI，但目前无法访问。数据集包含训练集和测试集，训练集有3,750,006个样本，测试集有416,668个样本。

提供机构：

hiimbach

原始信息汇总

数据集概述

任务类别

翻译

语言

英语（en）
越南语（vi）

数据集大小

1M<n<10M

数据集来源与处理

该数据集是从另一个数据集克隆而来，原始数据集链接为https://huggingface.co/datasets/phongmt184172/mtet。
原始数据集样本数量从约4.2M增加到约8.3M，支持英-越和越-英双向翻译。
本数据集仅关注英-越翻译，因此移除了重复样本。

原始数据集归属

原始数据集属于VietAI，其GitHub仓库链接为https://github.com/vietai/mTet。