five

hiimbach/mtet

收藏
Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hiimbach/mtet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于翻译任务的双语数据集,包含英语和越南语的句子对。数据集是从另一个数据集克隆而来,并进行了样本增强,以支持英越和越英双向翻译。然而,该数据集仅保留了英越翻译的样本,并去除了重复项。原始版本属于VietAI,但目前无法访问。数据集包含训练集和测试集,训练集有3,750,006个样本,测试集有416,668个样本。

该数据集是一个用于翻译任务的双语数据集,包含英语和越南语的句子对。数据集是从另一个数据集克隆而来,并进行了样本增强,以支持英越和越英双向翻译。然而,该数据集仅保留了英越翻译的样本,并去除了重复项。原始版本属于VietAI,但目前无法访问。数据集包含训练集和测试集,训练集有3,750,006个样本,测试集有416,668个样本。
提供机构:
hiimbach
原始信息汇总

数据集概述

任务类别

  • 翻译

语言

  • 英语(en)
  • 越南语(vi)

数据集大小

  • 1M<n<10M

数据集来源与处理

  • 该数据集是从另一个数据集克隆而来,原始数据集链接为https://huggingface.co/datasets/phongmt184172/mtet
  • 原始数据集样本数量从约4.2M增加到约8.3M,支持英-越和越-英双向翻译。
  • 本数据集仅关注英-越翻译,因此移除了重复样本。

原始数据集归属

相关文献

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作