ncduy/mt-en-vi
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ncduy/mt-en-vi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于机器翻译任务的英越配对句子数据集,包含英语和越南语的句子对。数据来源包括OpenSubtitles、Tatoeba、OPUS TED Talks、QED Amara和OPUS Wikipedia等多个公开资源。数据集的大小在1M到10M之间,支持的任务是条件文本生成,具体任务是机器翻译。数据集的格式包括英语句子、越南语句子和数据来源字段。数据集被划分为训练集、验证集和测试集,具体数量分别为2884451、11316和11225。
This dataset is an English-Vietnamese sentence pair dataset for machine translation tasks, containing paired English and Vietnamese sentences. Its data sources cover multiple public resources including OpenSubtitles, Tatoeba, OPUS TED Talks, QED Amara, OPUS Wikipedia and others. The dataset size ranges from 1 million to 10 million. The supported task is conditional text generation, with the specific target task being machine translation. The dataset consists of three fields: English sentence, Vietnamese sentence, and data source. It is split into training, validation and test sets, with the respective sample counts being 2,884,451, 11,316 and 11,225.
提供机构:
ncduy
原始信息汇总
数据集概述
数据集名称
- 名称: Machine Translation Paired English-Vietnamese Sentences
数据集摘要
- 摘要: 该数据集包含英语和越南语的配对句子,用于机器翻译任务。
语言
- 语言: 英语(en)和越南语(vi)
许可证
- 许可证: MIT
多语言性
- 多语言性: 翻译
数据集大小
- 大小: 1M<n<10M
数据集来源
- 来源: 自建、开放字幕、tatoeba、opus_tedtalks、qed_amara、opus_wikipedia
任务类别
- 任务类别: 条件文本生成
任务ID
- 任务ID: 机器翻译
数据集结构
数据实例
-
实例示例:
{ en: And what I think the world needs now is more connections., vi: Và tôi nghĩ điều thế giới đang cần bây giờ là nhiều sự kết nối hơn., source: TED2020 v1 }
数据字段
- 字段:
en(str): 英语句子vi(str): 越南语句子source(str): 来源
数据分割
-
分割: 训练、验证和测试
-
分割详情:
Tain Validation Test Number of examples 2884451 11316 11225
数据集创建
数据集贡献者
- 贡献者: @ncduy0303



