five

ncduy/mt-en-vi

收藏
Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ncduy/mt-en-vi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于机器翻译任务的英越配对句子数据集,包含英语和越南语的句子对。数据来源包括OpenSubtitles、Tatoeba、OPUS TED Talks、QED Amara和OPUS Wikipedia等多个公开资源。数据集的大小在1M到10M之间,支持的任务是条件文本生成,具体任务是机器翻译。数据集的格式包括英语句子、越南语句子和数据来源字段。数据集被划分为训练集、验证集和测试集,具体数量分别为2884451、11316和11225。

This dataset is an English-Vietnamese sentence pair dataset for machine translation tasks, containing paired English and Vietnamese sentences. Its data sources cover multiple public resources including OpenSubtitles, Tatoeba, OPUS TED Talks, QED Amara, OPUS Wikipedia and others. The dataset size ranges from 1 million to 10 million. The supported task is conditional text generation, with the specific target task being machine translation. The dataset consists of three fields: English sentence, Vietnamese sentence, and data source. It is split into training, validation and test sets, with the respective sample counts being 2,884,451, 11,316 and 11,225.
提供机构:
ncduy
原始信息汇总

数据集概述

数据集名称

  • 名称: Machine Translation Paired English-Vietnamese Sentences

数据集摘要

  • 摘要: 该数据集包含英语和越南语的配对句子,用于机器翻译任务。

语言

  • 语言: 英语(en)和越南语(vi)

许可证

  • 许可证: MIT

多语言性

  • 多语言性: 翻译

数据集大小

  • 大小: 1M<n<10M

数据集来源

  • 来源: 自建、开放字幕、tatoeba、opus_tedtalks、qed_amara、opus_wikipedia

任务类别

  • 任务类别: 条件文本生成

任务ID

  • 任务ID: 机器翻译

数据集结构

数据实例

  • 实例示例:

    { en: And what I think the world needs now is more connections., vi: Và tôi nghĩ điều thế giới đang cần bây giờ là nhiều sự kết nối hơn., source: TED2020 v1 }

数据字段

  • 字段:
    • en (str): 英语句子
    • vi (str): 越南语句子
    • source (str): 来源

数据分割

  • 分割: 训练、验证和测试

  • 分割详情:

    Tain Validation Test
    Number of examples 2884451 11316 11225

数据集创建

数据集贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作