five

albertvillanova/mtet

收藏
Hugging Face2022-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/albertvillanova/mtet
下载链接
链接失效反馈
官方服务:
资源简介:
MTet(多领域英语-越南语翻译)数据集包含大约420万条英语-越南语平行文本,涵盖了多个不同领域,如医学出版物、宗教文本、工程文章、文学、新闻和诗歌。该数据集扩展了之前的SAT(风格增强翻译)数据集(v1.0),增加了更多高质量的英语-越南语句对,覆盖了更多领域。数据集主要用于机器翻译任务,语言为越南语(`vi`)和英语(`en`)。数据集的许可证为CC BY-NC-SA 4.0,允许非商业用途的共享和改编,但需署名并保持相同许可证。
提供机构:
albertvillanova
原始信息汇总

数据集概述

数据集名称

  • 名称: MTet
  • 全称: Multi-domain Translation for English-Vietnamese

数据集描述

  • 概述: MTet 数据集包含约4.2百万对英语-越南语平行文本,涵盖医疗出版物、宗教文本、工程文章、文学、新闻和诗歌等多个领域。
  • 扩展说明: 此数据集是对先前的SAT (Style Augmented Translation) 数据集(v1.0)的扩展,增加了更多高质量的英语-越南语句子对。

支持的任务

  • 任务: 机器翻译

语言信息

  • 语言:
    • 英语 (en)
    • 越南语 (vi)

数据集结构

  • 数据实例示例: json { translation: { en: He said that existing restrictions would henceforth be legally enforceable, and violators would be fined., vi: Ông nói những biện pháp hạn chế hiện tại sẽ được nâng lên thành quy định pháp luật, và những ai vi phạm sẽ chịu phạt. } }

  • 数据字段:

    • translation:
      • en: 英语平行文本。
      • vi: 越南语平行文本。
  • 数据分割:

    • 分割类型: 训练集
    • 示例数量: 4163853

数据集创建

  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
  • 引用信息: bibtex @article{mTet2022, author = {Chinh Ngo, Hieu Tran, Long Phan, Trieu H. Trinh, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong}, title = {MTet: Multi-domain Translation for English and Vietnamese}, journal = {https://github.com/vietai/mTet}, year = {2022}, }

贡献者

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作