albertvillanova/mtet
收藏Hugging Face2022-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/albertvillanova/mtet
下载链接
链接失效反馈官方服务:
资源简介:
MTet(多领域英语-越南语翻译)数据集包含大约420万条英语-越南语平行文本,涵盖了多个不同领域,如医学出版物、宗教文本、工程文章、文学、新闻和诗歌。该数据集扩展了之前的SAT(风格增强翻译)数据集(v1.0),增加了更多高质量的英语-越南语句对,覆盖了更多领域。数据集主要用于机器翻译任务,语言为越南语(`vi`)和英语(`en`)。数据集的许可证为CC BY-NC-SA 4.0,允许非商业用途的共享和改编,但需署名并保持相同许可证。
提供机构:
albertvillanova
原始信息汇总
数据集概述
数据集名称
- 名称: MTet
- 全称: Multi-domain Translation for English-Vietnamese
数据集描述
- 概述: MTet 数据集包含约4.2百万对英语-越南语平行文本,涵盖医疗出版物、宗教文本、工程文章、文学、新闻和诗歌等多个领域。
- 扩展说明: 此数据集是对先前的SAT (Style Augmented Translation) 数据集(v1.0)的扩展,增加了更多高质量的英语-越南语句子对。
支持的任务
- 任务: 机器翻译
语言信息
- 语言:
- 英语 (
en) - 越南语 (
vi)
- 英语 (
数据集结构
-
数据实例示例: json { translation: { en: He said that existing restrictions would henceforth be legally enforceable, and violators would be fined., vi: Ông nói những biện pháp hạn chế hiện tại sẽ được nâng lên thành quy định pháp luật, và những ai vi phạm sẽ chịu phạt. } }
-
数据字段:
translation:en: 英语平行文本。vi: 越南语平行文本。
-
数据分割:
- 分割类型: 训练集
- 示例数量: 4163853
数据集创建
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 引用信息: bibtex @article{mTet2022, author = {Chinh Ngo, Hieu Tran, Long Phan, Trieu H. Trinh, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong}, title = {MTet: Multi-domain Translation for English and Vietnamese}, journal = {https://github.com/vietai/mTet}, year = {2022}, }
贡献者
- 贡献者: @albertvillanova
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



