cartesinus/iva_mt_wslot-exp
收藏Hugging Face2023-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cartesinus/iva_mt_wslot-exp
下载链接
链接失效反馈官方服务:
资源简介:
IVA_MT是一个用于机器翻译的数据集,特别适用于虚拟助手的自然语言理解(NLU)场景中的训练、适应和评估。该数据集包含多种语言的翻译对,如英语-波兰语、英语-德语、英语-西班牙语和英语-瑞典语。数据集的构成部分来自多个公开的语料库,如Massive 1.1、Leyzer 0.2.0、OpenSubtitles、KDE、CCMatrix、Ubuntu和Gnome。数据集的特征包括ID、语言环境、来源、分区、翻译文本、翻译XML、源生物信息(src_bio)和目标生物信息(tgt_bio)。数据集的大小类别为10K到100K之间,许可证为CC-BY 4.0。
IVA_MT是一个用于机器翻译的数据集,特别适用于虚拟助手的自然语言理解(NLU)场景中的训练、适应和评估。该数据集包含多种语言的翻译对,如英语-波兰语、英语-德语、英语-西班牙语和英语-瑞典语。数据集的构成部分来自多个公开的语料库,如Massive 1.1、Leyzer 0.2.0、OpenSubtitles、KDE、CCMatrix、Ubuntu和Gnome。数据集的特征包括ID、语言环境、来源、分区、翻译文本、翻译XML、源生物信息(src_bio)和目标生物信息(tgt_bio)。数据集的大小类别为10K到100K之间,许可证为CC-BY 4.0。
提供机构:
cartesinus
原始信息汇总
数据集概述
- 名称: Machine translation dataset for NLU (Virtual Assistant) with slot transfer between languages
- 任务类别: 翻译
- 语言: 英语 (en), 波兰语 (pl), 德语 (de), 西班牙语 (es), 瑞典语 (sv)
- 标签: 机器翻译, 自然语言理解, 虚拟助手
- 美观名称: Machine translation for NLU with slot transfer
- 大小类别: 10K<n<100K
- 许可证: CC-BY-4.0
数据集组成
-
en-pl 语言对:
- 训练集: 20362条记录
- 开发集: 3681条记录
- 测试集: 5394条记录
- 来源:
- Massive 1.1: 11514条记录
- Leyzer 0.2.0: 3974条记录
- OpenSubtitles from OPUS: 2329条记录
- KDE from OPUS: 1154条记录
- CCMatrix from Opus: 1096条记录
- Ubuntu from OPUS: 281条记录
- Gnome from OPUS: 14条记录
-
en-de 语言对:
- 训练集: 7536条记录
- 开发集: 1346条记录
- 测试集: 1955条记录
- 来源: Massive 1.1
-
en-es 语言对:
- 训练集: 8415条记录
- 开发集: 1526条记录
- 测试集: 2202条记录
- 来源: Massive 1.1
-
en-sv 语言对:
- 训练集: 7540条记录
- 开发集: 1360条记录
- 测试集: 1921条记录
- 来源: Massive 1.1
许可证信息
- MASSIVE: CC-BY 4.0
- Leyzer: CC BY-NC 4.0
- OpenSubtitles: 未知
- KDE: GNU Public License
- CCMatrix: 未提供,假设为LASER项目许可证 BSD
- Ubuntu: GNU Public License
- Gnome: 未知



