five

cartesinus/iva_mt_wslot-exp

收藏
Hugging Face2023-04-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cartesinus/iva_mt_wslot-exp
下载链接
链接失效反馈
官方服务:
资源简介:
IVA_MT是一个用于机器翻译的数据集,特别适用于虚拟助手的自然语言理解(NLU)场景中的训练、适应和评估。该数据集包含多种语言的翻译对,如英语-波兰语、英语-德语、英语-西班牙语和英语-瑞典语。数据集的构成部分来自多个公开的语料库,如Massive 1.1、Leyzer 0.2.0、OpenSubtitles、KDE、CCMatrix、Ubuntu和Gnome。数据集的特征包括ID、语言环境、来源、分区、翻译文本、翻译XML、源生物信息(src_bio)和目标生物信息(tgt_bio)。数据集的大小类别为10K到100K之间,许可证为CC-BY 4.0。

IVA_MT是一个用于机器翻译的数据集,特别适用于虚拟助手的自然语言理解(NLU)场景中的训练、适应和评估。该数据集包含多种语言的翻译对,如英语-波兰语、英语-德语、英语-西班牙语和英语-瑞典语。数据集的构成部分来自多个公开的语料库,如Massive 1.1、Leyzer 0.2.0、OpenSubtitles、KDE、CCMatrix、Ubuntu和Gnome。数据集的特征包括ID、语言环境、来源、分区、翻译文本、翻译XML、源生物信息(src_bio)和目标生物信息(tgt_bio)。数据集的大小类别为10K到100K之间,许可证为CC-BY 4.0。
提供机构:
cartesinus
原始信息汇总

数据集概述

  • 名称: Machine translation dataset for NLU (Virtual Assistant) with slot transfer between languages
  • 任务类别: 翻译
  • 语言: 英语 (en), 波兰语 (pl), 德语 (de), 西班牙语 (es), 瑞典语 (sv)
  • 标签: 机器翻译, 自然语言理解, 虚拟助手
  • 美观名称: Machine translation for NLU with slot transfer
  • 大小类别: 10K<n<100K
  • 许可证: CC-BY-4.0

数据集组成

  • en-pl 语言对:

    • 训练集: 20362条记录
    • 开发集: 3681条记录
    • 测试集: 5394条记录
    • 来源:
      • Massive 1.1: 11514条记录
      • Leyzer 0.2.0: 3974条记录
      • OpenSubtitles from OPUS: 2329条记录
      • KDE from OPUS: 1154条记录
      • CCMatrix from Opus: 1096条记录
      • Ubuntu from OPUS: 281条记录
      • Gnome from OPUS: 14条记录
  • en-de 语言对:

    • 训练集: 7536条记录
    • 开发集: 1346条记录
    • 测试集: 1955条记录
    • 来源: Massive 1.1
  • en-es 语言对:

    • 训练集: 8415条记录
    • 开发集: 1526条记录
    • 测试集: 2202条记录
    • 来源: Massive 1.1
  • en-sv 语言对:

    • 训练集: 7540条记录
    • 开发集: 1360条记录
    • 测试集: 1921条记录
    • 来源: Massive 1.1

许可证信息

  • MASSIVE: CC-BY 4.0
  • Leyzer: CC BY-NC 4.0
  • OpenSubtitles: 未知
  • KDE: GNU Public License
  • CCMatrix: 未提供,假设为LASER项目许可证 BSD
  • Ubuntu: GNU Public License
  • Gnome: 未知
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作