cartesinus/iva_mt_wslot
收藏Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cartesinus/iva_mt_wslot
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: locale
dtype: string
- name: origin
dtype: string
- name: partition
dtype: string
- name: translation_utt
dtype:
translation:
languages:
- en
- pl
- name: translation_xml
dtype:
translation:
languages:
- en
- pl
- name: src_bio
dtype: string
- name: tgt_bio
dtype: string
splits:
- name: train
num_bytes: 6187206
num_examples: 20362
- name: validation
num_bytes: 1115480
num_examples: 3681
- name: test
num_bytes: 1587613
num_examples: 5394
download_size: 3851892
dataset_size: 8890299
task_categories:
- translation
language:
- en
- pl
- de
- es
- sv
- fr
- pt
tags:
- machine translation
- nlu
- natural-language-understanding
- virtual assistant
pretty_name: Machine translation for NLU with slot transfer
size_categories:
- 10K<n<100K
license: cc-by-4.0
---
# Machine translation dataset for NLU (Virual Assistant) with slot transfer between languages
version: 0.5.1
## Dataset Summary
Disclaimer: This is for research purposes only. Please have a look at the license section below. Some of the datasets used to construct IVA_MT have an unknown license.
IVA_MT is a machine translation dataset that can be used to train, adapt and evaluate MT models used in Virtual Assistant NLU context (e.g. to translate trainig corpus of NLU).
## Dataset Composition
### en-pl
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 11514 | 2033 | 2974 |
| [Leyzer 0.2.0](https://github.com/cartesinus/leyzer/tree/0.2.0) | 3974 | 701 | 1380 |
| [OpenSubtitles from OPUS](https://opus.nlpl.eu/OpenSubtitles-v1.php) | 2329 | 411 | 500 |
| [KDE from OPUS](https://opus.nlpl.eu/KDE4.php) | 1154 | 241 | 241 |
| [CCMatrix from Opus](https://opus.nlpl.eu/CCMatrix.php) | 1096 | 232 | 237 |
| [Ubuntu from OPUS](https://opus.nlpl.eu/Ubuntu.php) | 281 | 60 | 59 |
| [Gnome from OPUS](https://opus.nlpl.eu/GNOME.php) | 14 | 3 | 3 |
| *total* | 20362 | 3681 | 5394 |
### en-de
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 7536 | 1346 | 1955 |
### en-es
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 8415 | 1526 | 2202 |
### en-sv
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 7540 | 1360 | 1921 |
### en-fr
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 6800 | 1203 | 1757 |
### en-pt
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 7368 | 1296 | 1885 |
### en-hi
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 6702 | 1175 | 1747 |
### en-tr
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 8269 | 1474 | 2170 |
### en-ja
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 8066 | 1434 | 2085 |
### en-zh
| Corpus | Train | Dev | Test |
|----------------------------------------------------------------------|--------|-------|-------|
| [Massive 1.1](https://huggingface.co/datasets/AmazonScience/massive) | 8433 | 1513 | 2179 |
| ChatGPT | 1312 | 200 | 200 |
## Tools
Scripts used to generate this dataset can be found on [github](https://github.com/cartesinus/iva_mt).
## Citation
If you use this models please cite:
```
@article{Sowanski2023SlotLI,
title={Slot Lost in Translation? Not Anymore: A Machine Translation Model for Virtual Assistants with Type-Independent Slot Transfer},
author={Marcin Sowanski and Artur Janicki},
journal={2023 30th International Conference on Systems, Signals and Image Processing (IWSSIP)},
year={2023},
pages={1-5}
}
```
## License
This is a composition of 7 datasets, and the license is as defined in original release:
- MASSIVE: [CC-BY 4.0](https://huggingface.co/datasets/AmazonScience/massive/blob/main/LICENSE)
- Leyzer: [CC BY-NC 4.0](https://github.com/cartesinus/leyzer/blob/master/LICENSE)
- OpenSubtitles: unknown
- KDE: [GNU Public License](https://l10n.kde.org/about.php)
- CCMatrix: no license given, therefore assuming it is LASER project license [BSD](https://github.com/facebookresearch/LASER/blob/main/LICENSE)
- Ubuntu: [GNU Public License](https://help.launchpad.net/Legal)
- Gnome: unknown
提供机构:
cartesinus
原始信息汇总
数据集概述
数据集名称
- IVA_MT:Machine translation for NLU with slot transfer
数据集版本
- 版本:0.5.1
数据集特征
- id:字符串类型
- locale:字符串类型
- origin:字符串类型
- partition:字符串类型
- translation_utt:翻译特征,支持语言包括英语(en)和波兰语(pl)
- translation_xml:翻译特征,支持语言包括英语(en)和波兰语(pl)
- src_bio:字符串类型
- tgt_bio:字符串类型
数据集分割
- 训练集:20362个样本,6187206字节
- 验证集:3681个样本,1115480字节
- 测试集:5394个样本,1587613字节
数据集大小
- 下载大小:3851892字节
- 数据集大小:8890299字节
任务类别
- 翻译
支持语言
- 英语(en)
- 波兰语(pl)
- 德语(de)
- 西班牙语(es)
- 瑞典语(sv)
- 法语(fr)
- 葡萄牙语(pt)
数据集标签
- 机器翻译
- 自然语言理解
- 虚拟助手
数据集许可证
- 许可证:CC-BY-4.0
数据集组成
- en-pl:包含多个子数据集,总计20362个训练样本,3681个验证样本,5394个测试样本。
- 其他语言对:包括en-de, en-es, en-sv, en-fr, en-pt, en-hi, en-tr, en-ja, en-zh,每个语言对包含训练、验证和测试集。
数据集来源
- MASSIVE:CC-BY 4.0
- Leyzer:CC BY-NC 4.0
- OpenSubtitles:未知
- KDE:GNU Public License
- CCMatrix:无明确许可证,假设为LASER项目许可证BSD
- Ubuntu:GNU Public License
- Gnome:未知
数据集用途
- 研究目的:用于训练、适应和评估用于虚拟助手自然语言理解(NLU)上下文中的机器翻译模型。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,跨语言虚拟助手的发展对高质量机器翻译数据提出了迫切需求。IVA_MT数据集的构建采用了多源语料融合策略,以英语-波兰语对为核心,整合了来自Massive 1.1、Leyzer以及OPUS项目下OpenSubtitles、KDE、CCMatrix、Ubuntu和Gnome等七个异构数据源。通过严格的语料筛选与对齐流程,形成了包含训练集、验证集和测试集的标准化结构,其中英语-波兰语组合规模达两万余条,其他语言对则主要基于Massive数据集构建,确保了数据在虚拟助手场景下的语义一致性与结构完整性。
使用方法
研究者可借助该数据集开展多维度实验探索,既可用于训练端到端的神经机器翻译模型,也可通过XML结构化翻译与BIO标注研究跨语言槽位映射机制。在实际应用中,建议优先加载英语-波兰语完整数据以验证模型在复杂场景下的性能,其他语言对则可作为跨语言迁移学习的补充资源。数据集遵循标准HuggingFace接口规范,支持通过partition字段划分数据子集,结合translation_utt与translation_xml的并行标注,能够系统评估模型在自然语言理解任务中的跨语言迁移效果。
背景与挑战
背景概述
在自然语言处理领域,跨语言虚拟助手的发展对机器翻译技术提出了更高要求,特别是在自然语言理解任务中实现语义槽位的准确迁移。IVA_MT数据集由cartesinus团队于2023年构建,旨在解决虚拟助手场景下多语言NLU训练语料匮乏的难题。该数据集整合了MASSIVE、Leyzer、OPUS等多个权威语料库,覆盖英语与波兰语、德语、西班牙语等十种语言对的平行文本,并创新性地引入类型无关的语义槽位转移机制。其核心研究聚焦于如何通过机器翻译模型,在保持对话意图连贯性的同时,实现跨语言语义槽位的精准映射,为低资源语言的虚拟助手系统开发提供了关键数据支撑。
当前挑战
IVA_MT数据集面临的挑战主要体现在两方面:在领域问题层面,虚拟助手场景的机器翻译需克服对话语境中语义槽位的跨语言对齐难题,例如时间、地点等实体在不同语言中的表达差异易导致翻译模型产生语义偏差;同时,低资源语言对的槽位转移往往因训练数据稀疏而出现信息丢失现象。在构建过程中,数据集融合了多个异构来源的语料,其间的许可证兼容性与数据格式统一化耗费大量工程成本;部分原始数据如OpenSubtitles的许可状态不明,亦给学术合规使用带来潜在风险。此外,对话文本中口语化表达与正式书面语的混合特征,进一步增加了语义标注与跨语言映射的复杂度。
常用场景
经典使用场景
在自然语言处理领域,跨语言虚拟助手的发展面临语义槽位迁移的挑战。IVA_MT数据集专为机器翻译与自然语言理解融合场景设计,其经典使用场景在于训练多语言对话系统。该数据集整合了英语与波兰语等语言对的平行语料,并标注了源语言与目标语言的BIO序列标签,使模型能够同步学习翻译与语义槽位映射。研究者可基于此构建端到端神经网络,实现意图识别与槽位填充的跨语言迁移,为虚拟助手提供精准的多语言交互能力。
解决学术问题
跨语言自然语言理解中,语义槽位的迁移常因语言差异而丢失关键信息。IVA_MT数据集通过提供带槽位标注的翻译对,直接应对这一学术难题。它解决了低资源语言在虚拟助手场景下数据稀缺的问题,支持零样本或小样本的槽位迁移研究。该数据集的意义在于弥合机器翻译与语义解析之间的鸿沟,推动多语言NLU模型的统一框架发展,为跨语言对话系统的理论创新提供实证基础。
实际应用
在实际应用中,IVA_MT数据集赋能全球化企业的智能客服与虚拟助手部署。例如,跨国公司可利用该数据集训练多语言对话引擎,使英语训练的语义理解模型快速适配波兰语、德语等语言,降低本地化开发成本。在智能家居、车载语音系统等场景中,该数据集支持用户以母语与设备交互,同时准确解析日期、地点等槽位信息,提升用户体验与服务的包容性。
数据集最近研究
最新研究方向
在自然语言处理领域,面向虚拟助手的多语言理解任务正成为研究热点,IVA_MT数据集以其独特的槽位转移机制,为机器翻译模型在跨语言NLU场景下的应用提供了关键支撑。当前前沿研究聚焦于如何利用该数据集提升低资源语言的槽位识别与迁移能力,结合大语言模型进行少样本学习,以应对全球化智能助理的多样化需求。相关探索不仅推动了跨语言语义解析技术的发展,也为多模态交互系统的本地化部署奠定了数据基础,具有显著的实践价值。
以上内容由遇见数据集搜集并总结生成



