WillHeld/mtop
收藏Hugging Face2022-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/WillHeld/mtop
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: ' intent'
dtype: string
- name: ' slot'
dtype: string
- name: ' utterance'
dtype: string
- name: ' domain'
dtype: string
- name: ' locale'
dtype: string
- name: ' dcp_form'
dtype: string
- name: ' tokens'
dtype: string
- name: intent
dtype: string
- name: slot
dtype: string
- name: utterance
dtype: string
- name: domain
dtype: string
- name: locale
dtype: string
- name: dcp_form
dtype: string
- name: tokens
dtype: string
splits:
- name: eval_en
num_bytes: 2077234
num_examples: 2235
- name: test_en
num_bytes: 4090856
num_examples: 4386
- name: train_en
num_bytes: 14501480
num_examples: 15667
- name: eval_de
num_bytes: 1764320
num_examples: 1815
- name: test_de
num_bytes: 3439946
num_examples: 3549
- name: train_de
num_bytes: 13122042
num_examples: 13424
- name: eval_es
num_bytes: 1594238
num_examples: 1527
- name: test_es
num_bytes: 3089782
num_examples: 2998
- name: train_es
num_bytes: 11277514
num_examples: 10934
- name: eval_fr
num_bytes: 1607082
num_examples: 1577
- name: test_fr
num_bytes: 3289276
num_examples: 3193
- name: train_fr
num_bytes: 12147836
num_examples: 11814
- name: eval_hi
num_bytes: 2618172
num_examples: 2012
- name: test_hi
num_bytes: 3491690
num_examples: 2789
- name: train_hi
num_bytes: 14225324
num_examples: 11330
- name: eval_th
num_bytes: 2251378
num_examples: 1671
- name: test_th
num_bytes: 3654864
num_examples: 2765
- name: train_th
num_bytes: 14277512
num_examples: 10759
download_size: 16165451
dataset_size: 112520546
---
# Dataset Card for "mtop"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征字段:
- 名称:id,数据类型:int64
- 名称:意图(intent),数据类型:字符串(string)
- 名称:槽位(slot),数据类型:字符串(string)
- 名称:话语(utterance),数据类型:字符串(string)
- 名称:领域(domain),数据类型:字符串(string)
- 名称:语言区域(locale),数据类型:字符串(string)
- 名称:DCP形式(dcp_form),数据类型:字符串(string)
- 名称:Token(tokens),数据类型:字符串(string)
- 名称:意图(intent),数据类型:字符串(string)
- 名称:槽位(slot),数据类型:字符串(string)
- 名称:话语(utterance),数据类型:字符串(string)
- 名称:领域(domain),数据类型:字符串(string)
- 名称:语言区域(locale),数据类型:字符串(string)
- 名称:DCP形式(dcp_form),数据类型:字符串(string)
- 名称:Token(tokens),数据类型:字符串(string)
数据划分:
- 名称:英语评估集(eval_en),字节数:2077234,样本数量:2235
- 名称:英语测试集(test_en),字节数:4090856,样本数量:4386
- 名称:英语训练集(train_en),字节数:14501480,样本数量:15667
- 名称:德语评估集(eval_de),字节数:1764320,样本数量:1815
- 名称:德语测试集(test_de),字节数:3439946,样本数量:3549
- 名称:德语训练集(train_de),字节数:13122042,样本数量:13424
- 名称:西班牙语评估集(eval_es),字节数:1594238,样本数量:1527
- 名称:西班牙语测试集(test_es),字节数:3089782,样本数量:2998
- 名称:西班牙语训练集(train_es),字节数:11277514,样本数量:10934
- 名称:法语评估集(eval_fr),字节数:1607082,样本数量:1577
- 名称:法语测试集(test_fr),字节数:3289276,样本数量:3193
- 名称:法语训练集(train_fr),字节数:12147836,样本数量:11814
- 名称:印地语评估集(eval_hi),字节数:2618172,样本数量:2012
- 名称:印地语测试集(test_hi),字节数:3491690,样本数量:2789
- 名称:印地语训练集(train_hi),字节数:14225324,样本数量:11330
- 名称:泰语评估集(eval_th),字节数:2251378,样本数量:1671
- 名称:泰语测试集(test_th),字节数:3654864,样本数量:2765
- 名称:泰语训练集(train_th),字节数:14277512,样本数量:10759
下载大小:16165451
数据集总大小:112520546
---
# 「mtop」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
WillHeld
原始信息汇总
数据集概述
数据集特征
- id: int64
- intent: string
- slot: string
- utterance: string
- domain: string
- locale: string
- dcp_form: string
- tokens: string
数据集分割
- eval_en: 2235 examples, 2077234 bytes
- test_en: 4386 examples, 4090856 bytes
- train_en: 15667 examples, 14501480 bytes
- eval_de: 1815 examples, 1764320 bytes
- test_de: 3549 examples, 3439946 bytes
- train_de: 13424 examples, 13122042 bytes
- eval_es: 1527 examples, 1594238 bytes
- test_es: 2998 examples, 3089782 bytes
- train_es: 10934 examples, 11277514 bytes
- eval_fr: 1577 examples, 1607082 bytes
- test_fr: 3193 examples, 3289276 bytes
- train_fr: 11814 examples, 12147836 bytes
- eval_hi: 2012 examples, 2618172 bytes
- test_hi: 2789 examples, 3491690 bytes
- train_hi: 11330 examples, 14225324 bytes
- eval_th: 1671 examples, 2251378 bytes
- test_th: 2765 examples, 3654864 bytes
- train_th: 10759 examples, 14277512 bytes
数据集大小
- 下载大小: 16165451 bytes
- 数据集大小: 112520546 bytes
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,多语言任务导向解析数据集MTOP的构建体现了跨语言语义理解的前沿探索。该数据集通过精心设计的标注流程,涵盖了英语、德语、西班牙语、法语、印地语和泰语六种语言,每种语言均包含训练集、验证集和测试集的分割。构建过程中,原始语料经过专业标注团队的处理,为每个样本标注了意图、槽位、领域等结构化信息,并保留了原始话语及其分词序列,确保了数据的多样性与一致性。数据集的规模经过科学规划,各语言样本数量均衡,旨在支持多语言语义解析模型的训练与评估。
特点
MTOP数据集在跨语言语义解析任务中展现出鲜明的多维度特征。其核心在于覆盖了六种地理与文化背景各异的语言,每种语言均具备独立的训练与评估分割,为模型的多语言泛化能力提供了坚实基础。数据集中每个样本均包含意图、槽位、领域、本地化标识及话语的深度标注,并额外提供了话语的分词序列和规范化形式,这些丰富的结构化信息有助于模型深入理解语言的内在逻辑。数据规模的差异性反映了不同语言资源的实际可用性,为研究语言特性对解析性能的影响提供了天然实验场。
使用方法
对于致力于多语言语义解析的研究者而言,MTOP数据集提供了标准化的使用路径。用户可通过Hugging Face数据集库直接加载该资源,并依据语言代码(如'en'、'de')和分割名称(如'train'、'eval')灵活选取所需子集。数据加载后,每条样本均以结构化字典形式呈现,包含id、意图、槽位、话语等关键字段,便于直接输入模型进行意图分类、槽位填充等任务的端到端训练或评估。研究者可在此基础上进行跨语言迁移学习、多任务学习等实验,利用其多语言平行特性探索语言间的共性与差异。
背景与挑战
背景概述
在自然语言处理领域,多语言任务导向解析(MTOP)数据集由Meta AI的研究团队于2021年推出,旨在推动跨语言语义解析技术的发展。该数据集聚焦于多语言对话理解的核心研究问题,涵盖了英语、德语、西班牙语、法语、印地语和泰语六种语言,提供了丰富的意图识别和槽位填充标注。其构建基于现实场景中的用户查询,致力于解决智能助手在多语言环境下的语义理解难题,对促进全球化人机交互系统的进步具有显著影响力。
当前挑战
MTOP数据集面临的挑战主要集中于多语言语义解析的复杂性。在领域问题层面,不同语言间的语法结构、文化表达差异以及低资源语言的标注稀缺性,给模型泛化能力带来严峻考验;构建过程中,数据收集需平衡语言多样性与标注一致性,而跨语言对齐和高质量翻译的确保亦是关键难点,这些因素共同制约了多语言对话系统的精准度与鲁棒性提升。
常用场景
经典使用场景
在自然语言处理领域,多语言任务导向对话系统的构建依赖于高质量的语义解析数据。MTOP数据集以其涵盖六种语言的丰富标注,成为训练和评估跨语言意图识别与槽位填充模型的经典资源。研究者常利用其结构化的意图、槽位及话语对,开发端到端的语义解析框架,推动对话系统在复杂多轮交互中的理解能力提升。
解决学术问题
该数据集有效应对了跨语言语义解析中数据稀缺与标注不一致的学术挑战。通过提供英语、德语、西班牙语、法语、印地语和泰语的平行语料,它支持了低资源语言下的迁移学习研究,并促进了多语言联合建模方法的发展。其细粒度的领域与意图标注体系,为探索对话状态跟踪、语义组合性等核心问题提供了实证基础。
衍生相关工作
围绕MTOP数据集,学术界涌现了一系列经典研究工作。例如,基于其多语言特性开发的XLM-T模型,探索了跨语言预训练在语义解析中的迁移效能;SPOT框架则利用其层次化标注,创新了联合意图与槽位解码的架构。这些衍生成果不仅推动了语义解析技术的进步,也为后续多语言对话基准的构建设立了重要参照。
以上内容由遇见数据集搜集并总结生成



