WillHeld/mtop

Name: WillHeld/mtop
Creator: WillHeld
Published: 2022-12-10 17:50:10
License: 暂无描述

Hugging Face2022-12-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/WillHeld/mtop

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: ' intent' dtype: string - name: ' slot' dtype: string - name: ' utterance' dtype: string - name: ' domain' dtype: string - name: ' locale' dtype: string - name: ' dcp_form' dtype: string - name: ' tokens' dtype: string - name: intent dtype: string - name: slot dtype: string - name: utterance dtype: string - name: domain dtype: string - name: locale dtype: string - name: dcp_form dtype: string - name: tokens dtype: string splits: - name: eval_en num_bytes: 2077234 num_examples: 2235 - name: test_en num_bytes: 4090856 num_examples: 4386 - name: train_en num_bytes: 14501480 num_examples: 15667 - name: eval_de num_bytes: 1764320 num_examples: 1815 - name: test_de num_bytes: 3439946 num_examples: 3549 - name: train_de num_bytes: 13122042 num_examples: 13424 - name: eval_es num_bytes: 1594238 num_examples: 1527 - name: test_es num_bytes: 3089782 num_examples: 2998 - name: train_es num_bytes: 11277514 num_examples: 10934 - name: eval_fr num_bytes: 1607082 num_examples: 1577 - name: test_fr num_bytes: 3289276 num_examples: 3193 - name: train_fr num_bytes: 12147836 num_examples: 11814 - name: eval_hi num_bytes: 2618172 num_examples: 2012 - name: test_hi num_bytes: 3491690 num_examples: 2789 - name: train_hi num_bytes: 14225324 num_examples: 11330 - name: eval_th num_bytes: 2251378 num_examples: 1671 - name: test_th num_bytes: 3654864 num_examples: 2765 - name: train_th num_bytes: 14277512 num_examples: 10759 download_size: 16165451 dataset_size: 112520546 --- # Dataset Card for "mtop" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征字段： - 名称：id，数据类型：int64 - 名称：意图（intent），数据类型：字符串（string） - 名称：槽位（slot），数据类型：字符串（string） - 名称：话语（utterance），数据类型：字符串（string） - 名称：领域（domain），数据类型：字符串（string） - 名称：语言区域（locale），数据类型：字符串（string） - 名称：DCP形式（dcp_form），数据类型：字符串（string） - 名称：Token（tokens），数据类型：字符串（string） - 名称：意图（intent），数据类型：字符串（string） - 名称：槽位（slot），数据类型：字符串（string） - 名称：话语（utterance），数据类型：字符串（string） - 名称：领域（domain），数据类型：字符串（string） - 名称：语言区域（locale），数据类型：字符串（string） - 名称：DCP形式（dcp_form），数据类型：字符串（string） - 名称：Token（tokens），数据类型：字符串（string）数据划分： - 名称：英语评估集（eval_en），字节数：2077234，样本数量：2235 - 名称：英语测试集（test_en），字节数：4090856，样本数量：4386 - 名称：英语训练集（train_en），字节数：14501480，样本数量：15667 - 名称：德语评估集（eval_de），字节数：1764320，样本数量：1815 - 名称：德语测试集（test_de），字节数：3439946，样本数量：3549 - 名称：德语训练集（train_de），字节数：13122042，样本数量：13424 - 名称：西班牙语评估集（eval_es），字节数：1594238，样本数量：1527 - 名称：西班牙语测试集（test_es），字节数：3089782，样本数量：2998 - 名称：西班牙语训练集（train_es），字节数：11277514，样本数量：10934 - 名称：法语评估集（eval_fr），字节数：1607082，样本数量：1577 - 名称：法语测试集（test_fr），字节数：3289276，样本数量：3193 - 名称：法语训练集（train_fr），字节数：12147836，样本数量：11814 - 名称：印地语评估集（eval_hi），字节数：2618172，样本数量：2012 - 名称：印地语测试集（test_hi），字节数：3491690，样本数量：2789 - 名称：印地语训练集（train_hi），字节数：14225324，样本数量：11330 - 名称：泰语评估集（eval_th），字节数：2251378，样本数量：1671 - 名称：泰语测试集（test_th），字节数：3654864，样本数量：2765 - 名称：泰语训练集（train_th），字节数：14277512，样本数量：10759 下载大小：16165451 数据集总大小：112520546 --- # 「mtop」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

WillHeld

原始信息汇总

数据集概述

数据集特征

id: int64
intent: string
slot: string
utterance: string
domain: string
locale: string
dcp_form: string
tokens: string

数据集分割

eval_en: 2235 examples, 2077234 bytes
test_en: 4386 examples, 4090856 bytes
train_en: 15667 examples, 14501480 bytes
eval_de: 1815 examples, 1764320 bytes
test_de: 3549 examples, 3439946 bytes
train_de: 13424 examples, 13122042 bytes
eval_es: 1527 examples, 1594238 bytes
test_es: 2998 examples, 3089782 bytes
train_es: 10934 examples, 11277514 bytes
eval_fr: 1577 examples, 1607082 bytes
test_fr: 3193 examples, 3289276 bytes
train_fr: 11814 examples, 12147836 bytes
eval_hi: 2012 examples, 2618172 bytes
test_hi: 2789 examples, 3491690 bytes
train_hi: 11330 examples, 14225324 bytes
eval_th: 1671 examples, 2251378 bytes
test_th: 2765 examples, 3654864 bytes
train_th: 10759 examples, 14277512 bytes

数据集大小

下载大小: 16165451 bytes
数据集大小: 112520546 bytes

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言任务导向解析数据集MTOP的构建体现了跨语言语义理解的前沿探索。该数据集通过精心设计的标注流程，涵盖了英语、德语、西班牙语、法语、印地语和泰语六种语言，每种语言均包含训练集、验证集和测试集的分割。构建过程中，原始语料经过专业标注团队的处理，为每个样本标注了意图、槽位、领域等结构化信息，并保留了原始话语及其分词序列，确保了数据的多样性与一致性。数据集的规模经过科学规划，各语言样本数量均衡，旨在支持多语言语义解析模型的训练与评估。

特点

MTOP数据集在跨语言语义解析任务中展现出鲜明的多维度特征。其核心在于覆盖了六种地理与文化背景各异的语言，每种语言均具备独立的训练与评估分割，为模型的多语言泛化能力提供了坚实基础。数据集中每个样本均包含意图、槽位、领域、本地化标识及话语的深度标注，并额外提供了话语的分词序列和规范化形式，这些丰富的结构化信息有助于模型深入理解语言的内在逻辑。数据规模的差异性反映了不同语言资源的实际可用性，为研究语言特性对解析性能的影响提供了天然实验场。

使用方法

对于致力于多语言语义解析的研究者而言，MTOP数据集提供了标准化的使用路径。用户可通过Hugging Face数据集库直接加载该资源，并依据语言代码（如'en'、'de'）和分割名称（如'train'、'eval'）灵活选取所需子集。数据加载后，每条样本均以结构化字典形式呈现，包含id、意图、槽位、话语等关键字段，便于直接输入模型进行意图分类、槽位填充等任务的端到端训练或评估。研究者可在此基础上进行跨语言迁移学习、多任务学习等实验，利用其多语言平行特性探索语言间的共性与差异。

背景与挑战

背景概述

在自然语言处理领域，多语言任务导向解析（MTOP）数据集由Meta AI的研究团队于2021年推出，旨在推动跨语言语义解析技术的发展。该数据集聚焦于多语言对话理解的核心研究问题，涵盖了英语、德语、西班牙语、法语、印地语和泰语六种语言，提供了丰富的意图识别和槽位填充标注。其构建基于现实场景中的用户查询，致力于解决智能助手在多语言环境下的语义理解难题，对促进全球化人机交互系统的进步具有显著影响力。

当前挑战

MTOP数据集面临的挑战主要集中于多语言语义解析的复杂性。在领域问题层面，不同语言间的语法结构、文化表达差异以及低资源语言的标注稀缺性，给模型泛化能力带来严峻考验；构建过程中，数据收集需平衡语言多样性与标注一致性，而跨语言对齐和高质量翻译的确保亦是关键难点，这些因素共同制约了多语言对话系统的精准度与鲁棒性提升。

常用场景

经典使用场景

在自然语言处理领域，多语言任务导向对话系统的构建依赖于高质量的语义解析数据。MTOP数据集以其涵盖六种语言的丰富标注，成为训练和评估跨语言意图识别与槽位填充模型的经典资源。研究者常利用其结构化的意图、槽位及话语对，开发端到端的语义解析框架，推动对话系统在复杂多轮交互中的理解能力提升。

解决学术问题

该数据集有效应对了跨语言语义解析中数据稀缺与标注不一致的学术挑战。通过提供英语、德语、西班牙语、法语、印地语和泰语的平行语料，它支持了低资源语言下的迁移学习研究，并促进了多语言联合建模方法的发展。其细粒度的领域与意图标注体系，为探索对话状态跟踪、语义组合性等核心问题提供了实证基础。

衍生相关工作

围绕MTOP数据集，学术界涌现了一系列经典研究工作。例如，基于其多语言特性开发的XLM-T模型，探索了跨语言预训练在语义解析中的迁移效能；SPOT框架则利用其层次化标注，创新了联合意图与槽位解码的架构。这些衍生成果不仅推动了语义解析技术的进步，也为后续多语言对话基准的构建设立了重要参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集