PhoATIS

Name: PhoATIS
Creator: Unlimited Research Group of AI
Published: 2025-04-18 15:09:51
License: 暂无描述

Hugging Face2025-04-18 更新2025-04-19 收录

下载链接：

https://huggingface.co/datasets/ura-hcmut/PhoATIS

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于越南语意图检测和槽位填充任务的文本分类数据集，大小在10K到100K条数据之间。

提供机构：

Unlimited Research Group of AI

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

PhoATIS数据集的构建源于对越南语意图识别和槽填充任务的深入研究，其设计灵感来自航空旅行信息系统（ATIS）的经典框架。研究团队通过系统性地收集越南语口语对话数据，采用人工标注与自动化校验相结合的方式，确保每个语句都精确标注了意图类别和语义槽位。数据采集过程严格遵循语言学规范，覆盖了航班查询、机票预订等典型航空服务场景，最终形成规模在1万至10万条之间的高质量语料库。

特点

该数据集作为越南语自然语言处理领域的重要资源，其显著特点在于同时支持意图检测和槽填充的双任务学习。语料内容高度聚焦航空旅行领域，包含丰富的领域专有词汇和口语化表达，有效反映了越南语的语言特性。数据标注采用层次化体系，意图标签涵盖信息查询、预订操作等核心类别，槽位标注则细化为出发地、目的地等语义单元，为模型提供细粒度的监督信号。

使用方法

使用PhoATIS数据集时，研究者可通过加载标准化的训练集、验证集和测试集划分开展端到端实验。数据集兼容主流自然语言处理框架，支持将越南语文本转换为音节级或词级表征进行建模。典型应用场景包括联合训练意图分类器和序列标注模型，通过多任务学习提升模型对越南语的理解能力。实验过程中需注意遵循原始论文的数据划分方案，并采用精确匹配等指标评估槽填充性能。

背景与挑战

背景概述

PhoATIS数据集由Mai Hoang Dao、Thinh Hung Truong和Dat Quoc Nguyen等研究人员于2021年推出，旨在解决越南语意图检测与槽位填充这一核心研究问题。该数据集作为越南语自然语言处理领域的重要资源，首次在INTERSPEECH会议上亮相，填补了越南语在口语理解系统研究中的空白。其构建基于实际对话场景，为开发越南语虚拟助手和对话系统提供了关键数据支持，显著推动了东南亚语言信息处理技术的发展。

当前挑战

PhoATIS数据集面临的挑战主要体现在两方面：在领域问题层面，越南语的复杂音节结构和声调系统对意图分类的准确性提出严峻考验，同时槽位填充任务需处理大量越南语特有的复合词与缩写形式；在构建过程中，数据采集需克服越南方言多样性带来的标注一致性难题，且专业标注人员的稀缺导致数据质量管控成为关键瓶颈。这些挑战使得模型在跨方言泛化能力和细粒度语义理解方面仍存在显著提升空间。

常用场景

经典使用场景

在自然语言处理领域，PhoATIS数据集为越南语意图识别和槽位填充任务提供了重要资源。该数据集通过标注对话中的用户意图和相关语义槽位，成为训练和评估联合模型的基准工具。研究者可利用其丰富的标注信息，探索越南语这一低资源语言在口语理解任务中的独特语言特征和句法结构。

衍生相关工作

以PhoATIS为基础，学界已衍生出多项创新研究，包括基于跨语言迁移的越南语理解模型、融合音韵特征的联合建模框架等。原论文作者提出的JointIDSF架构成为后续研究的基线系统，启发了对东南亚语言处理中形态复杂性的深入探索。

数据集最近研究