Thai-understanding

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/mcshao/Thai-understanding

下载链接

链接失效反馈

官方服务：

资源简介：

Thai-Understanding是一个开源项目，提供了泰语语音理解的解决方案，包括Thai-SUP数据集和XLSR-Thai语音编码器。Thai-SUP是首个开源的泰语语音理解数据集，包含超过1000小时的数据，涵盖意图分类、命名实体识别和语音改写三个任务。XLSR-Thai是基于大规模泰语语音数据预训练的自监督学习语音编码器，能够有效捕捉泰语的语言结构和副语言线索，适用于多任务语音理解。

创建时间：

2025-09-08

原始信息汇总

Thai-Understanding 数据集概述

数据集基本信息

许可证: Apache-2.0
语言: 泰语 (th)
标签: XLSR, SSL, speech, XLSR-Thai, Thai-SUP

数据集组成

Thai-SUP

首个开源的泰语语音理解数据集，包含三个任务：

意图分类 (IC): 648小时数据
命名实体识别 (NER): 175小时数据
语音重述 (SR): 250小时数据

XLSR-Thai

首个大规模自监督学习泰语语音编码器：

基于XLSR模型构建
预训练数据：36,000小时泰语语音数据（16,000小时开源数据 + 20,000小时内部数据）

数据生成方法

通过LLM增强、翻译和TTS合成技术，从英语文本语料库生成泰语语音理解数据：

源数据：SNIPS（IC）、WikiANN/CONLL-2023（NER）
数据增强：DeepSeek-v3生成10个变体/实例
质量过滤：Gemini-2.5-flash
语音合成：泰语微调LLaSa模型

技术特点

音频格式：FLAC压缩字节
采样率：16 kHz
通道数：1
包含时长信息

性能表现

ASR任务性能（CER%）

模型	Giga2 Test	CV Test
XLSR-Thai-CTC	13.91	3.97

多任务理解结果

最佳性能组合：

IC准确率：89.68%
NER-ALL准确率：53.77%
SR评分：3.10（1-5分制）
ASR CER：13.32%

使用方式

数据加载

python from datasets import load_dataset ds_ic = load_dataset( "mcshao/Thai-understanding", data_files={ "train": "Thai-SUP/IC/train/.parquet", "validation": "Thai-SUP/IC/dev/.parquet", "test": "Thai-SUP/IC/test/*.parquet", } )

音频解码

python import io, soundfile as sf audio_bytes = sample["audio_flac"] sr = sample["sampling_rate"] y, sr2 = sf.read(io.BytesIO(audio_bytes), dtype="float32")

模型加载

python import torch from fairseq.models.wav2vec import Wav2Vec2Model ckpt = torch.load("XLSR-Thai/checkpoint_best.pt") model, cfg, task = Wav2Vec2Model.build_model_and_task_from_checkpoint(ckpt)

搜集汇总

数据集介绍

构建方式

在低资源语言语音理解数据稀缺的背景下，Thai-SUP数据集通过创新性跨语言迁移框架构建而成。该框架以英文文本理解语料为源数据，采用大语言模型进行数据增强生成多样化文本，经机器翻译转换为泰语口语化表达，并通过质量过滤与文本转语音技术合成高质量语音-文本对。整个流程涵盖意图分类、命名实体识别和语音重述三大任务，最终形成超过千小时的多任务语音理解数据集。

使用方法

研究者可通过Hugging Face Datasets库直接加载数据集各任务分片，数据集按训练集、验证集和测试集组织为Parquet格式。加载后可自动解析嵌入的音频字节流，使用soundfile库解码为波形信号进行模型输入。数据集提供标准化字段包括任务类型标识、文本转录、标签信息、音频采样率及持续时间等元数据，支持意图分类、命名实体识别和语音重述任务的联合训练与独立评估。

背景与挑战

背景概述

在低资源语言语音理解研究领域，Thai-understanding数据集由研究团队于近期构建，旨在解决泰语语音理解任务中数据稀缺的核心问题。该数据集整合了超过1000小时的标注语音数据，涵盖意图分类、命名实体识别和语音重述三大任务，通过创新性地利用大语言模型进行数据增强与跨语言迁移，显著提升了泰语语音理解的研究水平，为东南亚语言处理提供了重要基础设施。

当前挑战

该数据集主要应对泰语作为低资源语言在语音理解任务中的双重挑战：一是传统语音编码器对泰语语言学特征及副语言学线索的捕捉不足，二是高质量标注数据的严重匮乏。构建过程中需克服跨语言数据迁移的语义保真度问题，包括英语到泰语的 colloquial 转换、TTS合成语音的自然度控制，以及通过多轮质量过滤确保语音-文本对齐精度，这些技术难点共同构成了数据集构建的核心挑战。

常用场景

经典使用场景

在泰语语音理解研究领域，Thai-understanding数据集通过其多任务架构为意图分类、命名实体识别和语音重述任务提供了标准化评估基准。研究者通常利用该数据集训练端到端语音理解模型，其中XLSR-Thai编码器能够有效提取语音信号中的语言和副语言特征。实验表明采用U-Align对齐机制的XLSR-Thai模型在意图分类任务上达到89.68%的准确率，显著优于传统ASR对齐方法。

解决学术问题

该数据集有效解决了低资源语言语音理解数据稀缺的核心学术问题，通过创新性地构建从高资源英语文本到泰语语音的数据迁移管道。采用大语言模型增强、机器翻译和文本转语音技术，成功生成超过1000小时的高质量语音-文本配对数据。这种数据构建方法论为其他低资源语言的语音理解研究提供了可复现的范式，显著推进了多模态语言理解领域的发展。

实际应用

在实际应用层面，该数据集支撑的语音理解技术可广泛应用于泰语智能助手、客户服务系统和实时翻译设备。XLSR-Thai编码器在自动语音识别任务中取得3.97%的字符错误率，这种高性能表现使其能够满足商业级语音交互系统的精度要求。金融机构和电信运营商可基于此技术开发具有实体识别能力的语音客服系统，大幅提升泰语用户的交互体验。

数据集最近研究