XLSR-Thai, Thai-SUP

Name: XLSR-Thai, Thai-SUP
Creator: 西北工业大学计算机学院音频、语音和语言处理小组 (ASLP@NPU),中国爱奇艺公司
Published: 2025-09-18 17:59:55
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://hugg -gigaspeecnz

下载链接

链接失效反馈

官方服务：

资源简介：

XLSR-Thai是第一个开源的泰语自监督学习语音编码器，通过在36,000小时的泰语语音数据上持续训练典型SSL XLSR模型获得。Thai-SUP是一个用于从高资源语言生成低资源泰语语音理解数据的管道，通过LLM数据增强、翻译和TTS，产生第一个开源的泰语语音理解数据集，包含超过1000小时的IC、NER和SR任务数据。

XLSR-Thai is the first open-source Thai self-supervised learning (SSL) speech encoder, developed by continually training a standard SSL XLSR model on 36,000 hours of Thai speech data. Thai-SUP is a pipeline for generating low-resource Thai speech understanding data from high-resource languages. It adopts LLM-based data augmentation, translation and TTS technologies to produce the first open-source Thai speech understanding dataset, which contains over 1,000 hours of task data for Intent Classification (IC), Named Entity Recognition (NER) and Speech Recognition (SR).

提供机构：

西北工业大学计算机学院音频、语音和语言处理小组 (ASLP@NPU),中国爱奇艺公司

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

在低资源泰语语音处理领域，XLSR-Thai通过自监督学习范式构建，基于典型XLSR模型在36,000小时未标注泰语语音数据上进行持续预训练，其中16,000小时来自开源语料，20,000小时为内部数据。Thai-SUP数据集则采用创新流水线生成，通过大型语言模型对英语文本理解语料进行数据增强与翻译，经口语化处理和质量过滤后，利用文本转语音技术合成高质量语音-文本对，最终形成涵盖意图分类、命名实体识别和语音复述任务的千小时级数据集。

使用方法

数据集使用时需遵循两阶段流程：首先利用U-Align方法进行语音-文本对齐训练，通过DTW损失函数将适配后的语音表征与转录文本嵌入进行对齐，此阶段不涉及大语言模型参数更新；随后冻结对齐模块，引入任务特定提示词与Thai-SUP多任务数据，对大语言模型进行多任务微调。实验表明该方法在意图分类准确率提升至89.68%，命名实体识别F1值达到53.77%，同时显著降低计算开销。

背景与挑战

背景概述

在语音大语言模型快速发展的背景下，西北工业大学ASLP实验室与爱奇艺公司于2025年联合推出了面向泰语低资源语言的XLSR-Thai和Thai-SUP数据集。该研究聚焦于解决多任务语音理解在低资源语言中的性能退化问题，通过构建首个泰语自监督语音编码器和跨语言数据生成管道，显著提升了语音识别、意图分类、命名实体识别等任务的性能。这项工作填补了泰语多模态语言理解数据的空白，为低资源语言的语音处理研究提供了重要基础设施。

当前挑战

该数据集面临的核心挑战包括低资源语言语音编码器的表征能力不足，现有Whisper等模型在泰语表现欠佳且缺乏多任务支持；传统基于ASR的对齐范式需要训练整个SLLM导致计算成本高昂；泰语多任务语音理解数据极度稀缺，标注成本巨大。构建过程中需克服36,000小时无标注语音的自监督训练难题，设计DTW损失函数实现语音-文本嵌入的直接对齐，并通过LLM增强翻译与TTS合成技术实现从高资源语言到泰语的数据迁移。

常用场景

经典使用场景

在低资源语言语音理解研究中，XLSR-Thai和Thai-SUP数据集被广泛应用于构建多任务语音大语言模型。该数据集通过自监督学习编码器XLSR-Thai提取泰语语音表征，并结合Thai-SUP提供的意图分类、命名实体识别和语音重述数据，支持端到端的多任务学习框架。其经典使用场景包括在有限标注数据环境下，实现语音识别与语义理解任务的联合优化，为低资源语言语音处理研究提供标准化实验基准。

解决学术问题

该数据集有效解决了低资源语言语音理解中的三大核心问题：首先突破了传统语音编码器在泰语等低资源语言中表征能力不足的局限，通过36000小时无标注语音的持续预训练提升模型泛化能力；其次创新性地提出U-Align对齐方法，降低语音-文本模态对齐的计算成本；最后通过Thai-SUP管道生成超过1000小时的多任务监督数据，缓解了低资源语言标注数据稀缺的困境，为跨语言语音理解研究提供了可复现的解决方案。

实际应用

在实际应用层面，该数据集支撑的技术方案可广泛应用于智能语音助手、跨语言通信系统和教育技术平台。在泰语智能客服场景中，系统能同步完成语音识别、用户意图分析和关键信息提取；在跨境商务会议场景下，可实现泰语语音实时转译与语义解析；此外还可用于开发泰语语音学习工具，通过多任务理解模型提供发音评估和语义反馈，显著提升低资源语言地区的数字化服务能力。

数据集最近研究