Teochew-Wild

Name: Teochew-Wild
Creator: 华南理工大学计算机科学与工程学院, 广州, 中国
Published: 2025-05-08 16:47:11
License: 暂无描述

arXiv2025-05-08 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/panlr/teochew_wild

下载链接

链接失效反馈

官方服务：

资源简介：

Teochew-Wild数据集是一个包含潮汕方言语音语料的数据库。该语料库包含了来自多个说话者的18.9小时的潮汕方言语音数据，涵盖了正式和口语表达，并带有精确的正字法和拼音注释。此外，我们还提供了补充的文本处理工具和资源，以推动这种低资源语言的语音任务研究，如自动语音识别（ASR）和文本到语音（TTS）。据我们所知，这是第一个公开可用的带有准确正字法注释的潮汕数据集。我们在语料库上进行了实验，结果表明它在ASR和TTS任务中的有效性。

The Teochew-Wild Dataset is a database housing speech corpora of the Teochew dialect. This corpus contains 18.9 hours of Teochew dialect speech data from multiple speakers, covering both formal and colloquial expressions, and is accompanied by precise orthographic and phonetic annotations. Additionally, we provide supplementary text processing tools and resources to advance research on speech tasks for this low-resource language, such as Automatic Speech Recognition (ASR) and Text-to-Speech (TTS). To the best of our knowledge, this is the first publicly available Teochew dataset with accurate orthographic annotations. We conducted experiments on this corpus, and the results demonstrate its effectiveness for ASR and TTS tasks.

提供机构：

华南理工大学计算机科学与工程学院, 广州, 中国

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

Teochew-Wild数据集的构建采用了多阶段流程，首先从互联网采集超过200小时的原始潮汕话语音数据，经过严格的筛选保留20位发音清晰的说话人样本。通过标准化处理统一音频格式后，运用UVR模型进行声源分离和Resemble-Enhance模型降噪，再结合Silero-VAD技术实现语音活动检测与分段。文本前端处理创新性地开发了包含9,143个汉字的音韵转换系统，并构建了1,500余条潮汕话-普通话词汇映射词典。采用双阶段标注策略，先由母语者转写语义内容，再由专家进行正字法及拼音标注，过程中补充完善了潮汕话书写体系。

使用方法

该数据集适用于语音识别与合成研究，使用时需注意其多模态特性。对于ASR任务，建议同时利用汉字与潮拼标注，通过Fairseq S2T Transformer等模型训练，其中拼音标注的WER可降至16.88%。TTS应用推荐采用Tacotron2等自回归模型处理复杂的连读变调现象，实验显示其MOS得分达3.52。针对大模型适配，可对Whisper-medium进行微调，在未预训练情况下CER可达10.01%。配套提供的G2P转换工具、多音字规则库和跨方言词典，能有效支持文本前端处理流程。数据已按11,100/700/700划分训练、验证和测试集，需注意样本中存在1,800余个低频字符的语言学特性。

背景与挑战

背景概述

Teochew-Wild数据集由华南理工大学的研究团队于2025年创建，旨在解决潮汕方言在语音识别与合成领域资源匮乏的问题。作为闽南语系的重要分支，潮汕话在中国广东东部及东南亚地区拥有约3000万使用者，但长期以来缺乏标准化的书写系统和公开的语音数据资源。该数据集包含18.9小时真实场景下的潮汕话语音，涵盖20位说话人的12,500条语句，并首次提供精确的汉字注音和潮汕拼音标注。其创新性地结合互联网开源数据与专业语言学标注，不仅填补了该方言在计算语言学领域的空白，更为濒危语言的数字化保存提供了范式。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决潮汕话复杂的声调变化（八种基础声调及其连续变调现象）和文白异读问题（如单字多达四种发音变体），这对语音模型的音素建模提出极高要求；在构建过程中，需克服无标准书写体系的标注难题（约23%汉字需重新定义发音对应关系）、野外音频的质量控制（信噪比阈值筛选）以及稀缺的方言标注专家资源（仅能招募6位合格标注者）。此外，与台湾闽南语的数据混淆问题也增加了语言特征提取的复杂度。

常用场景

经典使用场景

Teochew-Wild数据集在语音识别（ASR）和文本转语音（TTS）任务中展现了其经典应用场景。作为首个带有精确正字法标注的潮汕方言公开数据集，它为低资源语言的语音技术研究提供了重要支持。数据集包含18.9小时的真实场景语音数据，覆盖正式与口语表达，其多样性和自然性为模型训练提供了丰富素材。

解决学术问题

该数据集有效解决了潮汕方言研究中的核心学术问题。针对该方言长期缺乏标注资源的情况，Teochew-Wild通过提供标准汉字与潮汕拼音的双重标注，建立了完整的语音-文本映射体系。特别在复杂声调变化（连读变调）和多音字处理方面，数据集配套的文本处理工具为相关研究提供了技术支撑，填补了该方言在计算语言学领域的空白。

实际应用

在实际应用层面，该数据集支撑了多项潮汕方言保护与智能化应用。基于该数据训练的ASR系统可应用于方言转录存档，TTS技术则助力方言教育材料的数字化制作。在东南亚潮汕社群中，相关技术正被用于开发方言交流辅助工具，缓解年轻一代方言能力退化问题，对非物质文化遗产保护具有现实意义。

数据集最近研究