Taiwanese Hokkien Corpus

arXiv2023-12-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2312.06668v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1.5小时的台湾闽南语语音数据，用于评估ML-SUPERB的自监督学习语音表示。

This dataset contains 1.5 hours of Taiwanese Hokkien speech data, which is used to evaluate the self-supervised learning speech representations of ML-SUPERB.

创建时间：

2023-12-06

搜集汇总

数据集介绍

构建方式

该数据集源自台湾电视剧中的自然对话语音，通过YouTube-ASR-Crawler工具从YouTube爬取，仅用于学术目的。初始数据包含普通话字幕，随后由10位具备台湾闽南语转录经验（6位母语者、4位高级学习者）的标注者进行人工转录，标注过程辅以机器翻译生成的台湾闽南语文本作为参考。转录采用教育部推荐的台罗拼音方案，保留声调变体与方言差异，并标记语气词与音节合音现象。最终从31部电视剧的53集中筛选出2613句无代码切换与重叠语音的句子，划分为训练集（10分钟与1小时两个子集）、开发集与测试集，各子集内剧目不重复。

特点

该数据集的核心特点在于其自然性与挑战性：语音数据涵盖丰富的韵律特征与副语言线索（如哭泣、笑声），并包含背景音乐、音效、室内混响及偶尔的重叠语音，真实模拟了日常交流场景。转录以台罗拼音呈现，仅标注基础声调（本调），迫使模型自行学习变调规则，从而评估其音系学能力。数据集还保留了方言发音变异（如l与j的交替）与音节合音现象，为低资源语言研究提供了高难度的测试环境。

使用方法

数据集主要面向自监督学习语音模型的基准测试，可集成至ML-SUPERB框架进行跨语言评估。使用时需对转录文本进行预处理：将声调符号转为数字标记，移除连字符以切分音节，并利用自定义分词器将音节拆解为声母与韵母（如khuann3→kh uann3）。评估指标建议采用字符错误率（CER）与音节错误率（SER），后者以声母或韵母为基本单元计算。研究者可针对模型在声调变体、音近混淆及音频质量方面的表现进行深入分析，以优化低资源语言语音识别系统。

背景与挑战

背景概述

台湾闽南语（Taiwanese Hokkien）作为台湾地区约80%人口使用的语言，正因社会语言向华语转移而面临使用率与地位下降的危机，成为自然语言处理与语音研究中的低资源语言。为应对这一困境，卡内基梅隆大学语言技术研究所的Yi-Hui Chou、Kalvin Chang等研究人员于2023年构建了Taiwanese Hokkien Corpus，该数据集从台湾电视剧中采集了1.5小时的多样化自然语音，并标注了台罗拼音，被纳入ML-SUPERB的隐藏测试集。该数据集的核心研究问题在于评估自监督学习语音表征对低资源语言语音识别的有效性，其贡献在于揭示了模型规模并非性能的决定性因素，而预训练数据与目标语言的语言学对齐程度更为关键，为濒危语言的语音技术发展提供了重要基准。

当前挑战

该数据集面临的核心挑战包括：1）领域问题层面，台湾闽南语作为低资源语言，缺乏大规模高质量语音与文本语料，且其复杂的七声调系统与连读变调规则对语音识别模型构成严峻考验，尤其是模型常混淆音位相似音素（如[t͡ɕi]与[d͡ʑi]）及声调预测错误。2）构建过程中，数据采集自电视剧，包含背景音乐、音效、重叠语音等复杂声学环境，虽经音乐源分离处理，但部分音频质量仍影响标注准确性；同时，标注工作依赖10名母语及二语使用者，面临方言变体（如[l]与[d͡z]的差异）、语助词省略及合音现象的不一致性，且机器辅助翻译因领域偏移需大量人工修正，导致标注成本高且耗时。

常用场景

经典使用场景

Taiwanese Hokkien Corpus 作为低资源语言语音处理的代表性数据集，最经典的使用场景是评估和微调自监督学习（SSL）语音模型在台语自动语音识别（ASR）任务上的表现。该数据集包含1.5小时来自台语电视剧的自然对话语音，涵盖多样化的韵律特征和副语言线索（如哭泣、笑声），并经过精细的 tâi-lô 罗马字标注，包括声调变体、方言变异和合音现象。研究者可基于此数据集，利用 ML-SUPERB 的标准化流程，对 wav2vec2、HuBERT、XLSR 等 SSL 模型进行微调，通过字符错误率（CER）和音节错误率（SER）衡量其识别能力，从而探索自监督表示在低资源语言上的迁移效果。

解决学术问题

该数据集解决了低资源语言台语在语音处理领域缺乏高质量标注语料的学术困境，填补了台语 ASR 研究的空白。通过系统评估多种 SSL 模型，揭示了模型规模并非决定性能的唯一因素——训练数据与目标语言之间的语音、形态和句法对齐程度更为关键，例如 HuBERT-base-cmn 因预训练于与台语高度相似的汉语普通话而表现优异。此外，数据集还暴露了台语 ASR 中的核心挑战：声调变体（tone sandhi）错误、音位混淆（如 [o] 与 [ɔ] 的合并）、音频质量问题以及语助词省略等。这些发现为低资源语言语音识别领域提供了重要实证，强调预训练数据语言对齐的重要性，并推动后续研究聚焦于声调预测鲁棒性和音位区分能力。

衍生相关工作

该数据集衍生了一系列经典工作，包括其在 ML-SUPERB 基准测试中的集成，推动了对跨语言自监督语音表示的标准化评估。后续研究基于此数据集深入分析了 HuBERT-large-cmn 等模型的错误模式，提出了专门针对台语声调变体的优化策略，例如设计独立的声调预测分类器以学习复杂变调规则。此外，数据集促进了台语-普通话语音翻译的研究，利用其罗马字标注作为辅助监督信号，探索端到端翻译框架。在数据增强方面，相关工作借鉴了该数据集的预处理流程，如使用音乐源分离模型去除背景噪声，并将其应用于其他低资源语言的 ASR 系统。该语料库还启发了更多台语语音资源的构建，如 iCorpus 平行语料库的扩展，共同推动了台语自然语言处理领域的复兴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集