台湾普通话自发语音语料库

Name: 台湾普通话自发语音语料库
Creator: 德国蒂宾根大学定量语言学系
Published: 2024-09-12 17:51:56
License: 暂无描述

arXiv2024-09-12 更新2024-09-18 收录

下载链接：

https://arxiv.org/pdf/2409.07891v1

下载链接

链接失效反馈

官方服务：

资源简介：

台湾普通话自发语音语料库是由德国蒂宾根大学定量语言学系创建的，用于研究台湾普通话中单音节词的音高轮廓。该数据集包含3824个标记了音高值的单音节词，涵盖63种不同的词类型。数据集的创建过程包括使用Montreal Forced Aligner进行语音对齐，并通过Praat脚本测量音高。该数据集主要用于研究音高轮廓在自发对话中的实现，以及语境和词义对音高轮廓的影响，旨在解决音高轮廓在不同语境下的变化问题。

Taiwan Mandarin Spontaneous Speech Corpus was developed by the Department of Quantitative Linguistics, University of Tübingen, Germany, for investigating pitch contours of monosyllabic words in Taiwan Mandarin. This corpus contains 3,824 monosyllabic words annotated with pitch values, covering 63 distinct word types. Its construction process includes speech alignment using Montreal Forced Aligner and pitch measurement via Praat scripts. It is primarily used to study the realization of pitch contours in spontaneous conversations, as well as the impacts of context and word meaning on pitch contours, aiming to address the variation of pitch contours across different contexts.

提供机构：

德国蒂宾根大学定量语言学系

创建时间：

2024-09-12

搜集汇总

数据集介绍

构建方式

该数据集通过分析台湾普通话自发语音语料库中的3824个单音节词的F0轮廓构建而成。研究采用了广义加性混合模型（GAMM），将观察到的音高轮廓分解为一组组成部分，这些组成部分隔离了统计模型中考虑的变量对音高轮廓的贡献。数据集的构建过程中，使用了Montreal Forced Aligner（MFA）工具来确定词中辅音和元音之间的边界，并通过手动检查10%的对齐标记来验证其准确性。最终，数据集包含了63个不同词类的4024个标记，每个标记的含义通过基于中文WordNet和BERT派生的上下文嵌入的词义消歧系统进行标注。

使用方法

该数据集适用于研究普通话音高轮廓在自发对话中的实现机制，特别是在考虑上下文和词义影响的情况下。研究者可以利用数据集中的音高测量值和相关变量，构建和验证关于音高实现的统计模型。此外，数据集还可用于开发和测试自然语言处理系统，特别是那些需要理解普通话音高和语调变化的系统。通过分析不同变量对音高轮廓的影响，研究者可以深入理解普通话的音系特征及其在实际语言使用中的表现。

背景与挑战

背景概述

台湾普通话自发语音语料库（Taiwan Mandarin Spontaneous Speech Corpus）是由德国图宾根大学（Eberhard Karls Universität Tübingen）的Xiaoyun Jin、荷兰拉德堡德大学（Radboud University）的Mirjam Ernestus以及德国图宾根大学的R. Harald Baayen共同创建的。该语料库的核心研究问题在于探讨台湾普通话中单音节词在自然对话中的声调轮廓，特别是这些声调在自发语音中的实际实现与标准声调之间的偏差。该研究得到了欧洲研究委员会（European Research Council）的资助，项目编号为SUBLIMINAL (#101054902)。该语料库的创建不仅深化了对台湾普通话声调系统的理解，还为声调语言学研究提供了宝贵的数据资源。

当前挑战

台湾普通话自发语音语料库在构建过程中面临多项挑战。首先，单音节词在自发对话中的声调实现与标准声调存在显著偏差，这需要精细的数据分析来揭示其内在规律。其次，语料库的构建需克服声调协同发音（co-articulation）的影响，包括音节内和音节间的协同发音，这增加了数据处理的复杂性。此外，语料库还需处理语义对声调实现的影响，特别是在多义词和异形同音词的情况下，如何准确标注词义成为一个重要挑战。最后，语料库的统计分析需采用广义加性模型（GAM）等复杂模型，以分解观察到的声调轮廓，这要求研究者具备高超的统计建模能力。

常用场景

经典使用场景

台湾普通话自发语音语料库最经典的使用场景在于研究普通话中单音节词在自然对话中的声调轮廓。该数据集通过分析3824个单音节词的基频轮廓，揭示了在自发对话中，单音节词的实际声调实现与标准声调之间的显著偏差。这种偏差主要由音节内协同发音和音节间协同发音引起，特别是在相邻声调的影响下。此外，该数据集还关注了语境预测因素对声调轮廓的影响，以及词义如何共同决定声调轮廓。

解决学术问题

台湾普通话自发语音语料库解决了普通话声调在自然对话中的实际实现与标准声调描述之间的差异这一学术问题。通过使用广义加性（混合）模型，该数据集将观察到的基频轮廓分解为一组组成部分，这些组成部分隔离了统计模型中考虑的变量对基频轮廓的贡献。这一研究不仅揭示了声调在自然对话中的复杂变化，还为声调协同发音和词义对声调实现的影响提供了新的见解，对普通话语音学和语言学研究具有重要意义。

实际应用

台湾普通话自发语音语料库在实际应用中具有广泛潜力。首先，它可以用于开发和改进语音识别系统，特别是在处理普通话中的声调变化时。其次，该数据集可以用于语言教学，帮助学习者更好地理解和掌握普通话的自然声调变化。此外，它还可以应用于语音合成技术，使合成的语音更加自然和真实。最后，该数据集的研究成果可以为语言病理学提供参考，帮助诊断和治疗与声调相关的语言障碍。

数据集最近研究