台湾普通话自发语音语料库

Name: 台湾普通话自发语音语料库
Creator: 德国蒂宾根大学量化语言学系
Published: 2024-10-16 17:53:40
License: 暂无描述

arXiv2024-10-16 更新2024-10-18 收录

下载链接：

http://arxiv.org/abs/2409.07891v2

下载链接

链接失效反馈

官方服务：

资源简介：

台湾普通话自发语音语料库是由德国蒂宾根大学量化语言学系创建的，用于研究台湾普通话中单音节词的音高轮廓。该数据集包含3824个单音节词的音高数据，涵盖63种不同的词类。数据集的创建过程包括使用Montreal Forced Aligner进行语音对齐，并通过Praat脚本测量音高。该数据集主要用于研究音高轮廓在自发对话中的实现方式，特别是音高轮廓如何受相邻音节和词义的影响。

Spontaneous Speech Corpus of Taiwanese Mandarin was created by the Department of Quantitative Linguistics, University of Tübingen, Germany, for research on pitch contours of monosyllabic words in Taiwanese Mandarin. This corpus contains pitch data for 3824 monosyllabic words, covering 63 distinct word classes. The construction process of the dataset includes speech alignment using Montreal Forced Aligner and pitch measurement via Praat scripts. This corpus is primarily used to investigate how pitch contours are realized in spontaneous conversations, especially how they are affected by adjacent syllables and word meanings.

提供机构：

德国蒂宾根大学量化语言学系

创建时间：

2024-09-12

搜集汇总

数据集介绍

构建方式

该数据集基于台湾普通话自发语音语料库构建，通过广义加性混合模型（GAM）对3824个单音节词的63种不同词型的F0轮廓进行分析。数据集的构建过程中，使用了Montreal Forced Aligner（MFA）工具来确定词中辅音和元音的边界，并通过手动检查10%的对齐标记来验证其准确性。F0值的测量则采用了Wempe（2018）描述的方法，通过Praat脚本实现，确保了数据的高质量采集。

使用方法

该数据集适用于多种语言学和语音学研究，特别是对声调语言的声调实现机制感兴趣的研究者。研究者可以通过分析F0轮廓数据，探讨声调与语境、词义之间的关系，以及声调在不同语音环境下的变异模式。此外，数据集还可用于开发和验证声调识别算法，为语音技术的发展提供实证支持。

背景与挑战

背景概述

台湾普通话自发语音语料库是由德国图宾根大学和荷兰拉德堡德大学的研究人员共同创建的，主要研究者包括Xiaoyun Jin、Mirjam Ernestus和R. Harald Baayen。该语料库的核心研究问题在于探讨台湾普通话中单音节词在自然对话中的声调轮廓变化，特别是由于音节内协同发音和音节间协同发音导致的声调偏离。这项研究不仅填补了普通话声调研究在自然对话环境中的空白，还为理解声调在语言交流中的实际应用提供了新的视角。

当前挑战

台湾普通话自发语音语料库在构建过程中面临的主要挑战包括：1) 解决领域问题，即如何在自然对话中准确捕捉和分类单音节词的声调变化，这一问题在实验室环境中已得到一定解决，但在自然对话中仍需进一步探索；2) 构建过程中的技术挑战，如如何高效地从大量自发对话中提取声调数据，并确保数据的准确性和代表性。此外，如何在统计模型中有效分解和分析这些复杂的声调轮廓，也是一个重要的技术难题。

常用场景

经典使用场景

台湾普通话自发语音语料库在语音学研究中具有经典应用场景，主要用于分析单音节词在自然对话中的声调轮廓。通过该数据集，研究者能够深入探讨声调在自发语音中的实际表现，特别是声调在相邻音节间的协同发音效应。此外，该数据集还用于研究声调与语义之间的关系，揭示在自然对话中，单音节词的声调轮廓如何受到其语义和上下文的影响。

解决学术问题

台湾普通话自发语音语料库解决了语音学领域中关于声调在自然对话中实际表现的重要学术问题。传统上，普通话的声调被描述为四个词汇声调（T1, T2, T3, T4）和一个中性声调，但在自发语音中，这些声调的实际实现可能与标准描述有显著偏差。该数据集通过实证研究，揭示了声调在自然对话中的协同发音效应，以及声调轮廓如何受到相邻声调和语义的影响，从而为声调变异提供了新的视角。

实际应用

台湾普通话自发语音语料库在实际应用中具有广泛潜力，特别是在语音识别和合成技术领域。通过分析该数据集，开发者可以改进普通话语音识别系统，使其更好地处理自然对话中的声调变异和协同发音效应。此外，该数据集还可用于训练语音合成模型，以生成更自然、更符合实际对话的普通话语音。

数据集最近研究