台湾普通话自发语音语料库

Name: 台湾普通话自发语音语料库
Creator: 德国蒂宾根大学定量语言学系
Published: 2024-10-19 23:01:35
License: 暂无描述

arXiv2024-10-19 更新2024-10-23 收录

下载链接：

http://arxiv.org/abs/2409.07891v3

下载链接

链接失效反馈

官方服务：

资源简介：

台湾普通话自发语音语料库是由德国蒂宾根大学定量语言学系创建的，用于研究台湾普通话中单音节词的音高轮廓。该数据集包含3824个单音节词的音高数据，涵盖63种不同的词类型。数据集的创建过程包括使用Montreal Forced Aligner进行语音对齐，并通过Praat脚本测量音高。该数据集主要用于研究音高轮廓在自发对话中的实现，以及语境和词义对音高轮廓的影响，旨在解决音高轮廓在不同语境下的变化问题。

The Spontaneous Speech Corpus of Taiwanese Mandarin was developed by the Department of Quantitative Linguistics at the University of Tübingen, Germany, to investigate the pitch contours of monosyllabic words in Taiwanese Mandarin. This corpus contains pitch data for 3824 monosyllabic words, covering 63 distinct word types. The corpus’s development process included using Montreal Forced Aligner for speech alignment and measuring pitch via Praat scripts. It is primarily used to study the realization of pitch contours in spontaneous conversations, as well as the impacts of context and lexical meaning on pitch contours, with the goal of addressing the issue of variations in pitch contours across different contexts.

提供机构：

德国蒂宾根大学定量语言学系

创建时间：

2024-09-12

搜集汇总

数据集介绍

构建方式

该数据集通过分析台湾普通话自发语音语料库中的3824个单音节词的音高轮廓构建而成。研究团队采用广义加性混合模型（GAM）对观察到的音高轮廓进行分解，将其分解为一系列组成部分，这些组成部分隔离了统计模型中考虑的变量对音高轮廓的贡献。通过这种方式，研究者能够细致地分析音高轮廓在不同语境下的变化，特别是相邻音调对目标词音高轮廓的影响。

特点

该数据集的显著特点在于其对自发语音中单音节词音高轮廓的细致刻画。研究不仅揭示了标准音调在自发语境中的显著偏差，还发现相邻音调对目标词音高轮廓的显著修饰作用。此外，研究还展示了词义对音高轮廓的共同决定作用，特别是异形同音词在音高轮廓上的独特表现。这些发现为理解台湾普通话中的音调实现提供了新的视角。

使用方法

该数据集适用于语音学、语言学及计算语言学领域的研究。研究者可以利用该数据集进行音调实现的模型构建与验证，特别是对自发语音中音调变化的模拟与预测。此外，该数据集还可用于开发和测试基于音调的语言处理技术，如语音识别和合成系统。通过分析数据集中的音高轮廓变化，研究者可以深入探讨音调在语言交流中的作用及其在不同语境下的表现。

背景与挑战

背景概述

台湾普通话自发语音语料库（Taiwan Mandarin Spontaneous Speech Corpus）由德国图宾根大学（Eberhard Karls Universität Tübingen）和荷兰拉德堡德大学（Radboud University）的研究团队创建，主要研究人员包括Xiaoyun Jin、Mirjam Ernestus和R. Harald Baayen。该语料库的核心研究问题集中在台湾普通话中单音节词的声调轮廓，特别是在自发对话中的实际声调实现与标准声调之间的偏差。这一研究对汉语声调语言学领域具有重要影响，特别是在声调协同发音和相邻声调对单音节词声调实现的影响方面。

当前挑战

台湾普通话自发语音语料库面临的挑战主要集中在两个方面。首先，解决领域问题的挑战在于声调协同发音和相邻声调对单音节词声调实现的影响，这在标准声调描述中并未充分考虑。其次，构建过程中遇到的挑战包括声调轮廓的复杂性和多样性，以及如何在统计模型中准确分解和隔离这些声调轮廓的组成部分。此外，语料库的构建还需要处理声调与语义、语音时长等因素的交互影响，确保数据的准确性和模型的可靠性。

常用场景

经典使用场景

台湾普通话自发语音语料库最经典的使用场景在于研究普通话单音节词在自然对话中的声调轮廓。通过分析3824个不同词类的音高轮廓，研究者能够深入探讨声调在自发语音中的实际表现，特别是声调与相邻音节之间的协同发音效应。这种分析不仅有助于理解声调在自然语言中的变异，还能揭示声调与词义之间的复杂关系。

实际应用

在实际应用中，台湾普通话自发语音语料库的数据可以用于开发和优化语音识别系统，特别是针对普通话的声调识别。通过模拟自然对话中的声调变化，这些系统可以更准确地识别和处理声调信息，从而提高语音识别的准确性和自然度。此外，该数据集还可用于语言教学，帮助学习者更好地掌握普通话的声调变化规律。

衍生相关工作

基于台湾普通话自发语音语料库的研究，衍生出了一系列关于普通话声调实现和变异的重要工作。例如，Chuang et al. (2024) 的研究进一步探讨了双音节词的声调模式与词义的关系，而Lu et al. (2024) 则研究了T2-T3和T3-T3声调模式的双音节词。这些研究不仅扩展了对普通话声调系统的理解，还为声调在语言处理技术中的应用提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集