GroupE_groupproject

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/eduhk-compling/GroupE_groupproject

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个标注了音高的语音语料库，基于粤语拼音（Jyutping）框架进行音高标注。音高标注系统将音高分为6个等级（1-6）以及入声调，使用数字表示不同音高水平（如高平调(1)标注为<\55>或<\53>）。对于与标准发音存在偏差的情况，使用'r'（上升）、'l'（平调）、'f'（下降）表示音高变化方向，'p'（增加）和'm'（减少）表示音高变化幅度。数据集支持中文和英文，适用于语音处理和音频分析任务，但未提供具体数据规模和来源信息。

This dataset is a pitch-annotated speech corpus, where pitch annotations are conducted based on the Jyutping (Cantonese Pinyin) framework. The pitch annotation scheme divides pitch into 6 levels (1-6) and checked tones, with numbers used to represent different pitch levels. For instance, the high-level flat tone (1) is annotated as <55> or <53>. For cases that deviate from standard pronunciation, 'r' (rising), 'l' (level), 'f' (falling) are employed to indicate the direction of pitch change, while 'p' (increase) and 'm' (decrease) are used to denote the magnitude of pitch variation. This corpus supports both Chinese and English, and is suitable for speech processing and audio analysis tasks. Nevertheless, specific data scale and source information are not provided.

创建时间：

2026-04-16

原始信息汇总

数据集概述

基本信息

数据集名称: GroupE_groupproject
许可协议: CC BY 4.0
语言: 中文 (zh)、英文 (en)
标签: 音频 (audio)、语音 (speech)

数据集描述

该语料库标注了音高信息。音高标注范围从 (1) 最低音高到 (5) 最高音高。标注采用基于赵元任 (Y.-R. Chao) 在《粤语入门》(Cantonese Primer, 1947) 中提出的数字声调系统。音高标注在粤拼 (Jyutping) 框架下进行，具体标注规则如下：

标准声调标注

高平调 (1): <55>、<53>
中升调 (2): <35>
中平调 (3): <33>
低降调 (4): <11>、<21>
低升调 (5): <13>
低平调 (6): <22>
入声高平调 (1): <5>
入声中平调 (3): <3>
入声低平调 (6): <2>

非标准发音标注规则

若音高与标准发音相比发生变化，则使用以下符号进行标注：

"r" 表示升调 (rising)
"l" 表示平调 (level)
"f" 表示降调 (falling)
"p" 表示音高增加 (plus/increase)
"m" 表示音高降低 (minus/decrease)

标注示例

当标准发音为 <22>（低平调 6），实际发音为 <23> 时，标注为：<23> <

<p>。

当标准发音为 <35>（中升调 2），实际发音为 <33> 时，标注为：<33> <l> <m>。
当标准发音为 <22>（低平调 6），实际发音为 <21> 时，标注为：<21> <f> <m>。

搜集汇总

数据集介绍

构建方式

在语音学研究领域，音高标注是分析声调语言韵律特征的核心环节。GroupE_groupproject数据集基于赵元任先生在《粤语入门》中建立的数字调值系统，对粤语音频语料进行了精细的音高标注。标注体系将音高划分为从最低到最高的五个等级，并依据粤语拼音框架，为每个音节标注了具体的调值符号，例如高平调记为<\55>或<\53>，中升调记为<\35>等。对于实际发音与标准调值存在偏差的情况，数据集引入了'r'、'l'、'f'分别表示升、平、降的调形变化，并用'p'和'm'标注音高的增减幅度，从而构建了一套能够准确捕捉自然语音中复杂音高变异的标注规范。

特点

该数据集的核心特点在于其高度系统化和精细化的音高标注体系。它不仅严格遵循了经典的赵元任调值理论，将粤语声调归入九个标准类别，更创新性地扩展了标注维度，以描述连续语流中常见的音高变异现象。通过引入描述调形（升、平、降）和幅度（增、减）的辅助符号，数据集能够超越静态的单字调描述，动态记录音节在特定语境下的实际音高实现。这种设计使得数据集不仅适用于粤语标准发音的研究，更能为语音合成、语音识别中韵律建模的鲁棒性提升，提供包含丰富副语言学信息的训练资源。

使用方法

对于语音技术的研究者与开发者而言，该数据集为粤语韵律分析与建模提供了直接可用的标注资源。使用者可以依据音频文件与对应的音高标注符号，训练或评估声学模型对粤语声调及音高变化的感知与生成能力。在具体应用中，标注中的标准调值部分可用于构建基础的声调分类器或合成系统的韵律模块；而包含'r'、'l'、'f'、'p'、'm'等符号的变异标注，则特别适用于开发更智能的模型，以学习自然口语中因协同发音、语气或焦点导致的音高变化规律，从而增强语音技术对自然度与表现力的捕捉。

背景与挑战

背景概述

在语音学和计算语言学领域，音高标注对于声调语言的研究至关重要，尤其是粤语等具有复杂声调系统的语言。GroupE_groupproject数据集应运而生，其创建基于赵元任先生于1947年提出的粤语音调数字系统，旨在系统性地标注粤语音节中的音高变化。该数据集由研究团队精心构建，核心研究问题聚焦于准确捕捉和量化粤语声调的实际发音变异，为语音合成、识别及方言学研究提供了宝贵的资源。通过引入精细的音高标注框架，该数据集不仅推动了声调建模技术的发展，还深化了对粤语音系动态特征的理解，在语音技术领域产生了广泛影响。

当前挑战

GroupE_groupproject数据集所解决的领域问题在于粤语音高变异的精确建模，其挑战体现在声调系统的复杂性上，例如标准发音与实际发音之间的细微差异难以量化，且音高变化如上升、水平或下降模式的标注需要高度一致性。构建过程中的挑战则涉及标注规范的制定，需将赵元任的数字系统扩展以适应非标准音高实例，如使用“r”、“l”、“f”等符号表示音高动态，同时确保标注的准确性与可解释性，这要求标注者具备深厚的语音学知识，并克服数据收集中的噪音干扰与主观判断偏差。

常用场景

经典使用场景

在语音学与计算语言学领域，音高标注数据集为声调语言的语音分析提供了关键资源。GroupE_groupproject数据集以其精细的音高标注体系，广泛应用于粤语声调系统的建模与识别研究。通过标注从最低到最高的音高等级，并结合赵元任先生的粤语音韵体系，该数据集为研究者提供了标准发音与变体发音的对比框架，使得声调感知、音高变化模式的分析成为可能，尤其在语音合成与识别系统中，为声调准确性的提升奠定了数据基础。

解决学术问题

该数据集主要解决了声调语言中音高变体与标准发音之间的量化描述难题。在粤语等复杂声调系统中，音高的细微变化往往影响语义理解，而传统标注方法难以捕捉这些动态特征。通过引入音高数字标注及变体标记（如上升、水平、下降及增减调），数据集为学术研究提供了精确的音高变化模型，助力于声调分类、语音变异分析和音系规则挖掘，从而深化了对声调产生机制与感知规律的理论认识，推动了语音学与计算方法的交叉融合。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。在语音处理领域，研究者利用其标注构建了粤语音高预测模型，优化了声调转换算法；在语言学方面，基于数据集的音高变体分析，揭示了粤语声调在自然口语中的动态演变规律。这些工作不仅拓展了声调建模的技术边界，还为跨语言语音比较研究提供了参考，进一步推动了粤语语音资源在人工智能与人文社科中的整合应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集