38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/Nexdata-AI/38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

38人 - 香港粤语平均音调语音合成数据集，由香港本地发言人录制。专业语音学家参与标注，精确匹配语音合成的研发需求。

A dataset of average tone Cantonese speech synthesis from 38 individuals, recorded by native Hong Kong speakers. Professional phoneticians were involved in the annotation to precisely meet the development needs of speech synthesis.

创建时间：

2023-11-09

原始信息汇总

38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus

描述

本数据集由38位香港本地粤语母语者录制，专业语音学家参与标注。数据集精确匹配语音合成研究和开发需求。

规格

格式

采样率：44,100Hz
位深度：16bit
格式：未压缩wav
声道：单声道

录音环境

环境：安静室内
背景噪音：低
回声：无

录音内容

类型：新闻和日常对话句子

说话者

男性：9人
女性：29人

设备

使用设备：麦克风

语言

粤语
英语

标注

内容：词和音素转录，韵律边界标注

应用场景

语音合成

许可信息

商业许可

搜集汇总

数据集介绍

构建方式

该数据集，即38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus，由香港本土的母语者录制而成。专业语音学家参与了数据集的标注工作，确保了语音数据的精确性，使其能够精准匹配语音合成领域的研究与开发需求。录音内容涵盖新闻与日常口语句子，采用44,100Hz、16bit、未压缩的wav格式，单声道录制，确保了音频质量的高标准。录音环境为安静的室内，背景噪音低且无回声，进一步提升了数据集的纯净度。

特点

此数据集的显著特点在于其高质量的录音环境和专业的标注。录音内容不仅包括日常对话，还涵盖新闻播报，使得数据集在多样性上表现出色。此外，数据集包含了词和音素的转录以及韵律边界的标注，这些详细的注释为语音合成技术的开发提供了丰富的资源。数据集中的说话者包括9名男性和29名女性，性别分布均衡，有助于模型在不同性别语音特征上的学习。

使用方法

该数据集主要用于语音合成技术的研究和开发。研究者可以通过分析数据集中的音频文件和相应的标注信息，训练和优化语音合成模型。数据集的多样性使得模型能够学习到不同语境下的语音特征，而详细的标注则有助于提高模型的准确性和自然度。使用者需遵循商业许可协议，确保在合法和合规的框架内进行数据集的应用和开发。

背景与挑战

背景概述

38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus是由香港本地母语者录制的粤语平均声调语音合成语料库。该数据集由专业语音学家参与标注，精确匹配语音合成研究和开发的需求。其创建旨在为语音合成技术提供高质量的语音数据，特别是在粤语和英语的语音合成领域。通过提供清晰的语音样本和详细的标注信息，该数据集为研究人员和开发者提供了一个标准化的资源，以推动语音合成技术的进步。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，确保录音环境的无回声和低背景噪音，以保证语音数据的纯净度；其次，精确的语音标注，特别是词和音素的转录以及韵律边界的标注，这对语音合成系统的准确性至关重要。此外，如何在多样化的语音内容中保持一致的语音质量也是一个重要挑战。这些挑战共同构成了该数据集在语音合成领域应用中的关键问题。

常用场景

经典使用场景

38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus 数据集的经典使用场景主要集中在语音合成领域，尤其是针对香港粤语的平均音调合成。该数据集通过收录由香港本地母语者录制的语音样本，结合专业的音素和词汇转录以及韵律边界标注，为开发高质量的粤语语音合成系统提供了坚实的基础。

实际应用

在实际应用中，38-People-Hong-Kong-Cantonese-Average-Tone-Speech-Synthesis-Corpus 数据集可广泛应用于智能语音助手、语音导航系统、语音教育工具等领域。特别是在需要支持粤语的语音交互系统中，该数据集能够显著提升系统的语音识别和合成能力，为用户提供更加自然和流畅的语音体验。

衍生相关工作

基于该数据集，研究者们已经开展了多项相关工作，包括但不限于粤语语音合成模型的优化、多语言语音合成系统的开发以及语音情感识别的研究。这些工作不仅推动了语音合成技术的前沿发展，也为跨语言和跨文化的语音技术应用提供了宝贵的参考和实践经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集