AISHELL/AISHELL-3

Name: AISHELL/AISHELL-3
Creator: AISHELL
Published: 2024-01-08 09:56:11
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AISHELL/AISHELL-3

下载链接

链接失效反馈

官方服务：

资源简介：

AISHELL-3是一个大规模、高保真的多说话者普通话语音语料库，由北京壳牌技术有限公司发布。该语料库可用于训练多说话者文本到语音（TTS）系统。语料库包含约85小时的中性情感录音，由218名普通话母语者录制，总共有88035条话语。每条录音都附有性别、年龄组和方言等辅助属性，以及汉字和拼音级别的转录文本。转录的准确率超过98%，经过专业的语音标注和严格的音调和韵律质量检查。

提供机构：

AISHELL

原始信息汇总

AISHELL-3 数据集概述

基本信息

许可证：Apache-2.0
任务类别：文本转语音（Text-to-Speech）
语言：中文
数据规模：10K<n<100K

数据集描述

发布机构：北京壳壳科技有限公司（Beijing Shell Shell Technology Co., Ltd.）
数据内容：包含约85小时的高保真多说话人普通话语音数据，由218名母语为普通话的说话人录制，共计88035条语音。
辅助属性：性别、年龄组和母语口音等属性已明确标记并提供。
转录文本：提供中文汉字级别和拼音级别的转录文本，词和音调的转录准确率超过98%。

引用信息

BibTeX 引用： bibtex @inproceedings{AISHELL-3_2020, title={AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines}, author={Yao Shi, Hui Bu, Xin Xu, Shaoji Zhang, Ming Li}, year={2015}, url={https://arxiv.org/abs/2010.11567} }

搜集汇总

数据集介绍

构建方式

AISHELL-3数据集由北京壳壳科技有限公司发布，是一个大规模且高保真的多说话人普通话语音语料库。该数据集包含了约85小时的情感中性录音，由218名母语为普通话的说话者完成，共计88035条语音。数据集中的语音辅助属性，如性别、年龄组和母语口音，均被明确标记并提供。此外，录音的转录文本以汉字和拼音两种形式提供，其词调和音调的转录准确率超过98%，经过专业的语音标注和严格的质量检查，确保了音调和韵律的准确性。

特点

AISHELL-3数据集的主要特点在于其高保真度和多说话人特性，适合用于训练多说话人的文本到语音（TTS）系统。数据集不仅提供了丰富的语音数据，还详细标注了说话者的性别、年龄和口音等辅助信息，使得模型能够更好地理解和模拟不同说话者的语音特征。此外，数据集的高转录准确率和专业质量检查确保了语音数据的可靠性和实用性。

使用方法

AISHELL-3数据集适用于多说话人文本到语音（TTS）系统的训练和评估。用户可以通过提供的转录文本和语音数据，训练模型以生成自然流畅的普通话语音。数据集的详细标注信息可以帮助模型更好地学习不同说话者的语音特征，从而提高TTS系统的多样性和自然度。此外，数据集还提供了基线系统代码和生成的样本，供研究者和开发者参考和使用。

背景与挑战

背景概述

AISHELL-3是由北京壳壳科技有限公司发布的大规模高保真多说话人普通话语音语料库，专为多说话人文本到语音（TTS）系统的训练而设计。该语料库包含约85小时的情感中性录音，由218名母语为普通话的说话者完成，共计88035条语音。语料库中详细标注了说话者的性别、年龄组和方言等辅助属性，并提供了中文字符级和拼音级的转录文本。转录的准确率超过98%，经过专业的语音标注和严格的音调和韵律质量检查。该数据集的发布为多说话人TTS系统的研究提供了宝贵的资源，推动了语音合成技术的发展。

当前挑战

AISHELL-3数据集在构建过程中面临多项挑战。首先，确保多说话人语音数据的高保真度和情感中性是一个复杂的过程，需要精细的录音技术和严格的后期处理。其次，语音标注的准确性要求极高，尤其是音调和韵律的精确标注，这需要专业的语音学知识和经验。此外，处理大规模语音数据集的存储和计算资源也是一个重要的挑战。在应用层面，如何利用这些数据有效地训练多说话人TTS系统，并确保其在不同方言和年龄组中的表现一致性，也是研究者需要解决的问题。

常用场景

经典使用场景

AISHELL-3数据集在多说话人语音合成领域展现出卓越的应用潜力。其丰富的语音数据，涵盖了218位母语为普通话的说话者，提供了85小时的高保真录音，为构建高质量的多说话人文本到语音（TTS）系统提供了坚实的基础。通过利用该数据集，研究者能够训练出能够准确模拟不同性别、年龄和方言背景的语音合成模型，极大地提升了合成语音的自然度和多样性。

衍生相关工作

基于AISHELL-3数据集，研究者们开展了一系列经典工作，包括多说话人语音合成模型的优化、语音情感识别和个性化语音合成等。这些研究不仅提升了语音合成的技术水平，还推动了相关领域的技术进步。例如，有研究利用该数据集开发了能够动态调整语音风格和情感的合成系统，进一步拓宽了语音合成的应用场景。

数据集最近研究