AISHELL-3

Name: AISHELL-3
Creator: 武汉大学计算机科学学院
Published: 2021-04-22 15:51:51
License: 暂无描述

arXiv2021-04-22 更新2024-07-25 收录

下载链接：

https://www.aishelltech.com/aishell_3

下载链接

链接失效反馈

官方服务：

资源简介：

AISHELL-3是由北京壳牌科技有限公司创建的大型高质量多说话人普通话语音数据集，旨在训练多说话人文本到语音（TTS）系统。该数据集包含约85小时的中性情感录音，由218位母语为普通话的中国说话人录制，涵盖性别、年龄组和方言等辅助属性。数据集提供汉字级和拼音级转录，适用于构建能够实现零样本语音克隆的鲁棒合成模型。AISHELL-3的应用领域包括智能语音命令、新闻报道和地理信息等，旨在解决普通话TTS系统训练数据不足的问题。

AISHELL-3 is a large-scale, high-quality multi-speaker Mandarin speech dataset developed by Beijing Shell Technology Co., Ltd., which is purpose-built for training multi-speaker text-to-speech (TTS) systems. The dataset encompasses approximately 85 hours of neutral-emotion audio recordings, collected from 218 native Mandarin speakers across China, with auxiliary metadata covering gender, age groups, dialects and other related attributes. It provides both character-level and pinyin-level transcriptions, making it suitable for constructing robust speech synthesis models that support zero-shot voice cloning. The application scenarios of AISHELL-3 include intelligent voice commands, news reporting, geographic information services and more, and it aims to address the shortage of training data for Mandarin TTS systems.

提供机构：

武汉大学计算机科学学院

创建时间：

2020-10-22

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，AISHELL-3数据集的构建旨在填补公开多说话人中文语音资源的空白。该数据集通过专业录音设备在安静室内环境中采集，由218名母语为普通话的发音人以中性情感朗读涵盖智能家居指令、新闻报道及地理信息等多领域文本脚本，共获得约85小时的高保真语音录音。所有录音均经过人工听写，提供了精确的汉字级与拼音级转录，有效解决了汉语中多音字、变调、儿化音及口音等自动转写难题，确保了语音与文本对齐的高质量。

使用方法

该数据集主要用于训练多说话人中文文本到语音合成系统。使用者可依据提供的说话人属性标签，构建能够区分说话人身份的声学模型。典型应用包括基于Tacotron-2架构的基线系统，其中引入说话人验证模块及反馈约束损失以提升语音相似度。数据准备阶段涉及下采样至16kHz、基于说话人的训练测试集划分、静音段修剪以及长句拼接等增强步骤，以优化注意力对齐并提升模型对未见说话人的零样本语音克隆能力。

背景与挑战

背景概述

在语音合成技术迅速发展的背景下，多说话人语音合成系统因其在个性化语音生成方面的潜力而备受关注。然而，针对汉语普通话的多说话人语音合成研究长期面临公开数据资源匮乏的挑战。为填补这一空白，武汉大学与北京希尔贝壳科技有限公司的研究团队于2021年联合发布了AISHELL-3数据集。该数据集包含约85小时的高保真普通话语音录音，由218名母语者以中性情感录制，并提供了详细的说话人属性标注及字符级与拼音级转录文本。AISHELL-3的发布为汉语多说话人语音合成模型的训练提供了关键数据支持，推动了该领域在零样本语音克隆及跨说话人泛化能力方面的研究进展。

当前挑战

AISHELL-3数据集旨在解决汉语多说话人语音合成中的核心挑战，包括在复杂声调与韵律结构下实现高自然度与说话人相似性的平衡。具体而言，构建过程中面临多重困难：汉语中存在大量同音异义字与变调现象，如连续三声变调规则的不一致性，以及儿化音等特殊发音处理，使得自动拼音标注极易出错。为此，研究团队通过人工听测转录确保了拼音标注的准确性。此外，数据采集需在严格控制的环境下进行，以保持音频质量的一致性，同时需平衡说话人的性别、年龄与地域口音分布，尽管最终数据仍呈现女性说话人偏多的局限性。这些挑战的克服为后续高质量语音合成模型的训练奠定了坚实基础。

常用场景

经典使用场景

在语音合成研究领域，多说话人语音合成系统的开发依赖于大规模、高质量的语音数据集。AISHELL-3作为首个公开的大规模多说话人中文普通话语音合成语料库，其经典使用场景在于为研究人员提供了一个标准化的基准平台，用于训练和评估多说话人语音合成模型。该数据集包含218位说话人的85小时情感中性录音，并附带详细的说话人属性标注，使得研究者能够探索说话人身份与语音内容之间的解耦机制，从而推动零样本语音克隆技术的发展。

解决学术问题

AISHELL-3解决了中文语音合成研究中长期存在的资源匮乏问题，特别是多说话人语音合成领域缺乏公开、高质量数据集的问题。该数据集通过提供精细的手动拼音标注，有效应对了中文同音字、变调、儿化音及口音变异等语言特性带来的挑战，为构建鲁棒的声学模型提供了纯净的训练数据。其意义在于促进了中文语音合成技术的标准化与可比性研究，使得跨语言语音合成系统的性能评估成为可能，并推动了说话人嵌入、零样本合成等前沿方向的发展。

实际应用

在实际应用层面，AISHELL-3为智能语音交互系统提供了关键的数据支持。基于该数据集训练的多说话人语音合成模型，可广泛应用于智能家居语音命令、新闻播报、地理信息播报等场景，实现个性化、自然流畅的语音输出。此外，该数据集的高保真录音和说话人属性标注，使得语音合成系统能够适应不同年龄、性别和口音的用户需求，提升了语音助手、有声读物生成及虚拟主播等应用的实用性与用户体验。

数据集最近研究