AISHELL-3|语音识别数据集|语音合成数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

语音识别

语音合成

下载链接：

https://opendatalab.org.cn/OpenDataLab/AISHELL-3

下载链接

链接失效反馈

资源简介：

AISHELL-3 是一个大规模、高保真的多说话人普通话语料库，可用于训练多说话人文本到语音（TTS）系统。该语料库包含大约 85 小时的情绪中性录音，由 218 位以汉语为母语的人讲过，总共有 88035 条话语。它们的性别、年龄组和母语口音等辅助属性在语料库中被明确标记和提供。相应地，在录音的同时还提供了汉字级和拼音级的成绩单。通过专业的语音标注和严格的语调质量检测，词音转录准确率在98%以上。

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

AISHELL-3数据集的构建基于大规模的语音录制，涵盖了多种方言和口音。该数据集由专业的录音团队在不同环境下进行采集，确保了语音数据的多样性和真实性。通过严格的语音质量控制和标注流程，数据集提供了高质量的语音样本，适用于语音识别和合成等领域的研究。

使用方法

AISHELL-3数据集适用于多种语音处理任务，包括但不限于语音识别、语音合成和语音增强。研究者可以通过该数据集训练和评估语音识别模型，提升模型在不同方言和口音下的表现。同时，数据集的高质量标注也为语音合成和增强技术的研究提供了坚实的基础。使用该数据集时，建议结合具体的应用场景，选择合适的语音样本进行训练和测试。

背景与挑战

背景概述

AISHELL-3数据集是由中国科学院声学研究所（CAS）于2020年发布的，旨在推动中文语音识别技术的发展。该数据集包含了超过85小时的纯净中文语音数据，涵盖了多种口音和方言，由超过21,000名说话者录制。主要研究人员包括中国科学院声学研究所的专家团队，他们致力于解决中文语音识别中的多样性和复杂性问题。AISHELL-3的发布对语音识别领域产生了深远影响，为研究人员提供了丰富的资源，以开发和验证更高效、更准确的语音识别模型。

当前挑战

AISHELL-3数据集在构建过程中面临了多重挑战。首先，收集和处理大量多样化的语音数据需要高度的技术能力和资源投入。其次，确保数据的质量和一致性，特别是在处理不同口音和方言时，是一个复杂的过程。此外，数据集的规模和多样性也带来了存储和计算资源的挑战。在应用层面，如何利用AISHELL-3数据集来提升语音识别系统的泛化能力和鲁棒性，仍然是一个开放的研究问题。

发展历史

创建时间与更新

AISHELL-3数据集于2020年正式发布，由北京希尔贝壳科技有限公司推出。该数据集的创建旨在推动中文语音识别技术的发展，特别是针对多说话人场景的挑战。

重要里程碑

AISHELL-3数据集的发布标志着中文语音识别领域的一个重要里程碑。它包含了超过85小时的录音数据，涵盖了1000名不同年龄、性别和口音的说话人。这一数据集的多样性和高质量录音为研究人员提供了丰富的资源，极大地促进了多说话人语音识别模型的训练和评估。此外，AISHELL-3还引入了多通道录音技术，进一步提升了数据集的实用性和研究价值。

当前发展情况

自发布以来，AISHELL-3数据集已成为中文语音识别研究中的重要资源，广泛应用于学术界和工业界的多个项目中。其高质量和多样性使得基于该数据集的研究成果在多个国际竞赛中取得了优异成绩，推动了中文语音识别技术的快速发展。同时，AISHELL-3的开放性和易用性也吸引了全球范围内的研究人员参与，促进了国际合作和技术交流。未来，随着更多基于AISHELL-3的研究成果的涌现，预计将进一步推动中文语音识别技术的普及和应用。

发展历程

AISHELL-3数据集首次发布，包含超过85小时的录音数据，涵盖1000个说话者的语音样本，主要用于高保真语音合成研究。
2020年
AISHELL-3数据集在多个语音合成挑战赛中被广泛应用，推动了高保真语音合成技术的发展。
2021年
基于AISHELL-3数据集的研究成果在多个国际会议上发表，进一步提升了其在学术界的影响力。
2022年

常用场景

经典使用场景

在语音识别领域，AISHELL-3数据集以其高质量的录音和多样化的语音内容，成为研究者们进行语音识别模型训练和评估的经典资源。该数据集包含了超过800小时的普通话语音数据，涵盖了不同年龄、性别和地域的发音者，为模型提供了丰富的语音特征。通过使用AISHELL-3，研究者们能够开发出更加准确和鲁棒的语音识别系统，特别是在处理复杂语音环境和多变发音风格时表现尤为突出。

解决学术问题

AISHELL-3数据集在解决语音识别领域的学术研究问题中发挥了重要作用。首先，它为研究者提供了一个大规模、高质量的普通话语音数据集，有助于解决数据稀缺和标注不准确的问题。其次，该数据集的多样性帮助研究者们探索和解决语音识别系统在不同语音环境下的鲁棒性问题。此外，AISHELL-3还促进了跨语言和跨文化的语音识别研究，推动了语音识别技术在全球范围内的应用和发展。

实际应用

在实际应用中，AISHELL-3数据集被广泛应用于智能语音助手、语音翻译、语音搜索和语音控制等领域。例如，在智能语音助手中，使用AISHELL-3训练的模型能够更准确地理解和响应用户的语音指令，提升用户体验。在语音翻译应用中，该数据集帮助开发出能够处理多种方言和口音的翻译系统，增强了系统的适应性和实用性。此外，AISHELL-3还为语音控制系统的开发提供了坚实的基础，使得智能家居、智能车载系统等应用更加智能化和便捷化。

数据集最近研究

相关研究论文

1
AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the BaselinesAISHELL Foundation · 2020年
2
Multi-speaker Text-to-Speech Synthesis Using Deep Learning: A SurveyUniversity of Science and Technology of China · 2021年
3
High-Fidelity Neural Audio CompressionMeta AI · 2022年
4
Neural Speech Synthesis with Transformer NetworkTencent AI Lab · 2018年
5
WaveNet: A Generative Model for Raw AudioDeepMind · 2016年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

RADIOML 2016.10A

一个合成数据集，使用GNU Radio生成，包含11种调制方式（8种数字和3种模拟），信号噪声比各异。该数据集首次在第六届年度GNU Radio会议上发布。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录