five

AISHELL/AISHELL-3|语音合成数据集|普通话数据集

收藏
hugging_face2024-01-08 更新2024-03-04 收录
语音合成
普通话
下载链接:
https://hf-mirror.com/datasets/AISHELL/AISHELL-3
下载链接
链接失效反馈
资源简介:
AISHELL-3是一个大规模、高保真的多说话者普通话语音语料库,由北京壳牌技术有限公司发布。该语料库可用于训练多说话者文本到语音(TTS)系统。语料库包含约85小时的中性情感录音,由218名普通话母语者录制,总共有88035条话语。每条录音都附有性别、年龄组和方言等辅助属性,以及汉字和拼音级别的转录文本。转录的准确率超过98%,经过专业的语音标注和严格的音调和韵律质量检查。

AISHELL-3是一个大规模、高保真的多说话者普通话语音语料库,由北京壳牌技术有限公司发布。该语料库可用于训练多说话者文本到语音(TTS)系统。语料库包含约85小时的中性情感录音,由218名普通话母语者录制,总共有88035条话语。每条录音都附有性别、年龄组和方言等辅助属性,以及汉字和拼音级别的转录文本。转录的准确率超过98%,经过专业的语音标注和严格的音调和韵律质量检查。
提供机构:
AISHELL
原始信息汇总

AISHELL-3 数据集概述

基本信息

  • 许可证:Apache-2.0
  • 任务类别:文本转语音(Text-to-Speech)
  • 语言:中文
  • 数据规模:10K<n<100K

数据集描述

  • 发布机构:北京壳壳科技有限公司(Beijing Shell Shell Technology Co., Ltd.)
  • 数据内容:包含约85小时的高保真多说话人普通话语音数据,由218名母语为普通话的说话人录制,共计88035条语音。
  • 辅助属性:性别、年龄组和母语口音等属性已明确标记并提供。
  • 转录文本:提供中文汉字级别和拼音级别的转录文本,词和音调的转录准确率超过98%。

引用信息

  • BibTeX 引用: bibtex @inproceedings{AISHELL-3_2020, title={AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines}, author={Yao Shi, Hui Bu, Xin Xu, Shaoji Zhang, Ming Li}, year={2015}, url={https://arxiv.org/abs/2010.11567} }
AI搜集汇总
数据集介绍
main_image_url
构建方式
AISHELL-3数据集由北京壳壳科技有限公司发布,是一个大规模且高保真的多说话人普通话语音语料库。该数据集包含了约85小时的情感中性录音,由218名母语为普通话的说话者完成,共计88035条语音。数据集中的语音辅助属性,如性别、年龄组和母语口音,均被明确标记并提供。此外,录音的转录文本以汉字和拼音两种形式提供,其词调和音调的转录准确率超过98%,经过专业的语音标注和严格的质量检查,确保了音调和韵律的准确性。
特点
AISHELL-3数据集的主要特点在于其高保真度和多说话人特性,适合用于训练多说话人的文本到语音(TTS)系统。数据集不仅提供了丰富的语音数据,还详细标注了说话者的性别、年龄和口音等辅助信息,使得模型能够更好地理解和模拟不同说话者的语音特征。此外,数据集的高转录准确率和专业质量检查确保了语音数据的可靠性和实用性。
使用方法
AISHELL-3数据集适用于多说话人文本到语音(TTS)系统的训练和评估。用户可以通过提供的转录文本和语音数据,训练模型以生成自然流畅的普通话语音。数据集的详细标注信息可以帮助模型更好地学习不同说话者的语音特征,从而提高TTS系统的多样性和自然度。此外,数据集还提供了基线系统代码和生成的样本,供研究者和开发者参考和使用。
背景与挑战
背景概述
AISHELL-3是由北京壳壳科技有限公司发布的大规模高保真多说话人普通话语音语料库,专为多说话人文本到语音(TTS)系统的训练而设计。该语料库包含约85小时的情感中性录音,由218名母语为普通话的说话者完成,共计88035条语音。语料库中详细标注了说话者的性别、年龄组和方言等辅助属性,并提供了中文字符级和拼音级的转录文本。转录的准确率超过98%,经过专业的语音标注和严格的音调和韵律质量检查。该数据集的发布为多说话人TTS系统的研究提供了宝贵的资源,推动了语音合成技术的发展。
当前挑战
AISHELL-3数据集在构建过程中面临多项挑战。首先,确保多说话人语音数据的高保真度和情感中性是一个复杂的过程,需要精细的录音技术和严格的后期处理。其次,语音标注的准确性要求极高,尤其是音调和韵律的精确标注,这需要专业的语音学知识和经验。此外,处理大规模语音数据集的存储和计算资源也是一个重要的挑战。在应用层面,如何利用这些数据有效地训练多说话人TTS系统,并确保其在不同方言和年龄组中的表现一致性,也是研究者需要解决的问题。
常用场景
经典使用场景
AISHELL-3数据集在多说话人语音合成领域展现出卓越的应用潜力。其丰富的语音数据,涵盖了218位母语为普通话的说话者,提供了85小时的高保真录音,为构建高质量的多说话人文本到语音(TTS)系统提供了坚实的基础。通过利用该数据集,研究者能够训练出能够准确模拟不同性别、年龄和方言背景的语音合成模型,极大地提升了合成语音的自然度和多样性。
衍生相关工作
基于AISHELL-3数据集,研究者们开展了一系列经典工作,包括多说话人语音合成模型的优化、语音情感识别和个性化语音合成等。这些研究不仅提升了语音合成的技术水平,还推动了相关领域的技术进步。例如,有研究利用该数据集开发了能够动态调整语音风格和情感的合成系统,进一步拓宽了语音合成的应用场景。
数据集最近研究
最新研究方向
在多说话人语音合成领域,AISHELL-3数据集因其大规模、高保真度的普通话语音数据而备受关注。该数据集不仅提供了丰富的语音样本,还包含了详细的说话人属性标注,如性别、年龄组和方言背景,这为个性化语音合成和情感建模提供了坚实的基础。近年来,研究者们利用AISHELL-3数据集在多说话人文本到语音(TTS)系统中探索了深度学习模型的应用,特别是在提高合成语音的自然度和个性化方面取得了显著进展。此外,该数据集的引入也推动了跨语言语音合成技术的研究,为全球语音技术的发展提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录