five

VoiceBank-2023|语音合成数据集|个性化TTS数据集

收藏
github2023-08-30 更新2024-05-31 收录
语音合成
个性化TTS
下载链接:
https://github.com/VoiceBank-NTPU-TW/VoiceBank-2023
下载链接
链接失效反馈
资源简介:
VoiceBank-2023是一个专门为构建个性化普通话文本到语音(TTS)系统设计的语音语料库。该语料库包含两大部分,共有八个子语料库,旨在丰富通信功能并支持个性化TTS系统的开发。

VoiceBank-2023 is a specialized speech corpus designed for the development of personalized Mandarin text-to-speech (TTS) systems. The corpus comprises two main sections, encompassing a total of eight sub-corpora, aimed at enhancing communication capabilities and supporting the advancement of personalized TTS systems.
创建时间:
2023-08-25
原始信息汇总

数据集概述

数据集名称

语言

  • 语言: 主要为台湾普通话

数据集设计

  • 设计目的: 用于构建个性化普通话文本到语音(TTS)系统
  • 组成部分:
    • Part 1 - VoiceBanking (子语料库1和2):
      • 子语料库1: 覆盖所有普通话声母和韵母类型
      • 子语料库2: 扩大语音库样本量
    • Part 2 - Common Phrases (子语料库3至8):
      • 子语料库3至8: 包含1至≥6个字符的短语,以丰富交流功能

数据集统计

  • 发言人数量: 111
    • 性别分布: 47名女性 + 64名男性
    • 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
  • 语音数量: 12,875
    • Part 1: 7,625
    • Part 2: 5,250
  • 总时长: 29.78小时
    • Part 1: 28.18小时
    • Part 2: 1.60小时
  • 音节数量: 360,586
    • Part 1: 342,486
    • Part 2: 18,100

数据集规格

  • 文本/提示材料:
    • Part 1: 133个短段落
    • Part 2: 556个常用短语
  • 说话风格:
    • Part 1: 朗读风格
    • Part 2: 自然口语风格
  • 用途:
    • 个性化TTS
    • 评估构音障碍、声音质量(抖动/闪烁)和录音声音质量
  • 发言人详细信息:
    • 性别分布: 47名女性 + 64名男性
    • 类型分布: 39名ALS患者 + 63名语音捐赠者 + 9名未知
    • 构音障碍程度: 86名(程度1:高语音可理解性)+ 11名(程度2)+ 12名(程度3)+ 2名(程度4:低语音可理解性)

技术规格

  • 波形编码: 线性PCM,48kHz采样率,16位分辨率,单声道
  • 麦克风/录音环境: 主要使用USB质量麦克风/主要在家或办公室
  • 每个语音文件:
    • .TextGrid: 语音学(声母/韵母)、音节(声调)和单词(词性及标点符号)的时间对齐
    • .txt: UTF-8编码的原始文本文件
    • .wav: WAVE格式文件

样本

  • 提供四个不同构音障碍程度的语音样本文件,通过信号处理方法调整音高和速度,以去除发言人身份同时保持语音自然性。
AI搜集汇总
数据集介绍
main_image_url
构建方式
VoiceBank-2023数据集的构建旨在为个性化普通话文本转语音(TTS)系统提供支持,特别是针对语音障碍者。该数据集由两部分组成,共包含八个子语料库。第一部分为语音银行,涵盖所有普通话声母和韵母类型,并扩大了样本量;第二部分为常用短语,包含1至6个字符的短语,以丰富交流功能。数据采集涉及111名说话者,包括39名ALS患者、63名语音捐赠者和9名未知身份者,共录得12,875条语音,总时长达29.78小时。
特点
VoiceBank-2023数据集的特点在于其多样性和针对性。数据集不仅包含大量普通话语音样本,还特别关注语音障碍者的需求,涵盖了不同性别、年龄和语音障碍程度的说话者。语音样本以线性PCM格式存储,采样率为48kHz,分辨率为16位,单声道录制。此外,数据集提供了详细的语音对齐信息,包括音素、音节和词汇的时间对齐标注,为语音分析和模型训练提供了丰富的基础数据。
使用方法
VoiceBank-2023数据集的使用方法主要围绕个性化TTS系统的构建和语音障碍评估展开。研究人员可以通过分析数据集中的语音样本,训练和优化TTS模型,特别是针对语音障碍者的个性化需求。此外,数据集还可用于评估语音质量(如抖动和闪烁)和录音质量,为语音病理学研究提供支持。数据集可通过非商业用途申请获取,需联系相关作者获取访问权限。
背景与挑战
背景概述
VoiceBank-2023是由台湾国立台北大学语音与多媒体信号处理实验室(SMSPLab)与AcoustInTek公司及国立阳明交通大学合作开发的多说话者普通话语音语料库,旨在构建个性化的文本到语音(TTS)系统,特别是为语言障碍患者提供支持。该数据集于2023年8月发布,涵盖了111名说话者的12,875条语音样本,总时长达29.78小时。数据集分为两部分:第一部分专注于语音银行,涵盖所有普通话声母和韵母类型;第二部分则包含常见短语,以丰富语音的交际功能。VoiceBank-2023的发布为个性化TTS系统的开发提供了重要的数据支持,尤其在语言障碍患者的语音合成领域具有深远影响。
当前挑战
VoiceBank-2023在构建过程中面临多重挑战。首先,数据集的多样性要求涵盖不同性别、年龄及语言障碍程度的说话者,这对数据采集的广度和深度提出了较高要求。其次,语音样本的质量控制至关重要,尤其是对于语言障碍患者,其语音的清晰度和自然度可能较低,如何在保证数据真实性的同时提升语音质量成为一大难题。此外,数据标注的复杂性也不容忽视,语音样本的声学特征、音节划分及时间对齐需要高度精确的标注工具和方法。最后,如何在保护说话者隐私的前提下进行数据共享,也是数据集推广和应用中需要解决的关键问题。
常用场景
经典使用场景
VoiceBank-2023数据集在语音合成领域具有重要应用,特别是在构建个性化的普通话文本到语音(TTS)系统中。该数据集通过包含不同发音清晰度的语音样本,能够有效支持针对语言障碍患者的个性化语音合成研究。其经典使用场景包括为肌萎缩侧索硬化症(ALS)患者构建个性化的语音合成模型,以帮助他们恢复或改善语音表达能力。
衍生相关工作
VoiceBank-2023数据集的发布推动了多项相关研究工作的开展。例如,基于该数据集的研究成果已被用于开发针对发音障碍患者的个性化TTS系统,并在语音病理学领域取得了显著进展。此外,该数据集还促进了语音合成技术与人工智能技术的结合,推动了语音合成模型在医疗辅助领域的应用。相关研究不仅提升了语音合成技术的性能,还为语言障碍患者提供了更加精准的语音辅助工具。
数据集最近研究
最新研究方向
在语音合成领域,VoiceBank-2023数据集为构建个性化的普通话文本到语音(TTS)系统提供了重要资源,特别是在面向言语障碍患者的应用中。该数据集涵盖了111名说话者的12,875条语音样本,总时长近30小时,涵盖了从流利语音到严重构音障碍的多种语音特征。其独特之处在于不仅包含了常规的语音样本,还特别设计了针对ALS患者等言语障碍者的语音库,为个性化TTS系统的开发提供了丰富的数据支持。近年来,随着人工智能技术在医疗辅助领域的深入应用,VoiceBank-2023在语音修复、语音质量评估以及个性化语音合成等研究方向中展现了巨大的潜力。该数据集的发布不仅推动了语音合成技术的进步,也为言语障碍患者的康复和生活质量提升提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

Pima Indians Diabetes Database

该项目使用的数据集是Pima Indians Diabetes Database,来源于UCI机器学习库。该数据集包含多个医学预测变量和一个目标变量,即Outcome,用于指示患者是否患有糖尿病(1)或未患(0)。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

ISIC 2018

ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。

challenge2018.isic-archive.com 收录