five

VCTK Corpus

收藏
github2022-06-23 更新2024-05-31 收录
下载链接:
https://github.com/kan-bayashi/VCTKCorpusFullContextLabel
下载链接
链接失效反馈
官方服务:
资源简介:
本仓库提供VCTK语料库的全上下文标签文件。这些标签文件是根据r9y9/deepvoice3_pytorch中的预处理步骤创建的。数据集包括完整和单声道的标签文件,详细描述了音频数据的分割和标注格式。

This repository provides full-context label files for the VCTK corpus. These label files are created based on the preprocessing steps from r9y9/deepvoice3_pytorch. The dataset includes both full and single-channel label files, detailing the segmentation and annotation format of the audio data.
创建时间:
2020-03-08
原始信息汇总

数据集概述

数据集名称

  • Full-context label for VCTK-Corpus

数据集内容

  • 提供VCTK-Corpus的完整上下文标签文件。

数据集结构

├── lab │ ├── full │ │ ├── p225 │ │ │ ├── p225_001.lab │ │ │ ├── p225_002.lab │ │ │ ├── p225_003.lab │ │ │ ├── p225_004.lab │ │ │ ├── p225_005.lab │ │ │ ... │ ├── mono │ │ ├── p225 │ │ │ ├── p225_001.lab │ │ │ ├── p225_002.lab │ │ │ ├── p225_003.lab │ │ │ ├── p225_004.lab │ │ │ ├── p225_005.lab │ │ │ ...

缺失文件

  • lab/*/p315/*.lab (p315 lacks txt)
  • lab/mono/p295/p295_047.lab (alignment failed)
  • lab/mono/p305/p305_423.lab (alignment failed)
  • lab/mono/p317/p317_424.lab (alignment failed)
  • lab/mono/p345/p345_387.lab (alignment failed)

标签格式

Mono label
     0     850000 pau
850000    2850000 pau

2850000 3600000 p 3600000 3900000 l 3900000 6000000 iy 6000000 8450000 z 8450000 8600000 k 8600000 11300000 ao 11300000 11450000 l 11450000 12800000 s 12800000 13099999 t 13099999 15800000 eh 15800000 16050000 l 16050000 17600000 ax 17600000 20400000 pau

Full context label
     0     850000 x^x-pau+pau=p@x_x/A:0_0_0/B:x-x-x@x-x&x-x#x-x$x-x!x-x;x-x|x/C:0+0+0/D:0_0/E:x+x@x+x&x+x#x+x/F:0_0/G:0_0/H:x=x@1=1|0/I:0=0/J:4+3-1
850000    2850000 x^pau-pau+p=l@x_x/A:0_0_0/B:x-x-x@x-x&x-x#x-x$x-x!x-x;x-x|x/C:1+1+4/D:0_0/E:x+x@x+x&x+x#x+x/F:content_1/G:0_0/H:x=x@1=1|0/I:4=3/J:4+3-1

2850000 3600000 pau^pau-p+l=iy@1_4/A:0_0_0/B:1-1-4@1-1&1-4#1-3$1-4!0-1;0-1|iy/C:1+1+3/D:0_0/E:content+1@1+3&1+2#0+1/F:content_1/G:0_0/H:4=3@1=1|L-L%/I:0=0/J:4+3-1 ...

参考资料

搜集汇总
数据集介绍
main_image_url
构建方式
VCTK Corpus数据集的构建基于多语种语音数据,涵盖了来自不同口音和背景的109位母语为英语的说话者。每位说话者提供了约400句的录音,内容包括日常对话和朗读文本。数据集的构建过程中,采用了高质量的录音设备,确保音频数据的清晰度和一致性。此外,为了增强数据集的多样性,还特别收录了不同年龄、性别和地域背景的说话者,以模拟真实世界的语音环境。
特点
VCTK Corpus数据集以其丰富的多样性和高质量的音频数据著称。该数据集不仅包含了标准的英语发音,还涵盖了多种口音和方言,为语音识别和合成研究提供了宝贵的资源。此外,数据集中的音频文件均经过精细处理,确保了低噪声和高信噪比,使得研究者能够更准确地分析和建模语音特征。
使用方法
VCTK Corpus数据集广泛应用于语音识别、语音合成和口音识别等领域的研究。研究者可以通过该数据集训练和评估语音模型,以提高其在不同口音和背景下的表现。此外,数据集的高质量音频文件也适用于声学特征提取和语音信号处理的研究。使用时,研究者可以根据具体需求选择合适的音频样本,并结合相应的文本数据进行分析和建模。
背景与挑战
背景概述
VCTK Corpus,由英国爱丁堡大学的研究人员于2012年创建,是一个广泛应用于语音合成和语音识别领域的多说话人语音数据集。该数据集包含了来自不同背景的109位母语为英语的说话者的录音,每位说话者提供了约400句的朗读文本,涵盖了日常对话、新闻报道等多种语境。VCTK Corpus的创建旨在解决语音合成系统中说话人多样性和语音自然度的问题,为研究人员提供了一个标准化的测试平台,极大地推动了语音处理技术的发展。
当前挑战
尽管VCTK Corpus在语音处理领域具有重要地位,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性虽然丰富,但仍需进一步扩展以涵盖更多语言和方言,以应对全球化应用的需求。其次,录音质量的一致性和背景噪声的控制是数据集构建中的关键问题,影响了后续算法的准确性和鲁棒性。此外,如何有效地利用该数据集进行跨语言和跨文化的语音合成研究,也是一个亟待解决的难题。
发展历史
创建时间与更新
VCTK Corpus数据集创建于2012年,由英国爱丁堡大学的研究团队开发。该数据集在2019年进行了重大更新,增加了更多的语音样本和多样化的说话者数据,以提升其在语音合成和识别领域的应用价值。
重要里程碑
VCTK Corpus的创建标志着多说话者语音数据集的新纪元,为语音合成和识别技术的发展提供了丰富的资源。其首次发布即引起了广泛关注,成为研究者和开发者的重要工具。2019年的更新进一步扩展了数据集的规模和多样性,特别是在非母语英语说话者的语音数据方面,极大地促进了跨语言语音技术的研究。
当前发展情况
当前,VCTK Corpus已成为语音处理领域的基础数据集之一,广泛应用于语音合成、语音识别和说话者识别等研究中。其丰富的语音样本和多样化的说话者数据,为开发更加自然和准确的语音系统提供了宝贵的资源。随着技术的进步,VCTK Corpus也在不断更新和扩展,以适应新兴的语音处理需求,继续推动语音技术的发展和应用。
发展历程
  • VCTK Corpus首次发表,由英国剑桥大学发布,旨在为语音合成研究提供高质量的多人语音数据。
    2012年
  • VCTK Corpus首次应用于语音合成领域的研究,特别是在多说话人语音合成模型的训练中。
    2013年
  • VCTK Corpus被广泛应用于语音识别和语音合成领域的多个研究项目,成为该领域的重要基准数据集。
    2015年
  • VCTK Corpus的数据质量和多样性得到进一步认可,被用于多个国际语音处理会议的实验和竞赛中。
    2018年
  • VCTK Corpus的版本更新,增加了更多的语音样本和说话人,以满足日益增长的语音技术研究需求。
    2020年
常用场景
经典使用场景
在语音处理领域,VCTK Corpus数据集被广泛用于语音合成和语音识别的研究。该数据集包含了来自不同口音和年龄段的109位说话者的录音,每段录音都附有对应的文本转录。这种多样性使得研究人员能够开发和评估能够处理多种语音特征的模型,从而提高语音合成系统的自然度和语音识别系统的准确性。
实际应用
在实际应用中,VCTK Corpus数据集被用于训练和验证各种语音处理系统,如智能助手、语音翻译和语音控制设备。这些系统需要能够理解和生成多种口音和语言的语音,以满足全球用户的需求。通过使用VCTK Corpus,开发者能够创建更加通用和适应性强的语音处理解决方案,从而提升用户体验。
衍生相关工作
基于VCTK Corpus数据集,许多经典的研究工作得以开展。例如,一些研究者利用该数据集开发了多说话者语音合成模型,这些模型能够生成自然且多样化的语音。此外,还有研究专注于利用VCTK Corpus进行说话者识别和语音情感分析,这些工作进一步推动了语音处理技术的发展,并为相关领域的应用提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作