cyhuang-tw/PromptTTS-train-vad-v2-adjusted-tag

Name: cyhuang-tw/PromptTTS-train-vad-v2-adjusted-tag
Creator: cyhuang-tw
Published: 2024-05-31 02:12:40
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/cyhuang-tw/PromptTTS-train-vad-v2-adjusted-tag

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: file dtype: string - name: text dtype: string - name: gender dtype: string - name: speaker dtype: string - name: emotion dtype: string - name: utterance_pitch_mean dtype: float32 - name: utterance_pitch_std dtype: float32 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: float64 - name: phonemes dtype: string - name: loudness dtype: float64 splits: - name: train num_bytes: 15445096 num_examples: 49998 download_size: 9053677 dataset_size: 15445096 configs: - config_name: default data_files: - split: train path: data/train-* ---

The dataset includes various features such as file name, text content, gender, speaker, emotion, mean pitch, standard deviation of pitch, signal-to-noise ratio, C50, speaking rate, phonemes, and loudness. It is divided into a training set with 49998 samples. The dataset size and download size are 15445096 bytes and 9053677 bytes respectively.

提供机构：

cyhuang-tw

原始信息汇总

数据集概述

数据集特征

file: 数据类型为字符串。
text: 数据类型为字符串。
gender: 数据类型为字符串。
speaker: 数据类型为字符串。
emotion: 数据类型为字符串。
utterance_pitch_mean: 数据类型为float32。
utterance_pitch_std: 数据类型为float32。
snr: 数据类型为float64。
c50: 数据类型为float64。
speaking_rate: 数据类型为float64。
phonemes: 数据类型为字符串。
loudness: 数据类型为float64。

数据集分割

train:
- 数据大小: 15445096字节
- 示例数量: 49998

数据集大小

下载大小: 9053677字节
数据集总大小: 15445096字节

配置

default:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成领域，高质量数据集的构建是推动技术发展的基石。PromptTTS-train-vad-v2-adjusted-tag数据集通过精心设计的流程，从原始音频中提取多维度特征。其构建过程融合了语音活动检测技术，有效剔除了静音片段，确保了语音信号的纯净性。每条样本均标注了文本转录、说话人身份、性别及情感标签，同时计算了基频均值与标准差、信噪比、清晰度指数、语速、音素序列及响度等声学参数，形成了结构化的多维数据表示。

特点

该数据集的核心特点在于其丰富的多模态标注体系。它不仅提供了基础的文本-音频对齐，还涵盖了说话人属性、情感状态以及精细的声学特征。这些特征包括统计性的基频分布、反映语音质量的信噪比与清晰度指数、表征节奏的语速，以及描述能量变化的响度指标。这种综合性的标注框架为研究语音合成中的风格控制、情感表达及音质优化提供了坚实的数据基础。

使用方法

对于研究人员而言，该数据集主要应用于文本到语音合成模型的训练与评估。使用者可加载训练集，利用其文本、音频文件路径及丰富的属性标签进行模型训练。在PromptTTS等先进框架中，这些多维度标签可作为条件输入，引导模型生成具有特定说话人特征、情感色彩或韵律风格的语音。声学特征参数则可用于辅助损失计算或生成质量的分析验证，推动可控、高质量语音合成技术的发展。

背景与挑战

背景概述

在语音合成技术不断演进的背景下，PromptTTS-train-vad-v2-adjusted-tag数据集应运而生，由cyhuang-tw团队构建，旨在推动基于提示的文本到语音合成研究。该数据集聚焦于多维度语音特征建模，不仅包含文本与音频对应关系，还整合了说话人性别、情感、音高统计量、信噪比及语速等丰富属性，为探索可控、个性化的语音生成提供了关键数据支撑。其创建反映了当前语音合成领域从单一输出向细粒度可控生成的范式转变，对提升合成语音的自然度与表现力具有显著影响力。

当前挑战

该数据集致力于解决提示驱动语音合成中多属性协同建模的挑战，例如如何精准关联文本提示与复杂声学特征以实现高质量的情感或风格迁移。在构建过程中，挑战主要体现在多源语音数据的标注一致性上，包括情感标签的客观量化、音高与响度等连续特征的可靠提取，以及不同说话人语音的标准化处理，这些因素均对数据集的可靠性与泛化能力构成考验。

常用场景

经典使用场景

在语音合成领域，PromptTTS-train-vad-v2-adjusted-tag数据集为基于提示的文本到语音模型训练提供了关键支持。该数据集整合了语音文件、文本转录及丰富的声学特征，如音高、响度和语速，使得研究者能够构建能够根据文本和声学提示生成自然语音的先进系统。通过包含说话人性别、情感和音素信息，它促进了多风格、个性化语音合成的研究，为可控语音生成奠定了数据基础。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在提示驱动的语音合成模型优化。这些工作探索了如何利用数据集中的声学特征和情感标签改进生成语音的质量和可控性。相关研究推动了语音合成领域向更细粒度、自适应方向的发展，为后续多模态语音生成系统的设计提供了重要参考。

数据集最近研究