jazzxxx/jenny-tts-6h-tagged

Name: jazzxxx/jenny-tts-6h-tagged
Creator: jazzxxx
Published: 2024-06-14 10:48:16
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/jazzxxx/jenny-tts-6h-tagged

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: file_name dtype: string - name: text dtype: string - name: transcription_normalised dtype: string - name: utterance_pitch_mean dtype: float32 - name: utterance_pitch_std dtype: float32 - name: snr dtype: float64 - name: c50 dtype: float64 - name: speaking_rate dtype: string - name: phonemes dtype: string - name: noise dtype: string - name: reverberation dtype: string - name: speech_monotony dtype: string - name: text_description dtype: string splits: - name: train num_bytes: 2256137 num_examples: 4000 download_size: 1064547 dataset_size: 2256137 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征列表： - 名称：文件名（file_name），数据类型：字符串 - 名称：文本（text），数据类型：字符串 - 名称：归一化转录文本（transcription_normalised），数据类型：字符串 - 名称：话语基音均值（utterance_pitch_mean），数据类型：float32单精度浮点数 - 名称：话语基音标准差（utterance_pitch_std），数据类型：float32单精度浮点数 - 名称：信噪比（SNR，snr），数据类型：float64双精度浮点数 - 名称：c50，数据类型：float64双精度浮点数 - 名称：说话速率（speaking_rate），数据类型：字符串 - 名称：音素（phonemes），数据类型：字符串 - 名称：噪声（noise），数据类型：字符串 - 名称：混响（reverberation），数据类型：字符串 - 名称：言语单调度（speech_monotony），数据类型：字符串 - 名称：文本描述（text_description），数据类型：字符串数据集拆分： - 名称：训练集（train），占用字节数：2256137，样本数量：4000 下载大小：1064547，数据集总大小：2256137 配置项： - 配置名称：默认配置（default），数据文件： - 拆分train对应路径：data/train-*

提供机构：

jazzxxx

原始信息汇总

数据集概述

数据集特征

file_name: 文件名，数据类型为字符串。
text: 文本内容，数据类型为字符串。
transcription_normalised: 标准化转录文本，数据类型为字符串。
utterance_pitch_mean: 语音音调均值，数据类型为浮点数（float32）。
utterance_pitch_std: 语音音调标准差，数据类型为浮点数（float32）。
snr: 信噪比，数据类型为浮点数（float64）。
c50: 未知特征，数据类型为浮点数（float64）。
speaking_rate: 说话速率，数据类型为字符串。
phonemes: 音素，数据类型为字符串。
noise: 噪声，数据类型为字符串。
reverberation: 混响，数据类型为字符串。
speech_monotony: 语音单调性，数据类型为字符串。
text_description: 文本描述，数据类型为字符串。

数据集分割

train: 训练集，包含4000个样本，总大小为2256137字节。

数据集大小

下载大小: 1064547字节
数据集总大小: 2256137字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

在语音合成领域，高质量数据集的构建是推动技术进步的关键。该数据集通过精心设计的录音流程，采集了约6小时的英语语音样本，并进行了系统化的标注处理。每个样本均包含原始音频文件及其对应的文本转录，同时引入了音高均值与标准差、信噪比、清晰度指数等声学特征参数，辅以语速、音素序列、噪声类型、混响程度及语音单调性等多维度标签，形成了结构化的语音特征描述体系。数据集的构建过程注重语音质量的筛选与标注的一致性，确保了数据在语音合成研究中的可靠性与实用性。

使用方法

在语音合成技术的应用研究中，该数据集可作为训练与评估端到端TTS模型的重要资源。使用者可通过加载数据集的标准格式，直接访问音频文件及其对应的多维度标签，利用音高、语速等特征进行语音风格建模或质量分析。对于模型训练，可结合文本转录与音素序列进行声学模型优化，同时利用噪声与混响标签研究鲁棒性合成方法。数据集的文本描述字段可用于辅助生成自然语言提示，推动可控语音合成的发展。建议在预处理中依据声学参数进行数据筛选，以适配不同研究场景的需求。

背景与挑战

背景概述

在语音合成技术不断演进的背景下，高质量、多属性的语音数据集成为推动个性化与自然化语音生成的关键。jenny-tts-6h-tagged数据集由jazzxxx团队构建，专注于提供带有丰富声学与语言学标注的语音样本，其核心研究问题在于如何通过精细的元数据（如音高、信噪比、语速、音素等）来支持更可控、更逼真的文本到语音合成模型训练。该数据集的出现，为语音合成领域引入了对声学特性与语音质量多维度分析的新范式，促进了基于属性的语音生成研究，对提升合成语音的自然度与表现力具有显著影响力。

当前挑战

jenny-tts-6h-tagged数据集面临的挑战主要体现在两个方面：在领域问题层面，语音合成任务需克服合成语音缺乏情感变化与自然韵律的难题，该数据集通过标注音高、语速等属性来应对这一挑战，但如何精确建模这些声学特征以实现高度逼真的语音输出仍存困难；在构建过程中，挑战包括对语音信号进行准确的多维度标注（如音素切分、噪声与混响评估），这需要复杂的信号处理技术与语言学知识，同时确保标注的一致性与数据质量也是一项艰巨任务。

常用场景

经典使用场景

在语音合成领域，高质量、多标签的语音数据集是推动模型精细化训练的关键资源。Jazzxxx/jenny-tts-6h-tagged数据集以其丰富的声学特征标注，如基频均值、信噪比和语音单调性，为研究者提供了经典的使用场景：训练端到端的文本到语音合成模型，特别是针对个性化语音生成和韵律控制任务。通过整合音素序列和文本描述，该数据集支持模型学习语音的细微声学变化，从而实现自然、富有表现力的合成语音输出。

解决学术问题

该数据集有效解决了语音合成研究中常见的学术问题，包括韵律建模的不足和声学特征与文本对齐的挑战。通过提供标准化的转录文本、音素标注以及详细的声学参数，如说话速率和混响标签，它帮助研究者克服传统数据集中特征稀疏的局限，促进了基于深度学习的韵律预测和鲁棒语音合成方法的发展。其意义在于推动了语音合成技术向更自然、可控的方向演进，为多模态人机交互研究奠定了数据基础。

实际应用

在实际应用中，Jazzxxx/jenny-tts-6h-tagged数据集被广泛用于开发智能助手、有声读物生成和辅助通信工具。其多标签特性允许工程师根据噪声、混响等环境因素优化语音合成系统，提升在复杂场景下的鲁棒性。例如，在医疗或教育领域，该数据集可支持定制化语音接口，为视障用户或语言学习者提供清晰、自然的语音反馈，从而增强技术的可访问性和用户体验。

数据集最近研究