jazzxxx/jenny-tts-6h-tagged
收藏Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jazzxxx/jenny-tts-6h-tagged
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: file_name
dtype: string
- name: text
dtype: string
- name: transcription_normalised
dtype: string
- name: utterance_pitch_mean
dtype: float32
- name: utterance_pitch_std
dtype: float32
- name: snr
dtype: float64
- name: c50
dtype: float64
- name: speaking_rate
dtype: string
- name: phonemes
dtype: string
- name: noise
dtype: string
- name: reverberation
dtype: string
- name: speech_monotony
dtype: string
- name: text_description
dtype: string
splits:
- name: train
num_bytes: 2256137
num_examples: 4000
download_size: 1064547
dataset_size: 2256137
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 名称:文件名(file_name),数据类型:字符串
- 名称:文本(text),数据类型:字符串
- 名称:归一化转录文本(transcription_normalised),数据类型:字符串
- 名称:话语基音均值(utterance_pitch_mean),数据类型:float32单精度浮点数
- 名称:话语基音标准差(utterance_pitch_std),数据类型:float32单精度浮点数
- 名称:信噪比(SNR,snr),数据类型:float64双精度浮点数
- 名称:c50,数据类型:float64双精度浮点数
- 名称:说话速率(speaking_rate),数据类型:字符串
- 名称:音素(phonemes),数据类型:字符串
- 名称:噪声(noise),数据类型:字符串
- 名称:混响(reverberation),数据类型:字符串
- 名称:言语单调度(speech_monotony),数据类型:字符串
- 名称:文本描述(text_description),数据类型:字符串
数据集拆分:
- 名称:训练集(train),占用字节数:2256137,样本数量:4000
下载大小:1064547,数据集总大小:2256137
配置项:
- 配置名称:默认配置(default),数据文件:
- 拆分train对应路径:data/train-*
提供机构:
jazzxxx
原始信息汇总
数据集概述
数据集特征
- file_name: 文件名,数据类型为字符串。
- text: 文本内容,数据类型为字符串。
- transcription_normalised: 标准化转录文本,数据类型为字符串。
- utterance_pitch_mean: 语音音调均值,数据类型为浮点数(float32)。
- utterance_pitch_std: 语音音调标准差,数据类型为浮点数(float32)。
- snr: 信噪比,数据类型为浮点数(float64)。
- c50: 未知特征,数据类型为浮点数(float64)。
- speaking_rate: 说话速率,数据类型为字符串。
- phonemes: 音素,数据类型为字符串。
- noise: 噪声,数据类型为字符串。
- reverberation: 混响,数据类型为字符串。
- speech_monotony: 语音单调性,数据类型为字符串。
- text_description: 文本描述,数据类型为字符串。
数据集分割
- train: 训练集,包含4000个样本,总大小为2256137字节。
数据集大小
- 下载大小: 1064547字节
- 数据集总大小: 2256137字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
搜集汇总
数据集介绍

构建方式
在语音合成领域,高质量数据集的构建是推动技术进步的关键。该数据集通过精心设计的录音流程,采集了约6小时的英语语音样本,并进行了系统化的标注处理。每个样本均包含原始音频文件及其对应的文本转录,同时引入了音高均值与标准差、信噪比、清晰度指数等声学特征参数,辅以语速、音素序列、噪声类型、混响程度及语音单调性等多维度标签,形成了结构化的语音特征描述体系。数据集的构建过程注重语音质量的筛选与标注的一致性,确保了数据在语音合成研究中的可靠性与实用性。
使用方法
在语音合成技术的应用研究中,该数据集可作为训练与评估端到端TTS模型的重要资源。使用者可通过加载数据集的标准格式,直接访问音频文件及其对应的多维度标签,利用音高、语速等特征进行语音风格建模或质量分析。对于模型训练,可结合文本转录与音素序列进行声学模型优化,同时利用噪声与混响标签研究鲁棒性合成方法。数据集的文本描述字段可用于辅助生成自然语言提示,推动可控语音合成的发展。建议在预处理中依据声学参数进行数据筛选,以适配不同研究场景的需求。
背景与挑战
背景概述
在语音合成技术不断演进的背景下,高质量、多属性的语音数据集成为推动个性化与自然化语音生成的关键。jenny-tts-6h-tagged数据集由jazzxxx团队构建,专注于提供带有丰富声学与语言学标注的语音样本,其核心研究问题在于如何通过精细的元数据(如音高、信噪比、语速、音素等)来支持更可控、更逼真的文本到语音合成模型训练。该数据集的出现,为语音合成领域引入了对声学特性与语音质量多维度分析的新范式,促进了基于属性的语音生成研究,对提升合成语音的自然度与表现力具有显著影响力。
当前挑战
jenny-tts-6h-tagged数据集面临的挑战主要体现在两个方面:在领域问题层面,语音合成任务需克服合成语音缺乏情感变化与自然韵律的难题,该数据集通过标注音高、语速等属性来应对这一挑战,但如何精确建模这些声学特征以实现高度逼真的语音输出仍存困难;在构建过程中,挑战包括对语音信号进行准确的多维度标注(如音素切分、噪声与混响评估),这需要复杂的信号处理技术与语言学知识,同时确保标注的一致性与数据质量也是一项艰巨任务。
常用场景
经典使用场景
在语音合成领域,高质量、多标签的语音数据集是推动模型精细化训练的关键资源。Jazzxxx/jenny-tts-6h-tagged数据集以其丰富的声学特征标注,如基频均值、信噪比和语音单调性,为研究者提供了经典的使用场景:训练端到端的文本到语音合成模型,特别是针对个性化语音生成和韵律控制任务。通过整合音素序列和文本描述,该数据集支持模型学习语音的细微声学变化,从而实现自然、富有表现力的合成语音输出。
解决学术问题
该数据集有效解决了语音合成研究中常见的学术问题,包括韵律建模的不足和声学特征与文本对齐的挑战。通过提供标准化的转录文本、音素标注以及详细的声学参数,如说话速率和混响标签,它帮助研究者克服传统数据集中特征稀疏的局限,促进了基于深度学习的韵律预测和鲁棒语音合成方法的发展。其意义在于推动了语音合成技术向更自然、可控的方向演进,为多模态人机交互研究奠定了数据基础。
实际应用
在实际应用中,Jazzxxx/jenny-tts-6h-tagged数据集被广泛用于开发智能助手、有声读物生成和辅助通信工具。其多标签特性允许工程师根据噪声、混响等环境因素优化语音合成系统,提升在复杂场景下的鲁棒性。例如,在医疗或教育领域,该数据集可支持定制化语音接口,为视障用户或语言学习者提供清晰、自然的语音反馈,从而增强技术的可访问性和用户体验。
数据集最近研究
最新研究方向
在语音合成领域,高质量标注数据集正推动个性化与可控性研究的前沿。jenny-tts-6h-tagged数据集以其精细的声学特征标注,如基频统计、信噪比和语音单调性,为探索多风格语音生成提供了关键支持。当前研究热点集中于利用此类标注数据,结合深度学习模型,实现语音情感、韵律和音质的细粒度控制,以提升合成语音的自然度和表现力。这一方向不仅促进了自适应语音助手的发展,也为低资源语言和特殊场景下的语音技术应用奠定了数据基础,具有重要的学术与工程意义。
以上内容由遇见数据集搜集并总结生成



