five

NonverbalTTS-filtered-cleaned

收藏
Hugging Face2025-08-06 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/bookbot/NonverbalTTS-filtered-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含音频和对应文本以及情感标签的数据集,适用于情感分析、语音识别等领域的研究。数据集分为训练集、验证集和测试集,共包含6000多个样本。每个样本都包含了音频文件的路径、情感标签、文本内容、dnsmos评分、音频时长、说话者ID、数据集名称和性别信息。
提供机构:
Bookbot
创建时间:
2025-08-06
原始信息汇总

数据集概述

基本信息

  • 数据集名称: NonverbalTTS-filtered-cleaned
  • 下载大小: 4,184,798,066 字节
  • 数据集大小: 4,232,420,210.514 字节

数据特征

  • index: 字符串类型
  • audio: 音频类型,采样率为16,000 Hz
  • Emotion: 字符串类型
  • text: 字符串类型
  • dnsmos: 浮点数类型 (float64)
  • duration: 浮点数类型 (float64)
  • speaker_id: 字符串类型
  • data_name: 字符串类型
  • gender: 字符串类型

数据划分

  • train:
    • 样本数量: 5,387
    • 数据大小: 3,620,978,587.514 字节
  • validation:
    • 样本数量: 284
    • 数据大小: 184,670,080 字节
  • test:
    • 样本数量: 580
    • 数据大小: 426,771,543 字节

配置文件

  • config_name: default
    • train: data/train-*
    • validation: data/validation-*
    • test: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,NonverbalTTS-filtered-cleaned数据集通过多维度筛选和清洗流程构建而成。原始语音数据经过严格的采样率统一处理,确保所有音频文件均符合16kHz的标准采样率。专业标注团队对每条语音样本进行情感标签、文本内容和说话人属性的标注,并采用DNSMOS算法进行客观音质评估。数据划分遵循科学比例,训练集、验证集和测试集分别包含5387、284和580条样本,保证了模型开发各阶段的需求。
特点
该数据集的核心价值在于其丰富的多模态标注信息,每条语音样本均包含情感分类、原始文本、音质评分和说话人特征等多维度元数据。特别值得注意的是,数据集提供了精确到毫秒级的音频时长信息,以及经过验证的说话人性别标注。不同数据来源的标识字段为跨数据库研究提供了便利,而标准化的音频格式则确保了实验的可重复性。这些精心设计的特征使该数据集成为研究情感语音合成和说话人特征建模的理想选择。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,其标准化的接口设计支持一键获取训练、验证和测试分划。音频数据以字典形式呈现,包含原始波形数组和采样率信息,方便与主流深度学习框架集成。情感标签和文本内容字段支持联合建模任务,而DNSMOS评分可用于语音质量评估研究。建议使用者根据speaker_id字段实现说话人相关的实验控制,并利用duration字段进行样本长度筛选,以获得最佳实验效果。
背景与挑战
背景概述
NonverbalTTS-filtered-cleaned数据集是语音合成领域的重要资源,专注于非语言情感表达的声学特征建模。该数据集由专业研究团队构建,收录了包含多种情感维度的语音样本,采样率统一为16kHz,并标注了情感标签、文本转录、说话人信息等多元特征。其核心价值在于解决了传统TTS系统在情感渲染方面的局限性,为富有表现力的语音合成研究提供了数据基础。通过精细的说话人身份识别和性别平衡设计,该数据集显著提升了生成语音的情感真实度和个性化水平,对推动人机交互的自然化进程具有重要影响。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,如何准确捕捉和建模非语言情感特征(如语调、节奏等副语言信息)仍存在技术瓶颈,现有方法难以完全复现人类情感的细微差别;在构建过程层面,原始语音数据的降噪处理和情感标签的一致性校验消耗大量计算资源,DNSMOS评分系统的引入虽提升了音质评估效率,但对非标准发音的鲁棒性仍有待加强。多说话人场景下的音色与情感解耦问题,以及跨语种情感标注的普适性框架构建,是当前亟待突破的技术难点。
常用场景
经典使用场景
在语音合成领域,NonverbalTTS-filtered-cleaned数据集为研究者提供了高质量的语音样本,这些样本涵盖了多种情感状态和说话人特征。数据集常用于训练和评估情感语音合成系统,特别是在探索如何将非语言特征(如情感、语调)融入合成语音的研究中。通过该数据集,研究者能够深入分析不同情感状态对语音合成质量的影响。
实际应用
该数据集在智能语音助手、虚拟客服和有声读物等领域具有广泛应用。通过利用数据集中的情感语音样本,开发者能够打造更具表现力和自然度的语音交互系统。在教育和娱乐领域,基于该数据集的语音合成技术能够为用户提供更加个性化和情感丰富的听觉体验。
衍生相关工作
围绕NonverbalTTS-filtered-cleaned数据集,研究者们开发了一系列情感语音合成和转换模型。这些工作包括基于深度学习的端到端语音合成系统、情感迁移学习框架以及多说话人语音生成技术。部分研究进一步探索了情感与语音特征的关联机制,为语音合成领域的算法创新提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作