NaturalVoices

Name: NaturalVoices
Creator: Carnegie Mellon University, Pittsburgh PA-15213USA
Published: 2025-11-01 05:00:14
License: 暂无描述

arXiv2025-11-01 更新2025-11-06 收录

下载链接：

https://github.com/Lab-MSP/NaturalVoices

下载链接

链接失效反馈

官方服务：

资源简介：

NaturalVoices是一个由卡内基梅隆大学语言技术研究所创建的大规模自然语音数据集，包含5049小时的自然播客录音，涵盖了数千位说话者和多样化的对话场景。该数据集提供了自动标注的情感（类别和基于属性）、语音质量、转录、说话者身份和声音事件等信息。数据集捕捉了丰富的情感和风格变化，为语音转换任务提供了多样化的自然语音资源。

NaturalVoices is a large-scale natural speech dataset developed by the Language Technologies Institute of Carnegie Mellon University. It consists of 5,049 hours of natural podcast recordings, covering thousands of speakers and diverse conversational scenarios. This dataset provides automatically annotated information including emotion (both categorical and attribute-based), speech quality, transcripts, speaker identities, and sound events. The dataset captures rich emotional and stylistic variations, serving as a diverse natural speech resource for speech conversion tasks.

提供机构：

Carnegie Mellon University, Pittsburgh PA-15213USA

创建时间：

2025-11-01

原始信息汇总

NaturalVoices 数据集概述

数据集简介

NaturalVoices 是一个用于语音转换的自然语音数据集，通过创新的数据采集流程构建。该数据集具有自发性、表达性和情感丰富性的特点，专门针对语音转换应用优化。

数据集特点

大规模自然语音数据
包含自发性和情感丰富的语音内容
适用于语音转换应用
经过客观和主观评估验证有效性

数据内容

音频文件

提供两种采样率版本：16kHz 和原始采样率
文件格式为 FLAC（为节省空间）
每个压缩文件约 40GB
音频文件批量提供

元数据

元数据包含以下处理结果：

自动语音识别（ASR）：使用 Faster-Whisper
说话人日志：使用 PyAnnote
语音活动检测
说话人重叠检测
信号噪声比（SNR）
年龄和性别信息
情感预测（分类和属性）
声音事件预测

文件结构

NaturalVoices ├── vad │ ├── MSP-PODCAST_0001 │ └── ... ├── pyannote │ ├── MSP-PODCAST_0001 │ └── ... ├── faster-whisper │ ├── MSP-PODCAST_0001 │ └── ... └── all_data.json

数据处理流程

数据处理流程分为三个主要步骤：

1. 播客级别处理

Faster-Whisper 语音识别
PyAnnote 说话人日志
语音活动检测

2. 话语生成

基于 Whisper 分段定义话语

3. 话语级别处理

年龄和性别检测
情感属性预测
情感分类预测
性别过滤
信噪比计算
事件分类
语音/音乐分类

使用说明

元数据文件为 pickle 格式，可通过 Python 加载
提供示例代码说明如何访问元数据
使用前需更新配置文件中的路径和认证密钥

引用信息

如需引用本数据集，请使用提供的 BibTeX 条目，该工作发表于 Interspeech 2024 会议。

数据来源

数据来源于原始播客数据，已上传版权信息。

搜集汇总

数据集介绍

构建方式

NaturalVoices数据集的构建依托于大规模播客音频资源，通过自动化处理流程实现高效标注。该流程涵盖数据收集、文档级标注、片段级标注及过滤提取四个核心阶段，首先从公开渠道获取6,790个播客片段并转换为FLAC格式以优化存储。随后利用Faster-Whisper模型进行自动语音识别与分段，结合PyAnnote工具完成说话人日志记录，形成基础语音单元。在片段级标注中，通过预训练模型系统性地生成多维度元数据，包括说话人身份、情感类别（愤怒/悲伤/快乐/中性）、情感属性（效价-唤醒度-支配度）、语音质量指标（PESQ/STOI/SI-SDR）及声音事件检测，最终通过质量阈值过滤得到5,049小时纯净语音数据。

使用方法

研究者可通过开源处理管道灵活构建任务定制化子集，支撑多样化语音转换研究。针对基础语音转换任务，可利用过滤模块选取单说话人、1-20秒时长且满足质量阈值（DNSMOS≥2.6、SNR≥30、ASR置信度≥0.7）的870小时纯净语音。情感语音转换研究则可调用情感平衡子集（每类别85小时），通过连续情感属性实现细粒度情绪控制。数据提供的多维度元数据支持复杂条件建模，例如结合声音事件标签开发噪声鲁棒模型，或利用说话人属性实现跨性别转换。实验表明，在该数据上训练的模型在真实场景中表现出优异的跨领域泛化能力，同时暴露出当前架构处理大规模自发语音的局限性，为下一代模型设计提供明确方向。

背景与挑战

背景概述

语音转换技术旨在实现源说话人向目标说话人的音色转换，同时保持语言内容不变。然而传统语音数据集多为在录音棚环境下采集的朗读式语音，缺乏真实场景中的情感表达与自然韵律。为突破这一局限，德克萨斯大学达拉斯分校与约翰斯霍普金斯大学联合团队于2025年发布了NaturalVoices数据集。该资源包含5,049小时自发播客录音，涵盖数千名说话人的真实情感变化，通过自动化标注管道提供情感类别、语音质量、声学事件等多维度元数据。该数据集填补了语音转换领域缺乏大规模自然情感语音资源的空白，为开发具有真实表现力的语音生成模型奠定了数据基础。

当前挑战

在领域问题层面，传统语音转换模型受限于表演式情感数据，难以捕捉真实对话中灵活多变的情感表达。构建过程中面临多重挑战：播客原始数据包含多人对话、背景噪声与质量不均等问题，需通过语音分离、质量评估等模块实现有效筛选；连续情感属性的标注需克服维度空间建模的复杂性；跨文档说话人身份关联依赖人工标注与自动算法的协同处理。此外，数据规模与真实性的平衡要求管道具备可扩展的过滤机制，以满足不同语音转换任务对数据质量的差异化需求。

常用场景

经典使用场景

在语音转换研究领域，NaturalVoices数据集最经典的应用场景在于为情感语音转换模型提供大规模自然语音训练资源。该数据集通过5049小时的自发性播客录音，捕捉了数千名说话者在真实对话中表现出的情感波动和韵律变化，为模型学习自然表达风格提供了丰富素材。其自动标注的情感类别与连续属性维度使研究者能够构建针对特定情感状态的转换任务，有效解决了传统表演式语音数据在自然度方面的局限性。

解决学术问题

该数据集主要解决了语音转换领域长期存在的三个核心学术问题：首先突破了表演式情感语音在自然度与多样性方面的瓶颈，通过真实场景下的自发语音提供了更丰富的情感表达谱系；其次弥补了大规模自然情感语音资源的空白，为基于深度学习的语音转换模型提供了足量训练数据；最后通过多维度自动标注体系，实现了对语音质量、说话人特征与情感状态的联合建模，推动了跨领域泛化能力的研究。

实际应用

在实际应用层面，NaturalVoices为智能语音系统提供了重要支撑。其自然对话特性适用于虚拟助手的情感交互优化，提升人机对话的自然度与共情能力。在娱乐产业中，该数据集支持影视配音的情感保持转换，实现跨语言配音时的情感一致性。此外，在医疗康复领域，其丰富的情感样本可为语音障碍患者构建个性化康复方案，通过情感语音转换技术恢复自然表达能力。

数据集最近研究