NaturalVoices Dataset

github2025-10-28 更新2025-11-06 收录

下载链接：

https://github.com/Lab-MSP/NaturalVoices

下载链接

链接失效反馈

官方服务：

资源简介：

NaturalVoices引入了一种新颖的数据采集流程，并发布了一个用于语音转换的新自然语音数据集。该流程利用经过验证的高性能技术从原始播客数据中提取详细信息，如自动语音识别、说话人日志和信噪比。通过该流程创建了一个大规模、自发、富有表现力和情感丰富的语音数据集，专为语音转换应用量身定制。客观和主观评估证明了使用该流程为语音转换提供自然和富有表现力数据的有效性。

NaturalVoices introduces a novel data collection pipeline and releases a new natural speech dataset for voice conversion. This pipeline extracts detailed information from raw podcast data using validated high-performance technologies, including Automatic Speech Recognition (ASR), speaker diarization, and Signal-to-Noise Ratio (SNR). A large-scale, spontaneous, expressive, and emotionally rich speech dataset tailored specifically for voice conversion applications is constructed via this pipeline. Objective and subjective evaluations have validated the effectiveness of using this pipeline to provide natural and expressive data for voice conversion.

创建时间：

2025-10-28

原始信息汇总

NaturalVoices 数据集概述

数据集简介

NaturalVoices 是一个为语音转换应用设计的新型自然语音数据集，具有自发性、表达性和情感丰富的特点。该数据集通过创新的数据采集流程创建，包含从原始播客数据中提取的详细信息。

数据集特点

大规模自然语音数据
自发性和表达性语音
情感丰富的语音内容
专为语音转换应用定制

数据内容

音频数据

提供两种采样率版本：16kHz和原始采样率
音频文件采用FLAC格式以节省空间
每个压缩文件约40GB

元数据

自动语音识别输出（Faster-Whisper）
说话人日志（PyAnnote）
语音活动检测输出（PyAnnote）
说话人重叠检测输出（PyAnnote）
性别和年龄信息
信噪比数据
分类和基于属性的情感预测
声音事件预测

文件结构

NaturalVoices vad MSP-PODCAST_0001 ... pyannote MSP-PODCAST_0001 ... faster-whisper MSP-PODCAST_0001 ... all_data.json

数据处理流程

播客级别处理

Faster-Whisper 语音识别
PyAnnote 说话人日志
语音活动检测

话语级别处理

年龄和性别检测
情感属性预测
情感分类预测
信噪比分析
事件分类
语音/音乐分类

下载方式

音频下载

自动下载：运行 bash download_audios.sh（16kHz）或 bash download_audios_original.sh（原始采样率）
手动下载：访问 https://lab-msp.com/NaturalVoices/audios_16khz 或 https://lab-msp.com/NaturalVoices/audios_original

元数据下载

自动下载：运行 bash download_meta.sh
手动下载：访问 https://lab-msp.com/NaturalVoices

引用信息

@InProceedings{Salman_2024, author={A. N. Salman and Z. Du and S. S. Chandra and I. R. Ulgen and and C. Busso and B. Sisman}, title={Towards Naturalistic Voice Conversion: NaturalVoices Dataset with an Automatic Processing Pipeline}, booktitle={Interspeech 2024}, volume={}, year={2024}, month={September}, address = {Kos Island, Greece}, }

搜集汇总

数据集介绍

构建方式

在语音转换研究领域，NaturalVoices数据集通过创新的数据采集流程构建而成。该流程基于原始播客音频，采用高性能技术模块自动提取关键特征，包括语音识别、说话人日志和信噪比分析。构建过程分为三个阶段：首先对整个音频文件进行全局模型预测，随后根据识别片段划分话语单元，最终在话语级别完成年龄、性别、情感属性和声音事件等多维度标注。这种分层处理机制确保了数据标注的精细度和完整性。

使用方法

研究者可通过标准化流程快速部署该数据集。下载阶段提供自动化脚本和手动下载双通道，解压后的文件结构按处理模块分层组织。元数据以Python可读的pickle格式存储，配合示例代码可直观查看标注结果。实际应用中，用户需预先配置路径参数和身份密钥，依次运行播客级处理、话语生成和话语级预测三个核心模块，即可复现完整的语音处理流水线。

背景与挑战

背景概述

语音转换技术旨在实现不同说话人声音特征的自然迁移，其发展长期受限于高质量数据集的匮乏。NaturalVoices数据集由MSP实验室团队于2024年构建，通过创新性地利用播客原始音频，结合自动语音识别、说话人日志和信噪比分析等先进技术，构建出大规模自发式情感语音库。该数据集突破了传统朗读式语料的局限性，为语音合成领域注入了真实场景下的韵律变化与情感表达，显著提升了语音转换系统的自然度与表现力。

当前挑战

在语音转换领域，传统系统常因训练数据缺乏自然韵律而呈现机械感。NaturalVoices通过播客数据采集直面此挑战，其构建过程需克服多说话人重叠、环境噪声干扰等现实场景难题。数据处理环节涉及海量音频的并行标注与质量筛选，需平衡语音片段的情感密度与声学纯净度，这对算法鲁棒性与计算资源提出了极高要求。

常用场景

经典使用场景

在语音转换技术领域，NaturalVoices数据集凭借其自发性和丰富的情感表达特性，成为训练高质量语音转换模型的理想资源。该数据集通过从原始播客音频中提取语音活动检测、说话人日志和自动语音识别等元数据，为研究者提供了大规模、多样化的自然语音样本。这些数据特别适用于开发能够保留原始说话人身份和情感特征的语音转换系统，显著提升了合成语音的自然度和表现力。

解决学术问题

该数据集有效解决了语音转换研究中自然语音数据稀缺的瓶颈问题。传统语音转换模型常受限于朗读式语音数据的单一性，难以捕捉真实对话中的韵律变化和情感波动。通过提供包含复杂声学环境和多维度情感标签的语音样本，该数据集推动了基于深度学习的语音转换方法在韵律建模和情感保持方面的突破，为构建更接近人类自然交流的语音合成系统奠定基础。

实际应用

在现实应用中，该数据集支撑的语音转换技术已广泛应用于智能虚拟助手、个性化语音合成及无障碍通信等领域。例如在影视配音行业，通过该技术可实现演员声音的跨语言转换同时保留表演情感；在教育领域，能为在线课程生成具有不同口音和语调的教学语音。这些应用显著提升了人机交互的自然度，为语音技术的商业化落地提供了关键技术支撑。

数据集最近研究