SparkAudio/voxbox

Name: SparkAudio/voxbox
Creator: SparkAudio
Published: 2025-04-15 07:43:25
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/SparkAudio/voxbox

下载链接

链接失效反馈

官方服务：

资源简介：

VoxBox数据集是一个经过精心策划的双语语音语料库，包含了干净的转录和丰富的元数据，包括年龄、性别和情感等信息。数据集的结构包括音频文件和元数据文件，每个JSONL文件对应一个特定的子语料库，包含了每个音频样本的元数据记录。元数据格式为JSON对象，描述了音频样本的各种属性，如唯一标识符、训练/测试分割、语言、年龄、性别、情感、音高、音高标准差、速度、音频样本时长、言语时长、音节数、言语转录、音节级转录和音频文件路径。

VoxBox dataset is a curated collection of bilingual speech corpora annotated with clean transcriptions and rich metadata including age, gender, and emotion. The dataset structure includes audio files and metadata files, with each JSONL file corresponding to a specific sub-corpus and containing metadata records for each audio sample. The metadata format is a JSON object describing various attributes of the audio sample, such as unique identifier, train/test split, language, age, gender, emotion, pitch, pitch standard deviation, speed, audio sample duration, speech duration, number of syllables, transcription of the utterance, syllable-level transcription, and path to the audio file.

提供机构：

SparkAudio

搜集汇总

数据集介绍

构建方式

在语音合成研究领域，构建高质量的双语语音数据集是推动技术发展的基石。VoxBox数据集通过系统性地整合多个公开语音语料库，包括AISHELL-3、CASIA、Common Voice中文版及WenetSpeech等，构建了一个结构化的双语语音资源。其构建过程涉及对原始音频数据的统一清洗与转写，并为每个样本标注了精细的元数据。这些元数据以JSONL格式组织，每条记录对应一个音频样本，确保了数据描述的完整性与一致性，为后续的模型训练提供了坚实的数据基础。

特点

该数据集的核心特点在于其丰富的多维度标注信息与双语支持。除了提供纯净的文本转录外，每个样本均附带了说话人的年龄、性别、情感状态等属性，以及音高、语速、音节数等声学特征。这种精细的标注体系使得数据集不仅适用于基础的文本到语音转换任务，更能支持语音合成中与说话人特征、情感表达相关的进阶研究。其双语（中文与英文）特性进一步拓宽了其在跨语言语音技术中的应用场景。

使用方法

为有效利用该数据集进行语音合成研究，使用者需遵循其预设的数据结构。数据集主要包含`audios`目录下的音频文件与`metadata`目录下的JSONL元数据文件。研究人员可通过解析JSONL文件中的`wav_path`字段定位对应的音频，并结合`text`、`syllables`及各类声学特征字段进行模型训练与评估。数据已预先划分训练与测试集，便于直接用于模型开发与性能验证。具体使用细节可参考其官方GitHub仓库提供的脚本与指南。

背景与挑战

背景概述

在语音合成技术迈向高自然度与个性化表达的时代背景下，VoxBox数据集应运而生。该数据集由SparkAudio团队于2025年构建，旨在为双语文本到语音研究提供高质量的语音语料库。其核心研究问题聚焦于如何整合多源、多属性的语音数据，以支持基于大语言模型的高效语音合成系统的开发。通过汇集并统一标注了AISHELL-3、CommonVoice等多个知名子语料库，VoxBox不仅提供了纯净的文本转录，还囊括了说话人年龄、性别、情感以及音高、语速等丰富的声学元数据，为探索可控、富有表现力的语音生成模型奠定了坚实的数据基础，显著推动了语音合成领域向更智能、更人性化的方向发展。

当前挑战

VoxBox数据集致力于解决语音合成领域的关键挑战，即如何生成自然、流畅且具备丰富说话人风格与情感属性的双语语音。具体而言，其面临的挑战包括：在领域问题层面，模型需精准建模并控制语音的多种属性（如音高、情感），以实现高质量、可控的个性化语音合成；在数据构建层面，挑战源于多源异构数据的整合，需对不同格式、不同标注规范的原始语料进行清洗、对齐与统一元数据标注，确保数据质量与一致性，同时妥善处理各子数据集的许可协议，以符合学术研究规范。

常用场景

经典使用场景

在语音合成技术的研究中，VoxBox数据集以其精心整理的双语语音语料库，为构建高质量文本到语音模型提供了关键支撑。该数据集整合了多个子语料库的音频文件与丰富元数据，包括年龄、性别、情感等说话人属性，以及音高、语速等声学特征，使得研究者能够基于多维度信息进行模型训练与评估。其经典使用场景集中于端到端神经语音合成系统的开发，通过利用大规模、多样化的语音样本，有效提升合成语音的自然度与表现力，尤其在跨语言与多说话人场景下展现出显著优势。

解决学术问题

VoxBox数据集通过提供结构化的双语语音数据与细粒度标注，解决了语音合成领域若干常见学术问题。其一，它缓解了高质量多语言语音数据稀缺的挑战，为跨语言语音模型研究提供了统一基准；其二，丰富的说话人属性与声学特征使得个性化语音合成、情感语音生成等研究方向成为可能，促进了说话人自适应与风格迁移技术的进步；其三，精确的音节级转录与时长信息有助于改善韵律建模，提升合成语音的流畅性与自然度。这些贡献推动了语音合成技术向更智能、更人性化的方向发展。

衍生相关工作

VoxBox数据集自发布以来，已衍生出一系列经典研究工作，尤其在高效语音合成模型开发方面影响深远。其关联论文《Spark-tts: An efficient llm-based text-to-speech model with single-stream decoupled speech tokens》提出了一种基于大语言模型的单流解耦语音标记方法，显著提升了合成效率与质量。该工作充分利用了VoxBox提供的多属性标注数据，推动了轻量级、高性能语音合成架构的探索。此外，数据集的结构化设计也激励了后续研究在元数据驱动的语音生成、多模态语音编辑等方向的创新，持续丰富语音技术的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集