laion/voiceclap-data

Name: laion/voiceclap-data
Creator: laion
Published: 2026-05-07 01:32:21
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/laion/voiceclap-data

下载链接

链接失效反馈

官方服务：

资源简介：

VoiceCLAP Data数据集是一个用于训练laion/voiceclap-small和laion/voiceclap-large模型的音频和密集字幕混合数据集。每个tar分片包含配对的.flac音频文件和.json字幕及元数据文件，字幕和属性注释由音频感知LLMs自动生成，包括Qwen-Audio、Gemini Flash 2.5和EmoNet分类模型。数据集包含多个子集，如emolia（来自Emilia数据集）、laions-got-talent（来自LAIONs Got Talent数据集）、majestrino（来自Common-Voice多语言子集）等，每个子集有不同的来源和用途。数据集的语言为英语和多语言，任务类别包括音频分类和特征提取，标签涵盖音频、语音、情感等。

VoiceCLAP Data is a dataset of audio + dense-caption mixtures used to train laion/voiceclap-small and laion/voiceclap-large models. Each tar shard is a WebDataset of paired .flac audio files and .json caption + metadata files, with captions and structured attribute annotations produced automatically by audio-aware LLMs including Qwen-Audio, Gemini Flash 2.5, and an EmoNet taxonomy model. The dataset includes multiple subsets such as emolia (from Emilia dataset), laions-got-talent (from LAIONs Got Talent dataset), majestrino (from Common-Voice multilingual subset), etc., each with different sources and purposes. The dataset is in English and multilingual, with task categories including audio-classification and feature-extraction, and tags covering audio, speech, emotion, etc.

提供机构：

laion

搜集汇总

数据集介绍

构建方式

VoiceCLAP Data数据集专为训练语音与密集描述之间的对比学习模型而设计，其构建融合了多种音频来源与自动化标注流程。数据以WebDataset格式存储，每个tar分片包含成对的48kHz单声道FLAC音频文件与JSON格式的标题及元数据。标注过程完全由音频感知的大语言模型流水线驱动，涉及Qwen-Audio、Gemini Flash 2.5以及基于推理的思维模型，后者依据EmoNet分类体系对情感进行评分，并提取每段录音的发声突发、音色、韵律及录制环境标签。所有标注均为自动生成，无人工干预，因此标签应视为软性指导。

特点

该数据集规模庞大，总样本量超过十亿，涵盖九个不同配置的子集，每个子集对应独特的语音场景与情感语调来源。来源包括Emilia数据集的大规模均衡子集、LAION's Got Talent清理后的语音内容、Common-Voice多语言子集、流程合成的非语言发声突发，以及EARS、Expresso、VoxCeleb1和VoxCeleb2等专业录音集合。对于emolia、laions-got-talent和majestrino三个子集，每个样本的JSON文件还保留了大型语言模型在思考模式下的原始思维链轨迹，包含每条属性的链式推理过程和完整响应，极大增强了标注的可解释性与透明度。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集，采用流式模式以避免内存溢出。加载时指定配置名称即可获取对应子集，例如load_dataset('laion/voiceclap-data', 'emolia', streaming=True)。数据以tar分片形式组织，每个分片包含音频与JSON对，支持高效随机访问与连续训练。研究人员可利用此数据集进行音频分类、特征提取及对比学习任务，但需注意语音为生物特征数据，使用前应获得伦理审查批准，避免用于重新识别、画像或监控说话人的应用场景。

背景与挑战

背景概述

VoiceCLAP Data 数据集由 LAION 等研究机构于近年创建，旨在通过大规模音频-密集描述对推动语音与情感理解的跨模态对比学习。其核心研究问题在于如何利用自动生成的丰富文本标注，使模型能够同时捕捉语音的语义、声学特征、情感倾向及发声环境等细粒度信息。该数据集汇集了来自 Emilia、LAION's Got Talent、Common-Voice、VoxCeleb 等十余个公开语料库的子集，规模达数十亿样本，为训练 VoiceCLAP 系列模型提供了基础。其影响力体现在为语音领域的多模态预训练树立了新标杆，尤其在情感计算、说话人表征与通用音频理解等方向展现出巨大潜力，推动了从单一语音识别向综合语音感知的范式演进。

当前挑战

该数据集所解决的领域挑战在于语音与自然语言之间的异构鸿沟，传统语音模型难以直接利用文本知识进行细粒度情感与声学属性推理，而 VoiceCLAP Data 通过稠密字幕对比学习，使跨模态对齐成为可能。构建过程中面临的核心挑战包括：首先，如何从多源异构语料中实现音频与文本对的自动化标注，研究人员设计了基于 Qwen-Audio、Gemini Flash 2.5 及推理模型的流水线，但生成的情感标签（如 EmoNet 分类）及声学属性注释仅为软标签，缺乏人工验证，可能导致噪声累积。其次，隐私伦理问题不容忽视，语音属于生物特征数据，汇总大规模说话人样本可能带来重新识别与监控风险，需在公开时严格限定使用场景并获取伦理审批。此外，数据量庞大且以 WebDataset 分片存储，对分布式加载与流式处理效率提出了工程挑战。

常用场景

经典使用场景

VoiceCLAP Data作为一项大规模的语音-密集描述配对数据集，其经典使用场景集中在对语音进行多维度的细粒度表征学习。研究者可借助该数据集，通过对比学习范式训练语音与文本之间的对齐模型，从而捕捉发音中的情感色彩、音色特质、韵律变化乃至录制环境的细微差异。这一过程尤其适用于开发能够理解非语言声学线索的通用语音编码器，使得模型在未见过的语料上也能准确映射声学特征与语义描述之间的深层关联。

衍生相关工作

围绕VoiceCLAP Data已衍生出一系列重要的后续研究。最直接的是基于该数据集训练的VoiceCLAP系列模型（包括small和large两个版本），它们作为语音-语言联合嵌入的基准，被广泛用于下游任务的零样本迁移和特征提取。后续工作进一步探索了如何利用其密集标注中的思维链信息来提升模型对语音情感细微变化的感知鲁棒性，也有研究借鉴其对比学习框架开发面向特定语种或口音的专用语音编码器。该数据集的构建方法同样启发了一批研究项目，它们模仿其多模型协作标注管线，用于自动生成其他非言语声学事件（如笑声、叹息）的结构化描述，将可控表达的研究边界从语音拓展至更广泛的声学交流领域。

数据集最近研究