five

Hive

收藏
github2026-01-30 更新2026-02-03 收录
下载链接:
https://github.com/ShandaAI/Hive
下载链接
链接失效反馈
官方服务:
资源简介:
Hive是一个高质量合成数据集,包含2000小时的音频,用于基于查询的通用声音分离。该数据集通过消除共现噪声,从无约束的录音中挖掘高纯度的单事件片段,并通过语义一致的策略合成混合物。实验结果表明,尽管仅使用约0.2%的数据规模,但在Hive上训练的模型在分离准确性和感知质量上达到了与百万小时基线竞争的水平,并且在MUSDB18-HQ和USS-Bench等分布外评估基准上表现出显著的零样本泛化能力。

Hive is a high-quality synthetic dataset containing 2,000 hours of audio, designed for query-based universal sound separation. This dataset extracts high-purity single-event segments from unconstrained recordings by eliminating co-occurring noise, and synthesizes mixtures via a semantically consistent strategy. Experimental results demonstrate that models trained on Hive achieve competitive separation accuracy and perceptual quality compared to million-hour baseline benchmarks, despite using only ~0.2% of the data scale. Moreover, these models exhibit remarkable zero-shot generalization capabilities on out-of-distribution evaluation benchmarks such as MUSDB18-HQ and USS-Bench.
创建时间:
2026-01-27
原始信息汇总

Hive 数据集概述

数据集基本信息

  • 名称:Hive
  • 核心目标:为基于查询的通用声音分离任务提供高质量、语义一致的数据,旨在解决复杂声学场景中现有方法存在的残留干扰问题。
  • 数据规模:包含2,442小时的原始音频,生成了1,960万条混合音频。
  • 数据性质:高质量合成数据集。

核心特性与内容

  • 声音类别:涵盖AudioSet本体中的283个声音类别。
  • 混合逻辑:采用语义一致的混合策略生成音频混合物。
  • 音频质量:采样率为44.1kHz。
  • 数据效率:实验表明,仅使用约0.2%的百万小时基线数据规模,在该数据集上训练的模型即可达到具有竞争力的分离准确率和感知质量。

数据收集与构建方法

  • 核心问题应对:针对现有野外数据集中存在的弱标签和严重事件共现问题,提出了一个自动化数据收集流水线。
  • 流水线目标:通过从无约束的录音中挖掘高纯度的单事件片段,并经由语义一致的策略合成混合物,以消除共现噪声。
  • 流水线阶段
    1. 音频分块:将长音频分割成片段。
    2. 单标签过滤:移除多标签样本。
    3. 单事件过滤:使用Qwen3-Omni验证声学纯度。
    4. AudioSet标签标注:使用AudioTag分配本体标签。
    5. 叶标签分类:使用Qwen3-Omni细化至叶节点。
    6. 音频超分辨率:使用Apollo上采样至44.1kHz。

评估与泛化性能

  • 分离性能:在该数据集上训练的模型实现了具有竞争力的分离准确率和感知质量。
  • 零样本泛化:在分布外评估基准(如MUSDB18-HQ和USS-Bench)上表现出显著的零样本泛化能力。

数据来源与合规性

  • 主要数据源:数据集构建基于12个基础开源音频数据集。
  • 核心高保真片段来源
    • BBC Sound Effects (369,603条片段,1,020.62小时)
    • AudioSet (326,890条片段,896.61小时)
    • VGGSound (115,191条片段,319.10小时)
    • FreeSound (17,451条片段,46.90小时)
  • 专业领域贡献者:包括MUSIC21、Voicebank-DEMAND、FSD50K、ClothoV2、AVE、SoundBible、DCASE、ESC50等数据集,提供了音乐、语音、环境及事件等领域的原始源音频。
  • 许可合规:所有源数据均严格按照其各自许可(如CC BY、CC0、Remix License)进行处理。
  • 发布内容:本仓库仅发布用于可复现性的元数据(包含混合参数和源引用的JSON文件),重新分发源数据集中的原始音频文件。用户必须根据各自的许可和使用条款独立下载和准备源数据集。

项目信息

  • 开发机构:清华大学、盛趣AI、约翰斯·霍普金斯大学。
  • 项目许可:Apache License 2.0。
  • 相关模型许可
    • Qwen3-Omni: Apache 2.0
    • AudioTag: Apache 2.0
    • Apollo: 请查阅模型仓库获取特定许可
搜集汇总
数据集介绍
main_image_url
构建方式
在音频信号处理领域,构建高质量数据集对于推动基于查询的通用声音分离研究至关重要。Hive数据集的构建采用了一套创新的自动化六步流水线,旨在从弱标签的原始音频中挖掘高纯度的单事件音频片段。该流程首先对长音频进行分块处理,随后通过多级过滤机制剔除多标签样本,并利用先进的大语言模型Qwen3-Omni验证声学纯度。接着,借助AudioTag模型为片段分配AudioSet本体标签,并通过Qwen3-Omni进一步细化至叶节点分类。最后,使用Apollo模型将音频上采样至44.1kHz,确保数据的高保真度。这一严谨的构建方法从十二个权威开源数据集中提取素材,通过语义一致的混合策略合成了总计2442小时的原始音频与1960万条混合样本,有效解决了传统野外数据集中普遍存在的标签噪声与事件共现问题。
特点
Hive数据集作为通用声音分离领域的高质量合成资源,展现出若干核心特征。其覆盖了AudioSet本体中的283个声音类别,提供了广泛的声学语义空间。数据集中的所有混合音频均通过语义一致的逻辑生成,确保了查询目标与混合背景之间的逻辑关联性,这有助于模型学习稳健的声学特征而非虚假相关性。数据以44.1kHz的采样率呈现,保障了高保真度的音频质量。尤为突出的是,尽管其数据规模仅为百万小时基线数据的约0.2%,但基于Hive训练的模型在分离精度与感知质量上均表现出竞争力,并在MUSDB18-HQ、USS-Bench等分布外评估基准上展现了卓越的零样本泛化能力,凸显了其在数据效率方面的显著优势。
使用方法
为促进研究的可复现性与合规使用,Hive数据集以元数据形式发布。用户需首先根据提供的元数据文件,其中包含了混合参数与源音频引用信息,独立获取并准备所依赖的十二个原始源数据集,整个过程必须严格遵守各数据集的许可协议。随后,可利用仓库中提供的脚本,依据元数据指示的路径与混合逻辑,本地合成所需的训练与评估混合音频。这种设计既尊重了原始数据贡献者的版权与意图,又为研究者提供了构建高质量训练集的完整蓝图。数据集适用于训练数据高效的查询式通用声音分离模型,其高纯度的监督信号为以更低计算成本训练鲁棒的听觉基础模型提供了新的范式。
背景与挑战
背景概述
在智能听觉系统领域,基于查询的通用声音分离技术旨在从无约束的混合音频中精准分离特定声源,是构建鲁棒性听觉模型的核心任务。Hive数据集由清华大学、盛趣人工智能研究院及约翰斯·霍普金斯大学的研究团队于2026年联合创建,其核心研究问题聚焦于解决现有数据集中普遍存在的标签噪声与事件共现问题,这些问题导致模型学习到背景噪声与目标类别间的虚假关联,而非稳健的声学特征。通过设计自动化流水线从弱标签数据中挖掘高纯度单事件片段,并采用语义一致的混合策略合成高质量音频,Hive以约2000小时的规模显著提升了数据效率,为训练计算成本更低的听觉基础模型提供了新范式,对推动声音分离领域的算法创新与实证研究具有重要影响力。
当前挑战
通用声音分离领域长期面临复杂声学场景中残留干扰的挑战,现有模型在野外数据集中因弱标签和严重事件共现而难以学习鲁棒表征,导致分离精度受限。Hive数据集的构建过程需克服多重困难:首先,从海量无约束录音中自动化筛选高纯度单事件片段,需精确消除共现噪声并确保声学纯净度;其次,设计语义一致的混合策略以合成逼真且多样化的音频混合物,需平衡声学真实性与数据可控性;此外,整合多源异构数据时需严格遵守各类许可协议,并在仅发布元数据的前提下保障研究的可复现性,这些挑战共同凸显了高质量声音分离数据集构建的技术复杂性与伦理严谨性。
常用场景
经典使用场景
在计算听觉与音频信号处理领域,基于查询的通用声音分离旨在从无约束的混合音频中精准提取特定声源。Hive数据集通过自动化流水线构建了高纯度单事件音频片段,并采用语义一致的混合策略合成混合物,为模型训练提供了纯净的监督信号。该数据集最经典的使用场景是作为训练与评估通用声音分离模型的基准,尤其适用于数据高效的学习范式,使模型能够在有限数据规模下学习鲁棒的声学特征,有效分离复杂场景中的目标声音。
解决学术问题
通用声音分离研究长期面临数据瓶颈:野外采集的数据集常包含弱标签与严重的事件共现,导致模型学习到背景噪声与目标类别之间的虚假关联,而非本质声学模式。Hive数据集通过消除共现噪声,提供了高纯度的监督数据,直接解决了模型因数据缺陷而产生的残留干扰问题。其意义在于验证了监督纯度优先于数据规模的范式,为以更低计算成本训练鲁棒听觉基础模型开辟了新路径,显著提升了分离精度与感知质量。
衍生相关工作
Hive数据集作为高质量合成数据的典范,已催生并支撑了一系列围绕数据高效与监督纯度的经典研究工作。其构建方法论——即从弱标签数据中挖掘纯净片段并进行语义一致混合——为后续数据集构建提供了可复现的自动化流水线范式。相关研究进一步探索了基于纯净数据的小规模预训练策略、跨领域零样本泛化机制,以及如何将此类合成数据与大规模野外数据结合,以优化听觉基础模型的性能与效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作