Hive
收藏github2026-05-20 更新2026-05-21 收录
下载链接:
https://github.com/JusperLee/Hive
下载链接
链接失效反馈官方服务:
资源简介:
Hive是一个高质量的合成音频数据集,用于基于查询的通用声音分离,通过自动化管道从无约束录音中挖掘高纯度单事件片段,并通过语义一致策略合成混合物,包含2k小时的音频数据,旨在解决现有方法在复杂声学场景中的性能限制。
创建时间:
2026-05-03
原始信息汇总
Hive 数据集概述
Hive 是一个面向查询式通用声音分离任务的高质量合成音频数据集,由清华大学、盛趣游戏人工智能实验室和约翰霍普金斯大学的研究团队共同构建。
核心特性
- 数据规模:包含 2,442 小时原始音频和 19.6M 条混合样本
- 声音类别:覆盖 AudioSet 本体论中的 283 个声音类别
- 采样率:44.1 kHz
- 混合逻辑:采用语义一致性混合策略,消除背景噪声与目标类别之间的虚假关联
- 数据效率:仅使用约 0.2% 的数据量即可达到与百万小时基线模型相媲美的分离精度和感知质量
数据集发布版本
| 版本 | 存储位置 | 格式 | 大小 | 说明 |
|---|---|---|---|---|
| Hive(元数据) | JusperLee/Hive | Parquet | ~1.24 GB | 仅包含元数据,需使用 mix_from_metadata.py 从 12 个原始数据源本地重新生成混合音频 |
| Hive-ALL(全音频) | JusperLee/Hive-ALL | WebDataset .tar 分片 |
285 GB | 预生成的双源混合音频,可直接流式加载训练,无需重新混合 |
数据收集流水线
采用 6 步自动化流水线从弱标签来源中挖掘高纯度单事件音频:
- 音频切分 - 将长音频分割为短片段
- 单标签过滤 - 移除多标签样本
- 单事件过滤 - 使用 Qwen3-Omni 验证声学纯净度
- AudioSet 标签标注 - 使用 AudioTag 分配本体论标签
- 叶节点分类 - 使用 Qwen3-Omni 细化至叶节点分类
- 音频超分辨率 - 使用 Apollo 将音频上采样至 44.1 kHz
基础数据源
数据集基于以下 12 个开放音频数据集,所有处理均严格遵守各数据集的许可协议:
核心大规模数据源
- BBC Sound Effects:369,603 个片段(1,020.62 小时),Remix License
- AudioSet:326,890 个片段(896.61 小时),CC BY(Google)
- VGGSound:115,191 个片段(319.10 小时),CC BY 4.0(牛津大学)
- FreeSound:17,451 个片段(46.90 小时),CC0/BY/BY-NC(MTG-UPF)
专业领域数据源
- MUSIC21:32,701 个片段(90.28 小时)- 乐器独奏与合奏
- Voicebank-DEMAND:12,376 个片段(9.94 小时)- 纯净语音
- FSD50K:636 个片段(0.80 小时)- 精细标注子集
- ClothoV2:14,759 个片段(38.19 小时)- 音频描述数据集
- AVE:3,054 个片段(6.91 小时)- 音视频事件定位
- SoundBible:2,501 个片段(5.78 小时)- 精炼短片段
- DCASE:1,969 个片段(5.46 小时)- 声学场景检测
- ESC50:1,433 个片段(1.99 小时)- 环境声音分类基准
模型推理
提供两个推理脚本,自动从 Hugging Face 下载配置和检查点:
- AudioSep-hive:
infer_audiosep.py,模型权重位于 JusperLee/AudioSep-hive - FlowSep-hive:
infer_flowsep.py,模型权重位于 JusperLee/FlowSep-hive
也提供 Gradio 交互式演示应用 app.py,支持两个模型统一界面。
零样本泛化能力
在 MUSDB18-HQ 和 USS-Bench 等分布外评估基准上,基于 Hive 训练的模型展现出显著的零样本泛化性能。
许可协议
- 项目许可:Apache License 2.0
- 模型许可:Qwen3-Omni(Apache 2.0)、AudioTag(Apache 2.0)、Apollo(参见仓库许可)
- 数据声明:仓库仅发布元数据,不重新分发原始音频文件,用户需自行根据相应许可下载源数据集
搜集汇总
数据集介绍

构建方式
在通用音频分离领域,现有数据集普遍存在标签弱化与事件共现噪声问题,导致模型难以学习鲁棒的声学特征。为突破这一瓶颈,研究者提出了一套全自动的数据采集流水线。该流水线首先对无约束录音进行音频分块处理,随后通过多阶段过滤机制依次移除多标签样本、利用大语言模型Qwen3-Omni验证事件声学纯度、借助AudioTag模型分配AudioSet本体标签,再经Qwen3-Omni精细化至叶节点分类,最后采用Apollo模型将音频超分辨率至44.1kHz。基于此流水线,从十二个公开数据集中挖掘出高纯度单事件音频片段,并通过语义一致的混合策略合成双源混合物,最终构建了包含2442小时原始音频与1960万混合样本的Hive数据集。
使用方法
Hive数据集提供两种灵活的发布格式以适应不同使用场景。元数据版本通过Hugging Face以Parquet格式发布,用户可利用配套的mix_from_metadata.py脚本从原始十二个源数据集中本地再生混合音频,便于定制化实验。预混合版本则直接提供285GB的WebDataset格式封装,以44.1kHz采样率的双源混合tar分片形式呈现,支持流式加载训练,无需任何重混合步骤。此外,项目提供了AudioSep与FlowSep的即用推理脚本,能够自动从Hugging Face下载配置与检查点,通过简单的命令行参数指定混合音频与文本查询即可完成目标声源分离。同时,统一的Gradio交互界面允许用户在本地快速体验两种模型的分离效果。
背景与挑战
背景概述
在智能听觉系统领域,基于查询的通用声音分离任务致力于从无约束的混合音频中精准隔离特定声源,其性能长期受困于真实场景中标签弱化与事件共现带来的数据瓶颈。2026年,来自清华大学、盛大AI及约翰霍普金斯大学的研究团队——包括李凯、程锦涛等学者——提出了Hive数据集,旨在通过构建语义一致的合成音频混合物,解决现有数据集因弱标签与严重事件共现而导致模型学习背景噪声与目标类别间虚假关联的顽疾。该数据集基于自动化的六阶段流水线,从无约束录音中挖掘高纯度单事件片段,并采用语义一致的混合策略合成音频,最终形成涵盖283个AudioSet本体类别、共计2442小时原始音频与1960万混合样本的高质量资源。实验证明,仅需约传统百万小时级数据集0.2%的数据量,基于Hive训练的模型即可在分离精度与感知质量上达到竞争性水平,并在MUSDB18-HQ、USS-Bench等分布外基准上展现出卓越的零样本泛化能力,为数据高效的鲁棒听觉基座模型训练开辟了新范式。
当前挑战
Hive数据集直面通用声音分离领域的核心挑战:1) 领域问题方面,现有方法在复杂声学场景中持续遭受残余干扰,根源在于真实世界数据集普遍存在的弱标签与事件共现——如鸟鸣与风声常同时出现,导致模型误将背景噪声作为目标类别的判别特征,而非学习稳健的声学模式;2) 构建过程中,团队需从海量弱标签音频中自动化筛选高纯度单事件片段,面临标签噪音过滤(如多标签样本剔除)、声学纯度校验(借助Qwen3-Omni多模态模型验证单一事件)、以及AudioSet本体标签精炼至叶节点的多层次挑战,同时需确保所合成的混合音频在语义上合理(如避免将“汽车引擎”与“雨声”随机组合),并保持44100Hz的高采样率与285GB的预混音频数据量级下的分布式存储与可复现性。
常用场景
经典使用场景
在基于查询的通用声音分离领域,Hive数据集被广泛用于训练和评估能够根据文本描述从复杂混合音频中精确提取特定声源的模型。其核心应用场景是构建语义一致的合成混合物:通过自动化流水线从海量弱标注野外录音中挖掘高纯度单事件片段,并按照语义一致性策略进行混合,从而生成高质量的训练数据。研究者通常利用Hive的元数据或预混合音频(Hive-ALL),结合AudioSep或FlowSep等分离架构,探索如何在极小数据规模下(仅约0.2%的传统基线数据量)实现具有竞争力的分离精度和感知质量,尤其关注模型在复杂声学场景中的抗干扰能力与零样本泛化性能。
解决学术问题
Hive数据集有效解决了通用声音分离研究中长期存在的‘数据瓶颈’问题。传统野外数据集因弱标签和严重事件共现而诱导模型学习背景噪声与目标类别之间的虚假关联,而非鲁棒的声学特征。Hive通过自动化流水线消除共现噪声并确保监督信号的纯度,使得模型能够习得更具判别力的声学表征。该数据集的提出挑战了‘更大数据规模必然带来更好性能’的既有范式,证明优先提升监督纯度可以显著提升数据效率,为训练鲁棒的听觉基础模型提供了新的方法论,同时大幅降低了计算资源需求。
实际应用
在实际应用中,Hive驱动的分离模型可部署于智能听觉系统,如智能音箱中的个性化声源提取、会议系统中的语音增强、助听器中的目标声聚焦以及视频制作中的音频后期编辑。通过支持文本查询的分离方式,用户仅需描述期望声源(如‘电吉他’或‘婴儿哭声’),模型即可从嘈杂环境中精准提取对应信号。此外,Hive的零样本泛化能力使其能够处理未见过的声学场景,拓展了在开放式环境(如安防监控、野生动物监测)中的适用性。其元数据分发形式也便于研究者在本地按需生成混合物,降低了大规模音频数据的存储与传输负担。
数据集最近研究
最新研究方向
在通用查询式声音分离领域,当前的前沿研究正致力于突破数据瓶颈对模型性能的制约。Hive数据集通过提出一种自动化语义一致的数据合成管道,从弱标签的野外录音中挖掘高纯度单事件片段,构建了包含2442小时原始音频与1960万混合样本的高质量合成数据集。该研究揭示了关键洞察:仅使用传统百万小时级基线数据约0.2%的规模,在Hive上训练的模型即可在分离精度和感知质量上达到竞争水平,并在MUSDB18-HQ等跨分布基准上展现出卓越的零样本泛化能力。这一以监督纯度为核心的高效数据范式,为构建鲁棒性听觉基础模型提供了极具潜力的低成本路径,标志着从数据规模扩展向数据质量优化的范式转变。
以上内容由遇见数据集搜集并总结生成



