five

ShandaAI/Hive

收藏
Hugging Face2026-02-08 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/ShandaAI/Hive
下载链接
链接失效反馈
官方服务:
资源简介:
Hive是一个高质量的合成数据集,专为通用声音分离(USS)设计。与依赖弱标记野外数据的传统方法不同,Hive利用自动化数据收集流程从复杂声学环境中挖掘高纯度单事件片段,并通过语义一致的约束合成混合物。数据集具有高纯度、单标签清洁监督、语义一致的混合和高保真度等关键特点。数据集规模包括训练集、验证集和测试集,分别包含不同数量的样本和持续时间。数据集的结构以Parquet文件形式组织,包含混合物的元数据。数据字段详细描述了每个混合物的基本信息、源信息和混合参数。此外,数据集还整合了12个公共数据集来构建一个长尾声学空间。

Hive is a high-quality synthetic dataset designed for Universal Sound Separation (USS). Unlike traditional methods relying on weakly-labeled in-the-wild data, Hive leverages an automated data collection pipeline to mine high-purity single-event segments from complex acoustic environments and synthesizes mixtures with semantically consistent constraints. The dataset features purity over scale, single-label clean supervision, semantically consistent mixing, and high fidelity. It includes training, validation, and test sets with varying numbers of samples and durations. The dataset is organized in Parquet files containing mixture metadata. Data fields detail basic information, source information, and mixing parameters for each mixture. Additionally, the dataset integrates 12 public datasets to construct a long-tailed acoustic space.
提供机构:
ShandaAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作