AudioSet-Chunk

Hugging Face2025-03-26 更新2025-03-27 收录

下载链接：

https://huggingface.co/datasets/Revolab/AudioSet-Chunk

下载链接

链接失效反馈

官方服务：

资源简介：

AudioSet-Chunk数据集是一个音频分类数据集，其中包含了按0.25秒和0.5秒分割的音频片段。数据集的特征包括音频文件名、标签和分数。它被分为四个部分：chunk_0.25s、500k_part1_chunk_0.5s、chunk_0.5s和500k_part2_chunk_0.5s，每个部分都有不同的字节数和示例数量。使用MIT/ast-finetuned-audioset-10-10-0.4593模型对音频片段进行预测，并筛选出与黄金标签重合的预测结果。

创建时间：

2025-03-26

原始信息汇总

AudioSet-Chunk 数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 音频分类
数据集名称: AudioSet-Chunk
下载大小: 27,908,043,036 字节
数据集大小: 28,564,193,967.170998 字节

数据集特征

音频文件名:
- 数据类型: 音频
- 采样率: 16,000 Hz
标签:
- 数据类型: 字符串序列
分数:
- 数据类型: float64 序列

数据集拆分

chunk_0.25s:
- 样本数量: 794,023
- 大小: 2,959,240,485.264 字节
500k_part1_chunk_0.5s:
- 样本数量: 3,454,394
- 大小: 11,766,880,091.954 字节
chunk_0.5s:
- 样本数量: 444,223
- 大小: 2,562,325,630.453 字节
500k_part2_chunk_0.5s:
- 样本数量: 3,275,100
- 大小: 11,275,747,759.5 字节

数据处理

将 AudioSet 数据集按 0.25 秒和 0.5 秒进行分块处理。
使用 MIT/ast-finetuned-audioset-10-10-0.4593 进行预测。
仅保留预测标签与原始标签重叠的样本。

搜集汇总

数据集介绍

构建方式

AudioSet-Chunk数据集基于原始AudioSet音频数据集进行重构，通过将原始音频流按0.25秒和0.5秒两种时间窗口进行分块处理。每个音频片段经由MIT/ast-finetuned-audioset预训练模型进行多标签分类预测，仅保留模型预测标签与原始标注重叠的样本，确保数据标注的可靠性。该构建方法有效平衡了音频时序信息的完整性与标注准确性。

特点

数据集包含四种不同时间粒度的分块版本，采样率统一为16kHz，每个样本均附带多标签分类结果及置信度分数。其特色在于通过短时音频片段捕捉瞬态声学特征，0.25秒分块适合分析瞬时声学事件，0.5秒分块则更适合连续声音模式研究。标注体系继承AudioSet的层次化分类框架，覆盖527个声音类别。

使用方法

该数据集适用于音频场景分类、声音事件检测等机器学习任务。使用时可根据研究需求选择不同时长分块，0.25秒分块适合微秒级声学分析，0.5秒分块适用于常规场景识别。每个样本包含的预测分数可用于置信度加权训练，建议结合原始AudioSet的标注体系进行跨数据集验证。加载时需注意不同分块版本对应的存储路径差异。

背景与挑战

背景概述

AudioSet-Chunk数据集源于谷歌研究团队于2017年发布的AudioSet项目，该项目旨在构建一个大规模的音频事件识别数据集，涵盖广泛的声音类别。作为AudioSet的衍生数据集，AudioSet-Chunk通过将原始音频流分割为0.25秒和0.5秒的片段，并利用预训练模型MIT/ast-finetuned-audioset进行预测，进一步丰富了音频分类的研究资源。该数据集的构建不仅延续了AudioSet在环境声音识别、音乐分类等领域的应用价值，还为短时音频事件检测提供了新的研究范本。

当前挑战

AudioSet-Chunk面临的核心挑战在于短时音频片段的语义模糊性，0.25秒的极短时长可能导致声音事件特征不完整，增加分类模型的误判风险。数据构建过程中需解决黄金标签与预测标签的对齐问题，既要保留原始AudioSet的标注准确性，又要处理模型预测引入的噪声。多尺度时间分割（0.25s/0.5s）带来的特征分布差异，也要求模型具备跨时间粒度的泛化能力。

常用场景

经典使用场景

在音频信号处理领域，AudioSet-Chunk数据集通过将原始音频分割为0.25秒和0.5秒的片段，为细粒度音频事件检测提供了标准化的研究基准。这种时序切分方式特别适合研究瞬态声学事件的时空特性，例如爆炸声、玻璃破碎等短时事件的精确识别。数据集采用MIT/ast-finetuned-audioset预训练模型进行标注，确保了标签预测与真实标注的高度一致性。

衍生相关工作

基于该数据集衍生的经典工作包括时序音频Transformer架构的优化研究，如AST模型的细粒度适应方法。多项声学事件检测竞赛方案采用其片段化数据增强策略，显著提升了模型对短时事件的敏感性。在自监督学习领域，该数据集被广泛用于验证音频表征学习的通用性，催生了多篇顶会论文中的对比学习新范式。

数据集最近研究