five

AudioSet-Chunk

收藏
Hugging Face2025-03-26 更新2025-03-27 收录
下载链接:
https://huggingface.co/datasets/Revolab/AudioSet-Chunk
下载链接
链接失效反馈
官方服务:
资源简介:
AudioSet-Chunk数据集是一个音频分类数据集,其中包含了按0.25秒和0.5秒分割的音频片段。数据集的特征包括音频文件名、标签和分数。它被分为四个部分:chunk_0.25s、500k_part1_chunk_0.5s、chunk_0.5s和500k_part2_chunk_0.5s,每个部分都有不同的字节数和示例数量。使用MIT/ast-finetuned-audioset-10-10-0.4593模型对音频片段进行预测,并筛选出与黄金标签重合的预测结果。
创建时间:
2025-03-26
原始信息汇总

AudioSet-Chunk 数据集概述

基本信息

  • 许可证: CC-BY-NC-4.0
  • 任务类别: 音频分类
  • 数据集名称: AudioSet-Chunk
  • 下载大小: 27,908,043,036 字节
  • 数据集大小: 28,564,193,967.170998 字节

数据集特征

  • 音频文件名:
    • 数据类型: 音频
    • 采样率: 16,000 Hz
  • 标签:
    • 数据类型: 字符串序列
  • 分数:
    • 数据类型: float64 序列

数据集拆分

  1. chunk_0.25s:
    • 样本数量: 794,023
    • 大小: 2,959,240,485.264 字节
  2. 500k_part1_chunk_0.5s:
    • 样本数量: 3,454,394
    • 大小: 11,766,880,091.954 字节
  3. chunk_0.5s:
    • 样本数量: 444,223
    • 大小: 2,562,325,630.453 字节
  4. 500k_part2_chunk_0.5s:
    • 样本数量: 3,275,100
    • 大小: 11,275,747,759.5 字节

数据处理

  • 将 AudioSet 数据集按 0.25 秒和 0.5 秒进行分块处理。
  • 使用 MIT/ast-finetuned-audioset-10-10-0.4593 进行预测。
  • 仅保留预测标签与原始标签重叠的样本。
搜集汇总
数据集介绍
main_image_url
构建方式
AudioSet-Chunk数据集基于原始AudioSet音频数据集进行重构,通过将原始音频流按0.25秒和0.5秒两种时间窗口进行分块处理。每个音频片段经由MIT/ast-finetuned-audioset预训练模型进行多标签分类预测,仅保留模型预测标签与原始标注重叠的样本,确保数据标注的可靠性。该构建方法有效平衡了音频时序信息的完整性与标注准确性。
特点
数据集包含四种不同时间粒度的分块版本,采样率统一为16kHz,每个样本均附带多标签分类结果及置信度分数。其特色在于通过短时音频片段捕捉瞬态声学特征,0.25秒分块适合分析瞬时声学事件,0.5秒分块则更适合连续声音模式研究。标注体系继承AudioSet的层次化分类框架,覆盖527个声音类别。
使用方法
该数据集适用于音频场景分类、声音事件检测等机器学习任务。使用时可根据研究需求选择不同时长分块,0.25秒分块适合微秒级声学分析,0.5秒分块适用于常规场景识别。每个样本包含的预测分数可用于置信度加权训练,建议结合原始AudioSet的标注体系进行跨数据集验证。加载时需注意不同分块版本对应的存储路径差异。
背景与挑战
背景概述
AudioSet-Chunk数据集源于谷歌研究团队于2017年发布的AudioSet项目,该项目旨在构建一个大规模的音频事件识别数据集,涵盖广泛的声音类别。作为AudioSet的衍生数据集,AudioSet-Chunk通过将原始音频流分割为0.25秒和0.5秒的片段,并利用预训练模型MIT/ast-finetuned-audioset进行预测,进一步丰富了音频分类的研究资源。该数据集的构建不仅延续了AudioSet在环境声音识别、音乐分类等领域的应用价值,还为短时音频事件检测提供了新的研究范本。
当前挑战
AudioSet-Chunk面临的核心挑战在于短时音频片段的语义模糊性,0.25秒的极短时长可能导致声音事件特征不完整,增加分类模型的误判风险。数据构建过程中需解决黄金标签与预测标签的对齐问题,既要保留原始AudioSet的标注准确性,又要处理模型预测引入的噪声。多尺度时间分割(0.25s/0.5s)带来的特征分布差异,也要求模型具备跨时间粒度的泛化能力。
常用场景
经典使用场景
在音频信号处理领域,AudioSet-Chunk数据集通过将原始音频分割为0.25秒和0.5秒的片段,为细粒度音频事件检测提供了标准化的研究基准。这种时序切分方式特别适合研究瞬态声学事件的时空特性,例如爆炸声、玻璃破碎等短时事件的精确识别。数据集采用MIT/ast-finetuned-audioset预训练模型进行标注,确保了标签预测与真实标注的高度一致性。
衍生相关工作
基于该数据集衍生的经典工作包括时序音频Transformer架构的优化研究,如AST模型的细粒度适应方法。多项声学事件检测竞赛方案采用其片段化数据增强策略,显著提升了模型对短时事件的敏感性。在自监督学习领域,该数据集被广泛用于验证音频表征学习的通用性,催生了多篇顶会论文中的对比学习新范式。
数据集最近研究
最新研究方向
在音频信号处理领域,AudioSet-Chunk数据集的精细化时间分割特性为多标签音频分类研究开辟了新途径。该数据集通过0.25秒和0.5秒的片段切割策略,显著提升了短时音频事件检测的时空分辨率,这恰好契合了当前智能监控、环境声音识别等领域对微秒级事件捕捉的技术需求。研究者们正基于此探索时域卷积网络与注意力机制的融合架构,以解决跨片段标签一致性和时序依赖建模等核心问题。近期工作表明,该数据集的片段级标注质量显著改善了音频场景理解任务中细粒度分类的F1-score指标,相关成果已应用于城市声景监测和医疗听诊辅助系统等实际场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作