Fhrozen/dcase22_task3
收藏Hugging Face2022-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fhrozen/dcase22_task3
下载链接
链接失效反馈官方服务:
资源简介:
DCASE 2022 Task 3数据集,包括STARSS22数据集和合成的SELD混合数据,由Tampere大学和SONY公司共同收集。数据集包含多通道录音和时空注释,用于声音事件检测和定位任务。数据集的特点包括真实场景录音、多种录音格式(如第一阶Ambisonics和四面体麦克风阵列)、详细的注释过程和数据集的规格说明。数据集适用于训练和评估机器听觉模型,包括声音事件检测、声音源定位和联合声音事件定位与检测等任务。
The DCASE 2022 Task 3 dataset, which includes the STARSS22 dataset and synthetic SELD mixed data, was jointly collected by Tampere University and Sony Corporation. It contains multi-channel recordings and spatio-temporal annotations for sound event detection and localization tasks. The dataset features real-world scene recordings, multiple recording formats such as first-order Ambisonics and tetrahedral microphone arrays, detailed annotation procedures and dataset specification documents. It is applicable for training and evaluating machine audition models, covering tasks including sound event detection, sound source localization, and joint sound event localization and detection.
提供机构:
Fhrozen
原始信息汇总
数据集概述
数据集名称
Sony-TAu Realistic Spatial Soundscapes 2022 (STARSS22)
数据集描述
概览
- 内容: 包含多通道声音场景录音,以及时间和空间上的显著事件标注。
- 收集地点: 芬兰坦佩雷大学(TAU)和日本索尼公司。
- 录音格式: 两种4通道空间录音格式,包括麦克风阵列(MIC)和一阶Ambisonics(FOA)。
- 用途: 用于DCASE 2022声音事件定位与检测任务的开发数据集。
录音细节
- 录音时间: 2021年9月至2022年2月。
- 录音设备: Eigenmike em32麦克风阵列和Ricoh Theta V 360°视频录制。
- 跟踪系统: Optitrack Flex 13光学跟踪系统。
- 录音时长: 70个SONY录音片段(约2小时)和51个TAU录音片段(约3小时)。
数据集规格
- 录音数量: 111个录音片段。
- 房间数量: 11个独特房间。
- 采样率: 24kHz。
- 录音格式: 两种4通道3维录音格式。
- 目标声音事件类别: 13类。
声音事件类别
- 类别数量: 13类。
- 类别详情: 包括女性讲话、男性讲话、鼓掌、电话铃声、笑声等。
命名约定
- 文件命名:
fold[fold number]_room[room number]_mix[recording number per room].wav。
任务设置
- 训练与测试分割: 提供预定义的训练-测试分割。
- 评估: 模型应在训练分割上训练,在测试分割上报告结果。
文件结构
- 数据集根目录: 包含README.md、LICENSE文件。
- 子目录:
foa_dev和mic_dev,分别存储Ambisonic格式和麦克风阵列格式的录音文件。
数据集使用
- 适用任务: 声音事件检测(SED)、声音源定位、声音事件定位与检测(SELD)等。
- 使用指南: 遵循DCASE 2022挑战的指导,使用提供的训练-测试分割进行模型训练和评估。
搜集汇总
数据集介绍

构建方式
STARSS22数据集由芬兰坦佩雷大学音频研究组(ARG)和日本索尼公司的创意人工智能实验室(CAI)共同收集和构建。该数据集包含了在芬兰坦佩雷和日本东京的不同房间和环境中,使用高通道数球形麦克风阵列和360度视频录制的一系列多通道声音场景。录音过程中,主要声音源还配备了跟踪标记,以进行光学跟踪。数据集的收集时间跨度为2021年9月至2022年2月,总计约5小时的录音时长。
使用方法
STARSS22数据集适用于训练和评估机器听觉模型,用于声音事件检测(SED)、通用的声音源定位或感兴趣信号定位,以及联合声音事件定位和检测(SELD)。此外,数据集还可用于评估不依赖训练的信号处理方法,如声源定位方法和多源声学跟踪。使用数据集时,应遵循预定义的训练-测试分割,以保持结果的一致性。
背景与挑战
背景概述
在音频信号处理领域,声音事件检测(SED)和声音事件定位与检测(SELD)是两个重要的研究方向。STARSS22数据集,全称为Sony-TAu Realistic Spatial Soundscapes 2022,是由Tampere大学音频研究组(ARG)和SONY创意人工智能实验室共同创建的。该数据集旨在为机器听觉模型的训练和评估提供真实场景下的多通道声音记录及其时间和空间注释。与以往合成场景的音频数据集不同,STARSS22包含真实的房间和环境中的声音场景记录,避免了合成场景中的一些固有缺陷。STARSS22数据集为DCASE 2022声音事件定位与检测任务提供了开发数据集,对于推动音频信号处理技术的发展具有重要意义。
当前挑战
STARSS22数据集面临的挑战主要包括:1)真实场景中的声音事件多样性和复杂性,使得机器学习模型在泛化能力和鲁棒性方面面临考验;2)数据集中包含多种语言的声音事件,增加了模型训练和评估的难度;3)数据集的构建过程中,由于涉及多通道记录和空间注释,对设备和数据处理技术提出了较高的要求。此外,STARSS22数据集还面临着如何有效利用光学跟踪数据、360°视频和无线麦克风记录来提高时间和空间注释的准确性,以及如何处理和利用非目标类声音事件等问题。
常用场景
经典使用场景
在声源定位与检测(Sound Event Localization and Detection, SELD)领域,STARSS22数据集提供了丰富多样的声景记录,以及相应的时空标注。该数据集支持机器听觉模型的训练和评估,包括声事件检测(Sound Event Detection, SED)、一般声源定位或信号源定位,以及联合声事件定位与检测。此外,STARSS22数据集也适用于评估不依赖于训练的信号处理方法,如声源定位方法和多源声学跟踪。
解决学术问题
STARSS22数据集解决了合成声景数据集中存在的局限性,如场景生成随机性、缺乏真实场景的互动性等。它通过结合人类标注者的声事件活动和光学跟踪的空间位置,确保了标注的真实性和准确性。STARSS22数据集的目标事件类别由真实场景的组成决定,事件和声学类的密度、多声部、发生和共现情况并非随机,而是遵循真实场景中参与者的动作和互动。
实际应用
STARSS22数据集在实际应用中,如智能助手、智能家居系统、环境监测等领域,具有重要的价值。通过训练基于STARSS22的机器听觉模型,可以实现对复杂声景中特定声事件的检测和定位,从而提升系统的智能化水平。此外,STARSS22数据集也可以用于声源定位方法和多源声学跟踪的评估,为相关技术的改进和应用提供数据支持。
数据集最近研究
最新研究方向
Fhrozen/dcase22_task3数据集,即Sony-TAu Realistic Spatial Soundscapes 2022 (STARSS22)数据集,为声源定位与检测任务提供了宝贵的多通道录音数据,包括真实场景中的声音事件及其时空标注。该数据集由Tampere大学和SONY合作收集,旨在推动声源定位、声音事件检测以及联合声源定位与检测等机器听觉模型的研究。STARSS22数据集的特点在于其真实性和多样性,为模型在不同声学条件下的性能评估提供了可能。当前,该数据集的前沿研究方向主要集中在利用深度学习和信号处理技术,实现对复杂声音场景中声源的准确定位与事件检测。此外,STARSS22数据集的发布也与DCASE 2022挑战赛紧密相关,吸引了众多研究者的关注,推动了声学事件检测与定位技术的进步。
以上内容由遇见数据集搜集并总结生成



