DCASE2025 Task3 Stereo SELD Dataset

Name: DCASE2025 Task3 Stereo SELD Dataset
Creator: 索尼人工智能
Published: 2025-07-16 16:59:09
License: 暂无描述

arXiv2025-07-16 更新2025-07-18 收录

下载链接：

https://zenodo.org/records/15559774

下载链接

链接失效反馈

官方服务：

资源简介：

DCASE2025 Task3 Stereo SELD数据集是从STARSS23数据集中提取的立体声音频和透视视频数据。STARSS23包含多通道音频（例如FOA）和360°视频录制，以及目标事件类的时空注释。该数据集已被转换为立体声音频和透视视频数据，以模拟常规媒体内容。数据集分为开发集和评估集，分别包含30000个5秒长度的音频视频片段和10000个5秒长度的音频视频片段，总计55.6小时。该数据集旨在解决声音事件定位和检测（SELD）问题，并包含13个事件类别，如语音、电话和水龙头。立体声音频格式具有24 kHz的采样率，视频分辨率为640:360像素，水平视角为100°，帧率为29.97 fps。该数据集适用于音频增强、摄像头自动对准等音频视觉处理领域。

The DCASE2025 Task 3 Stereo Sound Event Localization and Detection (SELD) Dataset is extracted from the STARSS23 dataset, which contains multi-channel audio (e.g., FOA), 360° video recordings, and spatio-temporal annotations for target event classes. This dataset has been converted into stereo audio and perspective video formats to simulate conventional media content. It is divided into a development set and an evaluation set, with the development set containing 30,000 5-second audio-visual clips and the evaluation set including 10,000 such clips, resulting in a total duration of 55.6 hours. This dataset aims to address the task of sound event localization and detection (SELD), and covers 13 event categories such as speech, telephone, and faucet. The stereo audio has a sampling rate of 24 kHz, while the video has a resolution of 640×360 pixels, a horizontal field of view of 100°, and a frame rate of 29.97 fps. This dataset is applicable to audio-visual processing fields such as audio enhancement and automatic camera alignment.

提供机构：

索尼人工智能

创建时间：

2025-07-16

原始信息汇总

DCASE2025 Task3 Stereo SELD Dataset 概述

基本信息

发布日期: 2025年6月1日
版本: 1.1.0
访问权限: 开放数据集
DOI: 10.5281/zenodo.15559774
许可证: MIT License

创建者

Shimada, Kazuki (Sony AI)
Politis, Archontis (Tampere University)
Roman, Iran R. (Queen Mary University of London)
Sudarsanam, Parthasaarathy (Tampere University)
Díaz-Guerra Aparicio, David (Tampere University)
Pandey, Ruchi (Tampere University)
Uchida, Kengo (Sony AI)
Koyama, Yuichiro (Sony Group Corporation)
Takahashi, Naoya (Sony AI)
Shibuya, Takashi (Sony AI)
Takahashi, Shusuke (Sony Group Corporation)
Virtanen, Tuomas (Tampere University)
Mitsufuji, Yuki (Sony AI, Sony Group Corporation)

数据集描述

来源: 基于STARSS23数据集，转换其第一阶Ambisonics (FOA)音频和360°视频数据为立体声音频和透视视频。
目的: 用于DCASE2025挑战赛的声音事件定位与检测 (SELD) 任务。
转换过程:
- 从STARSS23数据集中随机采样5秒片段。
- 将FOA音频转换为立体声音频，模拟中侧 (M/S) 录音技术。
- 将360°视频转换为固定视角的透视视频（水平视场100度，分辨率640x360）。
- 调整方向到达 (DOA) 标签以匹配新视角，忽略仰角标签，保留距离标签。

数据集规格

音频:
- 采样率: 24kHz
- 位深度: 16位
- 格式: 立体声 (M/S技术)
视频:
- 格式: 透视视频
- 分辨率: 640x360
- 帧率: 29.97 fps
数据量:
- 开发集: 30,000个5秒片段（41.7小时）
- 评估集: 10,000个5秒片段（13.9小时）
数据分布:
- 开发集: 23.9%来自东京，76.1%来自坦佩雷
- 评估集: 来自东京和坦佩雷的混合

声音事件类别

共13个目标声音事件类别：

女性语音
男性语音
拍手
电话
笑声
家庭声音
脚步声
门开关声
音乐
乐器
水龙头
铃声
敲门声

文件命名规则

开发集音频文件: fold[fold number]_room[room number]_mix[recording number per room]_deg[viewing angle in degree]_start[start time in frame].wav
评估集音频文件: sample[clip number].wav

下载内容

开发集:
- stereo_dev.zip: 立体声音频数据
- video_dev.zip: 透视视频数据
- metadata_dev.zip: 元数据
评估集:
- stereo_eval.zip: 立体声音频数据
- video_eval.zip: 透视视频数据

引用

Shimada, K., et al. (2025). DCASE2025 Task3 Stereo SELD Dataset (1.1.0) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15559774

搜集汇总

数据集介绍

构建方式

DCASE2025 Task3 Stereo SELD Dataset的构建基于STARSS23数据集，通过从360°视频和多通道音频中提取有限视场的立体声和视角视频数据。具体步骤包括从STARSS23录制中随机采样5秒片段，将FOA音频和360°视频转换为立体声和视角视频，并调整方向标签以匹配固定视角。音频转换模拟了中-侧（M/S）立体声录制技术，视频转换则使用Python库生成16:9比例的视角视频。数据集的开发集包含30,000个5秒片段，总计41.7小时，评估集包含10,000个片段，总计13.9小时。

特点

该数据集的特点在于其立体声和视角视频的配对设计，适用于常见的媒体场景。由于立体声数据的角度模糊性，任务聚焦于方位角（左右轴）的到达方向（DOA）估计和距离估计。数据集中包含13种声音事件类别，如语音、电话和水龙头声，音频采样率为24 kHz，视频分辨率为640x360像素，水平视场为100°。此外，数据集的类别分布与STARSS23相似，但屏幕外事件占比约75%，增加了任务的挑战性。

使用方法

数据集的使用方法包括音频和视频的联合处理，以完成声音事件检测、分类和定位任务。音频轨道（Track A）仅使用立体声输入，而视听轨道（Track B）则结合视频帧进行屏幕内外事件分类。基线系统采用卷积循环神经网络（CRNN）处理音频特征，并结合预训练的ResNet-50提取视觉特征，通过交叉注意力机制融合多模态数据。评估指标包括定位相关的F分数（F20◦/1）、DOA估计误差（DOAECD）和距离估计误差（RDECD），视听轨道还引入了屏幕内外分类准确率指标。

背景与挑战

背景概述

DCASE2025 Task3 Stereo SELD Dataset是由Sony AI、Tampere University、Queen Mary University of London等机构的研究团队联合开发，旨在推动声音事件定位与检测（SELD）领域的发展。该数据集创建于2025年，主要针对立体声音频数据中的声音事件定位与检测问题，特别关注方位角（azimuth）和距离估计。与以往使用四通道音频格式（如FOA和麦克风阵列）不同，该数据集转向更常见的立体声音频，以模拟现实媒体场景。数据集基于STARSS23录音，通过转换生成立体声音频和视角视频，并引入了屏幕上/屏幕下事件分类的新子任务，以应对有限视场（FOV）的挑战。这一创新为音频-视觉融合研究提供了新的实验平台。

当前挑战

DCASE2025 Task3 Stereo SELD Dataset面临多重挑战。在领域问题方面，立体声音频数据存在方位角模糊性（如前-后和上-下方向），导致DOA估计仅限于水平面，且距离估计精度受限。此外，屏幕上/屏幕下分类任务因数据分布不均衡（约77.5%声源位于屏幕外）而难以优化。在构建过程中，数据集需从STARSS23的360°音频视频中提取有限FOV的立体声和视角视频，涉及复杂的空间坐标转换与标签映射。同时，合成数据的生成需模拟真实声学场景与视觉对齐，以确保训练数据的多样性和鲁棒性。这些挑战共同推动了音频-视觉融合算法与空间声学建模的创新需求。

常用场景

经典使用场景

DCASE2025 Task3 Stereo SELD Dataset在声学事件定位与检测（SELD）研究中扮演了重要角色，尤其适用于处理立体声音频和有限视场（FOV）视频数据。该数据集通过模拟常见媒体内容中的音频和视频场景，为研究者提供了一个真实且多样化的测试平台。其经典使用场景包括在复杂声学环境中进行声源定位、距离估计以及屏幕内外事件分类，这些任务对于智能家居、自动驾驶和虚拟现实等应用至关重要。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在多模态融合和立体声信号处理领域。例如，基于该数据集的基线系统采用了卷积循环神经网络（CRNN）和Transformer架构，为后续研究提供了重要参考。此外，许多研究团队利用该数据集开发了新的数据增强策略和注意力机制，进一步提升了声学事件定位与检测的精度。这些工作不仅推动了SELD技术的发展，也为相关领域的跨模态研究奠定了基础。

数据集最近研究