DCASE2025 Task3 Stereo SELD Dataset

github2025-03-31 更新2025-04-03 收录

下载链接：

https://github.com/SonyResearch/dcase2025_stereo_seld_data_generator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据生成器代码旨在从真实或合成的第一阶Ambisonics (FOA) SELD录音中生成立体声事件定位和检测(SELD)数据集。代码用于DCASE2025挑战赛，从STARSS23录音中生成DCASE2025 Task3立体声SELD数据集。

This data generator code aims to generate a stereo spatial audio event localization and detection (SELD) dataset from real or synthetic first-order Ambisonics (FOA) SELD recordings. The code is developed for the DCASE2025 Challenge, and is used to generate the DCASE2025 Task 3 stereo SELD dataset from STARSS23 recordings.

创建时间：

2025-03-26

原始信息汇总

DCASE2025 Stereo SELD数据生成器数据集概述

数据集基本信息

名称：DCASE2025 Stereo SELD Data Generator
用途：从真实或合成的一阶Ambisonics (FOA) SELD录音生成立体声声事件定位与检测(SELD)数据集
应用场景：用于DCASE2025挑战赛任务3的立体声SELD数据集生成

数据生成流程

采样过程：
- 从FOA音频/360°视频录音中随机采样5秒片段
- 随机选择视点角度
音频处理：
- 根据视角旋转FOA音频并转换为立体声音频(模拟M/S立体声技术)
视频处理：
- 将360°视频转换为透视视频(水平FOV设为100度，分辨率360x640像素)
标签处理：
- 旋转原始到达方向(DOA)标签
- 根据透视视频FOV生成二进制屏幕内/外事件标签

数据集结构

源数据集要求结构

<source dir> ├── foa_dev (Ambisonic格式，24kHz，四通道) ├── metadata_dev (CSV格式) └── video_dev (MP4格式，仅用于视听设置)

生成数据集结构

<target dir>/<tag dataset> ├── stereo_dev ├── metadata_dev └── video_dev

技术细节

音频格式：立体声，源自FOA转换
视频规格：360x640分辨率，100度水平FOV
采样率：24kHz
通道数：4通道(源FOA)→2通道(生成立体声)

使用要求

Python环境：3.8.17
依赖项：通过requirements.txt安装
源数据集：如STARSS23数据集

许可信息

许可证类型：MIT License

搜集汇总

数据集介绍

构建方式

在声学事件定位与检测领域，DCASE2025 Task3 Stereo SELD Dataset的构建采用了创新的空间音频转换技术。该数据集通过随机采样5秒片段的方式，从一阶Ambisonics格式的原始录音中提取素材，并基于随机选择的观察视角进行空间旋转。采用中-侧立体声技术将旋转后的空间音频转换为立体声格式，同时将360度视频转换为水平视场角100度、分辨率360x640像素的透视视频。通过对比旋转后的声源到达方向标签与视频视场范围，生成屏幕内外事件的二元标注，实现了多模态数据的精确对齐。

特点

该数据集的核心价值在于其独特的立体声空间表征能力。通过保留原始Ambisonics录音的空间信息，同时转换为更通用的立体声格式，为声学事件定位研究提供了轻量级但高精度的数据基础。数据集包含同步生成的音频、视频和元数据，其中音频采样率为24kHz，视频采用标准MP4格式。特别值得注意的是，数据集通过视场角与声源方向的智能比对，创新性地引入了屏幕内外事件的标注维度，为跨模态学习任务提供了新的可能性。

使用方法

使用该数据集需遵循标准化的技术流程。研究者需首先配置Python 3.8.17环境并安装指定依赖库，通过Git克隆获取数据生成器代码。准备阶段要求将STARSS23等源数据集按特定目录结构存放，包含foa_dev、metadata_dev和video_dev三个子目录。运行generate_stereo_seld_data.py脚本时，需预先设置源数据目录和目标路径参数，脚本将自动生成包含立体声音频、透视视频及对应元数据的完整数据集。对于合成数据源的应用，用户可通过修改metadata_paths变量实现自定义数据转换，整个过程支持并行化处理以提升效率。

背景与挑战

背景概述

DCASE2025 Task3 Stereo SELD Dataset由Sony Research等机构为2025年DCASE挑战赛开发，旨在推动立体声环境下声音事件定位与检测（SELD）的研究。该数据集基于STARSS23的真实场景空间录音，通过先进的一阶Ambisonics（FOA）转换技术生成立体声音频与对应视角视频，同时标注声音事件的方位信息。其核心研究问题聚焦于多模态信号（音频-视频）协同下的三维声场理解，为智能监控、虚拟现实等应用提供关键技术支撑。数据集创新性地采用视角旋转与中侧立体声编码技术，显著提升了空间声学表征的准确性。

当前挑战

该数据集需解决立体声SELD中声源方位估计与跨模态对齐的双重挑战：其一，立体声信号的空间分辨率有限，导致离轴声源定位精度下降；其二，构建过程中需同步处理FOA音频旋转、视角视频渲染与元数据坐标转换，任何环节的误差均会引发跨模态标签失配。技术实现上，需克服360°视频视场角裁切引起的声像位置偏移，以及Ambisonics到立体声转换中的相位失真问题。此外，合成数据与真实数据的声学特性差异也对模型泛化能力提出更高要求。

常用场景

经典使用场景

在声学信号处理领域，DCASE2025 Task3 Stereo SELD Dataset为声事件定位与检测（SELD）研究提供了标准化的测试平台。该数据集通过将一阶Ambisonics（FOA）录音转换为立体声格式，模拟了真实环境中多源声场的空间分布特性。其经典应用场景包括开发基于深度学习的多任务模型，同时完成声事件分类、时间检测和方位角估计，为智能监控、虚拟现实等应用提供关键技术支撑。

解决学术问题

该数据集有效解决了声学场景理解中的多模态融合难题。通过同步提供旋转后的立体声音频、透视视频及重新标注的方位信息，研究者能够探索视听模态在复杂声场中的互补关系。其创新的离屏事件标注机制，突破了传统SELD任务仅关注视场内声源的局限，为跨模态注意力机制、三维声场重建等前沿方向提供了基准数据。

衍生相关工作

基于该数据集衍生的经典工作包括《Two vs. Four-Channel Sound Event Localization and Detection》提出的双通道SELD架构，以及《Spatial Scaper》开发的声景仿真工具链。STARSS23数据集团队进一步扩展了其标注体系，而SELDVisualSynth项目则受其启发建立了合成数据生成框架，推动领域向半监督学习范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集