five

multimodal

收藏
Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/Ayush2312/multimodal
下载链接
链接失效反馈
官方服务:
资源简介:
Spatial Audio Encoder Training Dataset (SAET) 是一个高保真合成数据集,专为训练音频编码器感知和推理3D声景而设计。该数据集将双耳/立体声音频线索映射到精确的空间轨迹和语义标签。数据集包含在虚拟3D房间中合成的10秒立体声场景(44.1kHz),每个场景包含1-3个移动声源,并带有以10Hz采样的地面真实轨迹元数据。每个音频样本都附带一个密集的JSON元数据文件和一个在`metadata.jsonl`中的摘要条目。数据集采用PyRoomAcoustics引擎生成,模拟了二阶反射和频率无关的吸收系数为0.25的混响。声源事件从70/216 AudioSet-Strong片段中提取,经过严格的质量过滤。数据集适用于空间音频嵌入、轨迹推断和源分离等任务。
创建时间:
2026-03-01
原始信息汇总

Spatial Audio Encoder Training Dataset (SAET) 数据集概述

数据集基本信息

  • 数据集名称:Spatial Audio Encoder Training Dataset (SAET)
  • 许可证:mit
  • 任务类别:音频分类、特征提取
  • 标签:空间音频、音频编码器训练、房间声学、3D音频、双耳模拟、轨迹记录
  • 语言:英语
  • 数据规模:1K<n<10K
  • 配置文件:默认配置(metadata.jsonl

数据集内容与结构

  • 数据描述:一个用于训练音频编码器感知和推理3D声景的高保真合成数据集。该数据集将双耳/立体声音频线索映射到精确的空间轨迹和语义标签。
  • 音频摘要:包含在虚拟3D房间中合成的10秒立体声场景(44.1kHz)。每个场景包含1-3个移动声源,并带有以10Hz采样的真实轨迹元数据。
  • 数据生成进度
    • 阶段1(提取):从AudioSet-Strong中提取单声道事件(已完成,从70/216个片段中提取了224个事件)。
    • 阶段2(合成):3D空间场景合成(目标:10k,进度约75%,已生成7500多个场景)。
    • 阶段3(推理):问答对生成(待处理,包含7个类别的高级推理任务)。

空间元数据规范

  • 坐标系
    • 原点:房间的左下前角 $[0, 0, 0]$。
    • 房间尺寸:$10m imes 8m imes 3m$(长×宽×高)。
    • 听者(麦克风)位置:固定在中心 $[5.0, 2.0, 1.6]$。
    • 方位角:$0^circ$ 为正前方(+Y),$+90^circ$ 为右方(+X),$-90^circ$ 为左方(-X)。范围:$[-180^circ, 180^circ]$。
    • 距离:与麦克风中心的欧几里得距离(米)。
  • 运动动态:声源遵循五种确定性运动模式之一:
    • 静态:声源保持在固定的3D点。
    • 接近:声源线性移向听者。
    • 远离:声源线性远离听者。
    • 横向:声源在视野内移动(例如,从左到右)。
    • 弧线:声源围绕听者做圆周运动,保持相对恒定的距离但改变方位角。

推理问答对(阶段3)

部分场景包含由LLM(DeepSeek-R1-Distill-Qwen-7B)生成的7个问答对,聚焦于:

  1. 横向轨迹:方向变化(从左到右,从右到左)。
  2. 径向变化:距离变化(接近,远离)。
  3. 比较:哪个声源更近/更远?
  4. 时间:进入/退出时间(早、中、晚)。
  5. 相对运动:声源间的空间关系。
  6. 自然感知:声音移动的定性描述。
  7. 编排:整体空间模式识别。

音频模拟细节

  • 引擎:PyRoomAcoustics(镜像源法)。
  • 混响:模拟二阶反射,频率无关吸收系数为 $0.25$。
  • 声源事件:从70/216个AudioSet-Strong片段中提取的224个高多样性单声道事件,经过严格质量过滤(持续时间 $geq$ 3.0秒,CLAP语义相似度得分 $geq$ 0.45)。
  • 格式:2声道立体声,16位PCM,44.1kHz。

数据列(metadata.jsonl)

列名 类型 描述
audio Audio 立体声 .wav 文件的路径。
scene_id int 与文件名匹配的唯一ID。
labels list 语义类别(例如 Crowd, Siren, Engine)。
num_events int 场景中同时存在的声源数量。
motion_types list 每个声源的运动模式列表。

使用案例

  1. 空间音频嵌入:训练如CLAP或Wav2Vec等模型,以创建按空间位置或运动类型聚类的嵌入。
  2. 轨迹推断:预测声源随时间变化的方位角/距离。
  3. 声源分离:在混响环境中解耦多个空间化的音频流。

参考

本数据集遵循“Spatial Audio Question Answering and Reasoning on Dynamic Source Movements”(2024)的方法论。

搜集汇总
数据集介绍
构建方式
在三维音频感知研究领域,Spatial Audio Encoder Training Dataset (SAET) 的构建采用了系统化的合成方法。该数据集通过虚拟三维房间环境生成高保真立体声场景,每个场景持续10秒,采样率为44.1kHz。数据生成过程分为三个阶段:首先从AudioSet-Strong中提取224个单声道音频事件,并基于质量指标进行筛选;随后利用PyRoomAcoustics引擎模拟二阶反射混响,合成包含1至3个移动声源的立体声场景;最后计划为部分场景生成涵盖七类推理任务的问题-答案对。所有声源遵循静态、接近、远离、横向或弧形五种确定性运动轨迹,并配有以10Hz采样的精确空间轨迹元数据。
特点
SAET数据集的核心特征在于其高保真的空间音频模拟与丰富的语义标注。数据集提供了密集的JSON元数据文件,详细记录了每个声源在10米×8米×3米虚拟房间内的三维坐标、方位角与距离信息,其中听者位置固定于房间中心。音频场景模拟了真实的室内声学特性,包括频率无关吸收系数为0.25的混响效果。此外,数据集整合了语义标签与运动类型标注,支持多任务学习。其独特之处在于规划引入基于大语言模型生成的问答对,涵盖轨迹分析、比较推理与时空关系理解等高级认知任务,为模型提供了从低级感知到高级推理的完整训练框架。
使用方法
该数据集适用于多种空间音频计算任务,用户可通过metadata.jsonl文件访问音频路径与标注信息。对于空间音频嵌入学习,研究者可利用立体声波形与对应的轨迹元数据,训练如CLAP或Wav2Vec等模型,使嵌入向量能够聚类相似空间位置或运动模式。在轨迹推断任务中,模型可基于双耳音频线索预测声源随时间变化的方位角与距离。此外,数据集支持在混响环境中进行多声源分离研究,通过解码空间化的音频流来提升分离性能。使用前需注意数据集尚处于生成阶段,部分推理问答对尚未完全就绪,建议根据任务需求选择相应子集进行实验。
背景与挑战
背景概述
空间音频编码器训练数据集(SAET)由研究团队于2024年创建,旨在推动三维声场感知与推理领域的发展。该数据集通过高保真合成技术,在虚拟三维房间中生成包含移动声源的立体音频场景,并标注精确的空间轨迹与语义标签。其核心研究问题聚焦于如何使音频编码器从双耳或立体声音频中解析动态声源的空间位置与运动模式,从而增强机器对复杂声学环境的理解能力。这一工作为空间音频处理、沉浸式听觉体验及智能音频分析提供了关键数据支撑,有望促进相关算法在虚拟现实、机器人导航等跨学科应用中的性能提升。
当前挑战
该数据集致力于解决空间音频感知中的核心挑战,即如何从有限的立体声音频线索中准确推断三维空间中动态声源的运动轨迹与相对位置,尤其在混响环境下多源分离与轨迹预测仍具难度。构建过程中,研究团队面临合成数据的高保真度要求,需平衡声学模拟的物理真实性与计算效率;同时,从AudioSet-Strong中筛选高质量单声道事件并确保语义一致性,亦涉及严格的音频质量与相似度过滤。此外,为生成涵盖七类推理任务的问答对,需借助大语言模型进行自动化标注,这对逻辑准确性与数据多样性提出了双重考验。
常用场景
经典使用场景
在空间音频与计算听觉场景分析领域,SAET数据集为训练深度神经网络感知三维声学环境提供了标准化基准。其经典应用场景集中于空间音频编码器的监督学习,模型通过输入双耳或立体声音频,学习映射至精确的声源轨迹与语义标签。这一过程模拟了人类听觉系统对声源位置、运动与语义信息的整合能力,为音频表征学习奠定了数据基础。
实际应用
在实际应用层面,SAET数据集支撑了智能听觉系统在增强现实、虚拟现实及机器人导航中的关键技术开发。例如,在AR/VR场景中,模型可利用该数据集训练的空间编码器实时渲染逼真的三维音效,提升沉浸感;在自主机器人领域,系统可通过分析环境声源运动轨迹实现避障或目标跟踪。这些应用体现了从仿真数据到真实场景的迁移潜力。
衍生相关工作
围绕SAET数据集,已衍生出一系列经典研究工作,包括基于轨迹预测的音频视觉融合模型、针对多声源分离的注意力机制架构,以及结合大型语言模型的音频问答系统。特别是其参考文献《Spatial Audio Question Answering and Reasoning on Dynamic Source Movements》(2024)提出了音频空间推理的新范式,启发了后续研究将几何推理与语义理解相结合,拓展了多模态学习在听觉领域的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作