Naturalistic audio-visual volumetric sequences dataset of sounding actions

Name: Naturalistic audio-visual volumetric sequences dataset of sounding actions
Creator: 弗劳恩霍夫IIS, 德国
Published: 2021-05-03 14:16:33
License: 暂无描述

arXiv2021-05-03 更新2024-07-25 收录

下载链接：

https://cvssp.org/data/navvs/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Naturalistic audio-visual volumetric sequences dataset of sounding actions’，由德国弗劳恩霍夫IIS和英国萨里大学CVSSP联合创建。数据集包含40个短动作序列，涵盖多种声音类型和特征，旨在为沉浸式和交互式研究提供高质量的音频和视频数据。数据集通过精心设计的录音技术捕捉，包括麦克风技术、位置和水平，以及背景噪声和混响效果的考虑。该数据集适用于研究跨模态感知影响，特别是在虚拟环境中的应用，如VR/AR/XR中的6DoF交互，旨在解决音频和视频数据在技术研究和科学感知研究中的集成测试问题。

This dataset, entitled 'Naturalistic audio-visual volumetric sequences dataset of sounding actions', was co-created by Fraunhofer IIS of Germany and CVSSP, University of Surrey, UK. It comprises 40 short action sequences spanning a wide range of sound types and acoustic characteristics, with the goal of supplying high-quality audio and video data for immersive and interactive research. The dataset was acquired via meticulously designed recording workflows, which incorporate microphone technologies, placement, and recording levels, while also accounting for background noise and reverberation effects. This dataset supports research on cross-modal perceptual impacts, particularly for applications in virtual environments such as 6DoF interactions within VR/AR/XR, and aims to address the integration testing challenges of audio and video data in both technical research and scientific perceptual studies.

提供机构：

弗劳恩霍夫IIS, 德国

创建时间：

2021-05-03

搜集汇总

数据集介绍

构建方式

该数据集基于多模态捕捉技术构建，在专业录音棚内通过16台Blackmagic URSA 4K广播摄像机以360度向内配置同步采集UHD视频流，帧率为30fps，背景为蓝色色度键。同时，采用多麦克风阵列进行音频捕获，包括三支指向性枪式麦克风、两套无线领夹麦克风、接触式麦克风及吊杆麦克风，所有信号以48kHz、24bit精度同步录制。视觉数据通过形状从轮廓技术和体素图割优化重建出3D几何模型与UV纹理贴图；音频数据经去噪、去爆音及均衡处理，最终生成包含立体声混音与独立麦克风信号的多声道音频，以及原始图像、掩膜、视觉外壳等视觉文件，共形成40段时长2秒的短序列。

特点

数据集以自然主义发声动作为核心，涵盖四种语义类别（人体运动、机械、水流、人声）和三种声学特征（离散冲击、谐波、连续），确保感知多样性。每段序列均提供高质量3D视频与近距离拾音的纯净音频，支持六自由度交互环境中的听觉与视觉独立或联合渲染。独特的双模态对齐设计使研究者能探索跨模态感知交互，如空间定位、注意力分配与质量评价，弥补了现有体积数据集缺乏同步高保真音频的空白。所有数据开放获取，并附有详细的处理参数文档。

使用方法

数据集适用于技术评估与科学感知研究。在技术层面，可用于3D视频编码、空间音频渲染及运动补偿算法的性能测试；在科学层面，支持虚拟现实中双模态空间感知的阈值测量与跨模态影响分析。用户可通过渲染引擎将视觉模型与音频信号在2D/3D屏幕或VR/AR/XR环境中重建，实现六自由度平移与旋转交互。数据以每帧3D几何、纹理及多声道音频文件形式提供，研究者可依据语义或声学特征分组进行对比实验，或利用原始麦克风信号自定义空间音频渲染策略。

背景与挑战

背景概述

在沉浸式与交互式媒体技术迅猛发展的当下，人类视觉与听觉作为感知外界环境的主要通道，其协同作用在虚拟现实、增强现实及混合现实等应用中占据核心地位。然而，现有的体积视频数据集多聚焦于纯视觉域的重建与运动捕捉，音频信号的记录常被忽视或质量欠佳，导致双模态感知研究缺乏高质量的自然主义测试素材。为此，Fraunhofer IIS与英国萨里大学CVSSP的Hanne Stenzel、Davide Berghi、Marco Volino及Philip J.B. Jackson等研究人员于2021年创建了Naturalistic audio-visual volumetric sequences dataset of sounding actions数据集。该数据集精心选取了涵盖四种语义类别与三种声学特征类别的四十段短动作序列，在专业录音棚中同步采集了高保真音频与多视角UHD视频，并重建为具备六自由度交互能力的体积视频。这一开放资源填补了自然主义视听体积数据的空白，为跨模态感知、空间音频渲染及沉浸式交互系统的技术评估与科学研究提供了宝贵的基础平台。

当前挑战

该数据集应对的领域挑战在于，现有体积视频数据集普遍缺乏与视觉质量相匹配的高品质同步音频，难以支撑视听双模态在虚拟环境中的整合性研究，尤其是跨模态空间感知、注意力引导及质量评价等关键问题。在构建过程中，团队面临多重技术挑战：首先，需在有限预算下设计兼顾语义多样性与声学特征差异的场景，确保动作的声音具有自然性与可重复性；其次，多麦克风阵列的布设需精准捕捉声源的空间移动与细节，同时抑制背景噪声与混响干扰，并通过接触式麦克风增强地面动作的可听性；再者，体积视频的重建需从十六台同步相机中提取前景掩模，利用形状从轮廓与图割优化算法恢复精确的三维几何，并处理遮挡与伪影问题；最后，音频与视频的同步通过打板器与时码系统实现，后处理中还需对信号进行降噪与均衡，同时保留原始电平以维持数据完整性。

常用场景

经典使用场景

该数据集为沉浸式与交互式媒体研究提供了珍贵的自然主义视听体积素材，特别适用于六自由度（6DoF）虚拟现实、增强现实及混合现实环境中的感知实验与技术评估。其核心用途在于构建高保真度的双模态虚拟场景，通过同步的高质量音频与三维视频序列，支持研究者探索视听交互对空间定位、注意力分配及质量感知的影响。例如，利用该数据集可系统性地测试不同声学特征（如离散冲击、谐波与连续声）与语义类别（如人声、机械声、水声）在虚拟空间中的整合效果，从而为动态场景下的双模态感知阈值测量与编码性能优化提供标准化测试平台。

衍生相关工作

该数据集催生了多项衍生研究，包括基于其声学多样性设计的跨模态注意力模型，以及利用体积视频与空间音频联合重建的6DoF交互系统。后续工作可能借鉴其语义分类框架，拓展至更广泛的日常动作场景，或结合深度学习技术开发自动化的视听一致性评估工具。此外，数据集为动态场景下的神经网络训练提供了标注基准，推动了从单模态到双模态的感知质量预测模型发展，如联合优化视频编码与音频渲染的端到端系统。未来工作还可探索基于该数据集的个性化感知模型，通过调整声学特征模拟不同听觉环境下的用户行为，进一步丰富人机交互的适应性设计。

数据集最近研究