IS3+

Name: IS3+
Creator: 巴塞罗那庞贝乌法布拉大学
Published: 2025-08-30 00:36:16
License: 暂无描述

arXiv2025-08-30 更新2025-11-25 收录

下载链接：

https://zenodo.org/records/17064608

下载链接

链接失效反馈

官方服务：

资源简介：

IS3+是一个视觉声源定位的改进数据集，扩展了IS3数据集，包括了负音频情况下的评估，例如噪音、静音和屏幕外的声音。数据集包含3240张图像，每个图像配对两个音频样本，共计6480个音频视觉实例。图像通过扩散模型合成，模拟多个物体在图像中的不同大小。音频样本来自Adobe Sound Effects和IS3数据集的清洁样本，以确保音频与图像内容相匹配。

提供机构：

巴塞罗那庞贝乌法布拉大学

创建时间：

2025-08-30

搜集汇总

数据集介绍

构建方式

在视觉声源定位研究领域，IS3+数据集作为IS3合成数据集的增强版本，通过系统化数据清洗与语义对齐构建而成。该数据集从Adobe音效库与IS3原始音频中筛选纯净样本，采用人工审核机制确保音频与图像内容的精确匹配，同时简化了存在歧义的类别标签以提升数据一致性。所有音频样本经过标准化处理并统一降采样至16kHz，最终形成包含正确类别标注的3240张合成图像与6480个音频样本的高质量评估基准。

使用方法

该数据集主要服务于视觉声源定位模型的性能评估，研究者可通过计算音频-视觉相似度图生成定位掩码，并利用通用阈值或自适应阈值进行二值化处理。评估体系包含正负样本双重指标：正样本采用cIoU与AUC衡量定位精度，负样本通过pIA与AUCN量化错误激活程度，最终结合FLOC与FAUC全局指标综合评判模型性能。数据集的标准化协议支持跨模态检索任务，为自监督与弱监督模型提供统一的对比基准。

背景与挑战

背景概述

IS3+数据集于2025年由Xavier Juanola等学者提出，作为IS3合成数据集的扩展版本，聚焦于视觉声源定位领域。该数据集由庞培法布拉大学与纽约大学联合开发，旨在解决传统数据集中音频与视觉语义对应性不足的问题。其核心研究在于通过引入负样本音频（如静默、噪声和屏外声音），推动模型在复杂场景下的鲁棒性发展，显著提升了跨模态检索与声源定位任务的评估可靠性。

当前挑战

该数据集面临双重挑战：在领域问题层面，需应对低音频-视觉对应性场景的定位难题，例如静默对象或噪声干扰下的声源识别；在构建过程中，原始IS3数据存在大量不匹配的音频-图像对，需通过人工筛选Adobe音效库与清洁样本进行语义校正，同时简化冗余类别以消除视觉与标签间的歧义。

常用场景

经典使用场景

在视听感知研究领域，IS3+数据集作为合成生成的多对象场景基准，主要应用于视觉声源定位模型的训练与评估。该数据集通过精心配对的图像与音频样本，模拟现实世界中多个发声物体共存的环境，有效克服了传统数据集中单一前景声源的局限性。其典型使用场景包括训练自监督模型识别复杂场景中的声源位置，并通过引入负音频样本（静默、噪声、离屏声音）来增强模型对非信息性声音的鲁棒性。

解决学术问题

IS3+数据集致力于解决视听对应关系研究中的核心挑战，即模型在低语义对应场景下的性能退化问题。通过提供精确配对的视听数据与负样本标注，该数据集显著提升了模型在静默、噪声干扰及离屏声源场景中的判别能力。其贡献在于推动了跨模态特征对齐与分离性度量方法的发展，为自监督学习框架下模态间隙的量化分析提供了可靠基准，进而促进了视听感知模型在复杂环境中的泛化性能提升。

实际应用

该数据集的实际应用价值体现在智能监控、自动驾驶及机器人环境感知等领域。例如，在自动驾驶系统中，模型可通过IS3+训练的定位能力准确识别车辆鸣笛、行人脚步声等关键声源，辅助视觉传感器完成障碍物检测。在智能家居场景中，系统能够区分有效指令声音与环境噪声，提升语音交互的准确性。其负样本设计进一步保障了模型在嘈杂现实环境中的稳定运行，为多模态人机交互系统提供了关键技术支撑。

数据集最近研究