Omnimodal Referring Audio-Visual Segmentation (OmniAVS)

Name: Omnimodal Referring Audio-Visual Segmentation (OmniAVS)
Creator: 复旦大学
Published: 2025-07-31 01:59:31
License: 暂无描述

arXiv2025-07-31 更新2025-08-01 收录

下载链接：

https://henghuiding.com/OmniAVS/

下载链接

链接失效反馈

官方服务：

资源简介：

OmniAVS是一个包含2104个视频和61095个多模态指示表达的大型数据集，旨在推动音频视觉分割技术的发展。该数据集的独特之处在于其支持多样化的多模态指示表达，包括文本、语音、声音和图像的结合，强调对音频内容的深入理解而非仅仅是检测其存在，并在表达中融入复杂的推理和世界知识。OmniAVS的创建过程涉及了从现实世界网络视频、开源数据集和自录视频中精心挑选的视频，并通过复杂的标注流程生成，使得数据集具有丰富的多模态内容和多样的指示表达形式。该数据集的应用领域广泛，包括视频会议、机器人技术等，旨在解决音频视觉场景中的多模态信息和深度理解问题。

OmniAVS is a large-scale dataset containing 2,104 videos and 61,095 multimodal referring expressions, which aims to advance the development of audio-visual segmentation technology. The unique feature of this dataset lies in its support for diverse multimodal referring expressions, including combinations of text, speech, sound and images, emphasizing in-depth understanding of audio content rather than merely detecting their presence, and integrating complex reasoning and world knowledge into the expressions. The creation of OmniAVS involves carefully selected videos sourced from real-world web videos, open-source datasets and self-recorded videos, and is generated through a sophisticated annotation pipeline, endowing the dataset with rich multimodal content and diverse forms of referring expressions. This dataset has a wide range of application fields, including video conferencing, robotics and so on, aiming to solve the problems of multimodal information and in-depth understanding in audio-visual scenarios.

提供机构：

复旦大学

创建时间：

2025-07-31

原始信息汇总

OmniAVS 数据集概述

基本信息

数据集名称: Omnimodal Referring Audio-Visual Segmentation (OmniAVS)
发布机构: Fudan University, China
会议/期刊: ICCV 2025
对应作者: Henghui Ding
相关资源: arXiv | 代码 | 数据集

数据集特点

多模态表达支持:
- 支持8种多模态表达组合（文本、语音、声音、视觉线索）
音频内容理解:
- 强调理解音频内容而非仅检测存在性
复杂推理能力:
- 包含基于世界知识的复杂推理表达
- 提供分割决策的解释

数据集统计

指标	数量
视频数量	2,098
帧数	103k
目标对象数	5,135
掩码数	206k
多模态表达式数量	59,458
解释数量	59,458

对比优势

相比现有数据集（R-YouTubeVOS, MeViS, ReVOS, Ref-AVS）：
- 唯一同时支持音频-视频内容和多模态表达
- 唯一提供推理解释
- 支持任意数量目标对象的指代

基准方法

方法名称: Omnimodal Interactive Segmentation Architecture (OISA)
核心组件:
- 多模态大语言模型(MLLM)
- 掩码头(ViT-Adapter + 像素解码器 + 掩码解码器)
创新点:
- 音频-视觉交错策略
- 查询传播机制
- 动态目标对象表示

实验结果

评估指标: J&F (默认), METEOR
性能表现:
- 整体J&F: 41.1%
- METEOR: 21.7%
- 在8种表达模态组合上均优于基线方法(LISA-13B等)

引用格式

bibtex @inproceedings{ying2025omniavs, title={Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation}, author={Kaining Ying and Henghui Ding and Guangquan Jie and Yu-Gang Jiang}, year={2025}, booktitle={ICCV} }

搜集汇总

数据集介绍

构建方式

OmniAVS数据集的构建过程融合了多模态信息的深度整合与精细化标注。研究团队从三个主要来源收集视频：遵循知识共享许可的真实网络视频、TVQA开源数据集中的电视节目对话片段，以及经过参与者同意的自录制视频。视频筛选标准聚焦于音频内容的信息量和可推理性，以及场景中对象的可识别性。最终从10,871个候选视频中精选出2,104个，覆盖多样化的真实音视觉场景。标注过程采用四模态（文本、语音、声音、图像）整合策略，形成8种不同的指代表达类型。通过专业标注工具结合SAM2模型辅助，实现了高质量的视频对象分割标注。

特点

OmniAVS数据集在音视觉指代分割领域具有三大创新特性：首先，它支持8种灵活组合的多模态指代表达，包括纯文本、语音与声音/图像的多种组合形式，极大拓展了人机交互的灵活性。其次，该数据集突破传统音视觉数据集对声音表层特征的简单关注，强调对音频内容的深度理解与推理，如通过咳嗽声推断生病可能性等复杂认知链条。第三，数据集包含34,841条带有解释的推理型标注，要求模型不仅完成分割任务，还需提供决策依据，这为开发具有解释能力的AI系统提供了宝贵资源。

使用方法

使用OmniAVS数据集时，研究者可通过其多模态接口灵活构建实验方案。对于基础音视觉对齐任务，可单独使用文本-声音或文本-图像组合的表达类型；若要测试复杂推理能力，则应选择包含解释的标注样本。数据集已划分为1,864个训练视频（54,304条表达）和240个测试视频（6,791条表达），支持J&F（区域相似度和轮廓精度）和METEOR（文本解释质量）双指标评估。建议配合论文提出的OISA基准模型，采用音频-视觉交错编码策略处理时序对齐问题，并利用查询传播机制提升视频对象分割的连贯性。对于跨模态研究，可重点分析VII/VIII类组合表达（文本+声音+图像）的性能表现。

背景与挑战

背景概述

Omnimodal Referring Audio-Visual Segmentation (OmniAVS) 是由复旦大学的研究团队于2025年提出的一个多模态数据集，旨在推动音频-视觉场景中的推理分割研究。该数据集包含2,104个视频和61,095个多模态参考表达式，支持文本、语音、声音和图像的灵活组合。OmniAVS的核心研究问题是实现细粒度的多模态感知和复杂推理，特别是在音频内容的理解上，而不仅仅是声音的检测。这一数据集的推出为开发具有全模态理解能力的AI系统提供了重要基础，并在视频会议、机器人技术等领域具有广泛的应用潜力。

当前挑战

OmniAVS面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决音频-视觉场景中的复杂推理分割问题，要求模型不仅能识别声音的产生者，还需理解声音的内容及其与视觉场景的关联。例如，模型需要从咳嗽声推理出可能的生病对象，这对现有的音频-视觉分割模型提出了更高的要求。2) 构建过程中的挑战：在数据集的构建中，研究人员需要处理多模态数据的对齐问题，确保音频与视觉内容在时间上精确同步。此外，标注过程涉及复杂的多模态表达式生成和对象分割，需要高效的标注工具和大量的人工参与，以确保数据的高质量和多样性。

常用场景

经典使用场景

OmniAVS数据集在音频-视觉分割领域具有广泛的应用场景，特别是在需要多模态融合和复杂推理的任务中。该数据集支持文本、语音、声音和图像等多种模态的灵活组合，使得研究者能够开发出能够理解和推理复杂音频-视觉场景的模型。例如，在视频会议和机器人交互中，OmniAVS可以帮助系统更准确地识别和分割用户所指的对象，从而提升交互的自然性和效率。

实际应用

在实际应用中，OmniAVS数据集为多种场景提供了强大的支持。例如，在智能家居系统中，该数据集可以帮助设备更准确地识别用户通过语音和图像指令所指的对象，从而执行相应的操作。在医疗领域，OmniAVS可以用于开发能够通过咳嗽声等音频线索识别潜在疾病的辅助诊断工具。此外，该数据集还可用于增强现实（AR）和虚拟现实（VR）应用，通过多模态输入提升用户体验。

衍生相关工作

OmniAVS数据集的推出催生了一系列相关研究工作。例如，基于该数据集开发的Omnimodal Instructed Segmentation Assistant (OISA)模型，通过多模态大语言模型（MLLM）实现了音频-视觉内容的联合推理和分割。此外，该数据集还激发了在音频-视觉同步、查询传播机制等方面的创新研究。这些工作不仅在OmniAVS上取得了显著性能提升，还在其他相关任务（如Referring Video Object Segmentation和Audio-Visual Segmentation）中展现了强大的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集