Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning process (AV-UIE)

Name: Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning process (AV-UIE)
Creator: 中国人民大学高灵人工智能学院
Published: 2025-03-17 19:19:03
License: 暂无描述

arXiv2025-03-17 更新2025-03-19 收录

下载链接：

https://github.com/GeWu-Lab/Crab

下载链接

链接失效反馈

官方服务：

资源简介：

AV-UIE数据集是由中国人民大学高灵人工智能学院构建的一个音视频统一指令微调数据集，通过明确的推理过程来澄清任务间的合作关系。该数据集是对现有音视频任务数据集的增强，将简单的标签转化为包含丰富时空信息的明确推理过程，便于模型建立任务间的联系。数据集涵盖了多种任务，如音频事件定位、视频解析、音频参照图像定位、音频视觉问题回答、音频视觉分割等，以促进音视频场景理解的统一模型训练。

The AV-UIE dataset is an audio-video unified instruction tuning dataset constructed by the Gaoling School of Artificial Intelligence, Renmin University of China, which clarifies the collaborative relationships between tasks through explicit reasoning processes. This dataset enhances existing audio-video task datasets by converting simple labels into explicit reasoning processes rich in spatiotemporal information, enabling models to establish connections among different tasks. The dataset covers a variety of tasks, including audio event localization, video parsing, audio-referenced image localization, audio-visual question answering, audio-visual segmentation, and more, to facilitate unified model training for audio-video scene understanding.

提供机构：

中国人民大学高灵人工智能学院

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

AV-UIE数据集的构建基于现有音频-视觉任务数据集的扩展与优化。通过对原始数据标签的重新设计，将简单的单词或短语标签转化为包含明确推理过程的复杂标签。具体步骤包括从每个任务的数据集中采样实例，利用上下文学习方法提示现有的多模态大语言模型（MLLMs）生成基于音频、视频和简单标签的推理过程。为确保数据质量，过滤低质量实例并进行人工校正。最终，数据集涵盖了时间定位、空间定位、时空推理和像素级理解等多种任务，明确了任务间的协作关系。

特点

AV-UIE数据集的特点在于其明确的推理过程和任务间的协作关系。每个数据实例不仅包含简单的标签，还提供了从多个时空维度出发的详细推理过程，帮助模型建立任务间的联系。数据集涵盖了广泛的音频-视觉场景理解任务，包括时间定位、空间定位、时空推理和像素级理解等，且每个任务的数据量相对较小，但由于推理过程的明确性，模型仍能在少量数据上取得优异表现。

使用方法

AV-UIE数据集的使用方法主要围绕多任务联合训练展开。模型通过统一的音频-视觉接口处理音频、视频和分割掩码输出，并结合交互感知的LoRA结构进行多任务学习。每个LoRA头负责学习不同的音频-视觉数据交互方面，如时间、空间和像素级理解等。通过这种方式，模型能够在多个任务上实现显式协作，提升整体性能。数据集的使用不仅限于单一任务，还可通过推理过程促进任务间的知识迁移，增强模型的泛化能力。

背景与挑战

背景概述

AV-UIE（Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning process）数据集由中国人民大学、清华大学和腾讯PCG的研究团队于2024年提出，旨在解决多模态音频-视觉场景理解中的任务统一问题。该数据集通过显式推理过程，增强了模型在时间定位、空间定位、时空推理和像素级理解等任务中的协作能力。AV-UIE的构建基于现有的多个音频-视觉任务数据集，通过引入详细的推理过程，帮助模型在不同任务之间建立明确的协作关系。这一创新不仅提升了模型在复杂场景下的理解能力，还为多模态大模型（MLLMs）的发展提供了新的研究方向。

当前挑战

AV-UIE数据集在构建和应用过程中面临多重挑战。首先，音频和视觉数据的异质性使得模型在联合训练时容易产生任务干扰，尤其是在时间定位和空间定位等任务之间。其次，现有的数据集标签多为简单的单词或短语，缺乏显式的推理过程，难以支持复杂的多任务协作。此外，模型在处理像素级理解任务时，需要同时兼顾音频和视觉信息的交互，这对模型的架构设计提出了更高的要求。为了应对这些挑战，研究团队设计了交互感知的LoRA结构，通过多个LoRA头分别学习不同的数据交互方面，从而在学习和推理阶段实现任务间的显式协作。

常用场景

经典使用场景

AV-UIE数据集在音频-视觉场景理解任务中具有广泛的应用，尤其是在多任务联合学习的背景下。该数据集通过显式的推理过程，帮助模型在时间定位、空间定位、时空推理和像素级理解等任务中建立明确的协作关系。例如，在音频-视觉事件定位（AVE）任务中，模型不仅需要识别视频中的事件，还需准确预测事件发生的时间范围。通过AV-UIE数据集，模型能够结合音频和视觉信息，生成详细的推理过程，从而提升任务间的协作效果。

解决学术问题

AV-UIE数据集解决了多任务联合学习中的任务干扰问题。传统的多任务学习方法由于音频-视觉数据的异质性和任务间的复杂关系，容易导致任务间的干扰。AV-UIE通过显式的推理过程，明确了任务间的协作关系，并通过交互感知的LoRA结构，使模型能够专注于不同方面的数据交互。这种设计不仅提升了模型在多个任务上的表现，还在某些任务上超越了专门的模型。

衍生相关工作

AV-UIE数据集的推出催生了一系列相关研究工作，尤其是在音频-视觉多模态大模型（MLLMs）领域。例如，VideoLLaMA和MEERKAT等模型通过结合音频和视觉分支，进一步提升了多模态理解能力。此外，AV-UIE数据集还为多任务LoRA结构的设计提供了新的思路，研究者们通过多LoRA头的设计，进一步优化了模型在多任务学习中的表现。这些工作不仅推动了音频-视觉场景理解领域的发展，还为多模态大模型的统一学习提供了新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集