Charades-AudioMatter

Name: Charades-AudioMatter
Creator: 浙江大学, 北京大学, 浙江工商大学, 上海人工智能实验室, 中国科学技术大学
Published: 2025-08-06 17:58:43
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

https://github.com/HuiGuanLab/IMG

下载链接

链接失效反馈

官方服务：

资源简介：

Charades-AudioMatter数据集是为了视频时刻检索（VMR）任务而构建的，它从原始的CharadesSTA数据集中手动选择和重新组织与音频相关的样本。该数据集旨在验证模型在利用音频模态方面的能力，并通过视频中的音频信息来检索与给定查询相关的特定时刻。数据集包含丰富的音频上下文，有助于模型更好地理解和推理视频内容。

The Charades-AudioMatter dataset is constructed for the video moment retrieval (VMR) task. It consists of audio-related samples manually selected and reorganized from the original CharadesSTA dataset. This dataset aims to validate models' capacity in leveraging audio modalities, and enable them to retrieve specific video moments relevant to a given query by utilizing the audio information within the video. The dataset contains rich audio contexts, which helps models better understand and reason about video content.

提供机构：

浙江大学, 北京大学, 浙江工商大学, 上海人工智能实验室, 中国科学技术大学

创建时间：

2025-08-06

原始信息汇总

数据集概述

基本信息

数据集名称: IMG (Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval)
相关论文: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
任务类型: 视频时刻检索 (Video Moment Retrieval)

数据集内容

包含数据集:
- Charades-STA
- ActivityNet Captions

数据特征

文本特征:
- GloVe-840B-300d 文本嵌入
视觉特征:
- I3D
- CLIP+SF (SlowFast)
- InternVideo2
音频特征:
- Charades-STA: PANNs
- ActivityNet Captions: VGGish

数据文件结构

数据下载

Charades-STA特征和ActivityNet-Caption的音频特征及json文件: Google Drive
ActivityNet-Captions的I3D特征和GloVe嵌入: MEGA

使用说明

训练: bash python main.py --task <charades|activitynet|charadesAM> --mode train --gpu_idx <GPU INDEX>
推理: bash python main.py --task <charades|activitynet|charadesAM> --mode test --gpu_idx <GPU INDEX>

致谢

代码框架参考自 ADPN 和 VSLNet

搜集汇总

数据集介绍

构建方式

Charades-AudioMatter数据集是从原始Charades-STA数据集中手动筛选并重新组织而成的，专门用于验证模型在利用音频模态进行视频时刻检索的能力。数据集的构建过程包括三个关键步骤：首先，对音频模态进行有效性评估，排除含有显著背景噪声或完全无声音的样本；其次，通过结合音频和视觉信息手动评估每个样本，确保查询文本与音频内容的相关性；最后，评估音频和视频模态之间的时间对齐，通过计算基于音频和查询文本的手动标注时间戳与真实时间戳的交并比（IoU），过滤掉严重不对齐的样本。这一严格的筛选过程确保了数据集的高质量和可靠性。

使用方法

Charades-AudioMatter数据集的使用方法主要包括以下步骤：首先，加载预提取的视觉、音频和文本特征，这些特征通常通过预训练的视觉CNN（如I3D）和音频感知CNN（如PANN或VGGish）提取。其次，利用提出的重要性感知多粒度融合模型（IMG）进行训练和评估。该模型通过音频重要性预测器动态评估音频模态的相对重要性，并通过多粒度融合模块在局部、事件和全局级别上融合音频和视觉模态。此外，模型还采用跨模态知识蒸馏策略，以在推理阶段即使音频模态缺失时也能保持较强的检索性能。实验时，可以使用标准评估指标（如R1@3、R1@5、R1@7和mIoU）来衡量模型性能。

背景与挑战

背景概述

Charades-AudioMatter数据集由浙江大学、北京大学等机构的研究团队于2025年构建，旨在解决视频时刻检索（Video Moment Retrieval, VMR）任务中多模态融合的关键问题。该数据集基于Charades-STA重构，专注于验证音频模态在视频语义理解中的重要性，包含1,196个手工筛选的音频相关样本。其核心创新在于强调音频-视觉-文本的细粒度交互，通过动态权重分配机制解决传统方法平等对待多模态数据的局限性，推动了跨模态推理领域的发展。

当前挑战

该数据集面临两大挑战：1) 领域问题层面，需解决噪声音频干扰下的跨模态对齐难题，例如背景音与语义无关音频对时刻定位的负面影响；2) 构建过程中需克服音频质量评估、跨模态时序对齐等困难，包括手动筛选有效音频样本、设计伪标签监督机制以量化音频重要性，以及确保音频特征与视觉事件的精确同步。多粒度融合模块还需平衡局部事件与全局语义的表示冲突。

常用场景

经典使用场景

Charades-AudioMatter数据集在视频时刻检索（Video Moment Retrieval, VMR）任务中发挥了重要作用，特别是在需要结合音频和视觉模态进行多模态推理的场景中。该数据集通过手动筛选和重组Charades-STA中的音频相关样本，确保了音频模态在检索任务中的重要性。经典使用场景包括通过自然语言查询检索视频中与查询语义相关的特定时刻，例如“一个人在笑”或“一个人关上门”等动作。

解决学术问题

Charades-AudioMatter数据集解决了视频时刻检索任务中音频模态被忽视的问题。传统方法主要关注视觉和文本模态，而忽略了音频的互补信息。该数据集通过提供音频相关的样本，促进了音频-视觉-文本多模态融合的研究，特别是在动态和选择性聚合多模态上下文方面。此外，数据集还解决了音频模态的不确定性问题，即并非所有音频都对检索任务有帮助，部分音频可能是噪声或背景音。

实际应用

在实际应用中，Charades-AudioMatter数据集可用于智能视频监控、视频内容检索和多媒体分析等领域。例如，在智能家居系统中，通过结合音频和视觉信息，可以更准确地识别和定位特定动作（如关门或笑声）。此外，该数据集还可用于开发多模态交互系统，提升视频检索的准确性和用户体验。

数据集最近研究