ACVUBench
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://github.com/larkpng/ACVUBench
下载链接
链接失效反馈官方服务:
资源简介:
ACVUBench是一个专为音频中心视频理解设计的综合基准,包含跨越18个不同领域的2,662个视频,具有丰富的音频信息,以及超过13k的高质量人类注释或验证的问题-答案对。该数据集引入了一系列精心设计的音频中心视频理解任务,全面测试音频内容和音频-视觉交互的理解。数据集分为两部分:AV-Human和AV-Gemini,分别包含人工注释和半自动生成的数据。
ACVUBench is a comprehensive benchmark specifically designed for audio-centric video understanding. It contains 2,662 videos spanning 18 distinct domains, with rich audio information, as well as over 13,000 high-quality human-annotated or human-verified question-answer pairs. This dataset introduces a series of well-designed audio-centric video understanding tasks, which comprehensively evaluate the comprehension of audio content and audio-visual interactions. The dataset is divided into two subsets: AV-Human and AV-Gemini, which respectively contain manually annotated and semi-automatically generated data.
提供机构:
清华大学, 剑桥大学, 字节跳动
创建时间:
2025-03-26
搜集汇总
数据集介绍

构建方式
ACVUBench数据集的构建采用了双轨制设计,结合了高质量人工标注与基于Gemini 1.5 Pro的半自动标注技术。研究团队从YouTube精选了2,662段涵盖18个音频核心领域的视频,并通过专业标注团队为698段视频创建了2,100个问答对(AV-Human子集)。针对剩余1,964段视频,创新性地采用Gemini上下文学习框架生成11,674个问答对(AV-Gemini子集),再经人工校验修正。这种混合标注策略既保证了数据质量,又实现了规模扩展,特别设计了音频内容理解(如事件定位)和视听对齐(如角色匹配)等8类任务,形成包含13,774个问答对的综合评估体系。
特点
该数据集的核心特征体现在其音频中心性设计:视频平均时长67.8秒,严格筛选具有丰富听觉信息的场景,覆盖游戏解说、访谈、音乐表演等18个垂直领域。其创新性任务体系包含音频信息提取、事件定位等3类内容理解任务,以及角色匹配、对象关联等5类跨模态对齐任务。数据多样性通过双子集实现——AV-Human提供精确人工标注,AV-Gemini展现大语言模型的数据生成能力。特别引入的置信度阈值准确率指标(CTA)能有效区分模型真实能力与随机猜测,为多模态大模型评估提供更精细的测量维度。
使用方法
使用ACVUBench时需遵循多模态输入规范:音频-视觉模型接收完整视频,纯视觉模型需去除音轨,纯音频模型仅使用提取的音频流。评估采用统一提示模板,多选题任务要求模型直接输出选项字母(A-D),开放式任务需生成自由文本。研究者可通过对比模型在AV-Human与AV-Gemini子集的性能差异,分析标注方法对评估结果的影响;利用细粒度任务分类(如音频计数vs视听匹配)可诊断模型特定能力缺陷。基准测试包含标准准确率和CTA双指标,建议结合二者全面评估模型抗幻觉能力。
背景与挑战
背景概述
ACVUBench是由清华大学、剑桥大学和字节跳动的研究团队于2025年提出的首个以音频为中心的视频理解基准测试。该数据集包含2,662个涵盖18个不同领域的视频,以及超过13,000个人工标注或验证的问答对。ACVUBench旨在评估多模态大语言模型在视频理解中对音频信息的处理能力,特别是在音频内容理解和音视频对齐方面的表现。该数据集的提出填补了现有视频理解基准测试中音频信息评估的空白,为多模态学习系统的研究提供了重要的工具和方向。
当前挑战
ACVUBench面临的挑战主要包括两个方面:领域问题和构建过程。在领域问题方面,ACVUBench旨在解决现有视频理解基准测试中音频信息被忽视的问题,特别是在音频内容提取、音频事件定位和音视频对齐等任务上的挑战。在构建过程中,研究人员需要克服高质量音频标注数据的稀缺性,以及确保音视频信息的精确同步和匹配。此外,如何设计能够全面评估模型音频理解能力的多样化任务,同时保持标注的一致性和准确性,也是构建过程中的主要挑战。
常用场景
经典使用场景
ACVUBench作为首个专注于音频中心视频理解的基准测试,广泛应用于多模态大语言模型(MLLMs)的评估。其精心设计的任务涵盖了音频内容理解和音视频对齐两大核心方向,为研究者提供了一个全面评估模型在复杂音频场景下表现的工具。通过包含18个不同领域的2662个视频和超过13k的高质量标注问答对,该数据集能够深入测试模型对音频信息及其与视觉信息交互的理解能力。
解决学术问题
ACVUBench解决了当前视频理解研究中音频信息被边缘化的关键问题。传统基准测试多侧重于视觉能力评估,而该数据集通过引入音频信息提取、音频事件定位等任务,填补了音频处理能力系统性评估的空白。其创新性的双数据集设计(人工标注与半自动标注结合)不仅提升了数据规模,还减少了标注偏差,为音频-视觉多模态研究提供了更可靠的评估基础。
衍生相关工作
该数据集推动了多项音视频多模态研究的进展。基于ACVUBench的评估发现,VideoLLaMA2等模型在音视频角色匹配任务中表现突出,而PandaGPT等模型则暴露出音频理解短板,这些结论直接促进了后续模型如VITA、OneLLM的架构改进。数据集提出的置信度阈值准确率(CTA)指标也被广泛采纳,成为衡量多模态模型幻觉现象的新标准。
以上内容由遇见数据集搜集并总结生成



