AVHBench

Name: AVHBench
Creator: 韩国科学技术院
Published: 2024-10-24 07:36:06
License: 暂无描述

arXiv2024-10-24 更新2024-10-29 收录

下载链接：

http://arxiv.org/abs/2410.18325v1

下载链接

链接失效反馈

官方服务：

资源简介：

AVHBench是由韩国科学技术院的研究团队创建的音频-视觉大型语言模型幻觉基准数据集。该数据集包含5,816个问答对和1,238个音频-视觉描述，涵盖四个不同的任务：音频驱动的视频幻觉、视频驱动的音频幻觉、音频-视觉匹配和音频-视觉描述。数据集的创建过程包括从现有数据集中提取视频和音频信息，并通过半自动注释管道生成问答对。AVHBench旨在评估和提升音频-视觉LLMs在处理复杂多模态信号时的鲁棒性，特别是在减少跨模态幻觉方面。

AVHBench is a benchmark dataset for audio-visual large language model (LLM) hallucination, developed by a research team from the Korea Advanced Institute of Science and Technology (KAIST). It consists of 5,816 question-answer pairs and 1,238 audio-visual captions, spanning four distinct tasks: audio-driven video hallucination, video-driven audio hallucination, audio-visual matching, and audio-visual captioning. The dataset construction process involves extracting video and audio content from existing datasets, and generating question-answer pairs via a semi-automated annotation pipeline. AVHBench aims to evaluate and enhance the robustness of audio-visual LLMs when processing complex multimodal signals, particularly in reducing cross-modal hallucinations.

提供机构：

韩国科学技术院

创建时间：

2024-10-24

搜集汇总

数据集介绍

构建方式

AVHBench数据集通过一个半自动化的标注流程构建，显著降低了人工标注的成本。该流程包括两个主要阶段：首先，从给定的视频中分离音频和视觉对象及事件；其次，针对四个不同的任务生成问答对。这一流程利用了现有的数据集，如VALOR和AudioCaps，并通过ChatGPT辅助生成高质量的标注。最终，通过人工验证确保标注的准确性。

特点

AVHBench数据集具有多任务评估的特点，涵盖了音频驱动的视频幻觉、视频驱动的音频幻觉、音频视觉匹配和音频视觉描述四个任务。这些任务旨在评估音频视觉大语言模型在处理复杂多模态信号时的感知和理解能力。此外，数据集的构建采用了半自动化流程，确保了标注的高质量和低成本。

使用方法

AVHBench数据集可用于评估和改进音频视觉大语言模型的性能。研究者可以通过该数据集测试模型在处理音频和视觉信号时的幻觉现象，并通过分析模型的表现来优化其对多模态信号的处理能力。此外，数据集还可用于训练和验证新的模型，以提高其在多模态任务中的鲁棒性和准确性。

背景与挑战

背景概述

随着大型语言模型（LLMs）的成功，将其扩展到新的模态代表了多模态理解中的一个显著范式转变。人类的感知本质上是多模态的，不仅依赖于文本，还依赖于听觉和视觉线索来全面理解世界。认识到这一点，音视觉LLMs最近崭露头角。尽管取得了有希望的进展，但缺乏专门的基准测试对理解和评估模型构成了挑战。在此背景下，AVHBench应运而生，它是首个专门设计用于评估音视觉LLMs感知和理解能力的综合基准。该基准包括评估幻觉、跨模态匹配和推理能力的测试。研究表明，大多数现有的音视觉LLMs在处理复杂的多模态信号及其关系时存在困难，导致幻觉现象。

当前挑战

AVHBench数据集面临的挑战主要在于解决音视觉LLMs在处理音频和视觉信号之间微妙关系时的幻觉问题。构建过程中，研究人员需要设计一个半自动化的标注流程，以降低人工标注的成本并确保高质量的标注。此外，现有的音视觉LLMs在处理多模态信号时表现出有限的感知能力，导致幻觉现象，这需要通过改进模型的特征对齐和多模态信号处理能力来解决。

常用场景

经典使用场景

AVHBench数据集的经典使用场景在于评估音频-视觉大型语言模型（LLMs）在处理多模态信号时的感知和理解能力。通过该数据集，研究者可以系统地测试模型在音频驱动的视频幻觉、视频驱动的音频幻觉、音频-视觉匹配以及音频-视觉描述等任务中的表现，从而揭示模型在跨模态交互中的潜在问题。

解决学术问题

AVHBench数据集解决了当前音频-视觉LLMs缺乏专用基准的问题，为学术界提供了一个全面的评估工具。它帮助研究者理解模型在处理复杂多模态信号时的局限性，特别是模型在跨模态交互中产生的幻觉现象。这不仅有助于识别现有模型的不足，还为开发更鲁棒的音频-视觉LLMs提供了理论基础和实践指导。

衍生相关工作

AVHBench数据集的推出激发了大量相关研究工作，包括但不限于改进音频-视觉LLMs的训练方法、开发新的跨模态融合技术以及设计更有效的幻觉检测和纠正机制。此外，基于AVHBench的研究还促进了多模态数据集的构建和多模态学习理论的发展，为未来的多模态人工智能研究奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集