AVHBench|多模态学习数据集|模型评估数据集

arXiv2024-10-24 更新2024-10-29 收录

多模态学习

模型评估

下载链接：

http://arxiv.org/abs/2410.18325v1

下载链接

链接失效反馈

资源简介：

AVHBench是由韩国科学技术院的研究团队创建的音频-视觉大型语言模型幻觉基准数据集。该数据集包含5,816个问答对和1,238个音频-视觉描述，涵盖四个不同的任务：音频驱动的视频幻觉、视频驱动的音频幻觉、音频-视觉匹配和音频-视觉描述。数据集的创建过程包括从现有数据集中提取视频和音频信息，并通过半自动注释管道生成问答对。AVHBench旨在评估和提升音频-视觉LLMs在处理复杂多模态信号时的鲁棒性，特别是在减少跨模态幻觉方面。

提供机构：

韩国科学技术院

创建时间：

2024-10-24

AI搜集汇总

数据集介绍

构建方式

AVHBench数据集通过一个半自动化的标注流程构建，显著降低了人工标注的成本。该流程包括两个主要阶段：首先，从给定的视频中分离音频和视觉对象及事件；其次，针对四个不同的任务生成问答对。这一流程利用了现有的数据集，如VALOR和AudioCaps，并通过ChatGPT辅助生成高质量的标注。最终，通过人工验证确保标注的准确性。

特点

AVHBench数据集具有多任务评估的特点，涵盖了音频驱动的视频幻觉、视频驱动的音频幻觉、音频视觉匹配和音频视觉描述四个任务。这些任务旨在评估音频视觉大语言模型在处理复杂多模态信号时的感知和理解能力。此外，数据集的构建采用了半自动化流程，确保了标注的高质量和低成本。

使用方法

AVHBench数据集可用于评估和改进音频视觉大语言模型的性能。研究者可以通过该数据集测试模型在处理音频和视觉信号时的幻觉现象，并通过分析模型的表现来优化其对多模态信号的处理能力。此外，数据集还可用于训练和验证新的模型，以提高其在多模态任务中的鲁棒性和准确性。

背景与挑战

背景概述

随着大型语言模型（LLMs）的成功，将其扩展到新的模态代表了多模态理解中的一个显著范式转变。人类的感知本质上是多模态的，不仅依赖于文本，还依赖于听觉和视觉线索来全面理解世界。认识到这一点，音视觉LLMs最近崭露头角。尽管取得了有希望的进展，但缺乏专门的基准测试对理解和评估模型构成了挑战。在此背景下，AVHBench应运而生，它是首个专门设计用于评估音视觉LLMs感知和理解能力的综合基准。该基准包括评估幻觉、跨模态匹配和推理能力的测试。研究表明，大多数现有的音视觉LLMs在处理复杂的多模态信号及其关系时存在困难，导致幻觉现象。

当前挑战

AVHBench数据集面临的挑战主要在于解决音视觉LLMs在处理音频和视觉信号之间微妙关系时的幻觉问题。构建过程中，研究人员需要设计一个半自动化的标注流程，以降低人工标注的成本并确保高质量的标注。此外，现有的音视觉LLMs在处理多模态信号时表现出有限的感知能力，导致幻觉现象，这需要通过改进模型的特征对齐和多模态信号处理能力来解决。

常用场景

经典使用场景

AVHBench数据集的经典使用场景在于评估音频-视觉大型语言模型（LLMs）在处理多模态信号时的感知和理解能力。通过该数据集，研究者可以系统地测试模型在音频驱动的视频幻觉、视频驱动的音频幻觉、音频-视觉匹配以及音频-视觉描述等任务中的表现，从而揭示模型在跨模态交互中的潜在问题。

解决学术问题

AVHBench数据集解决了当前音频-视觉LLMs缺乏专用基准的问题，为学术界提供了一个全面的评估工具。它帮助研究者理解模型在处理复杂多模态信号时的局限性，特别是模型在跨模态交互中产生的幻觉现象。这不仅有助于识别现有模型的不足，还为开发更鲁棒的音频-视觉LLMs提供了理论基础和实践指导。

衍生相关工作

AVHBench数据集的推出激发了大量相关研究工作，包括但不限于改进音频-视觉LLMs的训练方法、开发新的跨模态融合技术以及设计更有效的幻觉检测和纠正机制。此外，基于AVHBench的研究还促进了多模态数据集的构建和多模态学习理论的发展，为未来的多模态人工智能研究奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录