five

AURA

收藏
arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://drive.google.com/drive/folders/1ua93_3XyDAZZ6arGQij7OqAZR3UO5pZW
下载链接
链接失效反馈
官方服务:
资源简介:
AURA是一个用于评估视听大型语言模型(AV-LLMs)和全模态语言模型(OLMs)的细粒度认知任务的基准。它包含超过1600个问答对,涵盖六个认知领域:跨模态因果推理、不可回答性、音色/音高推理、节奏/视听同步分析、表演者技能分析以及隐式干扰。AURA旨在迫使模型构建基于音频和视频的有效逻辑路径,从而评估模型的推理能力。

AURA is a benchmark for evaluating fine-grained cognitive tasks of audio-visual large language models (AV-LLMs) and fully multimodal language models (OLMs). It contains over 1,600 question-answer pairs, covering six cognitive domains: cross-modal causal reasoning, unanswerable reasoning, timbre/pitch reasoning, rhythm/audio-visual synchronization analysis, performer skill analysis, and implicit interference. AURA is designed to prompt models to construct valid logical pathways grounded in audio and visual information, thereby assessing their reasoning capabilities.
提供机构:
马里兰大学帕克分校
创建时间:
2025-08-11
搜集汇总
数据集介绍
main_image_url
构建方式
AURA数据集的构建采用了一种全自动化的多阶段流水线方法,旨在评估音频-视觉大型语言模型(AV-LLMs)和全模态语言模型(OLMs)在细粒度认知任务中的跨模态推理能力。该流水线包括三个主要阶段:首先通过AuroraCap、FusionAudio和Whisper等模型生成视频和音频的密集描述文本;随后将这些多模态描述输入到GPT-4o中,根据六个独特的认知任务类别(如跨模态因果推理、音色/音高推理等)生成复杂的问答对;最后通过结构化输出和验证步骤确保生成内容的质量和一致性。这种模块化设计不仅保证了数据集的扩展性,还能随着底层描述模型的改进而持续优化。
使用方法
使用AURA数据集时,研究者首先需要将待评估的多模态模型在六个任务类别上进行测试,记录模型生成的答案和推理过程。评估采用AuraScore指标系统:通过GPT-4o对模型推理进行事实一致性分析(FCS),检查其是否基于感知证据;同时使用自然语言推理模型(如nli-deberta-v3-base)评估核心推理步骤的逻辑有效性(CIS)。典型流程包括对模型输出进行后处理以提取选定答案,将其与人工标注的黄金推理进行对比。该数据集特别适合用于揭示模型在获得正确答案时是否依赖缺陷逻辑,为开发更鲁棒的跨模态推理模型提供诊断工具。
背景与挑战
背景概述
AURA(Audio-visual Understanding and Reasoning Assessment)是由马里兰大学和Adobe的研究团队于2025年提出的首个专注于细粒度音频-视觉推理的基准测试数据集。该数据集旨在评估音频-视觉大语言模型(AV-LLMs)和全模态语言模型(OLMs)在跨模态认知任务中的表现,涵盖因果推理、音色/音高分析、节奏同步等六项挑战性任务。其创新性在于强制模型构建基于双模态的逻辑路径,并通过自动化流水线生成1600余个问答对,填补了传统基准仅关注答案准确性而忽视推理过程的空白。AURA的提出为多模态研究提供了首个系统性工具,推动模型从表面准确向深度理解演进。
当前挑战
AURA面临的核心挑战体现在两方面:领域问题层面,需解决现有模型在高级音频属性(如音色、节奏)理解和跨模态时序对齐上的缺陷,例如模型常通过错误逻辑得出正确答案,其事实一致性评分不足45%;构建过程层面,需克服多模态数据对齐复杂性,如确保视频片段与音频事件的精确同步,以及设计自动化问答生成系统时避免单模态可解的伪问题。此外,评估指标AuraScore需平衡事实一致性与核心推理效度,这对标注质量和评估框架设计提出了极高要求。
常用场景
经典使用场景
AURA数据集在音频-视觉推理领域具有广泛的应用价值,尤其在评估多模态大语言模型(AV-LLMs)和全模态语言模型(OLMs)的跨模态推理能力方面表现突出。其经典使用场景包括通过细粒度的问答任务,如跨模态因果推理、音色/音高推理、节奏/音视频同步分析等,来测试模型在复杂认知任务中的表现。这些任务要求模型必须同时利用音频和视频信息进行推理,避免了单一模态的捷径解答。
解决学术问题
AURA数据集解决了当前音频-视觉基准测试中仅关注最终答案准确性而忽视推理过程的问题。通过引入AuraScore这一新型评估指标,该数据集能够分解模型的推理过程,评估其事实一致性(Factual Consistency)和核心推理能力(Core Inference)。这一方法显著揭示了模型在推理过程中的缺陷,例如尽管某些模型在任务准确率上表现优异,但其推理过程的逻辑一致性和事实基础却严重不足,从而推动了更稳健的多模态评估方法的发展。
实际应用
在实际应用中,AURA数据集为开发更智能的音频-视觉系统提供了重要支持。例如,在音乐教育领域,该数据集可用于评估模型对乐器演奏技能的分析能力;在视频内容审核中,可帮助检测音视频同步问题或识别隐含的干扰因素。此外,其自动化的问答生成流程也为大规模多模态数据标注和评估提供了高效解决方案,适用于智能助手、自动驾驶等需要复杂多模态推理的场景。
数据集最近研究
最新研究方向
在音频-视觉多模态推理领域,AURA数据集的推出标志着对大型语言模型(AV-LLMs)和全模态语言模型(OLMs)评估范式的重大革新。该数据集聚焦于跨模态因果推理、音色/音高分析、节奏同步性等六项精细认知任务,通过创新的AuraScore指标(分解为事实一致性评分和核心推理评分),首次实现了对模型推理过程而非仅答案准确性的系统性评估。近期研究表明,即便在任务准确率达92%的模型中,其推理链的逻辑有效性评分仍低于45%,揭示了当前多模态模型普遍存在‘正确结论伴随错误推理’的认知缺陷。这一发现推动了学术界对模型可信推理机制的深入研究,尤其在医疗诊断、自动驾驶等需要严格因果逻辑的场景中,AURA为构建可解释性强、推理稳健的多模态系统提供了关键评估基准。
相关研究论文
  • 1
    AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning马里兰大学帕克分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作