AUDITA

Name: AUDITA
Creator: 马里兰大学; 戴维森学院; 哥伦比亚大学; 哈弗福德学院
Published: 2026-04-23 23:22:36
License: 暂无描述

arXiv2026-04-23 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/TasnimKabir12/audita-audio

下载链接

链接失效反馈

官方服务：

资源简介：

AUDITA是由马里兰大学等机构联合开发的大规模音频问答基准数据集，旨在通过真实世界音频片段和人类编写的 trivia 问题，评估听觉推理能力。该数据集包含9,690条高质量问答对，音频平均时长达36.98秒，涵盖音乐识别、环境声辨识等6大领域。数据源自Quizmasters网站等公开资源，经过严格的对齐清洗和分类标注，特别设计了具有干扰项的多选题形式。该数据集主要应用于测试AI系统在需要多线索推理和长时程依赖的复杂音频理解任务中的表现，揭示了当前模型与人类在听觉认知方面存在的显著差距。

AUDITA is a large-scale audio question answering benchmark dataset co-developed by the University of Maryland and other institutions, which aims to evaluate auditory reasoning abilities via real-world audio clips and human-written trivia questions. This dataset consists of 9,690 high-quality question-answer pairs, with an average audio duration of 36.98 seconds, covering 6 major domains including music recognition and environmental sound identification. Derived from public resources such as the Quizmasters website, it has undergone strict alignment, cleaning and classification annotation, and is specially designed as multiple-choice questions with distractor items. This dataset is primarily applied to test the performance of AI systems in complex audio understanding tasks that demand multi-cue reasoning and long-term dependency, and it reveals the notable gap between current AI models and humans in auditory cognition.

提供机构：

马里兰大学; 戴维森学院; 哥伦比亚大学; 哈弗福德学院

创建时间：

2026-04-23

原始信息汇总

数据集概述：AUDITA - Audio Question Answering Benchmark

AUDITA 是一个由人工编写的音频问答基准数据集，旨在评估真实场景中的听觉推理能力。其核心特点是包含需要基于声学、时间和语义线索进行推理的人类撰写的冷知识风格问题，而非合成或模板化的音频问答对。该数据集设计用于揭示当前音频语言模型的局限性，特别是它们对语言先验的依赖和薄弱的音频理解能力。

数据集结构

数据集包含两大部分：

sources/ — 核心基准（Human-Authored Audio Questions）
- 内容：从真实世界的冷知识和竞赛问答来源收集的人工撰写的音频问答对。来源包括：
  - 冷知识风格音频问题集
  - 金字塔式（Quizbowl风格）音频问题
  - 策展的公共问答集（如 Quizmasters, PAVEMENT, Audio-Packets）
- 特点：
  - 完全由人类撰写，非生成。
  - 基于真实世界的音频。
  - 需要超越简单识别的听觉推理能力。
  - 涵盖音乐、语音、媒体和环境声音。
  - 答案封闭且可验证。
external/ — 基准参考数据集
- 内容：包含广泛使用的音频问答基准数据集：OpenAQA 和 ClothoAQA。
- 目的：作为评估基线，用于与先前工作进行比较、评估跨数据集样式的泛化能力，并突出难度和结构上的差异。这些数据不属于核心贡献部分。

数据集统计

总问答对数量：9,690 对
人类撰写（sources）：6,460 对
外部数据集（external）：3,230 对
问题类型：包含开放式问题和多项选择题。
覆盖领域：音乐、语音、环境声音等。

数据格式

数据集中的每个样本遵循以下结构：

python { "audio": Audio(), # 音频文件 "question": str, # 问题文本 "answer": str, # 标准答案 "source": str, # 来源 "sources" 或 "external" "category": str # 语义类别标签 }

许可信息

该数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证。

搜集汇总

数据集介绍

构建方式

在音频问答领域，现有基准测试多聚焦于声音事件分类或基于字幕的查询，使得模型可通过捷径策略、短时线索或语言先验作答，而非依托真正的听觉推理。为此，AUDITA数据集应运而生，旨在严格评估超越表层声学识别的音频推理能力。该数据集通过从公开的在线音频测试、智力竞赛及文化知识来源中搜集人类撰写的冷知识问题，并结合金字塔式问题结构与多元干扰项设计构建而成。具体而言，数据来源涵盖Quizmasters网站、Audio Pyramidal Trivia及PAVEMENT数据集，经由对齐、标准化与分类三阶段流水线处理，得到9690个音频-问答三元组，其中包含6460个人工撰写问题与3230个外部基准问题，确保问题需要多线索听觉推理与世界知识整合。

特点

AUDITA数据集的核心特点在于其真实世界来源与复杂推理需求。与传统数据集依赖合成场景或模板化问题不同，AUDITA的问题由知识渊博的专家撰写，强调多线索听觉推理与长期时间依赖，摒弃了孤立文本或单一声音线索即可回答的浅层挑战。数据集涵盖六类语义范畴（如音乐识别、人物辨识、环境声音等），并设计了具有干扰项的四选一多选题变体，其中干扰项与正确答案共享表面特征但关键听觉证据不同，增强了区分度。通过项目反应理论分析，该数据集展现了广泛的难度谱系，人类平均准确率仅为32.13%，而最先进的音频问答模型准确率低于8.86%，清晰揭示了人类与模型之间的显著能力差距。

使用方法

使用AUDITA数据集时，研究者可采用自由回答与多选题两种评估模式。自由回答模式下，模型需生成开放式文本答案，并通过PEDANTS语义等价框架进行评分；多选题模式则提供包含一个正确答案与三个AI生成且经人工验证的干扰项的选择题，以测试模型的判别式推理能力。数据集结构为每个问题配对相应音频片段与自然语言问题，无需模板化或标准化处理。评估时，建议将音频统一预处理为单声道并重采样至模型期望的采样率，输入原始波形、对数梅尔频谱或编解码令牌等形式。为确保结果可比性，应收集人类参与者在相同条件下的基线表现，并利用项目反应理论联合建模问题难度与系统能力，从而深入诊断模型在音频领域的具体短板与失败模式。

背景与挑战

背景概述

AUDITA（Audio Understanding from Diverse Internet Trivia Authors）是由马里兰大学、戴维森学院、哥伦比亚大学和哈弗福德学院等机构的研究人员于2025年提出的大规模音频问答基准数据集。其核心研究问题在于，现有音频问答基准多依赖声音事件分类、字幕衍生查询或合成场景，使模型可通过捷径策略、短时线索或语言先验而非真正推理来取得高分。AUDITA旨在通过基于真实世界音频的人类编写冷知识问题，严格评估超越表层声学识别的音频推理能力。该数据集包含9690个音频-问题对，涵盖文化地理、音乐作品、人物识别、流行文化及环境声音等多个领域，人类平均准确率仅为32.13%，而顶尖模型的平均准确率则低于8.86%，揭示了人机在音频推理上的显著差距，对推动音频理解领域的评估范式革新具有重要影响力。

当前挑战

AUDITA所解决的领域问题在于，现有音频问答基准存在模糊性、虚假预设、弱根基及捷径学习等缺陷，例如许多问题可通过元数据或字幕而非音频本身回答，导致模型性能虚高。构建过程中面临的挑战包括：1) 从公开在线音频测试中收集并筛选高质量的人类编写问题，需确保音频与问题正确对齐并去除格式噪声；2) 设计具有挑战性的干扰项，要求干扰项与正确答案在表层特征上相似但关键听觉证据不同；3) 评估时需采用项目反应理论（IRT）联合建模问题难度与受试者能力，以区分真实推理与偶然正确；4) 解决长时域依赖和跨模态推理难题，例如识别音乐主题或影视作品需要整合分布式声学线索与外部世界知识。

常用场景

经典使用场景

AUDITA作为一项大规模、真实世界的音频问答基准，其最经典的使用场景在于评估和比较人类与最先进音频语言模型在复杂听觉推理任务上的表现差异。该数据集通过精心策划的人类创作冷知识问题，结合具有挑战性的干扰项和长程时间依赖关系，迫使模型超越浅层的声学识别，进行真正的多线索听觉推理。研究者利用AUDITA不仅可衡量模型在自由回答和多项选择两种格式下的原始准确率，还能借助项目反应理论（IRT）深入刻画受试者的潜在能力与题目难度，从而系统性地揭示模型在听觉理解上的固有短板。

衍生相关工作

AUDITA的发布已催生出一系列富有启发性的后续工作。一方面，其创新的IRT分析框架被借鉴用于其他多模态基准的质量诊断，帮助研究者识别低区分度的问题并优化数据集设计。另一方面，该数据集对模型在音乐、环境音及文化媒体等类别上的差异化表现，激发了针对特定听觉子域的专项模型研究，如在音乐作品识别中强化旋律与织体表征、在环境声音理解中改进非语言声学信号的编码策略。此外，AUDITA对知识型与感知型错误的细致分类，为开发更具鲁棒性的音频推理模型提供了明确的目标导向，并推动了无文本线索条件下纯听觉理解评估范式的深化探索。

数据集最近研究