AUDIOMARATHON
收藏arXiv2025-10-09 更新2025-11-19 收录
下载链接:
https://hf-mirror.com/datasets/Hezep/AudioMarathon
下载链接
链接失效反馈官方服务:
资源简介:
AUDIOMARATHON是一个全面的声音理解基准,专为评估长上下文音频理解和推理效率而设计。该数据集由来自三个领域的多样化任务组成:语音、声音和音乐,以及覆盖十个代表性子任务的全面任务覆盖,包括语音识别、语音内容推理、语音实体识别、音乐分类、音频场景分类、声音事件检测、情绪识别、语音检测、说话人年龄识别和说话人性别识别。AUDIOMARATHON通过一个严格的多阶段框架构建,确保了多样性、难度和高标注质量,旨在推动音频和多模态研究社区开发更先进的音频理解模型,能够解决复杂的音频问题。
AUDIOMARATHON is a comprehensive audio understanding benchmark specifically designed to evaluate long-context audio understanding and reasoning efficiency. This dataset comprises diverse tasks across three domains: speech, sound, and music, and features comprehensive task coverage spanning ten representative subtasks including speech recognition, speech content reasoning, speech entity recognition, music classification, audio scene classification, sound event detection, emotion recognition, speech detection, speaker age recognition, and speaker gender recognition. AUDIOMARATHON is constructed via a rigorous multi-stage framework to ensure diversity, difficulty, and high annotation quality, aiming to promote the audio and multimodal research communities to develop more advanced audio understanding models capable of solving complex audio problems.
提供机构:
上海交通大学
创建时间:
2025-10-09
搜集汇总
数据集介绍

构建方式
在音频语言模型面临长序列处理挑战的背景下,AUDIOMARATHON通过严谨的六阶段构建流程实现数据集的系统性构建。研究团队从30个候选数据集中筛选出10个子集,依据任务覆盖度和声学多样性进行精心选择。通过设计特定的音频拼接逻辑,将短音频片段合并为90至300秒的长序列,对应2250至7500个音频标记的编码序列。每个音频文件均配备任务特定的提示和多选选项,并经过严格的人工验证流程,确保数据质量达到研究标准。最终从完全标注的问答对中筛选出6567个实例,平衡覆盖所有10个任务和音频类型。
特点
AUDIOMARATHON的显著特征体现在三个核心维度:长上下文音频输入模拟真实场景,音频时长从90秒延伸至300秒,有效评估模型在分钟级音频处理中的表现;完整领域覆盖囊括语音、环境声音和音乐三大音频类型,通过十个代表性子任务构建全面的评估体系;复杂推理能力要求模型在扩展时间窗口内进行多跳推理,连接分散的信息片段。该数据集特别设计了音频版本的RACE阅读理解任务,通过文本转语音技术保留原始的多跳推理特性,同时增加长期声学依赖的挑战。
使用方法
该数据集的使用遵循标准化的评估框架,将大多数任务构建为单项选择问答形式。对于每个测试实例,模型接收完整音频和包含问题及四个标记选项的指令跟随提示,必须从中选择正确答案以减轻位置偏差影响。评估采用双重维度:任务性能方面,分类和多选题使用F1分数,自动语音识别采用词准确率,音频事件检测使用宏F1分数平衡精确率和召回率;推理效率方面,通过延迟和峰值GPU内存使用量进行评估。研究还系统分析了令牌剪枝和KV缓存驱逐等加速技术的效果与权衡,为模型优化提供实践指导。
背景与挑战
背景概述
随着多模态大语言模型在音频理解领域的快速发展,处理长时音频成为关键挑战。2025年,上海交通大学联合上海人工智能实验室等机构提出AUDIOMARATHON基准,旨在系统评估大音频语言模型在长上下文音频理解与推理效率方面的能力。该数据集以90至300秒的连续音频为核心,覆盖语音、环境声与音乐三大领域,通过十项子任务构建多层次评估体系,填补了现有基准在长时音频评估方面的空白,为音频智能模型在会议记录、播客分析等现实场景的应用奠定基础。
当前挑战
在领域问题层面,AUDIOMARATHON需解决长时音频中注意力机制二次计算复杂度激增、长程时序依赖建模困难等核心难题,现有模型在语音实体识别等任务中表现显著弱于人类水平。构建过程中面临多重挑战:需设计自适应音频拼接算法保持时序连贯性,通过多阶段人工校验确保跨领域标注质量,并平衡长音频序列与计算资源间的矛盾,最终实现覆盖392小时音频的异构任务集成。
常用场景
经典使用场景
在音频智能处理领域,AUDIOMARATHON数据集作为长上下文音频理解的综合性基准,其经典应用场景主要集中于评估大型音频语言模型在分钟级音频输入下的理解能力。该数据集通过整合语音、环境声音和音乐三大音频领域,构建了从90秒至300秒不等的长序列音频任务,模拟了真实场景中的会议记录、播客分析和持续对话等复杂应用环境,为模型的长时程依赖建模能力提供了系统化测试平台。
解决学术问题
该数据集有效解决了音频处理领域长期存在的关键学术难题,特别是针对传统模型在长序列音频中表现出的注意力机制二次计算复杂度瓶颈与远距离时序依赖建模不足的问题。通过引入多跳推理任务和全领域覆盖的评估体系,AUDIOMARATHON揭示了现有模型在语音实体识别、说话人年龄识别等任务中的显著性能衰减现象,为开发具有更强时序推理能力的新型网络架构提供了明确的研究方向。
衍生相关工作
围绕该数据集衍生的经典研究工作主要集中于推理效率优化与长上下文建模两大方向。在效率优化方面,催生了针对音频令牌的Frame剪枝策略和KV缓存淘汰技术的系统比较研究;在模型架构层面,启发了Qwen2.5-Omni等模型的长音频适配改进,推动了混合专家模型在音频领域的应用探索。这些衍生工作共同构成了当前长音频理解研究的技术脉络,为后续音频大模型的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



