five

AudioBench

收藏
arXiv2024-06-23 更新2024-06-26 收录
下载链接:
https://github.com/AudioLLMs/AudioBench
下载链接
链接失效反馈
官方服务:
资源简介:
AudioBench是由新加坡科技研究局信息通信研究所(I2R)创建的综合性音频大语言模型评估基准。该数据集包含26个精心挑选或新策划的数据集,涵盖语音理解、声音解释和音频场景理解等多个任务。数据集的创建旨在填补现有大型语言模型评估中的空白,通过提供相关数据集和评估指标,全面评估模型的能力。AudioBench不仅包含传统语音任务,还引入了新的数据集和指标,以更好地反映实际应用场景和评估模型遵循指令的能力。该数据集的应用领域广泛,旨在解决音频理解和响应用户查询的准确性问题,推动音频大语言模型的发展。

AudioBench is a comprehensive audio large language model evaluation benchmark developed by the Institute for Infocomm Research (I2R) under Singapore's Agency for Science, Technology and Research (A*STAR). This benchmark comprises 26 carefully selected or newly curated datasets, covering multiple tasks including speech understanding, sound interpretation and audio scene understanding. It was designed to fill the gaps in existing large language model evaluations, offering relevant datasets and standardized evaluation metrics to conduct comprehensive assessments of model performance. Beyond traditional speech tasks, AudioBench also introduces new datasets and metrics to better align with real-world application scenarios and evaluate models' instruction-following capabilities. With wide-ranging application prospects, this benchmark aims to address the accuracy issues in audio understanding and user query response, and promote the development of audio large language models.
提供机构:
新加坡科技研究局信息通信研究所 (I2R)
创建时间:
2024-06-23
原始信息汇总

AudioBench 数据集概述

数据集简介

AudioBench 是一个用于评估音频大型语言模型(AudioLLMs)在多种任务上的通用基准。

数据集更新日志

  • 2024年7月:支持所有26个在AudioBench手稿中列出的数据集。

支持的数据集和模型

数据集

数据集 类别 任务 评估指标 状态
LibriSpeech-Clean SU ASR WER
LibriSpeech-Other SU ASR WER
CommonVoice-15-EN SU ASR WER
Peoples-Speech SU ASR WER
GigaSpeech SU ASR WER
Earning21 SU ASR WER
Earning22 SU ASR WER
Tedlium3 SU ASR WER
Tedlium3-Longform SU ASR WER
CN-College-Listen SU SQA Model-as-Judge
SLUE-P2-SQA5 SU SQA Model-as-Judge
Public-SG-SpeechQA SU SQA Model-as-Judge
DREAM-TTS SU SQA Model-as-Judge
OpenHermes-Audio SU SI Model-as-Judge
ALPACA-Audio SU SI Model-as-Judge
AudioCaps ASU AC Model-as-Judge / METEOR
WavCaps ASU AC Model-as-Judge / METEOR
Clotho-AQA ASU ASQA Model-as-Judge
AudioCaps-QA ASU ASQA Model-as-Judge
WavCaps-QA ASU ASQA Model-as-Judge
VoxCeleb-Accent VU AR Model-as-Judge
VoxCeleb-Gender VU GR Model-as-Judge
IEMOCAP-Gender VU GR Model-as-Judge
IEMOCAP-Emotion VU ER Model-as-Judge
MELD-Sentiment VU ER Model-as-Judge
MELD-Emotion VU ER Model-as-Judge

模型

模型 大小 备注 状态
Whisper-Large + Llama-3-8B-Instruct ~8B Cascade Models
SALMONN-7B ~7B AudioLLM - Fusion Model
Qwen-Audio ~8B AudioLLM - Fusion Model TODO
Qwen2-Audio ~8B AudioLLM - Fusion Model TODO

引用

如果发现我们的工作有用,请考虑引用我们的论文: bibtex @article{wang2024audiobench, title={AudioBench: A Universal Benchmark for Audio Large Language Models}, author={Wang, Bin and Zou, Xunlong and Lin, Geyu and Sun, Shuo and Liu, Zhuohan and Zhang, Wenyu and Liu, Zhengyuan and Aw, AiTi and Chen, Nancy F}, journal={arXiv preprint arXiv:2406.16020}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
AudioBench 数据集的构建旨在评估音频大语言模型(AudioLLMs)的能力,涵盖了语音理解、语音解释和音频场景理解等多个方面。该数据集包含了 8 个不同的任务和 26 个精心挑选或新构建的数据集。这些数据集不仅包括传统的语音任务,还引入了新的数据集和评估指标,以更好地反映现实应用场景和模型遵循指令的能力。其中,7 个数据集是新适应或收集的,以填补现有数据集的空白。
使用方法
AudioBench 数据集的使用方法包括对模型的多方面评估,涵盖了语音理解、音频场景理解和语音理解等多个任务。用户可以通过实现自定义的模型推理程序,利用 AudioBench 工具包对未来的模型进行评估。此外,数据集还探索了开放式生成的评估指标,主要针对基于提示和指令遵循的模型,这些模型将用户查询集成到输出生成中,条件是音频输入。评估方法包括使用模型作为评判者,以及传统的词错误率(WER)和 METEOR 评分等。
背景与挑战
背景概述
AudioBench,由新加坡A*STAR的Institute for Infocomm Research (I2R)和Centre for Frontier AI Research (CFAR)的研究人员于2024年推出,是一个专门用于评估音频大语言模型(AudioLLMs)的综合基准。该数据集包含了8个不同的任务和26个精心挑选或新创建的数据集,专注于语音理解、语音解释和音频场景理解。尽管大语言模型(包括多模态版本)的快速发展,但在全面评估其能力方面仍存在显著差距。AudioBench通过提供相关数据集和评估指标来填补这一空白。该数据集的推出标志着在音频处理领域迈出了重要一步,为未来的模型开发提供了坚实的测试平台。
当前挑战
AudioBench在构建过程中面临多项挑战。首先,现有的评估机制未能覆盖音频大语言模型的广泛应用场景,导致对其性能的系统性比较不足。其次,构建过程中需要处理多样化的音频输入,从几秒到几分钟不等,这对模型的兼容性和性能提出了高要求。此外,评估开放式生成任务时,传统指标无法完全满足需求,可能引入偏差,因此需要开发创新的评估方法。最后,由于音频大语言模型通常涉及较大的模型尺寸,导致推理时间较长,如何在保证准确性的同时提高效率也是一个重要挑战。
常用场景
经典使用场景
AudioBench 数据集的经典使用场景主要集中在评估音频大语言模型(AudioLLMs)在多种任务中的表现。这些任务包括自动语音识别(ASR)、语音问答(SQA)、情感识别(ER)、音频场景问答(AQA)等。通过涵盖从基础语音理解到复杂音频场景解析的广泛任务,AudioBench 提供了一个全面的测试平台,以评估模型在不同音频输入下的响应能力和准确性。
解决学术问题
AudioBench 数据集解决了当前音频大语言模型评估中存在的显著差距,特别是在缺乏全面基准的情况下。它通过提供相关数据集和评估指标,填补了这一空白,使得研究人员能够系统地比较不同模型在各种音频理解任务中的表现。这不仅有助于推动音频处理技术的发展,还为多模态模型的研究提供了宝贵的资源。
实际应用
AudioBench 数据集在实际应用中具有广泛的前景,特别是在智能语音助手、语音翻译、情感分析和音频内容生成等领域。通过提供多样化的音频数据和任务,它能够帮助开发更智能、更适应实际需求的音频处理系统。例如,在智能家居中,AudioBench 可以用于训练模型识别用户的语音指令和情感状态,从而提供更加个性化的服务。
数据集最近研究
最新研究方向
在音频处理领域,AudioBench数据集的最新研究方向主要集中在音频大语言模型(AudioLLMs)的全面评估与优化。随着多模态大语言模型的快速发展,现有的评估基准在音频理解能力方面存在显著差距。AudioBench通过整合8个不同任务和26个精心挑选或新创建的数据集,专注于语音理解、语音解释和音频场景理解,填补了这一空白。研究者们通过评估四个模型的能力,发现单一模型在所有任务中表现并不一致,这为未来的模型开发提供了明确的研究方向。此外,研究还探讨了开放式生成评估的挑战,并提出了使用开源模型作为评估工具的方法,以提高评估的透明度和适应性。
相关研究论文
  • 1
    AudioBench: A Universal Benchmark for Audio Large Language Models新加坡科技研究局信息通信研究所 (I2R) · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作