AudioBench

Name: AudioBench
Creator: 新加坡科技研究局信息通信研究所 (I2R)
Published: 2024-06-23 13:40:26
License: 暂无描述

arXiv2024-06-23 更新2024-06-26 收录

下载链接：

https://github.com/AudioLLMs/AudioBench

下载链接

链接失效反馈

官方服务：

资源简介：

AudioBench是由新加坡科技研究局信息通信研究所(I2R)创建的综合性音频大语言模型评估基准。该数据集包含26个精心挑选或新策划的数据集，涵盖语音理解、声音解释和音频场景理解等多个任务。数据集的创建旨在填补现有大型语言模型评估中的空白，通过提供相关数据集和评估指标，全面评估模型的能力。AudioBench不仅包含传统语音任务，还引入了新的数据集和指标，以更好地反映实际应用场景和评估模型遵循指令的能力。该数据集的应用领域广泛，旨在解决音频理解和响应用户查询的准确性问题，推动音频大语言模型的发展。

AudioBench is a comprehensive audio large language model evaluation benchmark developed by the Institute for Infocomm Research (I2R) under Singapore's Agency for Science, Technology and Research (A*STAR). This benchmark comprises 26 carefully selected or newly curated datasets, covering multiple tasks including speech understanding, sound interpretation and audio scene understanding. It was designed to fill the gaps in existing large language model evaluations, offering relevant datasets and standardized evaluation metrics to conduct comprehensive assessments of model performance. Beyond traditional speech tasks, AudioBench also introduces new datasets and metrics to better align with real-world application scenarios and evaluate models' instruction-following capabilities. With wide-ranging application prospects, this benchmark aims to address the accuracy issues in audio understanding and user query response, and promote the development of audio large language models.

提供机构：

新加坡科技研究局信息通信研究所 (I2R)

创建时间：

2024-06-23

原始信息汇总

AudioBench 数据集概述

数据集简介

AudioBench 是一个用于评估音频大型语言模型（AudioLLMs）在多种任务上的通用基准。

数据集更新日志

2024年7月：支持所有26个在AudioBench手稿中列出的数据集。

支持的数据集和模型

数据集

数据集	类别	任务	评估指标	状态
LibriSpeech-Clean	SU	ASR	WER	✅
LibriSpeech-Other	SU	ASR	WER	✅
CommonVoice-15-EN	SU	ASR	WER	✅
Peoples-Speech	SU	ASR	WER	✅
GigaSpeech	SU	ASR	WER	✅
Earning21	SU	ASR	WER	✅
Earning22	SU	ASR	WER	✅
Tedlium3	SU	ASR	WER	✅
Tedlium3-Longform	SU	ASR	WER	✅
CN-College-Listen	SU	SQA	Model-as-Judge	✅
SLUE-P2-SQA5	SU	SQA	Model-as-Judge	✅
Public-SG-SpeechQA	SU	SQA	Model-as-Judge	✅
DREAM-TTS	SU	SQA	Model-as-Judge	✅
OpenHermes-Audio	SU	SI	Model-as-Judge	✅
ALPACA-Audio	SU	SI	Model-as-Judge	✅
AudioCaps	ASU	AC	Model-as-Judge / METEOR	✅
WavCaps	ASU	AC	Model-as-Judge / METEOR	✅
Clotho-AQA	ASU	ASQA	Model-as-Judge	✅
AudioCaps-QA	ASU	ASQA	Model-as-Judge	✅
WavCaps-QA	ASU	ASQA	Model-as-Judge	✅
VoxCeleb-Accent	VU	AR	Model-as-Judge	✅
VoxCeleb-Gender	VU	GR	Model-as-Judge	✅
IEMOCAP-Gender	VU	GR	Model-as-Judge	✅
IEMOCAP-Emotion	VU	ER	Model-as-Judge	✅
MELD-Sentiment	VU	ER	Model-as-Judge	✅
MELD-Emotion	VU	ER	Model-as-Judge	✅

模型

模型	大小	备注	状态
Whisper-Large + Llama-3-8B-Instruct	~8B	Cascade Models	✅
SALMONN-7B	~7B	AudioLLM - Fusion Model	✅
Qwen-Audio	~8B	AudioLLM - Fusion Model	TODO
Qwen2-Audio	~8B	AudioLLM - Fusion Model	TODO

引用

如果发现我们的工作有用，请考虑引用我们的论文： bibtex @article{wang2024audiobench, title={AudioBench: A Universal Benchmark for Audio Large Language Models}, author={Wang, Bin and Zou, Xunlong and Lin, Geyu and Sun, Shuo and Liu, Zhuohan and Zhang, Wenyu and Liu, Zhengyuan and Aw, AiTi and Chen, Nancy F}, journal={arXiv preprint arXiv:2406.16020}, year={2024} }

搜集汇总

数据集介绍

构建方式

AudioBench 数据集的构建旨在评估音频大语言模型（AudioLLMs）的能力，涵盖了语音理解、语音解释和音频场景理解等多个方面。该数据集包含了 8 个不同的任务和 26 个精心挑选或新构建的数据集。这些数据集不仅包括传统的语音任务，还引入了新的数据集和评估指标，以更好地反映现实应用场景和模型遵循指令的能力。其中，7 个数据集是新适应或收集的，以填补现有数据集的空白。

使用方法

AudioBench 数据集的使用方法包括对模型的多方面评估，涵盖了语音理解、音频场景理解和语音理解等多个任务。用户可以通过实现自定义的模型推理程序，利用 AudioBench 工具包对未来的模型进行评估。此外，数据集还探索了开放式生成的评估指标，主要针对基于提示和指令遵循的模型，这些模型将用户查询集成到输出生成中，条件是音频输入。评估方法包括使用模型作为评判者，以及传统的词错误率（WER）和 METEOR 评分等。

背景与挑战

背景概述

AudioBench，由新加坡A*STAR的Institute for Infocomm Research (I2R)和Centre for Frontier AI Research (CFAR)的研究人员于2024年推出，是一个专门用于评估音频大语言模型（AudioLLMs）的综合基准。该数据集包含了8个不同的任务和26个精心挑选或新创建的数据集，专注于语音理解、语音解释和音频场景理解。尽管大语言模型（包括多模态版本）的快速发展，但在全面评估其能力方面仍存在显著差距。AudioBench通过提供相关数据集和评估指标来填补这一空白。该数据集的推出标志着在音频处理领域迈出了重要一步，为未来的模型开发提供了坚实的测试平台。

当前挑战

AudioBench在构建过程中面临多项挑战。首先，现有的评估机制未能覆盖音频大语言模型的广泛应用场景，导致对其性能的系统性比较不足。其次，构建过程中需要处理多样化的音频输入，从几秒到几分钟不等，这对模型的兼容性和性能提出了高要求。此外，评估开放式生成任务时，传统指标无法完全满足需求，可能引入偏差，因此需要开发创新的评估方法。最后，由于音频大语言模型通常涉及较大的模型尺寸，导致推理时间较长，如何在保证准确性的同时提高效率也是一个重要挑战。

常用场景

经典使用场景

AudioBench 数据集的经典使用场景主要集中在评估音频大语言模型（AudioLLMs）在多种任务中的表现。这些任务包括自动语音识别（ASR）、语音问答（SQA）、情感识别（ER）、音频场景问答（AQA）等。通过涵盖从基础语音理解到复杂音频场景解析的广泛任务，AudioBench 提供了一个全面的测试平台，以评估模型在不同音频输入下的响应能力和准确性。

解决学术问题

AudioBench 数据集解决了当前音频大语言模型评估中存在的显著差距，特别是在缺乏全面基准的情况下。它通过提供相关数据集和评估指标，填补了这一空白，使得研究人员能够系统地比较不同模型在各种音频理解任务中的表现。这不仅有助于推动音频处理技术的发展，还为多模态模型的研究提供了宝贵的资源。

实际应用

AudioBench 数据集在实际应用中具有广泛的前景，特别是在智能语音助手、语音翻译、情感分析和音频内容生成等领域。通过提供多样化的音频数据和任务，它能够帮助开发更智能、更适应实际需求的音频处理系统。例如，在智能家居中，AudioBench 可以用于训练模型识别用户的语音指令和情感状态，从而提供更加个性化的服务。

数据集最近研究