AudioBench|音频处理数据集|模型评估数据集

arXiv2024-06-23 更新2024-06-26 收录

音频处理

模型评估

下载链接：

https://github.com/AudioLLMs/AudioBench

下载链接

链接失效反馈

资源简介：

AudioBench是由新加坡科技研究局信息通信研究所(I2R)创建的综合性音频大语言模型评估基准。该数据集包含26个精心挑选或新策划的数据集，涵盖语音理解、声音解释和音频场景理解等多个任务。数据集的创建旨在填补现有大型语言模型评估中的空白，通过提供相关数据集和评估指标，全面评估模型的能力。AudioBench不仅包含传统语音任务，还引入了新的数据集和指标，以更好地反映实际应用场景和评估模型遵循指令的能力。该数据集的应用领域广泛，旨在解决音频理解和响应用户查询的准确性问题，推动音频大语言模型的发展。

提供机构：

新加坡科技研究局信息通信研究所 (I2R)

创建时间：

2024-06-23

原始信息汇总

AudioBench 数据集概述

数据集简介

AudioBench 是一个用于评估音频大型语言模型（AudioLLMs）在多种任务上的通用基准。

数据集更新日志

2024年7月：支持所有26个在AudioBench手稿中列出的数据集。

支持的数据集和模型

数据集

数据集	类别	任务	评估指标	状态
LibriSpeech-Clean	SU	ASR	WER	✅
LibriSpeech-Other	SU	ASR	WER	✅
CommonVoice-15-EN	SU	ASR	WER	✅
Peoples-Speech	SU	ASR	WER	✅
GigaSpeech	SU	ASR	WER	✅
Earning21	SU	ASR	WER	✅
Earning22	SU	ASR	WER	✅
Tedlium3	SU	ASR	WER	✅
Tedlium3-Longform	SU	ASR	WER	✅
CN-College-Listen	SU	SQA	Model-as-Judge	✅
SLUE-P2-SQA5	SU	SQA	Model-as-Judge	✅
Public-SG-SpeechQA	SU	SQA	Model-as-Judge	✅
DREAM-TTS	SU	SQA	Model-as-Judge	✅
OpenHermes-Audio	SU	SI	Model-as-Judge	✅
ALPACA-Audio	SU	SI	Model-as-Judge	✅
AudioCaps	ASU	AC	Model-as-Judge / METEOR	✅
WavCaps	ASU	AC	Model-as-Judge / METEOR	✅
Clotho-AQA	ASU	ASQA	Model-as-Judge	✅
AudioCaps-QA	ASU	ASQA	Model-as-Judge	✅
WavCaps-QA	ASU	ASQA	Model-as-Judge	✅
VoxCeleb-Accent	VU	AR	Model-as-Judge	✅
VoxCeleb-Gender	VU	GR	Model-as-Judge	✅
IEMOCAP-Gender	VU	GR	Model-as-Judge	✅
IEMOCAP-Emotion	VU	ER	Model-as-Judge	✅
MELD-Sentiment	VU	ER	Model-as-Judge	✅
MELD-Emotion	VU	ER	Model-as-Judge	✅

模型

模型	大小	备注	状态
Whisper-Large + Llama-3-8B-Instruct	~8B	Cascade Models	✅
SALMONN-7B	~7B	AudioLLM - Fusion Model	✅
Qwen-Audio	~8B	AudioLLM - Fusion Model	TODO
Qwen2-Audio	~8B	AudioLLM - Fusion Model	TODO

引用

如果发现我们的工作有用，请考虑引用我们的论文： bibtex @article{wang2024audiobench, title={AudioBench: A Universal Benchmark for Audio Large Language Models}, author={Wang, Bin and Zou, Xunlong and Lin, Geyu and Sun, Shuo and Liu, Zhuohan and Zhang, Wenyu and Liu, Zhengyuan and Aw, AiTi and Chen, Nancy F}, journal={arXiv preprint arXiv:2406.16020}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

AudioBench 数据集的构建旨在评估音频大语言模型（AudioLLMs）的能力，涵盖了语音理解、语音解释和音频场景理解等多个方面。该数据集包含了 8 个不同的任务和 26 个精心挑选或新构建的数据集。这些数据集不仅包括传统的语音任务，还引入了新的数据集和评估指标，以更好地反映现实应用场景和模型遵循指令的能力。其中，7 个数据集是新适应或收集的，以填补现有数据集的空白。

使用方法

AudioBench 数据集的使用方法包括对模型的多方面评估，涵盖了语音理解、音频场景理解和语音理解等多个任务。用户可以通过实现自定义的模型推理程序，利用 AudioBench 工具包对未来的模型进行评估。此外，数据集还探索了开放式生成的评估指标，主要针对基于提示和指令遵循的模型，这些模型将用户查询集成到输出生成中，条件是音频输入。评估方法包括使用模型作为评判者，以及传统的词错误率（WER）和 METEOR 评分等。

背景与挑战

背景概述

AudioBench，由新加坡A*STAR的Institute for Infocomm Research (I2R)和Centre for Frontier AI Research (CFAR)的研究人员于2024年推出，是一个专门用于评估音频大语言模型（AudioLLMs）的综合基准。该数据集包含了8个不同的任务和26个精心挑选或新创建的数据集，专注于语音理解、语音解释和音频场景理解。尽管大语言模型（包括多模态版本）的快速发展，但在全面评估其能力方面仍存在显著差距。AudioBench通过提供相关数据集和评估指标来填补这一空白。该数据集的推出标志着在音频处理领域迈出了重要一步，为未来的模型开发提供了坚实的测试平台。

当前挑战

AudioBench在构建过程中面临多项挑战。首先，现有的评估机制未能覆盖音频大语言模型的广泛应用场景，导致对其性能的系统性比较不足。其次，构建过程中需要处理多样化的音频输入，从几秒到几分钟不等，这对模型的兼容性和性能提出了高要求。此外，评估开放式生成任务时，传统指标无法完全满足需求，可能引入偏差，因此需要开发创新的评估方法。最后，由于音频大语言模型通常涉及较大的模型尺寸，导致推理时间较长，如何在保证准确性的同时提高效率也是一个重要挑战。

常用场景

经典使用场景

AudioBench 数据集的经典使用场景主要集中在评估音频大语言模型（AudioLLMs）在多种任务中的表现。这些任务包括自动语音识别（ASR）、语音问答（SQA）、情感识别（ER）、音频场景问答（AQA）等。通过涵盖从基础语音理解到复杂音频场景解析的广泛任务，AudioBench 提供了一个全面的测试平台，以评估模型在不同音频输入下的响应能力和准确性。

解决学术问题

AudioBench 数据集解决了当前音频大语言模型评估中存在的显著差距，特别是在缺乏全面基准的情况下。它通过提供相关数据集和评估指标，填补了这一空白，使得研究人员能够系统地比较不同模型在各种音频理解任务中的表现。这不仅有助于推动音频处理技术的发展，还为多模态模型的研究提供了宝贵的资源。

实际应用

AudioBench 数据集在实际应用中具有广泛的前景，特别是在智能语音助手、语音翻译、情感分析和音频内容生成等领域。通过提供多样化的音频数据和任务，它能够帮助开发更智能、更适应实际需求的音频处理系统。例如，在智能家居中，AudioBench 可以用于训练模型识别用户的语音指令和情感状态，从而提供更加个性化的服务。

数据集最近研究

相关研究论文

1
AudioBench: A Universal Benchmark for Audio Large Language Models新加坡科技研究局信息通信研究所 (I2R) · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录