AudioBench|音频处理数据集|模型评估数据集
收藏AudioBench 数据集概述
数据集简介
AudioBench 是一个用于评估音频大型语言模型(AudioLLMs)在多种任务上的通用基准。
数据集更新日志
- 2024年7月:支持所有26个在AudioBench手稿中列出的数据集。
支持的数据集和模型
数据集
数据集 | 类别 | 任务 | 评估指标 | 状态 |
---|---|---|---|---|
LibriSpeech-Clean | SU | ASR | WER | ✅ |
LibriSpeech-Other | SU | ASR | WER | ✅ |
CommonVoice-15-EN | SU | ASR | WER | ✅ |
Peoples-Speech | SU | ASR | WER | ✅ |
GigaSpeech | SU | ASR | WER | ✅ |
Earning21 | SU | ASR | WER | ✅ |
Earning22 | SU | ASR | WER | ✅ |
Tedlium3 | SU | ASR | WER | ✅ |
Tedlium3-Longform | SU | ASR | WER | ✅ |
CN-College-Listen | SU | SQA | Model-as-Judge | ✅ |
SLUE-P2-SQA5 | SU | SQA | Model-as-Judge | ✅ |
Public-SG-SpeechQA | SU | SQA | Model-as-Judge | ✅ |
DREAM-TTS | SU | SQA | Model-as-Judge | ✅ |
OpenHermes-Audio | SU | SI | Model-as-Judge | ✅ |
ALPACA-Audio | SU | SI | Model-as-Judge | ✅ |
AudioCaps | ASU | AC | Model-as-Judge / METEOR | ✅ |
WavCaps | ASU | AC | Model-as-Judge / METEOR | ✅ |
Clotho-AQA | ASU | ASQA | Model-as-Judge | ✅ |
AudioCaps-QA | ASU | ASQA | Model-as-Judge | ✅ |
WavCaps-QA | ASU | ASQA | Model-as-Judge | ✅ |
VoxCeleb-Accent | VU | AR | Model-as-Judge | ✅ |
VoxCeleb-Gender | VU | GR | Model-as-Judge | ✅ |
IEMOCAP-Gender | VU | GR | Model-as-Judge | ✅ |
IEMOCAP-Emotion | VU | ER | Model-as-Judge | ✅ |
MELD-Sentiment | VU | ER | Model-as-Judge | ✅ |
MELD-Emotion | VU | ER | Model-as-Judge | ✅ |
模型
模型 | 大小 | 备注 | 状态 |
---|---|---|---|
Whisper-Large + Llama-3-8B-Instruct | ~8B | Cascade Models | ✅ |
SALMONN-7B | ~7B | AudioLLM - Fusion Model | ✅ |
Qwen-Audio | ~8B | AudioLLM - Fusion Model | TODO |
Qwen2-Audio | ~8B | AudioLLM - Fusion Model | TODO |
引用
如果发现我们的工作有用,请考虑引用我们的论文: bibtex @article{wang2024audiobench, title={AudioBench: A Universal Benchmark for Audio Large Language Models}, author={Wang, Bin and Zou, Xunlong and Lin, Geyu and Sun, Shuo and Liu, Zhuohan and Zhang, Wenyu and Liu, Zhengyuan and Aw, AiTi and Chen, Nancy F}, journal={arXiv preprint arXiv:2406.16020}, year={2024} }

- 1AudioBench: A Universal Benchmark for Audio Large Language Models新加坡科技研究局信息通信研究所 (I2R) · 2024年
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录