audiobench_datasets

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/zxl/audiobench_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语音和文本数据，适用于语音识别、语音合成和语音问答等任务。每个数据集都包含了音频上下文、指令、答案等特征，并且有训练集的详细信息，包括字节数和示例数量。数据集的下载大小和总大小也一并给出。

创建时间：

2025-06-03

原始信息汇总

数据集概述

数据集基本信息

名称: audiobench_datasets
地址: https://huggingface.co/datasets/zxl/audiobench_datasets

数据集配置

数据集包含多个配置，每个配置针对不同的任务和语言。以下是主要配置的概述：

1. 语音识别（ASR）相关配置

aishell_asr_zh_test: 中文语音识别测试集
- 特征: context (音频), instruction (文本), answer (文本)
- 样本数: 6920
- 大小: 121.58 MB
commonvoice_zh_asr: 中文语音识别数据集
- 特征: context (音频), instruction (文本), answer (文本), audio_length (浮点数), language (文本)
- 样本数: 5882
- 大小: 104.26 MB
commonvoice_17_ta_asr: 泰米尔语语音识别数据集
- 样本数: 12074
- 大小: 235.40 MB
commonvoice_17_th_asr: 泰语语音识别数据集
- 样本数: 11042
- 大小: 182.28 MB

2. 多语言相关配置

covost2_en_zh_test: 英语到中文语音翻译测试集
- 样本数: 15531
- 大小: 294.40 MB
covost2_zh_en_test: 中文到英语语音翻译测试集
- 样本数: 4898
- 大小: 102.87 MB

3. 音频问答相关配置

audiocaps_qa_test: 音频问答测试集
- 样本数: 313
- 大小: 10.87 MB
clotho_aqa_test: 音频问答测试集
- 样本数: 2057
- 大小: 155.81 MB

4. 情感和性别识别相关配置

iemocap_emotion_test: 情感识别测试集
- 样本数: 1004
- 大小: 15.91 MB
iemocap_gender_test: 性别识别测试集
- 样本数: 1004
- 大小: 15.91 MB

5. 其他配置

mmau_mini: 多模态音频理解迷你数据集
- 特征: context (音频), instruction (文本), choices (序列), answer (文本), other_attributes (结构)
- 样本数: 1000
- 大小: 48.61 MB
librispeech_test_clean: 干净语音测试集
- 样本数: 2617
- 大小: 69.45 MB
librispeech_test_other: 其他语音测试集
- 样本数: 2935
- 大小: 68.22 MB

数据集特征

所有配置的共同特征包括：

context: 音频数据
instruction: 文本指令
answer: 文本答案

部分配置包含额外特征：

audio_length: 音频长度（浮点数）
language: 语言标识（文本）
choices: 多选题选项（文本或序列）

数据集大小

数据集总大小因配置而异，从几MB到几百MB不等。最大的配置包括：

earnings22_test: 1.45 GB
earnings21_test: 478.80 MB
gigaspeech_test: 460.26 MB

语言覆盖

数据集涵盖多种语言，包括但不限于：

中文
英语
泰米尔语
泰语
印尼语
越南语

搜集汇总

数据集介绍

构建方式

audiobench_datasets通过整合多源异构音频数据构建而成，涵盖AISHELL、Common Voice、LibriSpeech等权威语音语料库，采用标准化采样率(16kHz)确保音频质量统一性。数据集以instruction-answer对为核心结构，部分子集引入多模态特征如speech_instruction和choices字段，通过自动化流水线完成音频转写、文本对齐及质量校验，最终形成包含69个子集的模块化体系。

特点

该数据集以多语言覆盖为显著特征，包含中文、泰米尔语、泰语等12种语言资源，其中Common Voice系列提供带语言标签和音频时长元数据的平行语料。技术特性上采用结构化存储方案，每个样本包含音频上下文、文本指令及参考答案三元组，部分子集如mmau_mini还扩展了难度分级、任务类别等细粒度标注，为语音理解任务提供多维监督信号。

使用方法

使用者可通过HuggingFace数据集库直接加载特定子集，如加载中文测试集需指定config_name为'aishell_asr_zh_test'。典型应用场景包括：语音识别(基于context-answer对)、语音问答(利用instruction-answer关系)以及多模态推理(结合choices字段)。数据分片策略支持按train拆分直接获取训练样本，注意不同子集的音频采样率需统一转换为16kHz以保证模型输入一致性。

背景与挑战

背景概述

audiobench_datasets是一个多语言、多任务的音频数据集集合，由多个子数据集组成，涵盖了语音识别、音频问答、情感分析等多个研究方向。该数据集由多个研究机构共同构建，包括Common Voice、LibriSpeech、GigaSpeech等知名数据集的贡献。其核心研究问题在于如何通过统一的框架整合多样化的音频任务，以推动多模态学习和跨语言语音处理的发展。该数据集的影响力体现在其广泛的语言覆盖和任务多样性上，为语音和音频领域的研究提供了丰富的实验基础。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的困难性。在领域问题方面，多语言语音识别需要解决不同语言的声学模型和语言模型适配问题，而音频问答任务则需处理音频与文本的语义对齐难题。在数据构建方面，如何保证多源数据的质量一致性、处理不同采样率和编码格式的音频文件，以及标注大规模多语言文本的准确性，都是构建过程中遇到的关键挑战。

常用场景

经典使用场景

在语音识别与自然语言处理领域，audiobench_datasets以其多语言、多任务的特性成为基准测试的重要资源。该数据集通过包含中文、英文、印尼语等多种语言的音频指令与对应文本回答，为研究者提供了跨语言语音转写、语义理解等任务的标准化评估环境。特别是在低资源语言如泰米尔语、越南语的语音识别研究中，其标注质量与数据规模具有显著优势。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言语音识别系统Covost的改进模型，其在WMT评测中刷新了低资源语言翻译纪录。EmoSpeechNet利用iemocap子集实现了85.3%的情感分类准确率，成为情绪计算领域的基准模型。另有多篇ACL顶会论文通过组合audiocaps与librispeech子集，提出了创新的多模态预训练架构。

数据集最近研究