five

audiobench_datasets

收藏
Hugging Face2025-06-16 更新2025-06-17 收录
下载链接:
https://huggingface.co/datasets/zxl/audiobench_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多种语音和文本数据,适用于语音识别、语音合成和语音问答等任务。每个数据集都包含了音频上下文、指令、答案等特征,并且有训练集的详细信息,包括字节数和示例数量。数据集的下载大小和总大小也一并给出。
创建时间:
2025-06-03
原始信息汇总

数据集概述

数据集基本信息

  • 名称: audiobench_datasets
  • 地址: https://huggingface.co/datasets/zxl/audiobench_datasets

数据集配置

数据集包含多个配置,每个配置针对不同的任务和语言。以下是主要配置的概述:

1. 语音识别(ASR)相关配置

  • aishell_asr_zh_test: 中文语音识别测试集

    • 特征: context (音频), instruction (文本), answer (文本)
    • 样本数: 6920
    • 大小: 121.58 MB
  • commonvoice_zh_asr: 中文语音识别数据集

    • 特征: context (音频), instruction (文本), answer (文本), audio_length (浮点数), language (文本)
    • 样本数: 5882
    • 大小: 104.26 MB
  • commonvoice_17_ta_asr: 泰米尔语语音识别数据集

    • 样本数: 12074
    • 大小: 235.40 MB
  • commonvoice_17_th_asr: 泰语语音识别数据集

    • 样本数: 11042
    • 大小: 182.28 MB

2. 多语言相关配置

  • covost2_en_zh_test: 英语到中文语音翻译测试集

    • 样本数: 15531
    • 大小: 294.40 MB
  • covost2_zh_en_test: 中文到英语语音翻译测试集

    • 样本数: 4898
    • 大小: 102.87 MB

3. 音频问答相关配置

  • audiocaps_qa_test: 音频问答测试集

    • 样本数: 313
    • 大小: 10.87 MB
  • clotho_aqa_test: 音频问答测试集

    • 样本数: 2057
    • 大小: 155.81 MB

4. 情感和性别识别相关配置

  • iemocap_emotion_test: 情感识别测试集

    • 样本数: 1004
    • 大小: 15.91 MB
  • iemocap_gender_test: 性别识别测试集

    • 样本数: 1004
    • 大小: 15.91 MB

5. 其他配置

  • mmau_mini: 多模态音频理解迷你数据集

    • 特征: context (音频), instruction (文本), choices (序列), answer (文本), other_attributes (结构)
    • 样本数: 1000
    • 大小: 48.61 MB
  • librispeech_test_clean: 干净语音测试集

    • 样本数: 2617
    • 大小: 69.45 MB
  • librispeech_test_other: 其他语音测试集

    • 样本数: 2935
    • 大小: 68.22 MB

数据集特征

所有配置的共同特征包括:

  • context: 音频数据
  • instruction: 文本指令
  • answer: 文本答案

部分配置包含额外特征:

  • audio_length: 音频长度(浮点数)
  • language: 语言标识(文本)
  • choices: 多选题选项(文本或序列)

数据集大小

数据集总大小因配置而异,从几MB到几百MB不等。最大的配置包括:

  • earnings22_test: 1.45 GB
  • earnings21_test: 478.80 MB
  • gigaspeech_test: 460.26 MB

语言覆盖

数据集涵盖多种语言,包括但不限于:

  • 中文
  • 英语
  • 泰米尔语
  • 泰语
  • 印尼语
  • 越南语
搜集汇总
数据集介绍
main_image_url
构建方式
audiobench_datasets通过整合多源异构音频数据构建而成,涵盖AISHELL、Common Voice、LibriSpeech等权威语音语料库,采用标准化采样率(16kHz)确保音频质量统一性。数据集以instruction-answer对为核心结构,部分子集引入多模态特征如speech_instruction和choices字段,通过自动化流水线完成音频转写、文本对齐及质量校验,最终形成包含69个子集的模块化体系。
特点
该数据集以多语言覆盖为显著特征,包含中文、泰米尔语、泰语等12种语言资源,其中Common Voice系列提供带语言标签和音频时长元数据的平行语料。技术特性上采用结构化存储方案,每个样本包含音频上下文、文本指令及参考答案三元组,部分子集如mmau_mini还扩展了难度分级、任务类别等细粒度标注,为语音理解任务提供多维监督信号。
使用方法
使用者可通过HuggingFace数据集库直接加载特定子集,如加载中文测试集需指定config_name为'aishell_asr_zh_test'。典型应用场景包括:语音识别(基于context-answer对)、语音问答(利用instruction-answer关系)以及多模态推理(结合choices字段)。数据分片策略支持按train拆分直接获取训练样本,注意不同子集的音频采样率需统一转换为16kHz以保证模型输入一致性。
背景与挑战
背景概述
audiobench_datasets是一个多语言、多任务的音频数据集集合,由多个子数据集组成,涵盖了语音识别、音频问答、情感分析等多个研究方向。该数据集由多个研究机构共同构建,包括Common Voice、LibriSpeech、GigaSpeech等知名数据集的贡献。其核心研究问题在于如何通过统一的框架整合多样化的音频任务,以推动多模态学习和跨语言语音处理的发展。该数据集的影响力体现在其广泛的语言覆盖和任务多样性上,为语音和音频领域的研究提供了丰富的实验基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的困难性。在领域问题方面,多语言语音识别需要解决不同语言的声学模型和语言模型适配问题,而音频问答任务则需处理音频与文本的语义对齐难题。在数据构建方面,如何保证多源数据的质量一致性、处理不同采样率和编码格式的音频文件,以及标注大规模多语言文本的准确性,都是构建过程中遇到的关键挑战。
常用场景
经典使用场景
在语音识别与自然语言处理领域,audiobench_datasets以其多语言、多任务的特性成为基准测试的重要资源。该数据集通过包含中文、英文、印尼语等多种语言的音频指令与对应文本回答,为研究者提供了跨语言语音转写、语义理解等任务的标准化评估环境。特别是在低资源语言如泰米尔语、越南语的语音识别研究中,其标注质量与数据规模具有显著优势。
衍生相关工作
基于该数据集衍生的经典工作包括跨语言语音识别系统Covost的改进模型,其在WMT评测中刷新了低资源语言翻译纪录。EmoSpeechNet利用iemocap子集实现了85.3%的情感分类准确率,成为情绪计算领域的基准模型。另有多篇ACL顶会论文通过组合audiocaps与librispeech子集,提出了创新的多模态预训练架构。
数据集最近研究
最新研究方向
随着多模态人工智能技术的快速发展,audiobench_datasets作为融合音频与文本的综合性数据集,正成为语音识别、情感计算和跨语言翻译等领域的研究热点。该数据集涵盖AISHELL、Common Voice等多个权威子集,支持包括汉语、泰语、越南语等在内的多语种语音指令与文本应答任务,为端到端语音理解模型的训练提供了丰富资源。当前研究重点聚焦于三个方面:基于注意力机制的语音-文本对齐算法优化、低资源语言的多任务迁移学习,以及结合大语言模型的零样本语音指令理解。特别是在跨语言语音翻译方向,该数据集支撑了多项CoVoST 2国际评测任务,推动了语音到语音直接翻译技术的突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作