Awesome-AudioLM-Datasets

github2025-05-20 更新2025-05-24 收录

下载链接：

https://github.com/yuekaizhang/Awesome-AudioLM-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个音频数据集的集合，涵盖了不同语言和用途的音频数据。

This collection encompasses multiple audio datasets, covering a variety of languages and applications.

创建时间：

2025-05-20

原始信息汇总

Awesome-AudioLM-Datasets 数据集概述

数据集列表

Audio-FLAN-Dataset
- 来源：HKUSTAudio
- 链接：https://huggingface.co/datasets/HKUSTAudio/Audio-FLAN-Dataset
VITA-Audio-Data
- 来源：VITA-MLLM
- 备注：Collections of Manifests
- 链接：https://huggingface.co/datasets/VITA-MLLM/VITA-Audio-Data
AudioQA-1M
- 来源：VITA-MLLM
- 语言：EN
- 链接：https://huggingface.co/datasets/VITA-MLLM/AudioQA-1M
emilia-subset-annotated
- 来源：ylacombe
- 语言：EN
- 备注：Instruct TTS
- 链接：https://huggingface.co/datasets/ylacombe/emilia-subset-annotated
VoiceAssistant-400K-SLAM-Omni
- 来源：worstchan
- 语言：EN
- 备注：664h questions, 3234h answers (cosy1 tokens)
- 链接：https://huggingface.co/datasets/worstchan/VoiceAssistant-400K-SLAM-Omni
UltraChat-300K-SLAM-Omni
- 来源：worstchan
- 语言：EN
- 备注：619h questions, 1951h answers (cosy1 tokens)
- 链接：https://huggingface.co/datasets/worstchan/UltraChat-300K-SLAM-Omni
Belle_1.4M-SLAM-Omni
- 来源：worstchan
- 语言：ZH
- 备注：2488h questions, 6418h answers (cosy1 tokens)
- 链接：https://huggingface.co/datasets/worstchan/Belle_1.4M-SLAM-Omni
UltraChat-vocalnet
- 来源：VocalNet
- 语言：EN
- 备注：answers in cosy2 tokens
- 链接：https://huggingface.co/datasets/VocalNet/UltraChat-vocalnet
VoiceAssistant-430K-vocalnet
- 来源：VocalNet
- 语言：EN
- 备注：answers in cosy2 tokens
- 链接：https://huggingface.co/datasets/VocalNet/VoiceAssistant-430K-vocalnet
InstructS2S-200K
- 来源：ICTNLP
- 语言：EN
- 备注：Cosy2 Tokens
- 链接：https://huggingface.co/datasets/ICTNLP/InstructS2S-200K
gigaspeech
- 来源：fixie-ai
- 语言：EN
- 备注：speech continuation
- 链接：https://huggingface.co/datasets/fixie-ai/gigaspeech
peoples_speech
- 来源：fixie-ai
- 语言：EN
- 备注：speech continuation
- 链接：https://huggingface.co/datasets/fixie-ai/peoples_speech
librispeech_asr
- 来源：fixie-ai
- 语言：EN
- 备注：speech continuation
- 链接：https://huggingface.co/datasets/fixie-ai/librispeech_asr
SemanticVAD-Dataset
- 来源：KE-Team
- 语言：ZH, EN
- 链接：https://huggingface.co/datasets/KE-Team/SemanticVAD-Dataset

搜集汇总

数据集介绍

构建方式

在音频语言模型研究领域，Awesome-AudioLM-Datasets通过系统整合多源异构数据构建而成。该数据集采用模块化架构，精选HuggingFace平台12个具有代表性的音频数据集，涵盖语音问答、指令跟随、语音延续等多种任务类型。构建过程中严格遵循数据标准化流程，对原始音频数据进行统一采样率转换和文本标注规范化处理，确保不同子集间的兼容性。数据集特别注重多语言覆盖，同时包含英语和中文语料，并详细标注了各子集的时长、语言类型和特殊标记体系。

特点

该数据集展现出鲜明的多元化特征，其子集总时长超过12,000小时，构成当前规模最大的开放音频语言模型资源之一。数据内容具有显著的任务导向性，既包含基础的语音识别语料如LibriSpeech，也整合了前沿的语音问答数据集AudioQA-1M。技术层面采用创新的cosy1/cosy2标记系统处理对话数据，支持端到端语音生成任务。多语言混合特性尤为突出，中文子集Belle_1.4M-SLAM-Omni包含近9,000小时语料，与英语资源形成互补。

使用方法

研究人员可通过HuggingFace数据集中心直接访问各子集，利用标准API实现高效加载与预处理。针对不同研究目标，建议采用分层采样策略：语音生成任务可重点选用VITA-Audio-Data等指令数据集，语音理解任务则适合采用Audio-FLAN-Dataset等问答资源。数据使用需注意标记系统差异，英语语料普遍采用cosy1/cosy2标记，而中文子集保持原始文本格式。实验部署时可结合PyTorch或TensorFlow框架，利用内置的dataloader实现批量流式处理，显著降低大音频数据的内存占用。

背景与挑战

背景概述

Awesome-AudioLM-Datasets是一个专注于音频语言模型研究的综合性数据集集合，由多个研究机构如HKUSTAudio、VITA-MLLM等共同构建。该数据集旨在推动音频与自然语言处理交叉领域的研究，涵盖了语音问答、语音指令生成、语音合成等多个核心研究方向。其构建背景源于近年来音频数据处理技术的快速发展，以及对高质量、多样化音频数据需求的日益增长。这些数据集不仅为音频语言模型的训练提供了丰富的资源，也为跨语言、跨任务的音频理解与生成研究奠定了重要基础。

当前挑战

Awesome-AudioLM-Datasets面临的主要挑战包括两方面：在领域问题方面，音频语言模型需要解决语音与文本之间的复杂映射关系，尤其是在多语言环境下，如何实现高精度的语音识别与生成仍是一大难题；在构建过程中，数据集的多样性与规模平衡、标注质量的一致性以及隐私保护等问题也带来了显著挑战。此外，不同数据集之间的格式差异与兼容性问题，进一步增加了数据整合与模型训练的复杂度。

常用场景

经典使用场景

在音频语言模型研究中，Awesome-AudioLM-Datasets凭借其多样化的音频数据资源，成为训练和评估生成式音频模型的首选基准。该数据集特别适用于语音合成、音频问答和语音指令理解等任务，研究人员通过其丰富的多语言音频样本和标注信息，能够深入探索音频与文本之间的跨模态关联。

衍生相关工作

基于该数据集衍生的VITA-MLLM项目在音频-文本对齐技术上取得突破性进展，其提出的多模态预训练框架被广泛应用于语音合成研究。Fixie-ai团队利用数据集中的gigaspeech资源开发的连续语音生成系统，在语音流畅度指标上刷新了行业基准。

数据集最近研究