five

Awesome-AudioLM-Datasets

收藏
github2025-05-20 更新2025-05-24 收录
下载链接:
https://github.com/yuekaizhang/Awesome-AudioLM-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多个音频数据集的集合,涵盖了不同语言和用途的音频数据。

This collection encompasses multiple audio datasets, covering a variety of languages and applications.
创建时间:
2025-05-20
原始信息汇总

Awesome-AudioLM-Datasets 数据集概述

数据集列表

  1. Audio-FLAN-Dataset

    • 来源:HKUSTAudio
    • 链接:https://huggingface.co/datasets/HKUSTAudio/Audio-FLAN-Dataset
  2. VITA-Audio-Data

    • 来源:VITA-MLLM
    • 备注:Collections of Manifests
    • 链接:https://huggingface.co/datasets/VITA-MLLM/VITA-Audio-Data
  3. AudioQA-1M

    • 来源:VITA-MLLM
    • 语言:EN
    • 链接:https://huggingface.co/datasets/VITA-MLLM/AudioQA-1M
  4. emilia-subset-annotated

    • 来源:ylacombe
    • 语言:EN
    • 备注:Instruct TTS
    • 链接:https://huggingface.co/datasets/ylacombe/emilia-subset-annotated
  5. VoiceAssistant-400K-SLAM-Omni

    • 来源:worstchan
    • 语言:EN
    • 备注:664h questions, 3234h answers (cosy1 tokens)
    • 链接:https://huggingface.co/datasets/worstchan/VoiceAssistant-400K-SLAM-Omni
  6. UltraChat-300K-SLAM-Omni

    • 来源:worstchan
    • 语言:EN
    • 备注:619h questions, 1951h answers (cosy1 tokens)
    • 链接:https://huggingface.co/datasets/worstchan/UltraChat-300K-SLAM-Omni
  7. Belle_1.4M-SLAM-Omni

    • 来源:worstchan
    • 语言:ZH
    • 备注:2488h questions, 6418h answers (cosy1 tokens)
    • 链接:https://huggingface.co/datasets/worstchan/Belle_1.4M-SLAM-Omni
  8. UltraChat-vocalnet

    • 来源:VocalNet
    • 语言:EN
    • 备注:answers in cosy2 tokens
    • 链接:https://huggingface.co/datasets/VocalNet/UltraChat-vocalnet
  9. VoiceAssistant-430K-vocalnet

    • 来源:VocalNet
    • 语言:EN
    • 备注:answers in cosy2 tokens
    • 链接:https://huggingface.co/datasets/VocalNet/VoiceAssistant-430K-vocalnet
  10. InstructS2S-200K

    • 来源:ICTNLP
    • 语言:EN
    • 备注:Cosy2 Tokens
    • 链接:https://huggingface.co/datasets/ICTNLP/InstructS2S-200K
  11. gigaspeech

    • 来源:fixie-ai
    • 语言:EN
    • 备注:speech continuation
    • 链接:https://huggingface.co/datasets/fixie-ai/gigaspeech
  12. peoples_speech

    • 来源:fixie-ai
    • 语言:EN
    • 备注:speech continuation
    • 链接:https://huggingface.co/datasets/fixie-ai/peoples_speech
  13. librispeech_asr

    • 来源:fixie-ai
    • 语言:EN
    • 备注:speech continuation
    • 链接:https://huggingface.co/datasets/fixie-ai/librispeech_asr
  14. SemanticVAD-Dataset

    • 来源:KE-Team
    • 语言:ZH, EN
    • 链接:https://huggingface.co/datasets/KE-Team/SemanticVAD-Dataset
搜集汇总
数据集介绍
main_image_url
构建方式
在音频语言模型研究领域,Awesome-AudioLM-Datasets通过系统整合多源异构数据构建而成。该数据集采用模块化架构,精选HuggingFace平台12个具有代表性的音频数据集,涵盖语音问答、指令跟随、语音延续等多种任务类型。构建过程中严格遵循数据标准化流程,对原始音频数据进行统一采样率转换和文本标注规范化处理,确保不同子集间的兼容性。数据集特别注重多语言覆盖,同时包含英语和中文语料,并详细标注了各子集的时长、语言类型和特殊标记体系。
特点
该数据集展现出鲜明的多元化特征,其子集总时长超过12,000小时,构成当前规模最大的开放音频语言模型资源之一。数据内容具有显著的任务导向性,既包含基础的语音识别语料如LibriSpeech,也整合了前沿的语音问答数据集AudioQA-1M。技术层面采用创新的cosy1/cosy2标记系统处理对话数据,支持端到端语音生成任务。多语言混合特性尤为突出,中文子集Belle_1.4M-SLAM-Omni包含近9,000小时语料,与英语资源形成互补。
使用方法
研究人员可通过HuggingFace数据集中心直接访问各子集,利用标准API实现高效加载与预处理。针对不同研究目标,建议采用分层采样策略:语音生成任务可重点选用VITA-Audio-Data等指令数据集,语音理解任务则适合采用Audio-FLAN-Dataset等问答资源。数据使用需注意标记系统差异,英语语料普遍采用cosy1/cosy2标记,而中文子集保持原始文本格式。实验部署时可结合PyTorch或TensorFlow框架,利用内置的dataloader实现批量流式处理,显著降低大音频数据的内存占用。
背景与挑战
背景概述
Awesome-AudioLM-Datasets是一个专注于音频语言模型研究的综合性数据集集合,由多个研究机构如HKUSTAudio、VITA-MLLM等共同构建。该数据集旨在推动音频与自然语言处理交叉领域的研究,涵盖了语音问答、语音指令生成、语音合成等多个核心研究方向。其构建背景源于近年来音频数据处理技术的快速发展,以及对高质量、多样化音频数据需求的日益增长。这些数据集不仅为音频语言模型的训练提供了丰富的资源,也为跨语言、跨任务的音频理解与生成研究奠定了重要基础。
当前挑战
Awesome-AudioLM-Datasets面临的主要挑战包括两方面:在领域问题方面,音频语言模型需要解决语音与文本之间的复杂映射关系,尤其是在多语言环境下,如何实现高精度的语音识别与生成仍是一大难题;在构建过程中,数据集的多样性与规模平衡、标注质量的一致性以及隐私保护等问题也带来了显著挑战。此外,不同数据集之间的格式差异与兼容性问题,进一步增加了数据整合与模型训练的复杂度。
常用场景
经典使用场景
在音频语言模型研究中,Awesome-AudioLM-Datasets凭借其多样化的音频数据资源,成为训练和评估生成式音频模型的首选基准。该数据集特别适用于语音合成、音频问答和语音指令理解等任务,研究人员通过其丰富的多语言音频样本和标注信息,能够深入探索音频与文本之间的跨模态关联。
衍生相关工作
基于该数据集衍生的VITA-MLLM项目在音频-文本对齐技术上取得突破性进展,其提出的多模态预训练框架被广泛应用于语音合成研究。Fixie-ai团队利用数据集中的gigaspeech资源开发的连续语音生成系统,在语音流畅度指标上刷新了行业基准。
数据集最近研究
最新研究方向
在音频语言模型领域,Awesome-AudioLM-Datasets汇集了多语言、多模态的音频数据集,为前沿研究提供了丰富资源。当前研究聚焦于跨语言音频问答、指令跟随语音合成及大规模语音延续任务,如AudioQA-1M和InstructS2S-200K分别支持英语问答与指令到语音的端到端生成。多语言数据集Belle_1.4M-SLAM-Omni和SemanticVAD-Dataset的引入,推动了中英双语场景下语音语义理解的技术突破。GigaSpeech等持续语音数据集则助力生成式模型在长序列预测上的探索,这些进展共同加速了智能语音助手与交互式语音应用的落地进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作