DeSTA-AQA5M

Name: DeSTA-AQA5M
Creator: 清华大学
Published: 2025-07-04 00:28:25
License: 暂无描述

arXiv2025-07-04 更新2025-07-05 收录

下载链接：

https://github.com/kehanlu/DeSTA2.5-Audio

下载链接

链接失效反馈

官方服务：

资源简介：

DeSTA-AQA5M是一个大规模的音频指令调优数据集，包含了5百万个音频-提示-响应三元组。数据集由来自50个公开可用的音频数据集的7,000小时多样化的音频数据组成，涵盖了语音、环境声音和音乐等多种音频特征。该数据集通过自我生成的跨模态对齐策略构建，旨在解决大型音频语言模型（LALM）在任务无关的情况下实现鲁棒的听觉感知和指令遵循问题。数据集的创建过程利用了骨干语言模型生成自己的训练目标，从而在保留语言模型原有语言能力的同时，建立了有效的音频-文本对齐，实现了零样本泛化。

DeSTA-AQA5M is a large-scale audio instruction tuning dataset containing 5 million audio-prompt-response triplets. It consists of 7,000 hours of diverse audio data sourced from 50 publicly available audio datasets, covering various audio characteristics such as speech, environmental sounds, and music. Constructed via a self-generated cross-modal alignment strategy, this dataset aims to address the challenge of enabling large audio language models (LALMs) to achieve robust auditory perception and instruction following in a task-agnostic manner. Its creation process leverages a backbone language model to generate its own training objectives, thereby establishing effective audio-text alignment while preserving the original linguistic capabilities of the language model, and enabling zero-shot generalization.

提供机构：

清华大学

创建时间：

2025-07-04

原始信息汇总

DeSTA2.5-Audio数据集概述

基本信息

数据集名称：DeSTA2.5-Audio
托管地址：https://github.com/kehanlu/DeSTA2.5-Audio

数据描述

（注：根据提供的README内容，该数据集未包含具体描述信息）

使用说明

（注：根据提供的README内容，该数据集未包含使用说明）

其他信息

（注：根据提供的README内容，该数据集未提供其他相关信息）

搜集汇总

数据集介绍

构建方式

DeSTA-AQA5M数据集的构建采用了自生成跨模态对齐策略（DeSTA），通过核心大型语言模型（LLM）自主生成训练目标。具体流程包括：首先从50个公开音频数据集中收集7000小时的多领域音频（涵盖语音、环境声和音乐），并将音频元数据转换为结构化文本描述；随后通过预设的4000个多样化文本指令（如描述性任务、角色扮演场景等）引导LLM生成响应，形成500万条音频-指令-响应三元组。该方法避免了传统人工标注或外部LLM生成数据导致的分布偏差，确保了训练目标与模型原生行为的一致性。

特点

该数据集具有三大核心特征：1）领域普适性，覆盖语音（5400小时）、环境声（1000小时）和音乐（500小时）三大领域，包含副语言特征、说话人属性、音频质量指标等多维度信息；2）自生成数据的分布一致性，通过LLM自主生成响应，保持与模型原生输出风格的语义对齐；3）零样本泛化能力，仅通过单一描述性任务训练即可支持多种下游任务，无需任务特定的指令微调。数据集中每个音频样本平均关联多个指令，显著增强了跨模态对齐的鲁棒性。

使用方法

使用DeSTA-AQA5M时需遵循三阶段流程：1）模态适配，冻结预训练音频编码器（如Whisper-large-v3）和LLM参数（如Llama3.1-8B），仅训练Q-Former模块实现音频-文本特征对齐；2）多尺度特征聚合，从音频编码器的中间层提取时序特征，通过可学习权重融合后投影至LLM嵌入空间；3）条件解码，根据语音活动检测结果选择性激活音频解码器生成文本转录。评估时可采用标准化系统指令（如“聚焦音频片段与指令”）引导模型响应，在Dynamic-SUPERB、VoiceBench等基准测试中展现零样本推理能力。

背景与挑战

背景概述

DeSTA-AQA5M数据集由Ke-Han Lu等人于2025年提出，旨在推动通用大型音频语言模型（LALM）的发展。该数据集包含500万条音频-文本对，覆盖了7000小时的音频数据，涉及语音、环境声音和音乐等多个领域。其核心研究问题是通过自生成的跨模态对齐策略，解决传统LALM在音频-文本对齐过程中出现的灾难性遗忘问题。DeSTA-AQA5M的提出显著提升了模型在零样本泛化能力上的表现，并在多个音频-语言基准测试中达到了最先进水平。

当前挑战

DeSTA-AQA5M面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决音频语言模型在跨模态对齐中的灾难性遗忘问题，即模型在适应音频任务时可能丧失原有的语言能力。构建过程中的挑战包括：1) 数据多样性不足导致的某些音频属性（如语音质量评估）泛化能力受限；2) 不同来源的音频数据集在格式和标注标准上的异构性，增加了数据整合的难度；3) 自生成训练目标的质量控制，需确保生成的文本描述与音频内容的高度一致性。

常用场景

经典使用场景

DeSTA-AQA5M数据集在音频语言模型（LALM）的开发中扮演了关键角色，特别是在跨模态对齐和指令跟随能力的训练中。该数据集通过自生成的音频-文本对齐策略，为模型提供了丰富的多模态训练样本，涵盖了语音、环境声音和音乐等多个领域。研究人员可以利用该数据集训练通用型LALM，使其在零样本场景下展现出强大的泛化能力。

衍生相关工作

DeSTA-AQA5M的推出催生了一系列相关研究，包括基于自生成对齐策略的语音语言模型（如DeSTA2.5-Audio）以及跨模态融合技术的改进。这些工作进一步验证了自生成数据在音频语言模型中的有效性，并为后续研究提供了重要参考。例如，Qwen-Audio和LTU-AS等模型在数据集的基础上探索了不同的数据构造和训练策略，推动了LALM领域的快速发展。

数据集最近研究