Discrete Audio and Speech Benchmark (DASB)
收藏arXiv2024-06-22 更新2024-06-24 收录
下载链接:
https://github.com/speechbrain/benchmarks/tree/DASB
下载链接
链接失效反馈官方服务:
资源简介:
Discrete Audio and Speech Benchmark (DASB) 是一个全面评估离散音频令牌的基准,由康考迪亚大学和米拉-魁北克人工智能研究所等机构创建。该数据集涵盖了广泛的区分性和生成性任务,如语音识别、说话人识别和验证、情感识别等。DASB通过评估不同类型的离散音频编码器,包括语义、压缩和混合编码器,来确定最适合各种任务的令牌化器。数据集的创建过程涉及使用预训练的模型和量化技术,旨在通过标准化评估框架,推动离散音频表示的研究。DASB的应用领域广泛,旨在解决音频和语言处理中的关键问题,如提高多模态大型语言模型的性能。
The Discrete Audio and Speech Benchmark (DASB) is a comprehensive benchmark for evaluating discrete audio tokens, developed by institutions including Concordia University and Mila - Quebec Artificial Intelligence Institute. This dataset covers a wide range of discriminative and generative tasks, such as speech recognition, speaker recognition and verification, emotion recognition and more. DASB determines the most suitable tokenizers for various tasks by evaluating different types of discrete audio encoders, including semantic, compression-based and hybrid encoders. The development of this dataset involves the use of pre-trained models and quantization techniques, aiming to advance research on discrete audio representations via a standardized evaluation framework. DASB has broad application scenarios, aiming to address key issues in audio and language processing, such as improving the performance of multimodal large language models.
提供机构:
康考迪亚大学 2米拉-魁北克人工智能研究所 3阿维尼翁大学 4蒙特利尔大学 5拉瓦尔大学
创建时间:
2024-06-20
搜集汇总
数据集介绍

构建方式
DASB数据集的构建涉及将音频信号转换为一序列离散令牌的过程。该过程分为三个主要步骤:首先,离散音频编码器将音频信号转换为离散令牌;其次,这些令牌通过注意力机制与下游模型相结合,以进行最终的预测;最后,对于生成性任务,预测的令牌被传递给离散解码器,将其转换回音频波形。编码器和解码器都在大量未标记数据上进行预训练,并在下游模型训练过程中保持冻结。
特点
DASB数据集的特点在于它全面评估了各种音频令牌在多个常见语音处理任务中的表现。该数据集涵盖了广泛的判别性任务,包括语音识别、说话人识别和验证、情感识别、关键词检测和意图分类,以及生成性任务,如语音增强、分离和文本到语音。此外,DASB为研究者提供了一个模块化的代码库,基于流行的SpeechBrain工具包,并遵循Apache 2.0许可。
使用方法
使用DASB数据集时,首先需要选择适当的离散音频编码器,然后使用下游模型对其进行训练。下游模型可以是针对不同任务设计的神经网络,如自动语音识别、说话人识别/验证、情感识别、意图分类、关键词检测等。在生成性任务中,预测的令牌将被传递给离散解码器,以将其转换回音频波形。DASB提供了广泛的任务和模型配置,以帮助研究者评估和比较不同音频令牌的性能。
背景与挑战
背景概述
近年来,离散音频标记因其将音频和语言处理连接起来的潜力而备受关注,从而能够创建现代的多模态大型语言模型。理想音频标记必须有效地保留语音和语义内容,以及副语言信息、说话者身份和其他详细信息。尽管最近提出了几种类型的音频标记,但由于现有研究中评估设置的不一致,识别各种任务的理想标记器仍然具有挑战性。为了解决这个问题,我们发布了离散音频和语音基准(DASB),这是一个全面的排行榜,用于在各种判别性任务中对离散音频标记进行基准测试,包括语音识别、说话者识别和验证、情绪识别、关键词检测和意图分类,以及生成性任务,如语音增强、分离和语音到文本。我们的结果表明,平均而言,语义标记在大多数判别性和生成性任务中优于压缩标记。然而,语义标记与标准连续表示之间的性能差距仍然很大,这突出了该领域进一步研究的必要性。
当前挑战
DASB基准测试面临的主要挑战包括:1) 确定在各个任务中表现最佳的音频标记器,因为不同的标记器在不同任务中的表现差异很大;2) 建立一个标准化评估基准,以解决现有研究中评估设置不一致的问题;3) 开发能够更好地保留语音、说话者身份和情绪等信息的音频标记器,以缩小与连续表示之间的性能差距;4) 探索离散音频标记在多模态大型语言模型中的应用,以充分利用音频和文本标记的结合。
常用场景
经典使用场景
Discrete Audio and Speech Benchmark (DASB) 是一个用于评估离散音频标记在广泛区分任务中的性能的基准测试。它涵盖了语音识别、说话人识别和验证、情绪识别、关键词检测和意图分类等判别性任务,以及语音增强、分离和文本到语音等生成性任务。DASB 旨在帮助研究人员确定不同任务中最佳音频标记器,并为多模态大型语言模型的发展提供参考。
解决学术问题
DASB 解决了现有研究中音频标记评估设置不一致的问题。通过提供一个标准化的评估框架,DASB 使研究人员能够更容易地比较不同音频标记的性能。此外,DASB 还揭示了语义标记在大多数区分和生成任务中优于压缩标记,但与标准连续表示相比仍存在性能差距,突出了在该领域进一步研究的必要性。
衍生相关工作
DASB 衍生了多项相关工作,包括音频语言模型、多模态大型语言模型和语音生成任务。音频语言模型通过将音频表示为离散标记序列,实现了对音频和语言处理的连接,为多模态大型语言模型的发展奠定了基础。多模态大型语言模型能够处理音频、文本和视觉数据,为语音识别、语音合成、语音翻译等任务提供了更强大的支持。语音生成任务,如语音增强和合成,通过将任务转化为分类问题,简化了音频生成过程。
以上内容由遇见数据集搜集并总结生成



