ODAQ (Open Dataset of Audio Quality)

Name: ODAQ (Open Dataset of Audio Quality)
Creator: 弗劳恩霍夫集成电路研究所, 鲍尔州立大学, Netflix公司
Published: 2025-12-11 22:35:44
License: 暂无描述

arXiv2025-12-11 更新2025-12-13 收录

下载链接：

https://www.mmsp.ece.mcgill.ca/Documents/Software/

下载链接

链接失效反馈

官方服务：

资源简介：

ODAQ（开放音频质量数据集）是由弗劳恩霍夫集成电路研究所、鲍尔州立大学和Netflix公司联合创建的一个综合性音频质量研究数据集，旨在探索单声道和双声道音频质量退化问题。该数据集包含多种失真类型和信号，以及相应的主观质量评分，数据量涵盖119个音频条目，采样率为48kHz/24位。数据集通过Mid/Side (MS)和Left/Right (LR)等立体声处理技术生成退化信号，并提供了详细的听觉测试结果。其创建过程包括信号处理、主观评分收集和数据分析，主要用于评估现有和新型客观音频质量指标的效能，特别是在复杂听觉场景下的表现。该数据集的应用领域涵盖音频编码、语音清晰度评估、助听器音频质量优化以及基础心理声学研究，旨在解决音频质量评估中时间和空间维度相互作用的复杂问题。

ODAQ (Open Audio Quality Dataset) is a comprehensive audio quality research dataset jointly developed by Fraunhofer Institute for Integrated Circuits, Ball State University, and Netflix, Inc., aiming to investigate audio quality degradation issues in monophonic and stereophonic audio. This dataset contains various distortion types, audio signals, and corresponding subjective quality scores, with a total of 119 audio entries sampled at 48kHz/24-bit. Degraded audio signals are generated via stereo processing techniques such as Mid/Side (MS) and Left/Right (LR), and detailed auditory test results are provided. Its development pipeline includes signal processing, subjective rating collection, and data analysis, and it is primarily used to evaluate the performance of both existing and novel objective audio quality metrics, particularly their performance in complex auditory scenarios. The applicable fields of this dataset cover audio coding, speech intelligibility assessment, hearing aid audio quality optimization, and basic psychoacoustic research, with the goal of addressing the complex problem of the interaction between temporal and spatial dimensions in audio quality evaluation.

提供机构：

弗劳恩霍夫集成电路研究所, 鲍尔州立大学, Netflix公司

创建时间：

2025-12-11

搜集汇总

数据集介绍

构建方式

在音频质量评估领域，ODAQ数据集的构建遵循了严谨的实验设计原则。该数据集通过多刺激隐藏参考与锚点测试方法，采集了16名参与者在声学阻尼环境中使用专业耳机对立体声音频样本的主观质量评分。音频样本涵盖独奏乐器、流行音乐及硬平移对话等多种立体声特性的48kHz/24位立体声片段，并采用左/右和中/侧两种立体声处理技术，在五个质量等级上引入了量化噪声和频谱空洞两类失真。数据集特别设计了同质与混合呈现上下文，以系统考察呈现环境对主观评分的影响。

特点

ODAQ数据集的核心特点在于其针对立体声处理质量的专门化设计。它不仅提供了涵盖单耳与双耳感知的音频质量退化样本，更通过精心控制的立体声编码失真，深入揭示了中/侧与左/右处理对空间成像和伪影可听性的差异化影响。数据集独特地包含了硬平移与非硬平移听觉对象的对比样本，这为检验客观指标在通道内容显著不对称情况下的鲁棒性提供了关键场景。其包含的混合呈现上下文试验，进一步暴露了当前客观指标在模拟自上而下认知因素方面的局限性。

使用方法

该数据集主要作为客观音频质量指标的基准测试平台。研究人员可将待评估的客观质量指标（如PEAQ、HAAQI、MoBi-Q等）应用于ODAQ提供的失真音频样本及其对应的参考信号，计算预测的质量分数。随后，将这些预测分数与数据集附带的主观评分进行相关性分析（如皮尔逊相关系数），以验证指标在预测立体声处理失真感知质量方面的有效性。数据集特别适用于评估指标在复杂呈现上下文及通道非对称内容下的性能，并可用于探索如何将双耳空间线索与单耳音色质量模型更有效地融合为统一的感知质量分数。

背景与挑战

背景概述

音频质量评估领域长期面临主观评价成本高昂且难以标准化的困境，促使研究人员构建可重复使用的基准数据集。ODAQ（开放音频质量数据集）由弗劳恩霍夫集成电路研究所、波尔州立大学及Netflix等机构的研究团队联合创建，旨在系统探索单声道与双声道音频质量退化问题。该数据集通过整合多种失真类型与主观评分，为核心研究问题——即如何精准量化感知音频质量——提供了实证基础。其设计不仅涵盖传统音色维度，更深入涉及空间音频处理技术如中/侧声道编码的影响，为客观音频质量指标的验证与改进奠定了关键基石，推动了心理声学模型与上下文因素交互作用的研究范式。

当前挑战

ODAQ数据集所应对的核心领域挑战在于如何建立能够同时准确评估音色保真度与空间成像质量的统一客观度量标准。现有模型往往偏重音色维度，在复杂立体声处理场景下预测性能显著下降，尤其当失真以中/侧声道编码等非对称方式引入时。数据构建过程中的挑战则体现在多维度实验设计上：需精确控制不同立体声处理技术（如左右独立编码与中/侧编码）产生的退化效应，并系统采集人类听者在多样化呈现语境下的主观评分。更深刻的挑战在于建模呈现语境对主观判断的调控作用，这要求数据集能够揭示自下而上心理声学过程与自上而下认知因素之间的动态交互机制。

常用场景

经典使用场景

在音频工程领域，ODAQ数据集常被用作评估客观音频质量指标的基准工具。该数据集通过提供涵盖单声道与双声道处理的多样化失真信号及主观质量评分，为研究者深入探究立体声处理技术（如中/侧声道编码与左/右声道编码）对感知音频质量的影响奠定了坚实基础。经典应用场景包括系统性地测试各类感知音频质量评估模型，例如PEAQ、PEMO-Q及MoBi-Q等，在复杂立体声环境下的预测性能，从而揭示时间调制失真与空间线索在质量评估中的相对重要性。

衍生相关工作

基于ODAQ数据集，一系列经典研究工作得以衍生并深化。例如，研究团队扩展了PEAQ模型的双声道版本，整合了基于DFT和滤波器组的双耳线索提取模型，以探索空间音频质量的客观评估方法。同时，MoBi-Q及其高效变体eMoBi-Q利用该数据集验证了单耳与双耳质量线索的组合机制。此外，对PEMO-Q和PEAQ-CSM等模型的性能分析，进一步推动了认知显著性模型在音频质量评估中的应用，为构建更稳健的跨上下文质量预测系统提供了理论依据。

数据集最近研究