AES-Natural

Name: AES-Natural
Creator: Meta
Published: 2025-02-08 02:15:57
License: 暂无描述

arXiv2025-02-08 更新2025-02-11 收录

下载链接：

https://github.com/facebookresearch/audiobox-aesthetics

下载链接

链接失效反馈

官方服务：

资源简介：

AES-Natural数据集是由Meta公司的研究人员创建的，该数据集包含了从开源许可的数据集中收集的约97000个音频样本，涵盖了语音、声音效果和音乐三种不同的音频模式。数据集的标注是基于四个美学维度进行的，旨在为音频质量的无参考评估提供更细致的视角。该数据集可用于训练和评估音频美学预测模型，有助于推进音频处理领域的研究。

The AES-Natural Dataset was created by researchers at Meta. It contains approximately 97,000 audio samples collected from open-licensed datasets, covering three distinct audio modalities: speech, sound effects, and music. Its annotations are based on four aesthetic dimensions, aiming to provide a more granular perspective for no-reference audio quality assessment. This dataset can be used to train and evaluate audio aesthetic prediction models, and helps advance research in the field of audio processing.

提供机构：

audiobox-aesthetics 数据集概述

数据集简介

统一自动评估语音、音乐和声音的质量。

安装方式

使用pip安装：

pip install audiobox_aesthetics
直接从源代码安装（需Python 3.9和Pytorch 2.2或更高版本）：

pip install -e .

预训练模型

所有轴的模型：checkpoint.pt

使用方法

创建jsonl格式的文件，包含音频路径及可选的起始和结束时间。
使用以下命令运行预测：

audio-aes input.jsonl --ckpt "/path/to/checkpoint.pt" > output.jsonl
输出文件包含四个轴的预测结果：内容愉悦度（CE）、内容有用性（CU）、制作复杂度（PC）、制作质量（PQ）。

评估数据集

包含四个轴的美学标注分数的评估数据集。
数据集来源包括：LibriTTS、cv-corpus-13.0、EARS、MUSDB18、musiccaps、audioset unbalanced_train_segments、PAM。

许可

大部分代码遵循CC-BY 4.0协议。
部分代码遵循MIT协议（来自microsoft/unilm）。

引用

如果本仓库对您的研究有帮助，请使用以下BibTeX引用格式。

bibtex @article{tjandra2025aes, title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound}, author={Tjandra, Andros and Wu, Yi-Chiao and Guo, Baishan and Hoffman, John and Ellis, Brian and Vyas, Apoorv and Shi, Bowen and Chen, Sanyuan and Le, Matt and Zacharov, Nick and Wood, Carleigh and Lee, Ann and Hsu, Wei-ning}, publisher={Meta AI}, year={2025}, url={https://ai.meta.com/research/publications/meta-audiobox-aesthetics-unified-automatic-quality-assessment-for-speech-music-and-sound/} }

搜集汇总

数据集介绍

构建方式

AES-Natural数据集的构建过程旨在解决音频美学量化这一难题。首先，研究人员通过专家咨询和用户研究，将音频美学分解为四个独立维度：制作质量、制作复杂性、内容愉悦度和内容实用性。然后，他们从公开的语音、声音和音乐数据集中采样，并邀请高质量的评估者对每个音频样本的四个维度进行评分。为了确保评估的准确性和一致性，研究人员采用了分层抽样、音频样本混洗和响度归一化等技术。最后，基于这些标注数据，研究人员训练了四个预测模型，分别对应四个美学维度。

使用方法

使用AES-Natural数据集时，首先需要了解数据集的结构和标注方式。数据集包含语音、声音和音乐三种类型的音频，每种类型都有大量的标注样本。研究人员可以根据需要选择特定类型的音频或整个数据集进行模型训练或评估。此外，数据集还提供了四个预训练的模型，可以直接用于预测音频在四个美学维度上的得分。这些模型可以用于数据过滤、伪标签生成、自动评估生成音频模型等任务。为了确保评估的准确性和一致性，研究人员建议使用分层抽样和响度归一化等技术对数据进行预处理。最后，研究人员可以通过比较不同模型在公共数据集和AES-Natural数据集上的表现，来评估模型的有效性和鲁棒性。

背景与挑战

背景概述

音频美学量化一直是音频处理领域的复杂挑战，主要是因为其主观性，受人类感知和文化背景的影响。传统方法通常依赖于人类听众进行评估，这导致了一致性和高资源需求。这篇论文通过提出新的注释指南来解决这个问题，这些指南将人类听众的视角分解为四个不同的维度，从而为音频美学评估提供了一个新颖的方法。我们开发和训练了无参考、逐项预测模型，这些模型能够提供更细致的音频质量评估。我们的模型通过与人类平均意见得分（MOS）和现有方法进行比较，展示了可比较或更优的性能。这项研究不仅推动了音频美学领域的发展，还提供了开源模型和数据集，以促进未来的工作和基准测试。我们在 https://github.com/facebookresearch/audiobox-aesthetics 发布了我们的代码和预训练模型。

当前挑战

AES-Natural数据集面临着几个挑战。首先，音频美学的量化由于其主观性而变得复杂，这要求开发能够预测音频美学的自动化系统。其次，构建过程中遇到了挑战，包括如何将人类听众的视角分解为不同的维度，以及如何训练能够提供更细致评估的无参考、逐项预测模型。最后，数据集的构建也面临挑战，需要收集和标注大量的音频样本，以确保数据集能够代表现实世界中的音频样本分布。

常用场景

经典使用场景

AES-Natural数据集被广泛应用于音频美学评估领域，其经典使用场景包括音频数据过滤、伪标签生成以及生成音频模型的质量评估。该数据集提供了丰富的音频样本，涵盖了语音、音乐和声音等多种音频类型，为音频美学评估提供了重要的数据支持。通过使用AES-Natural数据集，研究人员可以训练出更加准确和细致的音频美学评估模型，从而提高音频处理和生成任务的质量。

解决学术问题

AES-Natural数据集解决了音频美学评估领域长期存在的难题，即如何客观量化音频质量。传统方法依赖人工评估，存在主观性强、资源消耗大等问题。AES-Natural数据集提出了新的音频美学评估方法，将人类听觉感知分解为四个不同的维度，并训练了无需参考、逐项预测的模型，从而提供了更加细腻的音频质量评估。此外，AES-Natural数据集还提供了开源模型和代码，为未来的研究和基准测试提供了便利。

实际应用

AES-Natural数据集在实际应用中具有重要的价值。例如，在音频数据过滤方面，AES-Natural数据集可以帮助研究人员筛选出高质量的音频样本，用于下游任务。在伪标签生成方面，AES-Natural数据集可以用于自动标注大型数据集，提高标注效率。在生成音频模型的质量评估方面，AES-Natural数据集可以用于评估生成音频模型的质量，为模型的优化和改进提供参考。此外，AES-Natural数据集还可以用于音频内容创作，帮助内容创作者选择高质量的音频素材。

数据集最近研究