LibriTTS
收藏audiobox-aesthetics 数据集概述
数据集简介
- 统一自动质量评估,适用于语音、音乐和声音。
- 数据集包含四个维度的美学评分:内容愉悦度(Content Enjoyment)、内容有用性(Content Usefulness)、制作复杂度(Production Complexity)、制作质量(Production Quality)。
安装
-
使用pip安装: bash pip install audiobox_aesthetics
-
直接从源代码安装(需要Python 3.9及以上,Pytorch 2.2及以上): bash pip install -e .
预训练模型
- 模型:All axes
- 链接:checkpoint.pt
使用方法
-
创建
input.jsonl文件,格式如下: json {"path":"/path/to/a.wav"} {"path":"/path/to/b.wav"} ...或者,如果只需要预测特定时间戳的美学分数: json {"path":"/path/to/a.wav", "start_time":0, "end_time": 5} {"path":"/path/to/b.wav", "start_time":3, "end_time": 10}
-
运行以下命令: bash audio-aes input.jsonl --ckpt "/path/to/checkpoint.pt" > output.jsonl
-
输出文件
output.jsonl将包含与input.jsonl相同数量的行,每行包含四个维度的预测结果。
评估数据集
- 包含四个维度的美学评分标注数据。
- 数据集来源包括:LibriTTS、cv-corpus-13.0、EARS、MUSDB18、musiccaps、audioset、PAM。
许可
- 数据集主要遵循CC-BY 4.0协议。
- 部分代码遵循MIT协议。
引用
@article{tjandra2025aes, title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound}, author={Tjandra, Andros and Wu, Yi-Chiao and Guo, Baishan and Hoffman, John and Ellis, Brian and Vyas, Apoorv and Shi, Bowen and Chen, Sanyuan and Le, Matt and Zacharov, Nick and Wood, Carleigh and Lee, Ann and Hsu, Wei-ning}, publisher={Meta AI}, year={2025}, url={https://ai.meta.com/research/publications/meta-audiobox-aesthetics-unified-automatic-quality-assessment-for-speech-music-and-sound/} }




