LibriTTS

github2025-02-08 更新2025-02-10 收录

下载链接：

https://github.com/facebookresearch/audiobox-aesthetics

下载链接

链接失效反馈

官方服务：

资源简介：

LibriTTS是一个语音合成数据集，包含了清晰、自然的语音样本，用于训练和评估文本到语音的合成系统。

LibriTTS is a text-to-speech synthesis dataset containing clear and natural speech samples for training and evaluating text-to-speech synthesis systems.

创建时间：

2025-01-23

原始信息汇总

audiobox-aesthetics 数据集概述

数据集简介

统一自动质量评估，适用于语音、音乐和声音。
数据集包含四个维度的美学评分：内容愉悦度（Content Enjoyment）、内容有用性（Content Usefulness）、制作复杂度（Production Complexity）、制作质量（Production Quality）。

安装

使用pip安装： bash pip install audiobox_aesthetics
直接从源代码安装（需要Python 3.9及以上，Pytorch 2.2及以上）： bash pip install -e .

预训练模型

模型：All axes
链接：checkpoint.pt

使用方法

创建input.jsonl文件，格式如下： json {"path":"/path/to/a.wav"} {"path":"/path/to/b.wav"} ...

或者，如果只需要预测特定时间戳的美学分数： json {"path":"/path/to/a.wav", "start_time":0, "end_time": 5} {"path":"/path/to/b.wav", "start_time":3, "end_time": 10}
运行以下命令： bash audio-aes input.jsonl --ckpt "/path/to/checkpoint.pt" > output.jsonl
输出文件output.jsonl将包含与input.jsonl相同数量的行，每行包含四个维度的预测结果。

评估数据集

包含四个维度的美学评分标注数据。
数据集来源包括：LibriTTS、cv-corpus-13.0、EARS、MUSDB18、musiccaps、audioset、PAM。

许可

数据集主要遵循CC-BY 4.0协议。
部分代码遵循MIT协议。

引用

@article{tjandra2025aes, title={Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound}, author={Tjandra, Andros and Wu, Yi-Chiao and Guo, Baishan and Hoffman, John and Ellis, Brian and Vyas, Apoorv and Shi, Bowen and Chen, Sanyuan and Le, Matt and Zacharov, Nick and Wood, Carleigh and Lee, Ann and Hsu, Wei-ning}, publisher={Meta AI}, year={2025}, url={https://ai.meta.com/research/publications/meta-audiobox-aesthetics-unified-automatic-quality-assessment-for-speech-music-and-sound/} }

搜集汇总

数据集介绍

构建方式

LibriTTS数据集的构建，依托于开源语音库LibriTTS，并结合了人类注解的审美评分，形成了包含内容愉悦度、内容实用性、制作复杂度和制作质量四个维度的评估体系。该数据集通过精细的时间标注，对音频文件的各个片段进行多维度评分，以此构建起全面、多维度的音频质量评估模型。

特点

该数据集的特点在于其多维度的评估标准，不仅包括对音频内容的审美评价，还涉及音频制作的技术层面。此外，数据集采用统一的质量评估框架，适用于不同类型的音频，如语音、音乐和声音，为相关领域的研究提供了丰富的资源和可能性。

使用方法

使用LibriTTS数据集时，用户首先需要通过pip安装相关库，然后准备特定格式的jsonl文件，其中包含音频文件的路径及可选的时间戳信息。随后，通过命令行工具调用预训练模型进行评估，输出包含四个维度评分的JSON格式文件。若仅需提取单一维度的评分，可通过额外的命令行工具进行筛选。

背景与挑战

背景概述

LibriTTS数据集，创建于近期，由Meta AI的研究团队开发，旨在通过统一的自动质量评估方法，对语音、音乐和声音进行审美评价。该数据集的核心研究问题是提升语音合成质量，通过提供包含四个审美维度的标注数据，即内容愉悦度（Content Enjoyment）、内容实用性（Content Usefulness）、制作复杂性（Production Complexity）和制作质量（Production Quality），为相关领域的研究提供了有力支撑。LibriTTS数据集的影响力体现在它为语音合成质量评估提供了一个全新的多维度视角，对语音处理、音乐信息和声音工程等领域产生了深远的影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：1) 如何准确捕捉和量化主观的审美维度，这要求高精度的人工标注和可靠的评价体系；2) 数据集的多样性和代表性，确保评估结果在不同场景和文化背景下的一致性和公平性；3) 自动质量评估模型的泛化能力，需要模型能够适应不同的语音和音乐风格。此外，所解决的领域问题，即语音合成质量的评估，面临着如何客观衡量主观感受的挑战，需要不断优化评估方法和指标，以提高评估的准确性和可靠性。

常用场景

经典使用场景

LibriTTS数据集，作为统一自动质量评估的基准，其经典使用场景主要在于评估语音、音乐及声音的美学质量。该数据集通过提供多维度评分，如内容愉悦度（Content Enjoyment）、内容实用性（Content Usefulness）、制作复杂度（Production Complexity）和制作质量（Production Quality），使得研究者能够在不同的维度上对音频样本进行深入分析。

实际应用

在实际应用中，LibriTTS数据集的应用场景广泛，包括但不限于语音合成、音乐制作、声音编辑等领域的质量控制和评估。此外，它还可用于训练机器学习模型，以自动识别和分类音频片段的质量，为内容创作者和音频工程师提供客观的质量评估工具。

衍生相关工作

基于LibriTTS数据集，研究者们衍生出了一系列相关工作，如音频质量评估模型的开发、跨模态美学质量评估方法的研究，以及音频处理算法的优化。这些工作不仅扩展了LibriTTS数据集的应用范围，也为音频分析和处理领域带来了新的研究思路和技术突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集