libritts-r-mimi

Hugging Face2024-12-31 更新2025-01-01 收录

下载链接：

https://huggingface.co/datasets/jkeisling/libritts-r-mimi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集将LibriTTS-R数据集中的音频从波形转换为Mimi神经编解码器的令牌，旨在作为DualAR音频模型的目标，同时也允许用户以更小的空间下载所有音频。数据集包含多个分割，如dev.clean、test.clean、train.clean.100和train.clean.360，并提供了如何使用Hugging Face Transformers解码音频的代码示例。数据集不包含原始音频，用户需要使用原始的LibriTTS-R数据集来获取原始音频。

创建时间：

2024-12-31

搜集汇总

数据集介绍

构建方式

libritts-r-mimi数据集基于LibriTTS-R语料库构建，通过将原始音频波形转换为Kyutai的Mimi神经编解码器生成的token序列。该数据集涵盖了LibriTTS-R中的`dev.clean`、`test.clean`、`train.clean.100`和`train.clean.360`四个子集，旨在为DualAR音频模型提供目标数据。通过这种转换，音频数据以token形式存储，显著减少了存储空间需求，约为原始音频的1/50至1/100。

特点

libritts-r-mimi数据集的主要特点在于其高效的存储形式，通过Mimi编解码器将音频数据压缩为token序列，极大降低了数据存储和传输的开销。数据集包含多个字段，如`text_normalized`、`text_original`、`speaker_id`等，提供了丰富的元信息。此外，数据集支持多种配置和分割方式，便于用户根据需求灵活加载和使用。

使用方法

使用libritts-r-mimi数据集时，用户可以通过Hugging Face的`load_dataset`函数加载数据，并选择特定的配置和分割方式。数据集支持流式加载，适合处理大规模数据。用户还可以利用`rustymimi`或Transformers库对token进行解码，还原为音频波形。示例代码展示了如何使用Transformers库加载数据集并解码音频，生成WAV格式的音频文件。

背景与挑战

背景概述

LibriTTS-R Mimi编码数据集是基于LibriTTS-R语料库的衍生版本，专注于将音频波形转换为Mimi神经编解码器的标记形式。该数据集由Kyutai实验室于2023年发布，旨在为DualAR音频模型提供训练目标，同时显著减少音频数据的存储空间。LibriTTS-R语料库本身是LibriTTS的改进版本，由Koizumi等人于2023年提出，通过对原始音频进行质量增强，显著提升了语音的自然度和清晰度。该数据集在语音合成领域具有重要影响力，为研究人员提供了高质量的语音数据，推动了端到端语音合成技术的发展。

当前挑战

LibriTTS-R Mimi编码数据集在构建和应用过程中面临多重挑战。首先，音频波形到标记的转换过程需要高效的编解码算法，以确保数据的准确性和压缩效率。其次，尽管数据集显著减少了存储空间，但解码过程依赖于特定的工具（如rustymimi或Transformers），这增加了使用门槛。此外，数据集并未包含原始音频，用户需结合LibriTTS-R语料库进行完整研究，增加了数据管理的复杂性。最后，由于该数据集主要用于个人项目，缺乏持续的维护和支持，可能影响其长期可用性和更新。

常用场景

经典使用场景

在语音合成领域，libritts-r-mimi数据集被广泛用于训练和评估基于神经编解码器的文本到语音模型。该数据集通过将音频波形转换为Mimi编解码器的token，显著减少了存储空间需求，同时保留了高质量的语音特征。研究人员可以利用这些token进行DualAR音频模型的训练，从而提升语音合成的自然度和流畅性。

衍生相关工作

libritts-r-mimi数据集衍生了一系列经典研究工作，特别是在基于神经编解码器的语音合成领域。例如，Kyutai Labs开发的Mimi编解码器及其相关工具链，如rustymimi，为音频token的编码和解码提供了高效解决方案。此外，基于该数据集的研究还推动了DualAR音频模型的发展，进一步提升了语音合成的质量和效率。

数据集最近研究