libritts-bpe-tokens

Name: libritts-bpe-tokens
Creator: Trelis
Published: 2026-05-15 19:06:57
License: 暂无描述

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/Trelis/libritts-bpe-tokens

下载链接

链接失效反馈

官方服务：

资源简介：

libritts-bpe-tokens是一个基于LibriTTS-R语音数据集的文本token表示数据集。它使用GPT-2 BPE分词器对LibriTTS-R的标准化文本转录进行处理，为每个话语生成token ID序列，并在序列末尾添加EOS token（ID为50256），词汇表大小为50,257。数据集遵循原始LibriTTS-R的分割结构，包含约538小时的音频对应文本，分为四个标准子集：train.clean.100（约32k个话语，53小时）、train.clean.360（约112k个话语，218小时）、train.other.500（约250k个话语，258小时）和dev.clean（约5.6k个话语，9小时），训练集与开发集在说话人上无重叠。每行数据代表一个话语，包含四个字段：id（原始LibriTTS的话语标识符，格式为speaker_chapter_segment）、speaker（说话人ID）、text（原始的标准化文本）和token_ids（GPT-2 BPE token ID列表，类型为uint32）。该数据集适用于需要预训练文本token表示的语音处理任务，如语音合成、语音识别或语音语言模型训练。它是Trelis提供的多个同源token化数据集之一，其他变体采用不同tokenization方案。数据来源于已过滤的parler-tts/libritts_r_filtered数据集，原始音频为24 kHz，部分配套数据集的音频经过了重采样或截断（超过20秒的话语音频被截断，但文本保留完整）。数据集许可证为CC-BY-4.0（与LibriTTS-R一致），GPT-2分词器使用MIT许可证。

libritts-bpe-tokens is a text token representation dataset built upon the LibriTTS-R speech dataset. It processes the normalized text transcriptions of LibriTTS-R using the GPT-2 BPE tokenizer, generates token ID sequences for each utterance, and appends an EOS token with ID 50256 at the end of each sequence. The vocabulary size is 50,257. The dataset follows the original split structure of LibriTTS-R, covering approximately 538 hours of audio-aligned text, and is divided into four standard subsets: train.clean.100 (~32k utterances, 53 hours), train.clean.360 (~112k utterances, 218 hours), train.other.500 (~250k utterances, 258 hours), and dev.clean (~5.6k utterances, 9 hours). No speaker overlap is present between the training and development sets. Each row in the dataset corresponds to one utterance, containing four fields: id (the original LibriTTS utterance identifier in the format `speaker_chapter_segment`), speaker (speaker ID), text (the original normalized text), and token_ids (a list of GPT-2 BPE token IDs with data type `uint32`). This dataset is applicable to speech processing tasks requiring pre-trained text token representations, such as speech synthesis, speech recognition, and speech language model training. It is one of multiple homologous tokenized datasets offered by Trelis, with other variants utilizing different tokenization strategies. The dataset is derived from the filtered parler-tts/libritts_r_filtered dataset. The original audio has a sampling rate of 24 kHz; audio in some associated datasets has been resampled or truncated—audio segments exceeding 20 seconds are truncated, while their corresponding text remains fully intact. The dataset is licensed under CC-BY-4.0, consistent with the license of LibriTTS-R, while the GPT-2 tokenizer uses the MIT License.

提供机构：

Trelis

创建时间：

2026-05-15

原始信息汇总

数据集概述：libritts-bpe-tokens

该数据集是基于 LibriTTS-R 语料库的 text_normalized 转录文本，经过 GPT-2 BPE 分词器处理后的 token 序列。每个话语以 EOS token（50256）终止，token 列名为 token_ids（类型为 list[int]），词汇表大小为 50,257。

数据集规模与划分

数据集包含约 538 小时的语音数据，划分为以下四个子集（继承自 parler-tts 过滤后的 LibriTTS-R 划分）：

子集	话语条数	时长
`train.clean.100`	~32,000	~53 小时
`train.clean.360`	~112,000	~218 小时
`train.other.500`	~250,000	~258 小时
`dev.clean`	~5,600	~9 小时

各划分之间结构上不相交（训练集与开发集无说话人重叠）。

数据模式（每行一个话语）

列名	类型	描述
`id`	string	源话语 ID（格式：`speaker_chapter_segment`）
`speaker`	string	LibriTTS 说话人 ID
`text`	string	源数据中的 `text_normalized` 字段
`token_ids`	list[uint32]	GPT-2 BPE token 序列（含 EOS），词汇表 50,257

加载示例（Python）

python from datasets import load_dataset ds = load_dataset("Trelis/libritts-bpe-tokens") clean_360 = load_dataset("Trelis/libritts-bpe-tokens", split="train.clean.360") all_train = load_dataset("Trelis/libritts-bpe-tokens", split="train.clean.100+train.clean.360+train.other.500")

许可证

CC-BY-4.0（与 LibriTTS-R 源数据一致），GPT-2 分词器为 MIT 许可证。

搜集汇总

数据集介绍

构建方式

libritts-bpe-tokens数据集基于LibriTTS-R语料库的标准化文本转录构建而成。原始音频素材源自parler-tts团队过滤后的LibriTTS-R集合，总时长约538小时。每一段话语均采用GPT-2分词器进行BPE编码，并附加句尾标识符（EOS token，编号50256），最终形成包含50257个词汇的标记序列。数据集严格遵循原始语料的划分结构，包括train.clean.100、train.clean.360、train.other.500、dev.clean等子集，各子集之间在说话人层面无重叠，确保了结构上的隔离性。每条数据记录了话语ID、说话人ID、原始文本及对应的标记序列。

特点

该数据集的核心特色在于其标准化的标记化处理流程，通过定长的BPE词汇表统一了文本表示，为下游语音合成任务提供了直接的输入接口。数据量级覆盖了从约53小时到258小时不等的多样性时长，兼顾了训练效率与数据覆盖面。尤为重要的是，数据集与其他基于相同音频内容但采用不同编解码器（如Mimi、SNAC、NeuCodec）的标记集形成互补，为多模态语音建模提供了统一的文本侧表示。此外，数据集在音频预处理方面体现了细致考量，针对不同采样率的编解码器分别采用了相应的重采样与截断策略。

使用方法

使用者可通过HuggingFace的datasets库便捷加载数据，支持加载全部子集或按需指定单个训练集。为满足多阶段训练需求，数据集支持将多个训练子集合并为单一混连的集合，便于灵活构建大规模训练数据。加载后的数据以字典形式返回，包含话语标识符、说话人信息、原始文本及BPE标记序列。对于希望复现数据处理流程的研究者，项目提供了开源的编码工具，详细说明了音频重采样与标记化参数的计算逻辑，确保了数据生成的可追溯性与可重复性。

背景与挑战

背景概述

在语音合成与自然语言处理交叉领域，将文本与音频模态高效对齐是构建高质量语音语言模型的核心挑战。LibriTTS-BPE-Tokens数据集由Trelis Research团队于2023年创建，基于LibriTTS-R语料库的标准化文本转录，通过GPT-2的BPE分词器将其转化为包含50257个词汇的离散令牌序列，每条话语以EOS令牌终止。该数据集直接服务于神经编解码模型与语言模型的联合训练，为语音理解与生成任务提供了标准化的文本表征接口。通过提供与多种音频令牌数据集（如Mimi、SNAC、NeuCodec）兼容的文本令牌版本，该数据集显著降低了多模态预训练的数据预处理壁垒，推动了端到端语音语言模型的发展。

当前挑战

该数据集面临的核心挑战在于其依赖的文本分词与音频编解码对齐精度。文本令牌序列需与音频令牌在时间轴上严格对应，然而长音频截断策略（超过20秒截断）可能导致文本与音频的语义不匹配，影响模型对完整句子的学习。此外，BPE分词器的固定词表（50257）可能无法覆盖罕见词汇或口音变体，造成OOV问题。构建过程中，不同音频编解码器（如16kHz的NeuCodec与24kHz的Mimi/SNAC）需采用差异化的重采样方法与令牌计数规则，增加了数据预处理的复杂度与一致性维护的难度，限制了数据集在跨编解码器对比实验中的直接适用性。

常用场景

经典使用场景

在语音合成与文本到语音生成的研究领域中，libritts-bpe-tokens数据集扮演着桥梁的角色，它将LibriTTS-R语料库中经过文本标准化的转录内容，通过GPT-2的BPE分词器转化为离散的token序列，每个 utterance 以EOS标记收尾。这一设计使得研究人员能够直接利用大规模语言模型的预训练知识来处理语音转录任务，经典使用方式是将该数据集作为神经编解码语言模型（如VALL-E、SpeechGPT等）的文本侧输入，实现文本与语音token的对齐训练，或用于多模态语音理解模型的预训练阶段。

衍生相关工作

围绕libritts-bpe-tokens数据集，学术界衍生出一系列具有影响力的研究工作。最典型的包括基于编解码语言模型的语音合成体系，如以VALL-E为代表的自回归语音生成模型利用此类文本token实现语音克隆；还有以SpeechGPT为代表的多模态理解框架，通过文本token与语音token的混合训练实现跨模态语义对齐。此外，parler-tts项目在过滤和整理LibriTTS-R数据时采用了本数据集的分词方案，衍生出多个针对不同编解码器（如Mimi、SNAC、NeuCodec）的token化变体数据集，形成了完整的语音token标准化生态，推动了开源语音合成领域的快速发展。

数据集最近研究

libritts-bpe-tokens

数据集概述：libritts-bpe-tokens

数据集规模与划分

数据模式（每行一个话语）

加载示例（Python）

相关数据集（相同音频，不同分词方式）

许可证