five

libritts-bpe-tokens

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/Trelis/libritts-bpe-tokens
下载链接
链接失效反馈
官方服务:
资源简介:
libritts-bpe-tokens是一个基于LibriTTS-R语音数据集的文本token表示数据集。它使用GPT-2 BPE分词器对LibriTTS-R的标准化文本转录进行处理,为每个话语生成token ID序列,并在序列末尾添加EOS token(ID为50256),词汇表大小为50,257。数据集遵循原始LibriTTS-R的分割结构,包含约538小时的音频对应文本,分为四个标准子集:train.clean.100(约32k个话语,53小时)、train.clean.360(约112k个话语,218小时)、train.other.500(约250k个话语,258小时)和dev.clean(约5.6k个话语,9小时),训练集与开发集在说话人上无重叠。每行数据代表一个话语,包含四个字段:id(原始LibriTTS的话语标识符,格式为speaker_chapter_segment)、speaker(说话人ID)、text(原始的标准化文本)和token_ids(GPT-2 BPE token ID列表,类型为uint32)。该数据集适用于需要预训练文本token表示的语音处理任务,如语音合成、语音识别或语音语言模型训练。它是Trelis提供的多个同源token化数据集之一,其他变体采用不同tokenization方案。数据来源于已过滤的parler-tts/libritts_r_filtered数据集,原始音频为24 kHz,部分配套数据集的音频经过了重采样或截断(超过20秒的话语音频被截断,但文本保留完整)。数据集许可证为CC-BY-4.0(与LibriTTS-R一致),GPT-2分词器使用MIT许可证。

libritts-bpe-tokens is a text token representation dataset based on the LibriTTS-R speech dataset. It processes the normalized text transcriptions of LibriTTS-R using the GPT-2 BPE tokenizer, generating corresponding token ID sequences for each utterance and appending an EOS token (ID 50256) at the end, with a vocabulary size of 50,257. The dataset follows the original LibriTTS-R split structure, containing approximately 538 hours of audio-corresponding text, divided into four standard subsets: train.clean.100 (about 32k utterances, 53 hours), train.clean.360 (about 112k utterances, 218 hours), train.other.500 (about 250k utterances, 258 hours), and dev.clean (about 5.6k utterances, 9 hours), with no speaker overlap between the training and development sets. Each row in the dataset represents an utterance and includes four fields: `id` (the original LibriTTS utterance identifier in the format speaker_chapter_segment), `speaker` (speaker ID), `text` (the original normalized text), and `token_ids` (a list of GPT-2 BPE token IDs, type uint32). This dataset is suitable for speech processing tasks that require pre-trained text token representations, such as speech synthesis, speech recognition, or training speech-language models. It is one of several homologous tokenized datasets provided by Trelis, with other variants employing different tokenization schemes. The data is sourced from the filtered parler-tts/libritts_r_filtered dataset, with original audio at 24 kHz, and some accompanying datasets have audio resampled or truncated (audio longer than 20 seconds is truncated, but the text remains intact). The dataset license is CC-BY-4.0, consistent with LibriTTS-R, and the GPT-2 tokenizer uses the MIT license.
提供机构:
Trelis
创建时间:
2026-05-15
原始信息汇总

数据集概述:libritts-bpe-tokens

该数据集是基于 LibriTTS-R 语料库的 text_normalized 转录文本,经过 GPT-2 BPE 分词器处理后的 token 序列。每个话语以 EOS token(50256)终止,token 列名为 token_ids(类型为 list[int]),词汇表大小为 50,257。

数据集规模与划分

数据集包含约 538 小时的语音数据,划分为以下四个子集(继承自 parler-tts 过滤后的 LibriTTS-R 划分):

子集 话语条数 时长
train.clean.100 ~32,000 ~53 小时
train.clean.360 ~112,000 ~218 小时
train.other.500 ~250,000 ~258 小时
dev.clean ~5,600 ~9 小时

各划分之间结构上不相交(训练集与开发集无说话人重叠)。

数据模式(每行一个话语)

列名 类型 描述
id string 源话语 ID(格式:speaker_chapter_segment
speaker string LibriTTS 说话人 ID
text string 源数据中的 text_normalized 字段
token_ids list[uint32] GPT-2 BPE token 序列(含 EOS),词汇表 50,257

加载示例(Python)

python from datasets import load_dataset ds = load_dataset("Trelis/libritts-bpe-tokens") clean_360 = load_dataset("Trelis/libritts-bpe-tokens", split="train.clean.360") all_train = load_dataset("Trelis/libritts-bpe-tokens", split="train.clean.100+train.clean.360+train.other.500")

相关数据集(相同音频,不同分词方式)

许可证

CC-BY-4.0(与 LibriTTS-R 源数据一致),GPT-2 分词器为 MIT 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
libritts-bpe-tokens数据集基于LibriTTS-R语料库的标准化文本转录构建而成。原始音频素材源自parler-tts团队过滤后的LibriTTS-R集合,总时长约538小时。每一段话语均采用GPT-2分词器进行BPE编码,并附加句尾标识符(EOS token,编号50256),最终形成包含50257个词汇的标记序列。数据集严格遵循原始语料的划分结构,包括train.clean.100、train.clean.360、train.other.500、dev.clean等子集,各子集之间在说话人层面无重叠,确保了结构上的隔离性。每条数据记录了话语ID、说话人ID、原始文本及对应的标记序列。
特点
该数据集的核心特色在于其标准化的标记化处理流程,通过定长的BPE词汇表统一了文本表示,为下游语音合成任务提供了直接的输入接口。数据量级覆盖了从约53小时到258小时不等的多样性时长,兼顾了训练效率与数据覆盖面。尤为重要的是,数据集与其他基于相同音频内容但采用不同编解码器(如Mimi、SNAC、NeuCodec)的标记集形成互补,为多模态语音建模提供了统一的文本侧表示。此外,数据集在音频预处理方面体现了细致考量,针对不同采样率的编解码器分别采用了相应的重采样与截断策略。
使用方法
使用者可通过HuggingFace的datasets库便捷加载数据,支持加载全部子集或按需指定单个训练集。为满足多阶段训练需求,数据集支持将多个训练子集合并为单一混连的集合,便于灵活构建大规模训练数据。加载后的数据以字典形式返回,包含话语标识符、说话人信息、原始文本及BPE标记序列。对于希望复现数据处理流程的研究者,项目提供了开源的编码工具,详细说明了音频重采样与标记化参数的计算逻辑,确保了数据生成的可追溯性与可重复性。
背景与挑战
背景概述
在语音合成与自然语言处理交叉领域,将文本与音频模态高效对齐是构建高质量语音语言模型的核心挑战。LibriTTS-BPE-Tokens数据集由Trelis Research团队于2023年创建,基于LibriTTS-R语料库的标准化文本转录,通过GPT-2的BPE分词器将其转化为包含50257个词汇的离散令牌序列,每条话语以EOS令牌终止。该数据集直接服务于神经编解码模型与语言模型的联合训练,为语音理解与生成任务提供了标准化的文本表征接口。通过提供与多种音频令牌数据集(如Mimi、SNAC、NeuCodec)兼容的文本令牌版本,该数据集显著降低了多模态预训练的数据预处理壁垒,推动了端到端语音语言模型的发展。
当前挑战
该数据集面临的核心挑战在于其依赖的文本分词与音频编解码对齐精度。文本令牌序列需与音频令牌在时间轴上严格对应,然而长音频截断策略(超过20秒截断)可能导致文本与音频的语义不匹配,影响模型对完整句子的学习。此外,BPE分词器的固定词表(50257)可能无法覆盖罕见词汇或口音变体,造成OOV问题。构建过程中,不同音频编解码器(如16kHz的NeuCodec与24kHz的Mimi/SNAC)需采用差异化的重采样方法与令牌计数规则,增加了数据预处理的复杂度与一致性维护的难度,限制了数据集在跨编解码器对比实验中的直接适用性。
常用场景
经典使用场景
在语音合成与文本到语音生成的研究领域中,libritts-bpe-tokens数据集扮演着桥梁的角色,它将LibriTTS-R语料库中经过文本标准化的转录内容,通过GPT-2的BPE分词器转化为离散的token序列,每个 utterance 以EOS标记收尾。这一设计使得研究人员能够直接利用大规模语言模型的预训练知识来处理语音转录任务,经典使用方式是将该数据集作为神经编解码语言模型(如VALL-E、SpeechGPT等)的文本侧输入,实现文本与语音token的对齐训练,或用于多模态语音理解模型的预训练阶段。
衍生相关工作
围绕libritts-bpe-tokens数据集,学术界衍生出一系列具有影响力的研究工作。最典型的包括基于编解码语言模型的语音合成体系,如以VALL-E为代表的自回归语音生成模型利用此类文本token实现语音克隆;还有以SpeechGPT为代表的多模态理解框架,通过文本token与语音token的混合训练实现跨模态语义对齐。此外,parler-tts项目在过滤和整理LibriTTS-R数据时采用了本数据集的分词方案,衍生出多个针对不同编解码器(如Mimi、SNAC、NeuCodec)的token化变体数据集,形成了完整的语音token标准化生态,推动了开源语音合成领域的快速发展。
数据集最近研究
最新研究方向
在语音生成与多模态大语言模型交叉领域,libritts-bpe-tokens数据集将LibriTTS-R的文本转录通过GPT-2 BPE分词器转化为离散令牌序列,为语音编码与文本令牌的统一表征奠定了桥梁。当前前沿研究方向聚焦于利用此类令牌化数据训练端到端语音语言模型(如VALL-E、Parler-TTS等),探索语音理解与生成在单一架构中的融合。随着神经音频编解码器(Mimi、SNAC、NeuCodec)的快速发展,该数据集与配套的令牌化版本共同推动了语音离散表示学习,成为研究语音语义保留与可扩展性至关重要数据基础,显著促进了语音合成的质量控制与零样本泛化能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作