s5-hubert

Hugging Face2025-07-26 更新2025-07-27 收录

下载链接：

https://huggingface.co/datasets/ryota-komatsu/s5-hubert

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，主要用于文本到语音的转换。以下是各子数据集的详细描述： DailyTalk: 用于会话文本到语音的数据集，包含对话的音频特征和文本信息。 Hi-Fi-CAPTAIN: 高保真、高容量的会话语音合成数据集，由NICT开发。 Libri-Light: 基于LibriTTS的数据集，包含文本和对应的音频特征信息。 LibriTTS-R: 修复的多发音人文本到语音语料库。 sBLIMP: 用于语音识别和语音生成任务的数据集。 sWUGGY: 用于语音识别的数据集。 tSC: 用于测试的数据集，具体用途未明。所有数据集的特征字段包括标识符、音频单元、持续时间、文本和频谱图等。

创建时间：

2025-07-13

原始信息汇总

数据集概述

数据集基本信息

语言: 英语 (en)
数据集配置:
- DailyTalk
- Hi-Fi-CAPTAIN
- Libri-Light
- LibriTTS-R
- sBLIMP
- sWUGGY
- tSC

数据集配置详情

DailyTalk

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
- transcript (string)
- spectrogram (array2_d: shape [null, 80], dtype: float32)
数据分割:
- train: 23,773 个样本，1,042,217,404 字节
下载大小: 1,039,293,902 字节
数据集大小: 1,042,217,404 字节

Hi-Fi-CAPTAIN

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
- transcript (string)
- spectrogram (array2_d: shape [null, 80], dtype: float32)
数据分割:
- train: 28,000 个样本，1,454,634,516 字节
下载大小: 1,450,174,288 字节
数据集大小: 1,454,634,516 字节

Libri-Light

特征:
- text (string)
- id (string)
- units (sequence of int64)
- durations (sequence of int64)
- aligned_text (list: end_time (float64), start_time (float64), word (string))
- aligned_units (list: end_time (float64), start_time (float64), text (string), units (sequence of int64))
数据分割:
- train: 3,130,245 个样本，41,000,135,529 字节
下载大小: 10,761,887,541 字节
数据集大小: 41,000,135,529 字节

LibriTTS-R

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
- transcript (string)
- spectrogram (array2_d: shape [null, 80], dtype: float32)
数据分割:
- train: 354,729 个样本，31,222,030,718 字节
- dev: 5,736 个样本，503,958,158 字节
下载大小: 31,457,513,793 字节
数据集大小: 31,725,988,876 字节

sBLIMP

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
数据分割:
- dev: 50,400 个样本，9,192,824 字节
- test: 126,000 个样本，23,156,648 字节
下载大小: 14,194,532 字节
数据集大小: 32,349,472 字节

sWUGGY

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
数据分割:
- dev: 80,000 个样本，5,402,960 字节
- test: 320,000 个样本，21,957,904 字节
下载大小: 15,380,380 字节
数据集大小: 27,360,864 字节

tSC

特征:
- id (string)
- units (sequence of int32)
- durations (sequence of int32)
数据分割:
- test: 3,742 个样本，2,583,670 字节
下载大小: 1,022,076 字节
数据集大小: 2,583,670 字节

许可证信息

LibriTTS-R: CC BY 4.0
Hi-Fi-CAPTAIN: CC BY-NC-SA 4.0
DailyTalk: CC BY-SA 4.0

相关文献

Koizumi, Y., et al. (2023). LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus. Proc. Interspeech, 5496-5500.
Okamoto, T., Shiga, Y., & Kawai, H. (2023). Hi-Fi-CAPTAIN: High-fidelity and high-capacity conversational speech synthesis corpus developed by NICT.
Lee, K., Park, K., & Kim, D. (2023). DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech. Proc. IEEE ICASSP.

搜集汇总

数据集介绍

构建方式

在语音合成与语音表示学习领域，s5-hubert数据集通过整合多个权威语音语料库构建而成。其核心数据源包括LibriTTS-R的高质量朗读语音、Hi-Fi-CAPTAIN的对话式语音、DailyTalk的日常对话数据，以及Libri-Light的大规模无监督语音数据。每个子集均采用标准化处理流程，包含语音单元序列、时长信息、文本转录及80维梅尔频谱特征，部分数据还提供细粒度的时间对齐标注。多源数据的融合策略既保留了原始数据的领域特性，又通过统一的特征表示实现了跨语料库的兼容性。

特点

该数据集最显著的特点是涵盖语音表示学习所需的多元维度特征。除基础文本-语音配对外，创新性地引入了离散语音单元序列和精确的时长控制信息，为语音合成与解耦表示研究提供结构化支持。数据规模呈现梯度分布，从数千样本的sBLIMP语法测试集到数百万样本的Libri-Light训练集，满足不同研究阶段的验证需求。各子集均保持原始录音的采样质量，梅尔频谱采用80维高分辨率表征，时间对齐标注精度达毫秒级，为语音单元与文本的细粒度映射研究奠定基础。

使用方法

研究者可通过HuggingFace平台直接加载特定子集配置，如DailyTalk的对话数据或LibriTTS-R的朗读语音。典型应用场景包括：加载units和durations字段训练语音合成时长预测模型，利用spectrogram特征微调声码器，或结合aligned_text进行语音单元对齐分析。数据加载接口兼容标准PyTorch数据管道，支持流式读取大规模语音数据。对于跨语料库实验，建议优先使用统一特征的Hi-Fi-CAPTAIN和LibriTTS-R子集，其CC-BY许可保障了学术与商业应用的合规性。

背景与挑战

背景概述

s5-hubert数据集是一个专注于语音合成与声学建模的多源集成数据集，由多个子数据集构成，包括DailyTalk、Hi-Fi-CAPTAIN、Libri-Light、LibriTTS-R等。这些子数据集由不同的研究团队开发，如Google LLC、NICT以及多位独立研究者，主要发布于2023年前后。该数据集的核心研究问题在于解决语音合成中的声学单元建模、多说话人语音生成以及对话式语音合成的挑战。通过整合多样化的语音数据，s5-hubert为语音合成领域提供了丰富的训练资源，尤其在声学特征提取和说话人解耦方面具有显著影响力。

当前挑战

s5-hubert数据集面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。在领域问题方面，语音合成任务需处理多说话人声学特征的解耦、韵律建模的精确性以及对话语境下的自然度提升，这些问题的解决需要高质量且多样化的标注数据。在数据构建过程中，不同子数据集的采集标准、音频质量及标注格式存在差异，如何实现数据的统一化处理与特征对齐成为关键挑战。此外，部分子数据集如Hi-Fi-CAPTAIN受限于非商业许可协议，其应用范围受到一定制约。

常用场景

经典使用场景

在语音合成与语音识别领域，s5-hubert数据集因其多模态特性与大规模语音标注数据而成为研究热点。该数据集广泛应用于语音单元发现、声学模型预训练以及跨语言语音转换等任务。通过整合DailyTalk、Hi-Fi-CAPTAIN等高质量语音语料，研究者能够构建更鲁棒的语音表征模型，显著提升合成语音的自然度与说话人相似性。

衍生相关工作

基于该数据集衍生的经典工作包括说话人解耦的HuBERT模型改进、语音单元离散化表征学习框架等。Koizumi等人利用LibriTTS-R子集提出了语音质量修复算法，而Lee团队则基于DailyTalk开发了对话感知的TTS系统。这些成果均发表在Interspeech、ICASSP等顶级会议，推动了语音合成领域的范式演进。

数据集最近研究