saspeech

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/thewh1teagle/saspeech

下载链接

链接失效反馈

官方服务：

资源简介：

SASpeech数据集包含超过13小时的希伯来语单人演讲音频，采样率为44.1kHz。元数据文件中包含文件ID、文本和音素信息。数据集经过清理，只包含希伯来语单词，并带有希伯来语符号和音标标记。数据集分为手工注释版和自动注释版，手工注释版包含约3小时的数据，自动注释版包含约12小时的数据。

创建时间：

2025-06-15

原始信息汇总

SASpeech 数据集概述

基本描述

语言：希伯来语 (he)
用途：文本转语音 (text-to-speech)
标签：tts
总时长：13+ 小时
采样率：44.1khz

数据内容

音频文件：存储在 ./wav 文件夹中
元数据文件：metadata.csv 包含以下字段：
- file_id：音频文件名
- text：文本内容
- phonemes：音标（由 phonikud 生成）
文本特征：
- 已清理数字
- 仅包含希伯来语单词
- 包含希伯来语变音符号和非标准音标（可选择性移除）

数据子集

手动标注部分 (saspeech_manual/)：
- 时长：3 小时
- 大小：~7GB
自动标注部分 (saspeech_automatic/)：
- 时长：~12 小时（从 30 小时原始数据中清洗得到）
- 大小：~1GB
- 标注工具：ivrit.ai Whisper turbo + 激进清洗

格式转换

支持转换为 LJSpeech 格式： python import pandas as pd df = pd.read_csv(metadata.csv, sep= , names=[file_id, text, phonemes]) df[[file_id, phonemes]].to_csv(subset.csv, sep=|, header=False, index=False)

重采样

支持从 44.1khz 重采样至 22.05khz： python from pydub import AudioSegment from pathlib import Path from tqdm import tqdm

in_dir = Path("wav") out_dir = Path("wav_22050") out_dir.mkdir(exist_ok=True)

for f in tqdm(list(in_dir.glob("*.wav"))): audio = AudioSegment.from_wav(f) audio = audio.set_frame_rate(22050).set_channels(1) audio.export(out_dir / f.name, format="wav")

使用许可

类型：仅限非商业用途
许可来源：https://www.openslr.org/134

版本变更记录

v1：手动转录文件准备
v2：通过 Adobe enhance speech v2 增强并标准化至 22.05khz

安装说明

console uv pip install huggingface_hub sudo apt install p7zip-full uv run huggingface-cli download --repo-type dataset thewh1teagle/saspeech ./manual/saspeech_manual_v1.7z --local-dir . 7z x saspeech_v1.7z

数据来源

原始数据来自：https://www.openslr.org/134

搜集汇总

数据集介绍

构建方式

在希伯来语语音合成研究领域，SASpeech数据集通过双模态构建策略实现了高质量语音资源的整合。其核心数据来源于OpenSLR-134语料库，采用人工标注与自动处理相结合的构建方式：其中3小时音频由专业人员精细标注转写形成saspeech_manual子集，而saspeech_automatic子集则通过ivrit.ai的Whisper Turbo模型对原始30小时音频进行自动转写后，经严格筛选保留12小时优质样本。所有音频均经过标准化处理，采样率统一为44.1kHz，并配套提供包含文件ID、希伯来语文本及音素标记的三元组元数据。

特点

作为希伯来语单说话人语音数据集，SASpeech最显著的特征在于其语言处理的深度优化。数据集严格遵循纯语言原则，剔除所有数字符号仅保留希伯来词汇，同时创新性地融合标准希伯来语变音符号与非标准音标标记。特别配备的phonikud工具生成的音素序列，为语音合成系统的音素建模提供了专业级标注基础。技术层面，该数据集同时提供原始44.1kHz和高压缩比的22.05kHz两种采样格式，满足不同计算环境下的研究需求。

使用方法

该数据集支持端到端的语音合成系统开发流程。研究者可通过解析TSV格式的metadata.csv文件建立音频-文本对应关系，利用内置Python脚本轻松转换为LJSpeech标准格式。对于计算资源受限的场景，配套提供的pydub重采样脚本可将音频统一降频至22.05kHz。数据加载环节需通过HuggingFace Hub下载7z压缩包，配合7zip工具解压后，用户可选择使用手工标注的高精度子集或大容量自动转写子集进行模型训练。值得注意的是，数据集许可协议明确限定于非商业用途。

背景与挑战

背景概述

SASpeech数据集作为希伯来语单说话人语音数据集，由开源语音资源平台OpenSLR于2023年发布，包含13小时以上的44.1kHz高保真音频。该数据集创新性地整合了手工标注与自动转录双模态语料，其中3小时为经严格人工校对的精标数据，12小时采用ivrit.ai的Whisper Turbo模型进行自动转录生成。其核心价值在于填补了希伯来语语音合成研究中高质量标注数据的空白，特别提供了包含希伯来语变音符号及非标准音标标记的文本特征，为研究闪含语系的韵律建模与音素转换机制提供了重要素材。数据集遵循非商业许可协议，其技术路线继承并发展了经典LJSpeech数据集的标准化处理范式。

当前挑战

该数据集面临双重技术挑战：在应用层面，希伯来语复杂的变音系统与非标准音标标注对端到端语音合成模型的音素转换能力提出严峻考验，研究者需设计特殊的前处理流程来应对音位变体现象。在构建层面，原始音频经Adobe Enhance Speech增强处理与22.05kHz降采样带来的音质损失，与自动转录文本存在的潜在错误形成数据质量梯度，要求使用者具备噪声鲁棒性建模能力。此外，手工标注与自动转录子集间的领域偏移问题，以及非商业使用许可对学术研究延展性构成的限制，均为实际应用中的关键瓶颈。

常用场景

经典使用场景

在希伯来语语音合成领域，SASpeech数据集因其高质量的单一说话人录音和详尽的音素标注而成为经典资源。研究者通常利用该数据集训练端到端的文本转语音模型，特别是在探索低资源语言合成技术时，其44.1kHz的高采样率和手工标注的7小时纯净音频为声学建模提供了理想素材。音素列与文本的严格对齐特性，使得该数据集在韵律建模和发音词典构建研究中具有独特价值。

实际应用

在实际应用中，SASpeech被广泛用于构建希伯来语语音助手和有声读物生成系统。教育科技公司利用其音素标注开发发音评估工具，而游戏工作室则采用该数据为角色生成地道语音。数据集提供的LJSpeech格式转换脚本极大简化了与其他TTS管道的集成流程，22.05kHz的降采样版本更适配嵌入式设备的部署需求。

衍生相关工作

基于SASpeech衍生的经典研究包括希伯来语韵律预测模型的改进工作，以及跨语言语音合成中的迁移学习框架。部分团队利用其音素标注开发了开源的希伯来语发音词典，另有研究通过结合自动标注的12小时数据，提出了数据增强策略在低资源TTS中的有效性证明。Adobe Enhance Speech的增强版本则为音频修复算法提供了基准测试数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集