saspeech
收藏SASpeech 数据集概述
基本描述
- 语言:希伯来语 (he)
- 用途:文本转语音 (text-to-speech)
- 标签:tts
- 总时长:13+ 小时
- 采样率:44.1khz
数据内容
- 音频文件:存储在
./wav文件夹中 - 元数据文件:
metadata.csv包含以下字段:file_id:音频文件名text:文本内容phonemes:音标(由 phonikud 生成)
- 文本特征:
- 已清理数字
- 仅包含希伯来语单词
- 包含希伯来语变音符号和非标准音标(可选择性移除)
数据子集
- 手动标注部分 (
saspeech_manual/):- 时长:3 小时
- 大小:~7GB
- 自动标注部分 (
saspeech_automatic/):- 时长:~12 小时(从 30 小时原始数据中清洗得到)
- 大小:~1GB
- 标注工具:ivrit.ai Whisper turbo + 激进清洗
格式转换
支持转换为 LJSpeech 格式: python import pandas as pd df = pd.read_csv(metadata.csv, sep= , names=[file_id, text, phonemes]) df[[file_id, phonemes]].to_csv(subset.csv, sep=|, header=False, index=False)
重采样
支持从 44.1khz 重采样至 22.05khz: python from pydub import AudioSegment from pathlib import Path from tqdm import tqdm
in_dir = Path("wav") out_dir = Path("wav_22050") out_dir.mkdir(exist_ok=True)
for f in tqdm(list(in_dir.glob("*.wav"))): audio = AudioSegment.from_wav(f) audio = audio.set_frame_rate(22050).set_channels(1) audio.export(out_dir / f.name, format="wav")
使用许可
- 类型:仅限非商业用途
- 许可来源:https://www.openslr.org/134
版本变更记录
- v1:手动转录文件准备
- v2:通过 Adobe enhance speech v2 增强并标准化至 22.05khz
安装说明
console uv pip install huggingface_hub sudo apt install p7zip-full uv run huggingface-cli download --repo-type dataset thewh1teagle/saspeech ./manual/saspeech_manual_v1.7z --local-dir . 7z x saspeech_v1.7z
数据来源
原始数据来自:https://www.openslr.org/134




