collabora/whisperspeech-librilight
收藏数据集概述
该数据集是经过处理的LibriLight数据集,用于训练WhisperSpeech模型。
快速开始
下载数据集
用户可以通过以下命令下载数据集的小子集和验证数据分割及其配置文件: bash huggingface-cli download --repo-type dataset --include -small- *small.dataset -speakers --local-dir . -- collabora/whisperspeech-librilight
下载语义令牌模型
下载用于提取令牌嵌入的语义令牌模型: bash huggingface-cli download collabora/whisperspeech whisper-vq-stoks-medium-en+pl.model
训练调用
T2S训练调用
bash python3 -m whisperspeech.train_multi --task "t2s_up_wds_mlang_enclm base --frozen_embeddings_model whisper-vq-stoks-medium-en+pl.model" --batch-size 32 --accumulate-grad-batches 2 --epochs 2 --lr-schedule wsd --tunables="--cps_input --causal_encoder --warmup_steps=300 --encoder_depth_ratio=.25" --dataset-config=--vq_codes=513 --training-data @librilight-t2s-train-small.dataset --validation-data @librilight-t2s-val-common-speakers.dataset --validation-data @librilight-t2s-val-unseen-speakers.dataset --monitored-metric val_loss/dataloader_idx_0
S2A训练调用
bash python3 -m whisperspeech.train_multi --task "s2a_delar_mup_wds_mlang tiny --quantizers 4 --spk_width=192 --frozen_embeddings_model whisper-vq-stoks-medium-en+pl.model" --batch-size 48 --epochs 4 --lr-schedule wsd --tunables="--rope --warmup_steps=300" --dataset-config=--vq_codes=513 --training-data @librilight-s2a-train-small.dataset --validation-data @librilight-s2a-val-common-speakers.dataset --validation-data @librilight-s2a-val-unseen-speakers.dataset --monitored-metric val_loss/dataloader_idx_0
批处理大小调整
--accumulate-grad-batches选项设置为在单个4090 GPU上获得良好的有效批处理大小。如果用户有多个GPU,可能需要降低批处理大小。例如,16个GPU和16的批处理大小似乎能提供良好的性能和快速训练。
最大更新参数化
由于使用最大更新参数化,较高的有效批处理大小总是会导致较低的损失,用户无需调整学习率。然而,效果并非线性,因此存在一个最佳批处理大小,进一步增加批处理大小几乎没有额外的好处。



