Miuzarte/SUISovitsDataForBaseModel
收藏岁己SUI的sovits底模数据集
数据集描述
数据集概要
ForBaseModel.zip:
-
用途:用于岁己音色的底模训练,洗去G_0.pth和D_0.pth的音色。
-
质量:数据质量不高。
-
采样频率:44.1kHz。
-
来源:取自岁己2022年12月和2023年1月的录播(除电台,共计211:13:21)。
-
处理步骤:
- 挑取BGM音量较低的直播片段(20:39:21)。
- 使用UVR5 VR Architecture 5_HP-Karaoke-UVR处理,尽量除去BGM中的人声(20:39:20)。
- 使用Audio Slicer切片(12:45:29)。
- 使用Fish Audio Preprocessor响度标准化并删除过短过长的片段(11:24:06)。
- 使用Spliter Wav by IceKyrin声纹识别稳定数据(06:47:46)。
-
文件结构:
ForBaseModel.zip ├── 25788785-20221201-195959-658_01_(Vocals)1.wav ├── 25788785-20221201-195959-658_01(Vocals)3.wav ├── ...... ├── 25788785-20230201-005152-235_03(Vocals)9.wav └── 25788785-20230201-005152-235_03(Vocals)_10.wav
ForBaseModel_sovits3.0.zip:
-
用途:ForBaseModel.zip经过预处理后的数据集,可以直接投入sovits3.0_48k使用。
-
采样频率:48kHz。
-
文件结构:
ForBaseModel_sovits3.0.zip ├── configs │ └── config.json ├── dataset │ └── 48k │ └── suijiSUI │ ├── 25788785-20221201-195959-658_01_(Vocals)1.wav │ ├── 25788785-20221201-195959-658_01(Vocals)1.wav.f0.npy │ ├── 25788785-20221201-195959-658_01(Vocals)1.wav.soft.pt │ ├── ...... │ ├── 25788785-20230201-005152-235_03(Vocals)10.wav │ ├── 25788785-20230201-005152-235_03(Vocals)10.wav.f0.npy │ └── 25788785-20230201-005152-235_03(Vocals)_10.wav.soft.pt └── filelists ├── test.txt ├── train.txt └── val.txt
ForBaseModel_sovits4.0.zip:
-
用途:ForBaseModel.zip经过预处理后的数据集,可以直接投入sovits4.0使用。
-
采样频率:44.1kHz。
-
注意:4.0开始config.json中的batch_size默认为6,已改回12。
-
文件结构:
ForBaseModel_sovits4.0.zip ├── configs │ └── config.json ├── dataset │ └── 44k │ └── suijiSUI │ ├── 25788785-20221201-195959-658_01_(Vocals)1.wav │ ├── 25788785-20221201-195959-658_01(Vocals)1.wav.f0.npy │ ├── 25788785-20221201-195959-658_01(Vocals)1.wav.soft.pt │ ├── ...... │ ├── 25788785-20230201-005152-235_03(Vocals)10.wav │ ├── 25788785-20230201-005152-235_03(Vocals)10.wav.f0.npy │ └── 25788785-20230201-005152-235_03(Vocals)_10.wav.soft.pt └── filelists ├── test.txt ├── train.txt └── val.txt
支持的任务和排行榜
[更多信息待补充]
语言
- 中文(98%)
- 英文(1%)
- 日文(1%)
[更多信息待补充]



