Galgame语音文本数据集|游戏语音数据集|语音合成数据集
收藏数据集概述
数据集用途
本数据集用于从Galgame中提取人物语音和对应文本,以支持SVC/TTS项目的开发。
数据集内容
- 语音文件:提取自Galgame的语音数据。
- 文本文件:与语音对应的文本数据。
- 标注文件:用于TTS项目的标注文件,包括
.list
和.lab
文件。
数据集处理工具
- Text_Cleaner.py:用于清理文本中的特殊字符,并筛选去除不适合作为数据集的文本。
- Dataset_Maker_for_Bert_VITS2.py:用于制作Bert_VITS2项目的数据集,包括复制音频文件、转换为.wav格式并重采样,以及创建标注文件。
- Dataset_Maker_for_GPT_Sovits.py:用于制作GPT_Sovits项目的数据集,功能与Bert_VITS2脚本类似,但标注文件结构有所不同。
- Dataset_Maker_for_Fish_Speech.py:用于制作Fish_Speech项目的数据集,包括复制音频文件、转换为.wav格式并重采样,以及创建标注文件。
数据集使用要求
- 基础计算机操作能力:如解压文件、运行Python文件。
- 基础计算机知识:如文件夹、文件、路径、终端。
- 搜索引擎使用能力:合理使用搜索引擎获取必要信息。
- 基础代码阅读能力:理解并操作相关脚本。
- 基础英语阅读能力:或使用翻译网站。
数据集结构
根据不同的游戏引擎进行分类,通用脚本放置在根目录下。每个脚本均包含详细的注释和使用说明。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录