Genshin Datasets

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/AI-Hobbyist/Genshin_Datasets

下载链接

链接失效反馈

资源简介：

本仓库的语音数据集包含原神游戏中中日英韩全角色的语音，用于二次创作和模型训练，不得用于商业用途。数据集分为分角色包和完整包，支持多种语言版本。

The voice dataset in this repository encompasses the voice lines of all characters from the game Genshin Impact, available in Chinese, Japanese, English, and Korean. It is intended for use in secondary creations and model training, and is not permitted for commercial use. The dataset is divided into individual character packs and a complete package, supporting multiple language versions.

创建时间：

2023-05-20

原始信息汇总

数据集概述

数据集名称

Genshin Datasets For SVC/SVS/TTS

数据集所有权

所有权归米哈游所有。

数据集使用限制

仅供二次创作&模型训练。
不得用于任何商业用途。
不得用本仓库数据集训练的模型制作违反法律法规的内容。
不得二次配布。

数据集更新日志

日期	更新内容
2024.06.05	更新原神4.7中日英韩全角色语音索引
2024.06.09	更新原神4.7中日英韩分角色语音包
2024.06.11	更新原神4.7中文、日语全角色语音包
2024.06.16	更新原神4.7英语、韩语全角色语音包

当前游戏版本

	中文	日语	英语	韩语
语音索引	4.7	4.7	4.7	4.7
语音数据集(分角色包)	4.7	4.7	4.7	4.7
语音数据集(完整包)	4.7	4.7	4.7	4.7
语音数据集(完整包-国内镜像)	4.7	4.7	4.7	4.7

数据集下载

	中文	日语	英语	韩语
分角色包	点我获取	点我获取	点我获取	点我获取
完整包（国内镜像）	点我获取	点我获取	点我获取	点我获取
完整包（OneDrive)	点我获取	点我获取	点我获取	点我获取
语音索引	点我获取	点我获取	点我获取	点我获取

数据集常用训练项目

名称	仓库
Vits	https://github.com/CjangCjengh/vits
Bert-Vits	https://github.com/fishaudio/Bert-VITS2
Sovits	https://github.com/svc-develop-team/so-vits-svc
Fish Diffusion	https://github.com/fishaudio/fish-diffusion
DDSP-SVC	https://github.com/yxlllc/DDSP-SVC
Diff-SVC	https://github.com/prophesier/diff-svc
RVC	https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI
GPT-Sovits	https://github.com/RVC-Boss/GPT-SoVITS
DiffSinger	https://github.com/openvpi/DiffSinger

AI搜集汇总

数据集介绍

构建方式

Genshin Datasets的构建基于《原神》游戏中的语音数据，涵盖了多个语言版本，包括中文、日语、英语和韩语。数据集分为角色包和完整包，分别包含特定角色和全角色的语音数据。每个版本的数据集均与游戏的最新版本（5.0）同步更新，确保数据的时效性和完整性。

特点

该数据集的显著特点在于其多语言覆盖和角色细分，为语音合成和转换模型提供了丰富的训练资源。此外，数据集的更新频率高，能够及时反映游戏内容的最新变化。数据集的使用受到版权限制，仅限于二次创作和模型训练，禁止商业用途和非法内容的生成。

使用方法

使用Genshin Datasets进行模型训练时，用户可以通过提供的下载链接获取所需语言和版本的数据集。数据集适用于多种语音合成和转换项目，如Vits、Bert-Vits、Sovits等。用户在使用数据集时需遵守版权规定，并在相关作品描述中提及数据集的来源。

背景与挑战

背景概述

Genshin Datasets是由AI Hobbyist社区创建并维护的一个语音数据集，专门用于语音合成（TTS）、语音转换（SVC）和语音合成与转换（SVS）等领域的研究。该数据集的核心内容来源于HoYoverse旗下的游戏《原神》，包含了多个语言版本（中文、日文、英文和韩文）的语音数据。数据集的创建旨在为语音处理领域的研究者提供高质量的语音资源，以推动语音合成与转换技术的进步。自2024年10月8日更新至5.0版本以来，该数据集已成为语音处理领域的重要资源之一，尤其在多语言语音合成与转换的研究中发挥了重要作用。

当前挑战

Genshin Datasets在构建过程中面临了多重挑战。首先，数据集的版权归属问题复杂，所有语音数据的权利归属于HoYoverse，因此在数据的使用和分发上必须严格遵守相关规定，避免任何商业用途和非法内容的生成。其次，多语言语音数据的采集与处理需要克服语言间的差异，确保语音数据的准确性和一致性。此外，数据集的更新与维护也是一个持续的挑战，尤其是在游戏版本更新后，如何快速同步并提供最新的语音数据，以满足研究者的需求，是该数据集面临的重要问题。

常用场景

经典使用场景

Genshin Datasets 数据集在语音合成（SVS）、语音转换（SVC）以及文本到语音（TTS）领域中展现了其经典应用价值。该数据集包含了来自《原神》游戏的多语言语音数据，涵盖了中文、日语、英语和韩语，为研究者提供了丰富的语音资源。通过这些数据，研究者可以训练和优化语音合成模型，实现高质量的多语言语音生成，尤其在角色语音定制和游戏语音交互系统中表现尤为突出。

衍生相关工作

基于 Genshin Datasets 数据集，研究者们开发了多种语音合成和转换模型，如 Vits、Bert-Vits、Sovits 等。这些模型在语音合成质量和效率上取得了显著进展，推动了语音技术在多个领域的应用。此外，该数据集还激发了关于多语言语音处理和跨文化语音交互的研究，为语音技术的全球化应用奠定了基础。

数据集最近研究