five

Genshin Datasets

收藏
github2024-05-19 更新2024-05-31 收录
下载链接:
https://github.com/AI-Hobbyist/Genshin_Datasets
下载链接
链接失效反馈
资源简介:
本仓库的语音数据集包含原神游戏中中日英韩全角色的语音,用于二次创作和模型训练,不得用于商业用途。数据集分为分角色包和完整包,支持多种语言版本。

The voice dataset in this repository encompasses the voice lines of all characters from the game Genshin Impact, available in Chinese, Japanese, English, and Korean. It is intended for use in secondary creations and model training, and is not permitted for commercial use. The dataset is divided into individual character packs and a complete package, supporting multiple language versions.
创建时间:
2023-05-20
原始信息汇总

数据集概述

数据集名称

  • Genshin Datasets For SVC/SVS/TTS

数据集所有权

数据集使用限制

  • 仅供二次创作&模型训练。
  • 不得用于任何商业用途。
  • 不得用本仓库数据集训练的模型制作违反法律法规的内容。
  • 不得二次配布。

数据集更新日志

日期 更新内容
2024.06.05 更新原神4.7中日英韩全角色语音索引
2024.06.09 更新原神4.7中日英韩分角色语音包
2024.06.11 更新原神4.7中文、日语全角色语音包
2024.06.16 更新原神4.7英语、韩语全角色语音包

当前游戏版本

中文 日语 英语 韩语
语音索引 4.7 4.7 4.7 4.7
语音数据集(分角色包) 4.7 4.7 4.7 4.7
语音数据集(完整包) 4.7 4.7 4.7 4.7
语音数据集(完整包-国内镜像) 4.7 4.7 4.7 4.7

数据集下载

数据集常用训练项目

名称 仓库
Vits https://github.com/CjangCjengh/vits
Bert-Vits https://github.com/fishaudio/Bert-VITS2
Sovits https://github.com/svc-develop-team/so-vits-svc
Fish Diffusion https://github.com/fishaudio/fish-diffusion
DDSP-SVC https://github.com/yxlllc/DDSP-SVC
Diff-SVC https://github.com/prophesier/diff-svc
RVC https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI
GPT-Sovits https://github.com/RVC-Boss/GPT-SoVITS
DiffSinger https://github.com/openvpi/DiffSinger
AI搜集汇总
数据集介绍
main_image_url
构建方式
Genshin Datasets的构建基于《原神》游戏中的语音数据,涵盖了多个语言版本,包括中文、日语、英语和韩语。数据集分为角色包和完整包,分别包含特定角色和全角色的语音数据。每个版本的数据集均与游戏的最新版本(5.0)同步更新,确保数据的时效性和完整性。
特点
该数据集的显著特点在于其多语言覆盖和角色细分,为语音合成和转换模型提供了丰富的训练资源。此外,数据集的更新频率高,能够及时反映游戏内容的最新变化。数据集的使用受到版权限制,仅限于二次创作和模型训练,禁止商业用途和非法内容的生成。
使用方法
使用Genshin Datasets进行模型训练时,用户可以通过提供的下载链接获取所需语言和版本的数据集。数据集适用于多种语音合成和转换项目,如Vits、Bert-Vits、Sovits等。用户在使用数据集时需遵守版权规定,并在相关作品描述中提及数据集的来源。
背景与挑战
背景概述
Genshin Datasets是由AI Hobbyist社区创建并维护的一个语音数据集,专门用于语音合成(TTS)、语音转换(SVC)和语音合成与转换(SVS)等领域的研究。该数据集的核心内容来源于HoYoverse旗下的游戏《原神》,包含了多个语言版本(中文、日文、英文和韩文)的语音数据。数据集的创建旨在为语音处理领域的研究者提供高质量的语音资源,以推动语音合成与转换技术的进步。自2024年10月8日更新至5.0版本以来,该数据集已成为语音处理领域的重要资源之一,尤其在多语言语音合成与转换的研究中发挥了重要作用。
当前挑战
Genshin Datasets在构建过程中面临了多重挑战。首先,数据集的版权归属问题复杂,所有语音数据的权利归属于HoYoverse,因此在数据的使用和分发上必须严格遵守相关规定,避免任何商业用途和非法内容的生成。其次,多语言语音数据的采集与处理需要克服语言间的差异,确保语音数据的准确性和一致性。此外,数据集的更新与维护也是一个持续的挑战,尤其是在游戏版本更新后,如何快速同步并提供最新的语音数据,以满足研究者的需求,是该数据集面临的重要问题。
常用场景
经典使用场景
Genshin Datasets 数据集在语音合成(SVS)、语音转换(SVC)以及文本到语音(TTS)领域中展现了其经典应用价值。该数据集包含了来自《原神》游戏的多语言语音数据,涵盖了中文、日语、英语和韩语,为研究者提供了丰富的语音资源。通过这些数据,研究者可以训练和优化语音合成模型,实现高质量的多语言语音生成,尤其在角色语音定制和游戏语音交互系统中表现尤为突出。
衍生相关工作
基于 Genshin Datasets 数据集,研究者们开发了多种语音合成和转换模型,如 Vits、Bert-Vits、Sovits 等。这些模型在语音合成质量和效率上取得了显著进展,推动了语音技术在多个领域的应用。此外,该数据集还激发了关于多语言语音处理和跨文化语音交互的研究,为语音技术的全球化应用奠定了基础。
数据集最近研究
最新研究方向
在语音合成与转换领域,Genshin Datasets凭借其丰富的多语言语音资源,成为研究者们探索语音合成(SVS)、语音转换(SVC)以及文本到语音(TTS)技术的前沿平台。该数据集不仅涵盖了中、日、英、韩四种语言的完整语音包,还支持角色语音包的精细分类,为多语言语音合成与转换模型的训练提供了高质量的数据支持。近期,研究者们利用该数据集在语音风格迁移、情感识别以及跨语言语音转换等方面取得了显著进展,尤其是在基于深度学习的语音合成技术中,如VITS、Bert-VITS2等模型的应用,进一步推动了语音合成技术的多样化和自然化。此外,Genshin Datasets的更新频率和多语言支持,使其在语音合成领域的研究中具有重要的参考价值和应用潜力。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作