StarRail Datasets

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/AI-Hobbyist/StarRail_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库的语音数据集的所有权均归米哈游所有，仅供二次创作和模型训练使用，不得用于商业用途或违反法律法规的内容制作。数据集包含多种语言的语音文件，采样率主要为44.1khz，适用于SVC/SVS/TTS等技术。

The ownership of the voice dataset in this repository belongs exclusively to miHoYo and is intended solely for secondary creation and model training purposes. It must not be used for commercial purposes or for creating content that violates laws and regulations. The dataset includes voice files in multiple languages, primarily sampled at 44.1kHz, suitable for technologies such as SVC (Singing Voice Conversion), SVS (Singing Voice Synthesis), and TTS (Text-to-Speech).

创建时间：

2023-05-03

原始信息汇总

数据集概述

数据集名称

StarRail Datasets For SVC/SVS/TTS

数据集所有权

所有权归米哈游所有。

数据集使用限制

仅供二次创作&模型训练，不得用于商业用途。
不得用本仓库数据集训练的模型制作违反法律法规的内容，不得二次配布。

数据集音频特性

绝大多数音频文件采样率为44.1khz，少数为36khz或24khz。

更新日志

2024.06.17：更新星穹铁道2.3全角色语音索引。
2024.06.19 ~ 2024.06.20：更新星穹铁道2.3中文和日语分角色语音包。
2024.06.22：更新星穹铁道2.3英语和韩语分角色语音包。
2024.06.23：更新星穹铁道2.3中日英韩完整语音包。

当前游戏版本

语音索引：中文、日语、英语、韩语均为2.3版本。
语音数据集（分角色包）：中文、日语、英语、韩语均为2.3版本。
语音数据集（完整包）：中文、日语、英语、韩语均为2.3版本。

数据集下载

分角色包：提供中文、日语、英语、韩语分角色语音包下载链接。
完整包：提供中文、日语、英语、韩语完整语音包下载链接。
语音索引：提供中文、日语、英语、韩语语音索引下载链接。

数据集常用训练项目

提供多个与语音相关的训练项目仓库链接，如Vits、Bert-Vits、Sovits等。

联系方式

提供数据集相关的联系方式，包括QQ群、QQ频道、社区链接、邮箱等。

搜集汇总

数据集介绍

构建方式

StarRail Datasets的构建基于游戏《StarRail》的角色语音数据，涵盖了中文、日文、英文和韩文四种语言版本。数据集分为角色包和完整包，角色包包含特定角色的语音数据，而完整包则涵盖了所有角色的语音数据。每个语言版本的数据集均基于游戏版本2.6进行整理和打包，确保数据的时效性和完整性。

特点

该数据集的显著特点在于其多语言覆盖和角色细分。不仅提供了四种主要语言的语音数据，还根据角色进行了细致的分类，便于用户针对特定角色进行语音合成或分析。此外，数据集的更新频率较高，最新版本于2024年11月24日发布，确保了数据的前沿性和实用性。

使用方法

用户可以通过提供的下载链接获取所需的语言版本和数据包类型。对于角色包，用户可以选择特定语言的角色语音数据进行下载；而对于完整包，用户可以一次性获取所有角色的语音数据。下载后，用户可以利用这些数据进行语音合成（SVS）、语音转换（SVC）或文本转语音（TTS）等任务的研究与开发。

背景与挑战

背景概述

StarRail Datasets是由AI Hobbyist社区主导开发的多语言语音数据集，旨在支持语音合成（TTS）、语音转换（SVC）和歌唱语音合成（SVS）等领域的研究。该数据集于2024年11月24日发布，包含了来自游戏版本2.6的中文、日文、英文和韩文的多角色语音包和完整语音包。其核心研究问题在于如何利用高质量的多语言语音数据，提升语音合成技术的自然度和多样性，进而推动相关领域的技术进步。

当前挑战

StarRail Datasets在构建过程中面临多重挑战。首先，多语言语音数据的采集和标注需要极高的精确度，以确保数据的质量和一致性。其次，不同语言之间的语音特征差异较大，如何在数据集中平衡这些差异，以满足跨语言语音合成的需求，是一个重要的技术难题。此外，数据集的规模和多样性也对存储和处理能力提出了较高要求，尤其是在处理大规模语音数据时，如何高效管理和利用这些资源是一个持续的挑战。

常用场景

经典使用场景

StarRail Datasets 主要用于语音合成（TTS）、语音转换（SVC）和歌唱语音合成（SVS）等领域。该数据集包含了多种语言（中文、日文、英文、韩文）的角色语音包和完整语音包，为研究人员和开发者提供了丰富的语音资源。通过这些数据，研究者可以训练和优化语音合成模型，使其在不同语言和角色语音的生成上达到更高的自然度和准确性。

解决学术问题

StarRail Datasets 解决了多语言语音合成中的关键问题，如跨语言语音转换、角色语音个性化以及语音合成的自然度提升。该数据集为研究者提供了多语言、多角色的语音数据，有助于推动语音合成技术在不同语言环境下的应用。此外，该数据集还为语音合成的跨文化研究提供了宝贵的资源，促进了语音合成技术在全球范围内的应用和发展。

衍生相关工作

基于 StarRail Datasets，研究者们开发了多种语音合成和转换模型，推动了语音合成技术的发展。例如，有研究者利用该数据集训练了跨语言语音转换模型，实现了不同语言之间的语音转换。此外，还有研究者基于该数据集开发了角色语音个性化生成模型，使得语音合成系统能够生成更具个性化的语音内容。这些工作不仅提升了语音合成技术的性能，还为多语言语音合成的实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集