GenshinVoice

github2023-07-05 更新2024-05-31 收录

下载链接：

https://github.com/w4123/GenshinVoice

下载链接

链接失效反馈

官方服务：

资源简介：

GenshinVoice是一个包含原神游戏中所有语音文件及其对应文字文本的数据集。数据集直接从游戏中提取，包含多种语言版本，用于学习和研究目的。

GenshinVoice is a dataset comprising all voice files and their corresponding textual transcripts from the game Genshin Impact. Extracted directly from the game, the dataset includes multiple language versions and is intended for educational and research purposes.

创建时间：

2022-11-08

原始信息汇总

数据集概述

数据集名称

GenshinVoice

数据集内容

包含原神游戏中直接提取的所有语音文件及其对应的文字文本。
已更新至3.8版本，result.json文件中包含91971条记录，其中86817条记录包含text文本信息，90925条记录包含npcName名称信息。
语音文件类型包括对话、羁绊、动画事件、天气独白、加入队伍、地下城提醒和卡片等。

数据集结构

所有语音文件以wav格式存储，保留原有采样率和声道信息。
文件路径遵循原始文件路径。
根目录下的NoData文件夹包含未从游戏数据中获取到任何相关信息的语音文件。

数据集使用注意事项

所有wav文件的采样率和声道数可能不同。
相同角色可能有不同的npcName，需通过文件名称中的角色名称来判断实际角色。
text中可能包含以#开头的文本，内容含有游戏内替换项。

数据集贡献方式

如发现条目错误或缺失npcName或text的情况，可通过提交issue进行反馈。
可向项目提出PR，将含有#的text内容替换为实际语音内容，放置到cleaned_text项中。

数据集版权声明

所有音频版权属于米哈游，本数据集仅用于学习目的。
未经米哈游书面授权，不得将这些文件用于商业用途。

数据集链接

GenshinVoice数据集

搜集汇总

数据集介绍

构建方式

GenshinVoice数据集的构建基于对原神游戏内语音文件的直接提取与匹配。通过使用Hash算法（如fnv1_64）对语言和路径进行处理，结合Wwise-Unpacker等工具，提取出音频包中的Hash值，并与解包数据进行精确匹配。此过程确保了语音文件与对应文本的准确关联，最终形成了包含91971条记录的result.json文件，其中涵盖了86817条文本记录和90925条角色名称记录。

特点

GenshinVoice数据集的显著特点在于其全面性和多样性。该数据集不仅包含了原神游戏中所有角色的语音文件及其对应的文本信息，还涵盖了多种语言版本（如中文、英文、韩文和日文）。此外，数据集中的语音文件保留了原始的采样率和声道信息，为研究者提供了丰富的音频特征。值得注意的是，数据集还区分了不同类型的语音内容，如对话、羁绊、动画事件等，增强了数据的应用广度。

使用方法

GenshinVoice数据集的使用方法灵活多样。研究者可以通过解析result.json文件，获取语音文件的详细信息，包括文件名、语言、角色名称、文本内容及语音类型等。对于音频文件，用户可以直接下载wav压缩包，按照原始文件路径进行访问。在使用过程中，需注意不同角色可能存在多个npcName，以及文本中可能包含的游戏内替换项。此外，用户在使用数据集时，应遵守版权规定，仅限于学习和研究用途，并避免未经授权的商业使用。

背景与挑战

背景概述

GenshinVoice数据集是由社区研究人员从《原神》游戏中提取的语音文件及其对应文本的集合，旨在为语音识别、自然语言处理等领域的研究提供丰富的资源。该数据集包含了91971条记录，涵盖了多种语言版本，如中文、英文、韩文和日文，且已更新至3.8版本。数据集的核心研究问题在于如何从游戏资源中高效提取并整理语音与文本数据，以便于后续的语言分析与处理。该数据集的发布不仅为语音识别技术的研究提供了宝贵的实验材料，也为跨语言文本分析提供了多样的语料支持，对相关领域的研究具有重要意义。

当前挑战

GenshinVoice数据集在构建过程中面临多项挑战。首先，数据提取的复杂性在于需要通过特定的哈希算法和解包工具从游戏资源中获取语音文件及其对应的文本信息，这一过程涉及技术门槛和资源匹配的难题。其次，数据集的维护与更新也是一个持续的挑战，尤其是随着游戏版本的迭代，确保数据的准确性和完整性变得尤为重要。此外，数据集中存在部分语音文件缺失或文本信息不完整的情况，如何有效识别并补充这些缺失数据也是一项技术挑战。最后，数据集的使用需严格遵守版权规定，确保仅用于教育与研究目的，避免任何商业用途，这也为数据集的推广和应用带来了一定的限制。

常用场景

经典使用场景

GenshinVoice数据集在语音识别与自然语言处理领域具有广泛的应用前景。该数据集包含了原神游戏中提取的语音文件及其对应的文本信息，为研究者提供了丰富的多语言语音数据。经典使用场景包括语音识别模型的训练与评估，尤其是针对游戏角色的个性化语音识别任务。此外，该数据集还可用于多语言文本生成与语音合成研究，尤其是在跨语言语音转换和多语言语音识别的场景中，具有显著的应用价值。

衍生相关工作

GenshinVoice数据集的发布激发了众多相关研究工作。研究者们基于该数据集开展了多语言语音识别、语音合成、情感分析等多个方向的研究。例如，有研究利用该数据集训练了高精度的多语言语音识别模型，并应用于实际场景中。此外，还有研究探讨了如何利用该数据集进行跨语言语音转换，以及如何通过语音数据分析游戏角色的情感状态。这些研究不仅丰富了语音处理领域的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究