GenshinVoice|游戏语音数据集|多语言研究数据集

github2023-07-05 更新2024-05-31 收录

游戏语音

多语言研究

下载链接：

https://github.com/w4123/GenshinVoice

下载链接

链接失效反馈

资源简介：

GenshinVoice是一个包含原神游戏中所有语音文件及其对应文字文本的数据集。数据集直接从游戏中提取，包含多种语言版本，用于学习和研究目的。

GenshinVoice is a dataset comprising all voice files and their corresponding textual transcripts from the game Genshin Impact. Extracted directly from the game, the dataset includes multiple language versions and is intended for educational and research purposes.

创建时间：

2022-11-08

原始信息汇总

数据集概述

数据集名称

GenshinVoice

数据集内容

包含原神游戏中直接提取的所有语音文件及其对应的文字文本。
已更新至3.8版本，result.json文件中包含91971条记录，其中86817条记录包含text文本信息，90925条记录包含npcName名称信息。
语音文件类型包括对话、羁绊、动画事件、天气独白、加入队伍、地下城提醒和卡片等。

数据集结构

所有语音文件以wav格式存储，保留原有采样率和声道信息。
文件路径遵循原始文件路径。
根目录下的NoData文件夹包含未从游戏数据中获取到任何相关信息的语音文件。

数据集使用注意事项

所有wav文件的采样率和声道数可能不同。
相同角色可能有不同的npcName，需通过文件名称中的角色名称来判断实际角色。
text中可能包含以#开头的文本，内容含有游戏内替换项。

数据集贡献方式

如发现条目错误或缺失npcName或text的情况，可通过提交issue进行反馈。
可向项目提出PR，将含有#的text内容替换为实际语音内容，放置到cleaned_text项中。

数据集版权声明

所有音频版权属于米哈游，本数据集仅用于学习目的。
未经米哈游书面授权，不得将这些文件用于商业用途。

数据集链接

GenshinVoice数据集

AI搜集汇总

数据集介绍

构建方式

GenshinVoice数据集的构建基于对原神游戏内语音文件的直接提取与匹配。通过使用Hash算法（如fnv1_64）对语言和路径进行处理，结合Wwise-Unpacker等工具，提取出音频包中的Hash值，并与解包数据进行精确匹配。此过程确保了语音文件与对应文本的准确关联，最终形成了包含91971条记录的result.json文件，其中涵盖了86817条文本记录和90925条角色名称记录。

特点

GenshinVoice数据集的显著特点在于其全面性和多样性。该数据集不仅包含了原神游戏中所有角色的语音文件及其对应的文本信息，还涵盖了多种语言版本（如中文、英文、韩文和日文）。此外，数据集中的语音文件保留了原始的采样率和声道信息，为研究者提供了丰富的音频特征。值得注意的是，数据集还区分了不同类型的语音内容，如对话、羁绊、动画事件等，增强了数据的应用广度。

使用方法

GenshinVoice数据集的使用方法灵活多样。研究者可以通过解析result.json文件，获取语音文件的详细信息，包括文件名、语言、角色名称、文本内容及语音类型等。对于音频文件，用户可以直接下载wav压缩包，按照原始文件路径进行访问。在使用过程中，需注意不同角色可能存在多个npcName，以及文本中可能包含的游戏内替换项。此外，用户在使用数据集时，应遵守版权规定，仅限于学习和研究用途，并避免未经授权的商业使用。

背景与挑战

背景概述

GenshinVoice数据集是由社区研究人员从《原神》游戏中提取的语音文件及其对应文本的集合，旨在为语音识别、自然语言处理等领域的研究提供丰富的资源。该数据集包含了91971条记录，涵盖了多种语言版本，如中文、英文、韩文和日文，且已更新至3.8版本。数据集的核心研究问题在于如何从游戏资源中高效提取并整理语音与文本数据，以便于后续的语言分析与处理。该数据集的发布不仅为语音识别技术的研究提供了宝贵的实验材料，也为跨语言文本分析提供了多样的语料支持，对相关领域的研究具有重要意义。

当前挑战

GenshinVoice数据集在构建过程中面临多项挑战。首先，数据提取的复杂性在于需要通过特定的哈希算法和解包工具从游戏资源中获取语音文件及其对应的文本信息，这一过程涉及技术门槛和资源匹配的难题。其次，数据集的维护与更新也是一个持续的挑战，尤其是随着游戏版本的迭代，确保数据的准确性和完整性变得尤为重要。此外，数据集中存在部分语音文件缺失或文本信息不完整的情况，如何有效识别并补充这些缺失数据也是一项技术挑战。最后，数据集的使用需严格遵守版权规定，确保仅用于教育与研究目的，避免任何商业用途，这也为数据集的推广和应用带来了一定的限制。

常用场景

经典使用场景

GenshinVoice数据集在语音识别与自然语言处理领域具有广泛的应用前景。该数据集包含了原神游戏中提取的语音文件及其对应的文本信息，为研究者提供了丰富的多语言语音数据。经典使用场景包括语音识别模型的训练与评估，尤其是针对游戏角色的个性化语音识别任务。此外，该数据集还可用于多语言文本生成与语音合成研究，尤其是在跨语言语音转换和多语言语音识别的场景中，具有显著的应用价值。

衍生相关工作

GenshinVoice数据集的发布激发了众多相关研究工作。研究者们基于该数据集开展了多语言语音识别、语音合成、情感分析等多个方向的研究。例如，有研究利用该数据集训练了高精度的多语言语音识别模型，并应用于实际场景中。此外，还有研究探讨了如何利用该数据集进行跨语言语音转换，以及如何通过语音数据分析游戏角色的情感状态。这些研究不仅丰富了语音处理领域的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究

最新研究方向

在游戏语音数据分析领域，GenshinVoice数据集因其丰富的语音资源和多语言支持，成为研究者们关注的焦点。该数据集不仅包含了原神游戏中所有角色的语音文件及其对应的文本信息，还提供了详细的元数据，如角色名称、语音类型和语言标识，这为语音识别、情感分析和多语言处理等前沿研究提供了宝贵的资源。特别是在多语言语音合成和跨文化交流研究中，GenshinVoice数据集的多样性和高质量数据为研究者提供了新的视角和方法。此外，该数据集的开放性和可扩展性，也鼓励了社区的参与和贡献，进一步推动了相关领域的技术进步和应用创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，由穆罕默德·本·扎耶德人工智能大学等机构创建，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学图像-文本数据，实现了可扩展的视觉-语言模型（VLM）预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题，适用于多种医学成像任务，如零样本分类和跨模态泛化。

arXiv 收录