simon3000/genshin-voice

Name: simon3000/genshin-voice
Creator: simon3000
Published: 2024-06-06 17:34:13
License: 暂无描述

Hugging Face2024-06-06 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/simon3000/genshin-voice

下载链接

链接失效反馈

官方服务：

资源简介：

Genshin Voice数据集包含来自热门游戏《原神》的语音台词，涵盖多种语言（中文、英文、日文、韩文）。这些语音台词由游戏中的角色说出，内容广泛，包括问候、战斗和故事对话等。数据集包含音频、转录文本、语言、说话者、说话者类型、类型和游戏内文件名等特征。

提供机构：

simon3000

原始信息汇总

数据集概述

数据集名称: Genshin Voice

数据集描述: Genshin Voice 是一个包含流行游戏《Genshin Impact》中角色语音线的数据集。该数据集涵盖多种语言，包括中文、英文、日文和韩文，内容涉及问候、战斗和故事对话等多个主题。

数据集特征:

audio: 音频数据
transcription: 字符串类型的转录文本
language: 字符串类型的语言标识
speaker: 字符串类型的说话者名称
speaker_type: 字符串类型的说话者类型
type: 字符串类型的语音类型
inGameFilename: 字符串类型的游戏内文件名

数据集拆分:

train: 训练集，包含413429个样本，总大小为234468423940.616字节

数据集大小与下载大小:

下载大小: 202116725683字节
数据集大小: 234468423940.616字节

数据集配置:

config_name: default
data_files:
- split: train
- path: data/train-*

数据集使用示例: python from datasets import load_dataset import soundfile as sf import os

dataset = load_dataset(simon3000/genshin-voice, split=train, streaming=True) chinese_ganyu = dataset.filter(lambda voice: voice[language] == Chinese and voice[speaker] == Ganyu and voice[transcription] != )

数据集创建:

源数据: 数据来源于《Genshin Impact》游戏的解包内容。
数据处理: 数据处理详情请参考Genshin-Voice和w4123/GenshinVoice。
源数据生产者: 游戏开发者miHoYo。

数据集注释:

包含官方注释，如语言、说话者名称和转录文本。

数据集偏差、风险和限制:

注释不完全，部分语音线缺少说话者名称和转录文本。
说话者和转录文本可能包含标记和占位符。

许可证信息:

版权所有 © COGNOSPHERE. 保留所有权利。

其他信息:

可根据需求上传wav文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于热门游戏《原神》中的语音片段，通过解包游戏资源获得。数据集包含了游戏中多个角色的语音，涵盖了多种语言，包括中文、英文、日文和韩文。语音内容涉及问候、战斗和剧情对话等多个主题。数据集的构建过程中，保留了原始的语音文件及其对应的转录文本、语言标签、说话者信息等元数据。

特点

该数据集的显著特点在于其多语言覆盖和丰富的语音内容。每个语音片段都附带了详细的元数据，包括语言、说话者、说话者类型、游戏内文件名等。此外，数据集还包含了部分缺失的转录文本和说话者信息，用户在使用时需注意这些不完整性。

使用方法

用户可以通过Hugging Face的datasets库加载该数据集，并根据需要进行筛选和处理。例如，用户可以筛选出特定语言和角色的语音片段，并将其保存为音频文件和对应的转录文本。数据集的使用方法灵活，适用于多种音频处理任务，如语音识别、文本转语音等。

背景与挑战

背景概述

Genshin Voice数据集是由miHoYo开发的流行游戏《原神》中的语音片段组成，涵盖了多种语言，包括中文、英文、日文和韩文。该数据集包含了游戏角色在不同情境下的语音，如问候、战斗和故事对话等。数据集的创建旨在支持音频分类、自动语音识别和文本到语音转换等任务。其核心研究问题在于如何利用这些多语言语音数据来提升语音处理技术的性能，尤其是在多语言环境下的应用。该数据集的发布时间为2024年8月30日，由Simon3000和w4123等研究人员共同处理和发布，对语音处理领域的研究具有重要影响。

当前挑战

Genshin Voice数据集在构建过程中面临多项挑战。首先，数据集中的部分语音片段缺失了说话者名称和转录文本，这为语音识别和分类任务带来了不确定性。其次，语音片段中可能包含标记和占位符，增加了数据处理的复杂性。此外，由于数据来源于游戏，可能存在版权和使用限制，这限制了数据集的广泛应用。最后，多语言数据的处理和标注也是一个技术难题，需要确保不同语言的语音和文本能够准确对应。这些挑战需要在未来的研究和应用中得到解决，以充分发挥该数据集的潜力。

常用场景

经典使用场景

Genshin Voice数据集的经典使用场景主要集中在语音识别和多语言处理领域。研究者可以利用该数据集进行自动语音识别（ASR）模型的训练，尤其是在处理多语言语音数据时，能够有效提升模型对中文、英文、日文和韩文语音的识别能力。此外，该数据集还可用于语音分类任务，帮助模型区分不同角色和语言的语音特征。

衍生相关工作

基于Genshin Voice数据集，研究者已开展多项相关工作，包括多语言语音识别模型的优化、跨语言语音数据的特征分析以及游戏语音数据的深度学习应用。这些工作不仅推动了语音识别技术的发展，还为多语言语音处理提供了新的研究方向。此外，该数据集的开放也为游戏语音数据的处理和分析提供了宝贵的资源。

数据集最近研究