starrail-voice-xcodec2

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/minato-ryan/starrail-voice-xcodec2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含游戏中的对话音频及其转录文本，涵盖不同语言、说话者和声音类型。数据集分为codec、default和skiped三个配置，每个配置都包含训练集分割，具有音频文件名、转录文本、语言、说话者、声音类型和持续时间等特征。

创建时间：

2025-11-10

原始信息汇总

数据集概述

基本信息

数据集名称: starrail-voice-xcodec2
存储位置: https://huggingface.co/datasets/minato-ryan/starrail-voice-xcodec2

配置版本

数据集包含三个配置版本：

1. codec配置

特征字段:
- ingame_filename (字符串)
- transcription (字符串)
- language (字符串)
- speaker (字符串)
- voice_type (字符串)
- duration_seconds (浮点数)
- ids (整数序列)
数据分割:
- train分割: 185,391个样本，250,556,087字节
下载大小: 164,971,404字节
数据集大小: 250,556,087字节

2. default配置

特征字段:
- audio (音频)
- ingame_filename (字符串)
- transcription (字符串)
- language (字符串)
- speaker (字符串)
- voice_type (字符串)
- duration_seconds (浮点数)
- ids (整数序列)
数据分割:
- train分割: 185,391个样本，98,728,541,301字节
下载大小: 88,439,941,526字节
数据集大小: 98,728,541,301字节

3. skiped配置

特征字段:
- audio (音频)
- ingame_filename (字符串)
- transcription (字符串)
- language (字符串)
- speaker (字符串)
- voice_type (字符串)
- wav (浮点数序列)
- duration_seconds (浮点数)
数据分割:
- train分割: 120个样本，110,341,534.1901774字节
下载大小: 710,263,270字节
数据集大小: 110,341,534.1901774字节

数据文件路径

codec配置: codec/train-*
default配置: data/train-*
skiped配置: skiped/train-*

搜集汇总

数据集介绍

构建方式

在语音数据处理领域，starrail-voice-xcodec2数据集通过精心设计的采集流程构建而成。该数据集从游戏环境中提取原始音频素材，采用多配置并行处理机制，分别提供codec编码格式、原始音频格式及特殊处理版本。每个样本均标注了完整的元数据信息，包括游戏内文件名、语音转写文本、语言类型、说话人标识和语音类别，并通过精确的时间标注确保数据的时间一致性。

特点

该数据集展现出显著的多模态特征，包含185,391个训练样本，覆盖多种语言和说话人类型。其独特之处在于提供三种数据配置：codec配置以紧凑的向量序列存储语音特征，default配置保留原始音频波形，skiped配置则针对特殊案例提供补充数据。每个样本均附带精确的持续时间标注和说话人身份信息，为语音合成与识别研究提供了丰富的声学特征和语言多样性。

使用方法

研究人员可根据具体需求选择不同的数据配置开展实验。对于语音合成任务，建议使用default配置的原始音频数据；若进行声学建模研究，codec配置的压缩特征可显著提升训练效率；skiped配置则适用于处理边缘案例分析。数据集支持标准的HuggingFace数据加载流程，用户可通过指定配置名称直接访问对应版本，实现语音处理模型的高效训练与验证。

背景与挑战

背景概述

随着语音合成技术的快速发展，高质量游戏语音数据集成为推动角色交互系统革新的关键资源。starrail-voice-xcodec2数据集聚焦于多语言语音合成任务，通过整合游戏内语音片段及其对应文本转录，构建了涵盖多种语言、说话人和语音类型的结构化语料库。该数据集由技术社区基于游戏原始语音资源构建，旨在解决传统语音合成模型在游戏角色语音生成中存在的表现力不足与多语言适配问题，为语音合成技术在沉浸式游戏环境中的应用提供了重要数据支撑。

当前挑战

该数据集核心挑战在于解决多语言语音合成中跨语言韵律一致性与说话人身份保持的技术难题。构建过程中面临语音片段与文本对齐精度控制、多语言转录质量验证，以及海量音频数据编码效率优化等工程挑战。同时需确保不同语音类型（如对话、旁白）在特征提取过程中的表征一致性，这对数据清洗流程与特征编码标准提出了极高要求。

常用场景

经典使用场景

在语音合成技术研究领域，starrail-voice-xcodec2数据集凭借其高质量的游戏语音样本和多语言特性，成为声学模型训练的首选资源。该数据集收录了18万余条包含完整文本转录的语音样本，涵盖多种语言环境和说话人特征，为构建端到端的神经语音合成系统提供了充分的数据支撑。研究人员可利用其精确的时间对齐标注和多维度元数据，开展声学建模与语音转换的深入研究。

衍生相关工作

围绕该数据集已衍生出多项语音技术前沿研究，包括基于注意力机制的端到端语音合成架构、跨语言声学模型迁移方法，以及少样本语音克隆技术。这些工作充分利用数据集提供的多维度标注信息，在保持语音自然度的同时实现了对说话人特征的精确控制。部分研究进一步探索了语音风格解耦与重定向技术，为个性化语音生成开辟了新的技术路径。

数据集最近研究