emilia-yodas-cjk-xcodec2

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/minato-ryan/emilia-yodas-cjk-xcodec2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多配置的音频数据集，包含了ja语言和zh语言的长、短音频记录及其跳过版本。每个记录都包括了用户ID、dnsmos评分、时长、语言、电话号码数量、说话者、文本内容和序列ID等信息。数据集专为训练目的设计，包含不同长度的音频文件。

创建时间：

2025-10-23

原始信息汇总

数据集概述

基本信息

数据集名称: emilia-yodas-cjk-xcodec2
存储位置: https://huggingface.co/datasets/minato-ryan/emilia-yodas-cjk-xcodec2
配置数量: 8个独立配置

配置详情

日语配置

ja_long

样本数量: 121,976
数据集大小: 417.24 MB
下载大小: 226.23 MB
特征字段:
- uid (字符串)
- dnsmos (浮点数)
- duration (浮点数)
- language (字符串)
- phone_count (整数)
- speaker (字符串)
- text (字符串)
- ids (整数序列)

ja_short

样本数量: 312,761
数据集大小: 565.78 MB
下载大小: 310.65 MB
特征字段: 与ja_long相同

ja_very_long

样本数量: 19,424
数据集大小: 106.42 MB
下载大小: 58.61 MB
特征字段: 与ja_long相同

ja_skipped

样本数量: 0
数据集大小: 0 MB
下载大小: 2.64 KB
特征字段:
- 包含audio结构体（array、path、sampling_rate）
- 其他字段与ja_long相同

中文配置

zh_long

样本数量: 37,237
数据集大小: 125.15 MB
下载大小: 69.03 MB
特征字段: 与ja_long相同

zh_short

样本数量: 88,156
数据集大小: 158.40 MB
下载大小: 88.24 MB
特征字段: 与ja_long相同

zh_very_long

样本数量: 5,067
数据集大小: 26.88 MB
下载大小: 15.15 MB
特征字段: 与ja_long相同

zh_skipped

样本数量: 0
数据集大小: 0 MB
下载大小: 2.64 KB
特征字段: 与ja_skipped相同

数据特征

通用特征字段:
- uid: 唯一标识符
- dnsmos: 音频质量评分
- duration: 音频时长
- language: 语言标识
- phone_count: 音素数量
- speaker: 说话人标识
- text: 文本内容
- ids: 编码序列
特殊特征:
- skipped配置包含原始音频数据（array、path、sampling_rate）
- 非skipped配置包含编码序列（ids）

数据统计

总样本数量: 585,621
有效数据配置: 6个（不含skipped配置）
语言分布: 日语样本453,161，中文样本130,460

搜集汇总

数据集介绍

构建方式

在语音数据处理领域，该数据集采用多配置架构构建，针对日语和中文分别设立长、短、超长及跳过四种音频长度类型。通过统一的特征字段设计，每条数据包含唯一标识符、语音质量评分、持续时间、语言类型、音素数量、说话人标识、文本内容及音素序列等结构化信息。数据采集过程严格遵循语音样本的质量控制标准，利用DNSMOS指标进行客观评估，确保语音数据的准确性和可用性。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定语言配置，如'zh_short'或'ja_long'，获取对应长度的语音文本配对数据。数据集支持标准数据加载流程，用户可根据音素数量、语音质量评分等字段进行样本筛选，适用于语音识别模型训练、语音合成系统开发及跨语言语音处理研究。对于需要原始音频的研究场景，特定配置提供音频数组与采样率信息，满足不同层次的实验需求。

背景与挑战

背景概述

在语音处理领域，多语言语音合成与识别技术的进步亟需高质量数据集支撑。emilia-yodas-cjk-xcodec2数据集由研究团队构建，聚焦于中日双语语音数据，涵盖日语和中文的短句、长句及超长句等多种语音样本。该数据集通过整合语音信号、文本转录及音素序列等特征，致力于解决跨语言语音模型训练中的数据稀缺问题，为语音合成、语音识别及跨语言语音转换等任务提供关键资源，推动多语言语音技术在实际应用中的发展。

当前挑战

该数据集旨在应对中日双语语音处理中的核心挑战，包括跨语言音素对齐、语音质量评估以及长序列语音建模等难题。在构建过程中，面临数据采集的多样性需求，需平衡不同语音时长和说话人变体；同时，确保语音质量指标（如DNSMOS）的准确计算与标注也是一大挑战，这些因素共同增加了数据集的复杂性和构建难度。

常用场景

经典使用场景

在语音技术领域，emilia-yodas-cjk-xcodec2数据集凭借其日语和中文的音频-文本对齐语料，成为语音合成与识别模型训练的核心资源。该数据集通过包含不同时长配置（如短句、长句和超长句）的样本，支持模型学习跨语言韵律特征和音素序列映射，尤其适用于构建多语言语音处理系统。研究人员利用其高质量的dnsmos评分和音素计数特征，优化声学模型在复杂语境下的鲁棒性表现。

解决学术问题

该数据集有效解决了低资源语言语音模型训练中的语料稀缺问题，为中日双语语音研究提供了标准化基准。通过提供带有多维度标注（如说话人身份、语言类型、音频质量指标）的大规模数据，它助力学术界突破跨语言音素转换、端到端语音识别等关键技术瓶颈。其结构化编码序列（ids字段）更推动了神经编解码器在语音压缩与重建领域的理论探索，显著提升了多模态语音表征学习的可解释性。

实际应用

在实际应用中，该数据集为智能语音助手、实时翻译系统和无障碍通信工具提供了核心训练支持。其分语言配置的特性可直接服务于中日双语产品的开发，例如在智能客服中实现自然语音交互，或为听障人士开发高精度语音转文字工具。工业界通过集成该数据集的音素序列模型，显著提升了车载语音系统、会议转录设备在嘈杂环境下的语义理解准确率。

数据集最近研究