five

emilia-yodas-cjk-xcodec2

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/minato-ryan/emilia-yodas-cjk-xcodec2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多配置的音频数据集,包含了ja语言和zh语言的长、短音频记录及其跳过版本。每个记录都包括了用户ID、dnsmos评分、时长、语言、电话号码数量、说话者、文本内容和序列ID等信息。数据集专为训练目的设计,包含不同长度的音频文件。
创建时间:
2025-10-23
原始信息汇总

数据集概述

基本信息

  • 数据集名称: emilia-yodas-cjk-xcodec2
  • 存储位置: https://huggingface.co/datasets/minato-ryan/emilia-yodas-cjk-xcodec2
  • 配置数量: 8个独立配置

配置详情

日语配置

ja_long

  • 样本数量: 121,976
  • 数据集大小: 417.24 MB
  • 下载大小: 226.23 MB
  • 特征字段:
    • uid (字符串)
    • dnsmos (浮点数)
    • duration (浮点数)
    • language (字符串)
    • phone_count (整数)
    • speaker (字符串)
    • text (字符串)
    • ids (整数序列)

ja_short

  • 样本数量: 312,761
  • 数据集大小: 565.78 MB
  • 下载大小: 310.65 MB
  • 特征字段: 与ja_long相同

ja_very_long

  • 样本数量: 19,424
  • 数据集大小: 106.42 MB
  • 下载大小: 58.61 MB
  • 特征字段: 与ja_long相同

ja_skipped

  • 样本数量: 0
  • 数据集大小: 0 MB
  • 下载大小: 2.64 KB
  • 特征字段:
    • 包含audio结构体(array、path、sampling_rate)
    • 其他字段与ja_long相同

中文配置

zh_long

  • 样本数量: 37,237
  • 数据集大小: 125.15 MB
  • 下载大小: 69.03 MB
  • 特征字段: 与ja_long相同

zh_short

  • 样本数量: 88,156
  • 数据集大小: 158.40 MB
  • 下载大小: 88.24 MB
  • 特征字段: 与ja_long相同

zh_very_long

  • 样本数量: 5,067
  • 数据集大小: 26.88 MB
  • 下载大小: 15.15 MB
  • 特征字段: 与ja_long相同

zh_skipped

  • 样本数量: 0
  • 数据集大小: 0 MB
  • 下载大小: 2.64 KB
  • 特征字段: 与ja_skipped相同

数据特征

  • 通用特征字段:

    • uid: 唯一标识符
    • dnsmos: 音频质量评分
    • duration: 音频时长
    • language: 语言标识
    • phone_count: 音素数量
    • speaker: 说话人标识
    • text: 文本内容
    • ids: 编码序列
  • 特殊特征:

    • skipped配置包含原始音频数据(array、path、sampling_rate)
    • 非skipped配置包含编码序列(ids)

数据统计

  • 总样本数量: 585,621
  • 有效数据配置: 6个(不含skipped配置)
  • 语言分布: 日语样本453,161,中文样本130,460
搜集汇总
数据集介绍
main_image_url
构建方式
在语音数据处理领域,该数据集采用多配置架构构建,针对日语和中文分别设立长、短、超长及跳过四种音频长度类型。通过统一的特征字段设计,每条数据包含唯一标识符、语音质量评分、持续时间、语言类型、音素数量、说话人标识、文本内容及音素序列等结构化信息。数据采集过程严格遵循语音样本的质量控制标准,利用DNSMOS指标进行客观评估,确保语音数据的准确性和可用性。
使用方法
研究人员可通过HuggingFace数据集库直接加载特定语言配置,如'zh_short'或'ja_long',获取对应长度的语音文本配对数据。数据集支持标准数据加载流程,用户可根据音素数量、语音质量评分等字段进行样本筛选,适用于语音识别模型训练、语音合成系统开发及跨语言语音处理研究。对于需要原始音频的研究场景,特定配置提供音频数组与采样率信息,满足不同层次的实验需求。
背景与挑战
背景概述
在语音处理领域,多语言语音合成与识别技术的进步亟需高质量数据集支撑。emilia-yodas-cjk-xcodec2数据集由研究团队构建,聚焦于中日双语语音数据,涵盖日语和中文的短句、长句及超长句等多种语音样本。该数据集通过整合语音信号、文本转录及音素序列等特征,致力于解决跨语言语音模型训练中的数据稀缺问题,为语音合成、语音识别及跨语言语音转换等任务提供关键资源,推动多语言语音技术在实际应用中的发展。
当前挑战
该数据集旨在应对中日双语语音处理中的核心挑战,包括跨语言音素对齐、语音质量评估以及长序列语音建模等难题。在构建过程中,面临数据采集的多样性需求,需平衡不同语音时长和说话人变体;同时,确保语音质量指标(如DNSMOS)的准确计算与标注也是一大挑战,这些因素共同增加了数据集的复杂性和构建难度。
常用场景
经典使用场景
在语音技术领域,emilia-yodas-cjk-xcodec2数据集凭借其日语和中文的音频-文本对齐语料,成为语音合成与识别模型训练的核心资源。该数据集通过包含不同时长配置(如短句、长句和超长句)的样本,支持模型学习跨语言韵律特征和音素序列映射,尤其适用于构建多语言语音处理系统。研究人员利用其高质量的dnsmos评分和音素计数特征,优化声学模型在复杂语境下的鲁棒性表现。
解决学术问题
该数据集有效解决了低资源语言语音模型训练中的语料稀缺问题,为中日双语语音研究提供了标准化基准。通过提供带有多维度标注(如说话人身份、语言类型、音频质量指标)的大规模数据,它助力学术界突破跨语言音素转换、端到端语音识别等关键技术瓶颈。其结构化编码序列(ids字段)更推动了神经编解码器在语音压缩与重建领域的理论探索,显著提升了多模态语音表征学习的可解释性。
实际应用
在实际应用中,该数据集为智能语音助手、实时翻译系统和无障碍通信工具提供了核心训练支持。其分语言配置的特性可直接服务于中日双语产品的开发,例如在智能客服中实现自然语音交互,或为听障人士开发高精度语音转文字工具。工业界通过集成该数据集的音素序列模型,显著提升了车载语音系统、会议转录设备在嘈杂环境下的语义理解准确率。
数据集最近研究
最新研究方向
在语音处理领域,emilia-yodas-cjk-xcodec2数据集凭借其多语言特性(涵盖日语和中文)及细粒度音频标注(如音素计数、说话人标识和DNSMOS质量评分),正推动跨语言语音合成与识别的前沿探索。当前研究聚焦于利用该数据集的长短音频配置,开发端到端神经编解码模型,以优化低资源语言的语音表示学习。随着多模态交互技术的兴起,该资源在构建高自然度语音克隆系统和实时语音翻译应用中展现出关键价值,为东亚语言数字生态的智能化演进提供了核心数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作