SS-JDSC
收藏github2025-10-05 更新2025-10-07 收录
下载链接:
https://github.com/takamichi-lab/ss-jdsc
下载链接
链接失效反馈官方服务:
资源简介:
SS-JDSC是一个单说话者日语构音障碍语音语料库,专为自动语音识别及相关任务研究设计。它包含约15小时的语音数据,来自一名患有鼻咽腔闭锁不全的日本男性说话者,涵盖三个子集:basic(与正常语音平行)、hard(包含难以辨别的音素)和daily(日常用语短语),总共有11,502个话语,音频格式为44.1 kHz采样率、16位RIFF WAV。
SS-JDSC is a single-speaker Japanese dysarthric speech corpus developed exclusively for research on automatic speech recognition and related tasks. It contains approximately 15 hours of speech data collected from a Japanese male speaker diagnosed with nasopharyngeal atresia. The corpus includes three subsets: basic (parallel to normal speech), hard (consisting of difficult-to-discriminate phonemes), and daily (comprising everyday conversational phrases). In total, it encompasses 11,502 utterances. All audio files are formatted as 16-bit RIFF WAV with a sampling rate of 44.1 kHz.
创建时间:
2025-10-04
原始信息汇总
SS-JDSC: 単一話者による日本語構音障害音声コーパス / Single-speaker Japanese dysarthric speech corpus
数据集概述
- 本数据集是为日语构音障碍语音识别及相关任务设计的单说话人朗读语音语料库
- 包含约15小时的鼻咽腔闭锁不全伴随构音障碍语音数据
- 说话人为单一日语男性说话人
语料设计
数据集由3个子集构成:
Basic子集
- 与正常语音(JSUT语料库BASIC5000)相同的语句
- 语句数量:4,701条
- 时长:6.89小时
Hard子集
包含难以听辨的音素发音:
- CF类别:包含难以听辨音素的语句(2,094条,1.84小时)
- PCS类别:语音上容易混淆的语句(75条,0.07小时)
- SUS类别:合语法无意义语句(73条,0.09小时)
Daily子集
包含日常使用短语:
- Everyday类别:与家人朋友的对话(2,098条,2.62小时)
- Research类别:与研究人员的讨论(927条,1.39小时)
- Work类别:公共设施中的对话(721条,1.06小时)
- Emotion类别:情感表达和陈述(414条,0.54小时)
- Others类别:紧急情况、季节或爱好相关(399条,0.63小时)
总计
- 总语句数:11,502条
- 总时长:15.12小时
技术规格
- 音频格式:44.1 kHz采样频率,16位编码RIFF WAV格式
- 包含各子集的测试集列表(test_basic.txt、test_hard.txt、test_daily.txt)
语音识别基准
| 模型 | 单词错误率(WER) | BERTScore | 人工评估 |
|---|---|---|---|
| Whisper large v3(无微调) | 0.934 | 0.654 | 1.217 |
| + 微调(13.0小时) | 0.283 | 0.915 | 3.748 |
| + 微调 + LLM | 0.257 | 0.917 | 4.198 |
许可信息
- 许可证:CC BY-NC-SA 4.0
- 引用信息:待公布
搜集汇总
数据集介绍

构建方式
在构音障碍语音研究领域,SS-JDSC语料库采用精心设计的层次化构建策略。该数据集以单一日本男性发音人的鼻咽腔闭锁不全构音障碍语音为基础,通过三个功能互补的子集展开:basic子集与JSUT语料库BASIC5000的正常语音保持文本平行,hard子集专门收录易混淆音素和语义不可预测语句,daily子集则覆盖日常生活对话场景。所有语音数据均采用44.1kHz采样频率的16位RIFF WAV格式,通过系统化的录音流程收集得到共计11,502条发音样本,总时长达到15.12小时。
特点
该数据集在构音障碍语音资源中展现出显著的专业特性。其核心价值在于聚焦单一发音人的持续性语音特征,为构音障碍研究提供了稳定的声学分析基础。语料设计兼顾语言学研究的深度与广度,hard子集特别设计的三类语音材料(CF/PCS/SUS)能有效评估语音识别系统在音素混淆和语义理解方面的性能。daily子集涵盖五大生活场景的对话内容,包括情感表达、紧急情境等特殊语境,充分体现了真实场景下的语音交流复杂性。数据集还提供标准化的测试集划分方案,确保研究成果的可比性。
使用方法
针对构音障碍语音识别研究需求,该数据集提供了完整的使用框架。研究者可分别利用三个子集开展专项实验:basic子集适用于构音障碍语音与正常语音的对比分析,hard子集专攻音素混淆和语义理解难题,daily子集则服务于日常场景下的语音应用开发。数据集内附的测试集列表为模型评估提供标准化基准,支持词错误率、BERTScore和人工评估等多维度指标。使用过程中需遵循CC BY-NC-SA 4.0许可协议,确保在符合伦理规范的前提下开展非商业性研究。语音识别演示系统为初学者提供了直观的入门参考。
背景与挑战
背景概述
SS-JDSC数据集作为日语构音障碍语音研究的重要资源,由日本研究机构于近年开发,专注于鼻咽腔闭锁不全导致的言语运动障碍。该数据集通过单一男性发音人提供了约15小时的语音样本,涵盖基础发音、易混淆音素及日常对话三大子集,旨在推动构音障碍语音识别算法的精准优化。其设计灵感源于JSUT语料库的平行对照理念,为临床语音病理学与计算语言学交叉领域提供了标准化评估基准。
当前挑战
在构音障碍语音识别领域,SS-JDSC需解决因声道运动受限导致的音素混淆、韵律异常等声学特征变异问题。数据构建过程中面临单发音人样本多样性受限的挑战,需通过设计特殊发音文本(如合文法无意义句)来覆盖语音病理特征。同时,高精度标注要求语言学家与临床医师协同工作,而44.1kHz高采样率数据的存储与处理亦对计算资源提出较高要求。
常用场景
经典使用场景
在语音识别技术研究中,SS-JDSC数据集作为首个针对日语构音障碍语音的单一说话者语料库,其经典应用场景聚焦于构音障碍语音识别模型的开发与评估。该数据集通过包含基础发音、易混淆音素及日常对话三个子集,系统性地覆盖了从标准发音到复杂语音变异的全频谱数据,为模型训练提供了丰富的语音特征样本。研究人员可依据不同子集的特性,深入探索模型在清晰度、鲁棒性和泛化能力方面的表现,从而推动构音障碍语音处理技术的精细化发展。
实际应用
在实际应用层面,SS-JDSC数据集为临床诊断辅助工具和智能康复系统开发提供了核心数据支持。基于该数据集训练的语音识别模型可集成至医疗设备中,实时评估患者的发音清晰度,辅助医生制定个性化康复方案。在无障碍技术领域,这类模型能赋能语音交互设备,帮助构音障碍患者更顺畅地使用智能家居或通讯工具,显著提升其生活自主性与社会参与度,体现了技术赋能医疗健康的实践价值。
衍生相关工作
该数据集的发布催生了多项经典衍生研究,其中最具代表性的是基于Whisper大型模型的微调实验。研究团队通过对比未微调、部分微调及结合大语言模型的优化策略,系统验证了数据增强对构音障碍语音识别性能的提升效果。这些工作不仅建立了日语构音障碍语音的基准评估体系,还推动了多模态融合、跨领域迁移学习等前沿方法在病理语音处理中的应用,为后续构建更高效、低资源的临床辅助工具提供了方法论指导。
以上内容由遇见数据集搜集并总结生成



