neversi123/omnilora-kazakh-child-mvp
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/neversi123/omnilora-kazakh-child-mvp
下载链接
链接失效反馈官方服务:
资源简介:
OmniLoRA哈萨克语儿童语音TTS数据集是一个经过清理并带有情感标签的子集,源自一个更大的哈萨克语儿童语音数据集。该数据集包含535个哈萨克语音频片段,每个片段都标注了六种情感之一(中性、快乐、惊讶、悲伤、愤怒、恐惧)。数据集适用于微调TTS适配器(如LoRA)和进行情感条件TTS研究。音频格式为16 kHz单声道16位PCM WAV,总时长约30-45分钟。数据集经过三个阶段自动过滤和手动情感标注,但存在类别不平衡(中性情感占73%)和单标注者等限制。
The OmniLoRA Kazakh Child-Voice TTS dataset is a cleaned and emotion-labeled subset derived from a larger Kazakh child-speech dataset. It contains 535 audio clips in Kazakh, each labeled with one of six emotions (neutral, happy, surprise, sad, angry, fear). The dataset is intended for fine-tuning TTS adapters (e.g., LoRA) and emotion-conditioned TTS research. Audio format is 16 kHz mono 16-bit PCM WAV, with a total duration of approximately 30-45 minutes. The dataset was processed through three automatic filter stages and manual emotion labeling, but has limitations including class imbalance (73% neutral) and single-annotator labels.
提供机构:
neversi123
搜集汇总
数据集介绍

构建方式
该数据集源自于 galammadin-asr/child-asr-kazakh,经过严格的自动化清洗与人工标注流程构建而成。首先,通过时长与音频完整性检测,剔除损坏、静音及异常片段。其次,利用哈萨克语自动语音识别模型计算转录文本与音频的字错率,筛选出字错率低于0.25的样本。接着,采用基于wav2vec2的年龄估计模型与pyworld基频估计器,保留预估年龄不超过16岁且平均基频不低于200Hz的儿童语音片段。最后,通过本地网页界面进行人工情感标注,为每个样本赋予中立、高兴、惊讶、悲伤、愤怒或恐惧六类情感标签之一,同时剔除含混或不可用的音频。最终形成包含535条16kHz单声道WAV格式音频的数据子集。
特点
数据集的核心特点在于其高质量与细粒度的情感标注。535条语音片段均经过多阶段筛选,确保音频完整性、转录准确性与儿童语音属性,为低资源场景下的哈萨克语语音研究提供可靠基础。情感标签涵盖六类常见情感状态,尽管分布存在天然不平衡(中立占73%),却真实反映了诱导式儿童语音的自然分布,为情感条件语音合成与语音情感识别任务提供了稀缺的多类别标注数据。此外,数据集不包含说话人标识,适用于跨说话人的通用儿童语音建模,而非说话人识别或年龄绝对估计。
使用方法
数据集可通过HuggingFace datasets库便捷加载,用户只需调用load_dataset并利用cast_column方法将音频路径映射为16kHz音频信号,即可直接获取文本、情感标签与音频内容。亦支持直接读取JSONL格式的元数据文件,每条记录包含唯一标识符、音频相对路径、哈萨克语转录文本、语言代码及情感类别,便于自定义数据加载流程。该数据集专为微调OmniVoice框架下的LoRA适配器或进行情感条件语音合成研究而设计。使用时需注意样本数量有限、情感类别不均衡及音频为16kHz宽带限制,不适宜用于说话人识别或要求绝对儿童年龄估计的应用场景。
背景与挑战
背景概述
OmniLoRA Kazakh Child-Voice TTS数据集由阿布德拉赫曼·阿赫梅特加利于2026年创建,作为CSCI 595课程项目中五方法哈萨克语音合成基准的第五种方法——LoRA适配器微调的支撑数据。该数据集源自galammadin-asr/child-asr-kazakh,专注于哈萨克语儿童语音的文本转语音与自动语音识别研究。通过三阶段自动过滤及手工情感标注,最终保留了535条高质量音频片段,涵盖中性、高兴、惊讶、悲伤、愤怒、恐惧六种情感类别。其核心研究问题在于探索低资源语言——哈萨克语——儿童语音的情感可控合成,为多模态语音模型在少样本场景下的适应提供了关键验证集,对推动低资源语言语音技术发展具有积极意义。
当前挑战
该数据集所解决的领域问题挑战在于:哈萨克语作为低资源语言,儿童语音数据尤为稀缺,缺乏带有情感标注的高质量语音-文本对,制约了情感可控文本转语音模型在该语言儿童场景下的应用。构建过程中面临多重挑战:首先,原始数据集缺乏说话人身份标识,导致无法构建说话人不重叠的训练/测试分割,评估时模型可能因说话人重叠而获得虚高的相似度分数;其次,情感分布呈现严重的长尾不平衡,中性情感占比高达73%,恐惧与愤怒类别分别仅有9条和6条样本,难以支撑类别均衡的训练;再者,手工标注环节仅由单一标注员完成,缺乏标注者间一致性校验,情感标签可靠性受限;此外,音频采样率仅16kHz,限制了高频声学信息的保留,模型无法直接合成宽带语音。
常用场景
经典使用场景
作为面向低资源语言哈萨克语的儿童语音数据集,OmniLoRA Kazakh Child-Voice TTS最经典的使用场景在于微调轻量级文本转语音适配器(如LoRA与prefix-tuning),以实现儿童语音的高质量合成。数据集自动化清洗后保留535条16kHz单声道PCM WAV语料,每条均包含对应的拉丁字母转写文本与六类情感标签。研究人员可借助HuggingFace Datasets库的load_dataset与cast_column方法便捷接入,基于OmniVoice等基座模型,通过低秩适配技术精细调整语音生成参数,从而在极少计算资源下捕获哈萨克语儿童语音特有的声学规律与韵律特征。
解决学术问题
该数据集直接回应了低资源语言语音合成领域一个长期存在的学术挑战:高质量儿童语音数据的匮乏与情感表达建模的困难。通过提出一套三阶段自动过滤(语音完整性校验、ASR循环一致性检核、儿童声学特征鉴别)结合人工情感标注的构建范式,提供了首个公开可用的哈萨克语儿童情感语音子集。其意义在于为多模态语音预训练模型在边缘语言上的领域适应性研究奠定了数据基础,使研究者能够探索情感条件约束下儿童语音生成的泛化能力与鲁棒性,进而推动对语音情感计算底层机制的深入理解。
衍生相关工作
该数据集作为一项基准评测的最终方法而创建,其构建流程与情感标注策略已衍生出若干值得关注的后续工作方向。三阶段自动过滤管线中的ASR循环一致性校验与F0基频辅助的儿童声学分类器,为低资源语言场景下的数据质量筛选提供了可复现的技术原型。围绕该数据,后续研究者可能探索基于跨语言预训练模型的少儿语音情绪识别任务,或利用其小样本特性验证元学习在合成罕见情感(如恐惧、愤怒)类别时的表现。此外,该数据集的情感不平衡分布特性也为面向真实通信的不均衡语音情感生成研究提供了天然训练基准,激励着欠采样、重加权与条件VAE等数据增强策略的实验比较。
以上内容由遇见数据集搜集并总结生成



