Hi, KIA
收藏arXiv2022-11-07 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/6989810
下载链接
链接失效反馈官方服务:
资源简介:
Hi, KIA是一个专为唤醒词(WUW)设计的语音情感识别数据集,由韩国科学技术院创建。该数据集包含488条来自八位韩国演员的情感标注语音,每条语音标注有愤怒、快乐、悲伤或中性四种情感状态。数据集的创建过程包括场景选择、录音/后处理和人工验证标签一致性。Hi, KIA数据集特别适用于车载语音用户界面(VUIs),也可用于一般目的的文本依赖语音情感识别,旨在提升人机交互的情感理解。
Hi, KIA is a speech emotion recognition dataset specifically designed for Wake-Up Word (WUW) tasks, developed by the Korea Advanced Institute of Science and Technology (KAIST). This dataset includes 488 emotionally annotated speech utterances from eight Korean actors, with each utterance labeled with one of four emotional states: anger, happiness, sadness, or neutrality. The dataset construction process encompasses scene selection, audio recording and post-processing, as well as manual verification of label consistency. The Hi, KIA dataset is particularly applicable to in-vehicle Voice User Interfaces (VUIs), and can also be utilized for general-purpose text-dependent speech emotion recognition, aiming to enhance emotional understanding in human-computer interaction.
提供机构:
韩国科学技术院
创建时间:
2022-11-07
搜集汇总
数据集介绍

构建方式
在语音情感识别领域,构建高质量数据集需兼顾情感表达的多样性与标注的准确性。Hi, KIA 数据集的构建始于场景选择阶段,研究团队基于情感计算理论,通过八名经验丰富的研究生设计了涵盖愤怒、快乐、悲伤及中性四种情感状态的驾驶情境脚本。随后,招募八名韩语配音演员在可视化场景卡的引导下进行录音,确保情感表达的自然性与沉浸感。录音完成后,通过裁剪唤醒词片段并进行人工验证,剔除标注不一致的样本,最终形成包含488条语音的精选数据集,平均时长仅0.64秒,体现了对短语音情感特征的精细捕捉。
特点
Hi, KIA 数据集在语音情感识别领域展现出独特优势。其核心特点在于专注于唤醒词这一短语音场景,平均长度仅0.64秒,是目前公开数据集中时长最短的,为研究短时语音情感特征提供了宝贵资源。数据集包含愤怒、快乐、悲伤和中性四种情感标签,所有样本均经过严格的人工验证,确保了标注的可靠性。此外,数据全部由八名韩语配音演员录制,口音一致且覆盖男女声线,为探索语音情感中的文化特异性与声学模式奠定了基础。
使用方法
该数据集适用于文本依赖型语音情感识别研究,尤其聚焦于唤醒词场景。使用者可基于其提供的488条标注样本,开发或评估情感分类模型。为辅助研究,论文中提出了两种基准方法:一是基于传统手工特征(如eGeMAPS)的逻辑回归模型;二是采用预训练的Wav2vec 2.0模型进行迁移学习,通过微调上下文网络实现高效特征提取。实验采用八折交叉验证以确保说话人独立性,评估指标包括加权准确率与未加权准确率。数据集与代码已公开,便于后续研究进行模型比较与算法创新。
背景与挑战
背景概述
随着语音用户界面在车载系统等领域的广泛应用,唤醒词作为激活语音识别系统的关键指令,其蕴含的情感信息成为提升人机交互体验的重要维度。2022年,韩国科学技术院与起亚汽车设计工作室的研究团队联合发布了Hi, KIA数据集,专注于韩语口音的唤醒词语音情感识别。该数据集收录了八位发音人在愤怒、快乐、悲伤及中性四种情感状态下录制的488条短语音样本,平均时长仅0.64秒,旨在解决现有语音情感数据集在唤醒词场景下数据稀缺、样本长度不足的问题,为车载语音界面的情感化设计提供了重要的数据支撑。
当前挑战
Hi, KIA数据集面临的挑战主要体现在两方面:在领域问题层面,短时唤醒词语音的情感识别极具复杂性,由于语音信号持续时间极短,传统声学特征难以捕捉细微的情感变化,且高唤醒度情感如愤怒与快乐在声学特征上易产生混淆,导致模型区分度不足。在构建过程中,数据采集受限于在线环境与疫情条件,需通过精心设计的场景卡片引导发音人自然表达情感,同时依赖多人标注与严格的人工验证以确保标签一致性,这增加了数据构建的复杂度与成本。
常用场景
经典使用场景
在语音情感识别领域,Hi, KIA数据集专为唤醒词场景设计,其核心应用在于推动短语音情感分类研究。该数据集通过精心设计的驾驶情境脚本,模拟用户在车内唤醒语音助手时的真实情绪表达,为研究者提供了标准化的实验基准。其短时语音特性(平均长度0.64秒)尤其适合探索有限时长下的情感特征提取,成为评估模型在唤醒词场景中情感判别能力的重要工具。
解决学术问题
Hi, KIA数据集主要解决了短时语音情感识别中数据稀缺与标注质量的问题。传统情感识别数据集多针对长句设计,难以捕捉唤醒词特有的瞬时情绪变化。该数据集通过人工验证确保标签一致性,并提供了韩语口音的多样化样本,填补了跨语言短语音情感研究的空白。其存在促进了针对小样本、文本依赖场景下的特征工程与迁移学习方法的发展,为语音界面情感智能提供了关键数据支撑。
衍生相关工作
基于Hi, KIA数据集,研究者已衍生出多项经典工作,包括基于传统手工特征(如eGeMAPS)的逻辑回归模型与基于Wav2vec 2.0的迁移学习框架。这些工作探索了不同网络模块(编码器与上下文网络)的微调策略,证明了在短语音场景中,针对高层表征的优化能显著提升分类准确率。后续研究可进一步结合多模态数据或跨语言迁移,拓展唤醒词语音情感识别的边界。
以上内容由遇见数据集搜集并总结生成



