THAI Speech Emotion Recognition (THAI-SER) corpus

Name: THAI Speech Emotion Recognition (THAI-SER) corpus
Creator: 信息科学与技术学院，Vidyasirimedhi科学和技术研究所，泰国Rayong；计算机工程系，朱拉隆功大学，泰国曼谷；戏剧艺术系，朱拉隆功大学，泰国曼谷
Published: 2025-07-13 20:52:31
License: 暂无描述

arXiv2025-07-13 更新2025-07-16 收录

下载链接：

https://github.com/vistec-AI/dataset-releases/releases/tag/v1, https://huggingface.co/datasets/airesearch/thai-ser, https://github.com/tann9949/thaiser-experiments

下载链接

链接失效反馈

官方服务：

资源简介：

THAI-SER是一个包含41小时36分钟（27,854个语句）的泰语语音情感识别语料库，来自100个在不同录音环境（Zoom和两个录音室设置）中制作的录音。录音包括剧本和即兴表演，由200名专业演员（112名女性和88名男性，年龄在18至55岁之间）表演，并由专业导演执导。有五种主要情感：中性、愤怒、快乐、悲伤和沮丧，在录音时分配给演员。语句使用众包方式标注情感类别。为了控制标注过程的质量，我们还设计了一个广泛的过滤和质量控制方案，以确保大多数协议得分保持在0.71以上。我们使用两个指标评估我们标注的语料库：标注者间可靠性和人类识别准确性。标注者间可靠性得分使用Krippendorff的alpha计算，我们的语料库在过滤后实现了0.692的alpha得分，高于0.667的建议值。对于人类识别准确性，我们的语料库在过滤后得分高达0.772。我们还提供了在语料库上训练的模型的结果，并在语料库内和跨语料库设置上进行了评估。该语料库在Creative Commons BY-SA 4.0许可下公开发布，以及我们用于实验的代码。

THAI-SER is a Thai speech emotion recognition corpus containing 41 hours and 36 minutes (27,854 utterances), collected from 100 recordings made across different recording environments including Zoom and two studio settings. The recordings include both scripted and improvised performances, delivered by 200 professional actors (112 female and 88 male, aged between 18 and 55 years old) and directed by professional directors. Five primary emotions are assigned to actors during recording: neutral, anger, happiness, sadness, and frustration. Utterances are annotated with their emotion categories via crowdsourcing. To control the quality of the annotation process, we designed a comprehensive filtering and quality control scheme to ensure that most annotation agreement scores remain above 0.71. We evaluate this annotated corpus using two metrics: inter-annotator reliability and human recognition accuracy. The inter-annotator reliability score is calculated using Krippendorff's alpha; after filtering, our corpus achieves an alpha score of 0.692, which exceeds the recommended value of 0.667. For human recognition accuracy, the filtered corpus yields a score as high as 0.772. We also present the results of models trained on this corpus, evaluated under both within-corpus and cross-corpus experimental settings. This corpus is publicly released under the Creative Commons BY-SA 4.0 license, along with the code used in our experiments.

提供机构：

信息科学与技术学院，Vidyasirimedhi科学和技术研究所，泰国Rayong；计算机工程系，朱拉隆功大学，泰国曼谷；戏剧艺术系，朱拉隆功大学，泰国曼谷

创建时间：

2025-07-13

搜集汇总

数据集介绍

构建方式

THAI-SER语料库的构建采用了多环境、多模态的录音策略，包含专业演员在脚本化和即兴表演下的语音数据。录音环境涵盖两种工作室设置（隔音与非隔音）及Zoom在线会议场景，通过五支专业麦克风和多角度摄像机同步采集音频视频。数据标注采用众包平台结合三重质量控制机制（多数表决、黄金标准问题、一致性检验），并引入预测试筛选合格标注者，最终通过Krippendorff's alpha系数（0.692）验证标注可靠性。

特点

该数据集的核心特点体现在三方面：其一，文化特异性，作为首个大规模泰语情感语音库，填补了东南亚语言在SER研究的空白；其二，多维度控制，包含200名专业演员（18-55岁）在5种基础情感（中性、愤怒、快乐、悲伤、沮丧）下的27,854条语音，总时长41.6小时；其三，环境多样性，同时覆盖高保真工作室录音与真实噪声环境（Zoom）数据，并区分脚本化与即兴会话两种表演形式，为模型鲁棒性研究提供理想素材。

使用方法

使用THAI-SER需遵循标准化流程：建议优先筛选标注一致性≥0.71的样本（占总量51%），以确保数据质量。基准实验推荐8折说话人独立交叉验证，输入特征采用64维梅尔滤波器组系数（25ms帧长，10ms帧移），配合VTLP和CMVN预处理。模型评估需同时报告加权准确率（全体样本）和非加权准确率（类别平均），并可通过对比脚本化/即兴子集或跨语料库（如IEMOCAP）测试探究泛化能力。数据集支持软标签训练，允许利用多标注者概率分布提升模型性能。

背景与挑战

背景概述

THAI Speech Emotion Recognition (THAI-SER) corpus是首个针对泰语语音情感识别的大规模数据集，由泰国Vidyasirimedhi科学技术研究所和朱拉隆功大学的研究团队于2021年创建。该数据集包含41小时36分钟的语音数据（27,854条语音片段），涵盖了五种基本情感（中性、愤怒、快乐、悲伤和沮丧），并由200名专业演员在两种录音环境（Zoom和录音棚）中进行录制。THAI-SER的创建填补了东南亚语言在语音情感识别领域的空白，为跨文化和跨语言的情感计算研究提供了重要资源。

当前挑战

THAI-SER数据集面临的主要挑战包括：1) 领域问题的挑战：泰语作为一种声调语言，其声学特征与非声调语言（如英语）在情感表达上存在显著差异，增加了情感识别的难度；2) 构建过程中的挑战：数据收集过程中需要处理录音环境（如Zoom和录音棚）的差异，确保语音质量和情感表达的一致性；3) 标注质量的挑战：通过众包平台进行情感标注时，需设计严格的过滤和质量控制方案以确保标注的一致性（如多数同意分数需高于0.71）。此外，情感标注中还存在模糊性（如沮丧与愤怒、悲伤的混淆），需通过专家指导和多次验证来解决。

常用场景

经典使用场景

THAI-SER语料库在语音情感识别（SER）领域具有广泛的应用场景，尤其在跨文化和多语言情感识别研究中表现突出。该数据集通过专业演员在脚本化和即兴表演中录制的情感语音，涵盖了五种基本情感（中性、愤怒、快乐、悲伤和沮丧），为研究者提供了丰富的语音情感数据。其经典使用场景包括情感识别模型的训练与评估，特别是在泰语这一非西方语言中的情感表达研究。

解决学术问题

THAI-SER语料库解决了语音情感识别领域中的多个关键学术问题。首先，它填补了泰语情感语音数据集的空白，为非西方语言的情感识别研究提供了重要资源。其次，通过严格的众包标注和质量控制机制，该数据集确保了标注的高可靠性（Krippendorff's alpha ≥ 0.692），为情感标注的标准化提供了参考。此外，数据集还探讨了不同表演风格（脚本化与即兴）和录音环境（工作室与Zoom）对情感识别的影响，为跨领域研究提供了实验基础。

衍生相关工作

THAI-SER语料库的发布推动了多项相关研究工作的开展。基于该数据集，研究者可以探索跨语料库的情感识别模型泛化能力，如与IEMOCAP等西方语言数据集的对比研究。此外，该数据集还启发了对低资源语言情感识别方法的研究，如元学习和课程学习在情感识别中的应用。在技术层面，THAI-SER为多模态大语言模型（如Qwen-Audio）的情感理解能力提升提供了重要数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集