five

THAI Speech Emotion Recognition (THAI-SER) corpus|语音识别数据集|情感分析数据集

收藏
arXiv2025-07-13 更新2025-07-16 收录
语音识别
情感分析
下载链接:
https://github.com/vistec-AI/dataset-releases/releases/tag/v1, https://huggingface.co/datasets/airesearch/thai-ser, https://github.com/tann9949/thaiser-experiments
下载链接
链接失效反馈
资源简介:
THAI-SER是一个包含41小时36分钟(27,854个语句)的泰语语音情感识别语料库,来自100个在不同录音环境(Zoom和两个录音室设置)中制作的录音。录音包括剧本和即兴表演,由200名专业演员(112名女性和88名男性,年龄在18至55岁之间)表演,并由专业导演执导。有五种主要情感:中性、愤怒、快乐、悲伤和沮丧,在录音时分配给演员。语句使用众包方式标注情感类别。为了控制标注过程的质量,我们还设计了一个广泛的过滤和质量控制方案,以确保大多数协议得分保持在0.71以上。我们使用两个指标评估我们标注的语料库:标注者间可靠性和人类识别准确性。标注者间可靠性得分使用Krippendorff的alpha计算,我们的语料库在过滤后实现了0.692的alpha得分,高于0.667的建议值。对于人类识别准确性,我们的语料库在过滤后得分高达0.772。我们还提供了在语料库上训练的模型的结果,并在语料库内和跨语料库设置上进行了评估。该语料库在Creative Commons BY-SA 4.0许可下公开发布,以及我们用于实验的代码。
提供机构:
信息科学与技术学院,Vidyasirimedhi科学和技术研究所,泰国Rayong;计算机工程系,朱拉隆功大学,泰国曼谷;戏剧艺术系,朱拉隆功大学,泰国曼谷
创建时间:
2025-07-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
THAI-SER语料库的构建采用了多环境、多模态的录音策略,包含专业演员在脚本化和即兴表演下的语音数据。录音环境涵盖两种工作室设置(隔音与非隔音)及Zoom在线会议场景,通过五支专业麦克风和多角度摄像机同步采集音频视频。数据标注采用众包平台结合三重质量控制机制(多数表决、黄金标准问题、一致性检验),并引入预测试筛选合格标注者,最终通过Krippendorff's alpha系数(0.692)验证标注可靠性。
特点
该数据集的核心特点体现在三方面:其一,文化特异性,作为首个大规模泰语情感语音库,填补了东南亚语言在SER研究的空白;其二,多维度控制,包含200名专业演员(18-55岁)在5种基础情感(中性、愤怒、快乐、悲伤、沮丧)下的27,854条语音,总时长41.6小时;其三,环境多样性,同时覆盖高保真工作室录音与真实噪声环境(Zoom)数据,并区分脚本化与即兴会话两种表演形式,为模型鲁棒性研究提供理想素材。
使用方法
使用THAI-SER需遵循标准化流程:建议优先筛选标注一致性≥0.71的样本(占总量51%),以确保数据质量。基准实验推荐8折说话人独立交叉验证,输入特征采用64维梅尔滤波器组系数(25ms帧长,10ms帧移),配合VTLP和CMVN预处理。模型评估需同时报告加权准确率(全体样本)和非加权准确率(类别平均),并可通过对比脚本化/即兴子集或跨语料库(如IEMOCAP)测试探究泛化能力。数据集支持软标签训练,允许利用多标注者概率分布提升模型性能。
背景与挑战
背景概述
THAI Speech Emotion Recognition (THAI-SER) corpus是首个针对泰语语音情感识别的大规模数据集,由泰国Vidyasirimedhi科学技术研究所和朱拉隆功大学的研究团队于2021年创建。该数据集包含41小时36分钟的语音数据(27,854条语音片段),涵盖了五种基本情感(中性、愤怒、快乐、悲伤和沮丧),并由200名专业演员在两种录音环境(Zoom和录音棚)中进行录制。THAI-SER的创建填补了东南亚语言在语音情感识别领域的空白,为跨文化和跨语言的情感计算研究提供了重要资源。
当前挑战
THAI-SER数据集面临的主要挑战包括:1) 领域问题的挑战:泰语作为一种声调语言,其声学特征与非声调语言(如英语)在情感表达上存在显著差异,增加了情感识别的难度;2) 构建过程中的挑战:数据收集过程中需要处理录音环境(如Zoom和录音棚)的差异,确保语音质量和情感表达的一致性;3) 标注质量的挑战:通过众包平台进行情感标注时,需设计严格的过滤和质量控制方案以确保标注的一致性(如多数同意分数需高于0.71)。此外,情感标注中还存在模糊性(如沮丧与愤怒、悲伤的混淆),需通过专家指导和多次验证来解决。
常用场景
经典使用场景
THAI-SER语料库在语音情感识别(SER)领域具有广泛的应用场景,尤其在跨文化和多语言情感识别研究中表现突出。该数据集通过专业演员在脚本化和即兴表演中录制的情感语音,涵盖了五种基本情感(中性、愤怒、快乐、悲伤和沮丧),为研究者提供了丰富的语音情感数据。其经典使用场景包括情感识别模型的训练与评估,特别是在泰语这一非西方语言中的情感表达研究。
解决学术问题
THAI-SER语料库解决了语音情感识别领域中的多个关键学术问题。首先,它填补了泰语情感语音数据集的空白,为非西方语言的情感识别研究提供了重要资源。其次,通过严格的众包标注和质量控制机制,该数据集确保了标注的高可靠性(Krippendorff's alpha ≥ 0.692),为情感标注的标准化提供了参考。此外,数据集还探讨了不同表演风格(脚本化与即兴)和录音环境(工作室与Zoom)对情感识别的影响,为跨领域研究提供了实验基础。
衍生相关工作
THAI-SER语料库的发布推动了多项相关研究工作的开展。基于该数据集,研究者可以探索跨语料库的情感识别模型泛化能力,如与IEMOCAP等西方语言数据集的对比研究。此外,该数据集还启发了对低资源语言情感识别方法的研究,如元学习和课程学习在情感识别中的应用。在技术层面,THAI-SER为多模态大语言模型(如Qwen-Audio)的情感理解能力提升提供了重要数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

SeaDronesSee

SeaDronesSee是由德国图宾根大学认知系统组创建的大型视觉对象检测和跟踪基准,专注于海洋环境中的人类检测。该数据集包含超过54,000帧,总计400,000个实例,从不同高度和视角(5至260米,0至90度)捕获,并提供详细的元信息。数据集的创建旨在填补陆基视觉系统与海基系统之间的差距,特别适用于无人机辅助的海上搜救任务。SeaDronesSee通过提供精确的元数据,如高度、视角和速度,支持多模态系统的开发,以提高检测的准确性和速度。此外,数据集还包括多光谱图像,利用非可见光谱(如近红外和红边光谱)来增强人类检测能力。

arXiv 收录

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录