thai-ser

Name: thai-ser
Creator: VISTEC-depa AI Research Institute of Thailand
Published: 2025-04-15 16:48:20
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/airesearch/thai-ser

下载链接

链接失效反馈

官方服务：

资源简介：

THAI-SER数据集是一个包含泰语情感语音表述的公开数据集，由泰国AI研究院、VISTEC、数字经济发展署、朱拉隆功大学计算机工程系和戏剧艺术系联合发布。该数据集包含了专业演员在脚本和即兴场景中的表演录音，涵盖了中性、愤怒、快乐、悲伤和挫败等情感类型。数据集分为两种录音环境：录音室（有控和无控）和Zoom。总共有200名演员参与，包括112名女性和88名男性，总语音时长为41小时36分钟，共有27,854条语音表述。

提供机构：

VISTEC-depa AI Research Institute of Thailand

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

THAI-SER数据集作为泰语语音情感识别领域的重要资源，其构建过程体现了多机构协作的严谨性。数据采集由200名专业演员在三种录音环境下完成，包括隔音工作室、普通房间及Zoom在线平台。通过精心设计的脚本会话和即兴会话两种模式，演员们演绎了五种基础情感状态，每种情感均包含正常和强烈两种强度等级。数据标注采用多人标注机制，通过计算标注者间一致性分数确保标签可靠性，最终形成包含27,854条语音样本的高质量语料库。

特点

该数据集最显著的特点在于其多维度标注体系和生态效度。每条语音样本不仅包含基础情感标签，还附有详细的元数据，如演员 demographics、会话类型、录音环境等。特别值得注意的是，数据集同时提供了脚本朗读和情境即兴两种语音材料，这种双模态设计为研究可控语音和自然对话中的情感表达差异提供了可能。四通道同步录音技术（包括近场麦克风和环境麦克风）的运用，使得该数据集在声学环境多样性方面具有独特优势。

使用方法

使用THAI-SER数据集时，研究者可通过HuggingFace平台直接加载音频文件和丰富元数据。建议首先根据研究目标选择特定子集，如聚焦某种录音环境或会话类型。对于情感分类任务，可采用majority_emo字段作为基准标签，同时利用agreement分数评估模型在高低一致性样本上的表现。多麦克风录音版本为声学特征研究提供了对比素材，而详尽的场景描述文本则适合用于多模态情感分析。实验代码库提供的基准模型可作为性能对比的起点。

背景与挑战

背景概述

THAI-SER数据集由泰国人工智能研究院（AIResearch）联合VISTEC科学技术研究所、数字经济促进局（depa）、朱拉隆功大学工程学院计算机工程系及艺术学院戏剧艺术系共同构建，并于2021年3月26日首次发布。该数据集聚焦于泰语语音情感识别（SER）领域，旨在解决东南亚语言在情感计算研究中数据稀缺的核心问题。通过专业演员在脚本化和即兴场景下的多环境录音，数据集收录了涵盖中性、愤怒、快乐、悲伤和沮丧五种情感的27,854条语音样本，总时长41.6小时。其多机构协作背景与精细的元数据标注体系，为跨文化情感计算研究提供了重要基准。

当前挑战

构建THAI-SER数据集面临双重挑战：在领域问题层面，泰语作为声调语言的复杂韵律特征与情感表达的耦合机制尚未充分研究，现有跨语言SER模型难以捕捉其独特的音韵学模式；在技术实现层面，数据收集需协调200名演员在三种录音环境（隔音室、普通房间及Zoom）下的多轮次表演，同步保证语音质量与情感标注一致性。标注过程中，即兴会话场景下情感边界模糊导致标注者间协议系数波动，需通过多数投票机制优化。此外，脚本会话中相同语句的重复演绎虽增强数据可控性，但可能引入表演风格偏差，需通过演员轮换与强度分级进行平衡。

常用场景

经典使用场景

在语音情感识别领域，THAI-SER数据集以其丰富的泰语情感语音样本成为研究东南亚语言情感特征的标杆资源。该数据集通过专业演员在受控环境和即兴对话场景下的表演，精准捕捉了泰语中愤怒、快乐、悲伤等五种典型情感的声学特征，为构建跨文化情感识别模型提供了标准化语料。其独特的脚本会话与即兴会话双模态设计，使得研究者能够对比分析预设语境与自然对话中的情感表达差异。

解决学术问题

该数据集有效解决了非英语语种情感识别研究中数据稀缺的核心问题。通过包含200名演员在三种录音环境下产生的41小时语音，填补了泰语情感语音数据库的空白，为探究声学特征与情感表达的普适性规律提供了实证基础。其精细标注的说话人年龄、性别及会话类型等元数据，助力于情感识别中的偏差分析、跨性别情感建模等前沿课题。

衍生相关工作

该数据集催生了多项重要研究，如VISTEC团队开发的跨模态情感识别框架ThaiEmoNet，通过融合声学特征与文本语义实现89.2%的识别准确率。Chulalongkorn大学据此提出的环境鲁棒性增强算法，显著提升了Zoom录音场景下的情感分类性能。衍生工作还包括基于说话人年龄分层的韵律分析研究，揭示了泰语情感表达中的代际差异特征。

以上内容由遇见数据集搜集并总结生成