SEACrowd/thai_ser

Name: SEACrowd/thai_ser
Creator: SEACrowd
Published: 2024-06-24 13:31:41
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/thai_ser

下载链接

链接失效反馈

官方服务：

资源简介：

THAI SER数据集包含5种主要情感：中性、愤怒、快乐、悲伤和沮丧。这些录音由200名专业演员（112名女性，88名男性）在朱拉隆功大学艺术学院的指导下完成，总时长为41小时36分钟（27,854条语音）。数据集分为两种主要录制环境：Studio和Zoom。Studio录音又分为两个环境：Studio A（有隔音墙的受控录音室）和Studio B（无隔音或噪音控制的普通房间）。

The THAI SER dataset consists of 5 main emotions: Neutral, Anger, Happiness, Sadness, and Frustration. The recordings were performed by 200 professional actors (112 female, 88 male) under the direction of students, former alumni, and professors from the Faculty of Arts, Chulalongkorn University, totaling 41 hours and 36 minutes (27,854 utterances). The dataset is divided into two main recording environments: Studio and Zoom. Studio recordings further consist of two environments: Studio A, a controlled studio room with soundproof walls, and Studio B, a normal room without soundproofing or noise control.

提供机构：

SEACrowd

原始信息汇总

Thai Ser 数据集

概述

数据集名称: Thai Ser
语言: 泰语 (tha)
任务类别: 语音情感识别 (Speech Emotion Recognition)
标签: 语音情感识别

数据集详情

情感类别: 中性、愤怒、快乐、悲伤、沮丧
录音时长: 41小时36分钟 (27,854条语音)
参与者: 200名专业演员 (112名女性，88名男性)
录音环境:
- Studio:
  - Studio A: 隔音墙控制室
  - Studio B: 普通房间，无隔音或噪音控制
- Zoom: 100条录音

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

许可证

许可证类型: Creative Commons Attribution Share Alike 4.0 (cc-by-sa-4.0)

引用

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，高质量数据集的构建对模型性能至关重要。THAI SER数据集的构建过程体现了严谨的学术合作，其语料由朱拉隆功大学艺术学院的师生及校友指导，邀请200位专业演员（112位女性、88位男性）参与录制，共产生27,854条语音片段，总时长约41小时36分钟。录音环境分为两大类别：专业录音棚与Zoom线上录制。其中，录音棚环境进一步细分为具备隔音墙的受控空间（Studio A）与无噪声控制的普通房间（Studio B），这种多层次的环境设计旨在模拟真实世界中的声学多样性，为模型训练提供了丰富的声学特征样本。

使用方法

研究人员可通过`datasets`库或专为东南亚语言设计的`seacrowd`库便捷地加载此数据集。使用`datasets`库时，调用`load_dataset`函数并指定数据集名称即可。若采用`seacrowd`库，则能获得更符合区域语言特点的数据处理支持，并可查询与加载特定的数据集配置。加载后，数据集可直接用于训练与评估语音情感识别模型，其结构化的环境标签（Studio A, Studio B, Zoom）支持针对声学条件鲁棒性的专项研究。

背景与挑战

背景概述

在语音情感识别领域，针对东南亚语言的数据资源相对匮乏，泰语作为该地区的主要语言之一，其情感语音数据的系统构建显得尤为重要。THAI SER数据集由朱拉隆功大学艺术学院的学生、校友及教授指导，联合200名专业演员共同录制，于2024年正式发布。该数据集聚焦于泰语语音中的五种核心情感——中性、愤怒、快乐、悲伤和沮丧，旨在为泰语情感计算研究提供高质量、多样化的语音样本，推动跨文化情感分析模型的发展。

当前挑战

THAI SER数据集面临的挑战主要体现在两个方面：在领域问题层面，泰语语音情感识别需克服语言特有的声学特征与文化语境差异，例如语调变化对情感表达的影响，这增加了模型泛化与准确分类的难度；在构建过程中，数据采集涉及两种录音环境——专业隔音工作室与普通房间，虽提升了数据多样性，但环境噪声与设备差异引入了声学不一致性，需通过精细的预处理确保数据质量与可比性。

常用场景

经典使用场景

在语音情感识别领域，THAI SER数据集为泰语语音情感分析提供了关键资源。该数据集通过专业演员在录音室和远程环境下的表演，捕捉了中立、愤怒、快乐、悲伤和沮丧五种核心情感状态。研究者通常利用其丰富的语音样本，训练深度学习模型以识别泰语中的细微情感变化，尤其在跨文化情感表达研究中，该数据集成为验证模型泛化能力的基础工具。

解决学术问题

THAI SER数据集有效解决了低资源语言情感识别研究的空白问题。在自然语言处理领域，泰语等东南亚语言的情感数据长期匮乏，该数据集通过大规模、高质量标注的语音样本，为跨语言情感建模、声学特征提取以及环境噪声鲁棒性研究提供了实证基础。其多环境录音设计（如录音室与Zoom环境）进一步推动了语音情感识别在真实场景中的适应性探索，促进了计算语言学与心理学交叉学科的发展。

实际应用

在实际应用中，THAI SER数据集支持智能客服系统、心理健康监测工具以及人机交互界面的开发。例如，基于该数据集的模型可集成到泰语地区的客户服务中心，实时分析用户语音中的情感倾向，优化服务响应策略；在教育技术领域，它有助于开发情感感知的学习辅助系统，根据学生语音反馈调整教学节奏。这些应用不仅提升了技术服务的个性化水平，也为东南亚地区的数字包容性提供了技术支撑。

数据集最近研究