awghuku/thai_ser
收藏Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/awghuku/thai_ser
下载链接
链接失效反馈官方服务:
资源简介:
THAI SER是一个泰语语音情感识别数据集,包含5种主要情感:中性、愤怒、快乐、悲伤和沮丧。录音总时长为41小时36分钟,包含27,854个话语,由200名专业演员(112名女性,88名男性)录制。录音分为两种环境:工作室和Zoom。工作室录音进一步分为两种环境:Studio A(隔音墙控制噪音)和Studio B(无隔音墙的普通房间)。每个录音分为两个会话:脚本会话和即兴会话。情感标签通过3-8名注释者的多数投票确定。数据集还提供了详细的文件命名规则和目录结构。
THAI SER是一个泰语语音情感识别数据集,包含5种主要情感:中性、愤怒、快乐、悲伤和沮丧。录音总时长为41小时36分钟,包含27,854个话语,由200名专业演员(112名女性,88名男性)录制。录音分为两种环境:工作室和Zoom。工作室录音进一步分为两种环境:Studio A(隔音墙控制噪音)和Studio B(无隔音墙的普通房间)。每个录音分为两个会话:脚本会话和即兴会话。情感标签通过3-8名注释者的多数投票确定。数据集还提供了详细的文件命名规则和目录结构。
提供机构:
awghuku
原始信息汇总
数据集概述
数据集名称
THAI SER
数据集内容
该数据集包含音频文件和对应的情感标签,用于泰语语音情感识别。
特征
- audio: 音频文件,格式为.flac,采样率约44.1 KHz。
- label: 情感标签,包括以下类别:
- 0: Anger
- 1: Frustration
- 2: Happiness
- 3: Neutral
- 4: Sadness
数据集结构
- 录音环境: 分为Studio和Zoom两类,其中Studio又分为Studio A(噪音控制,隔音墙)和Studio B(普通房间无隔音)。
- 录音会话: 每个录音分为Script Session和Improvisation Session。
- 文件命名: 文件名包含录音ID、麦克风类型、演员ID、会话类型、场景ID等信息。
数据集统计
- 总录音时长: 41小时36分钟
- 总录音数: 27,854条
- 训练集: 14,231条录音,总大小为2,977,334,910.978字节
数据集版本
- 版本1: 发布于2021年3月26日,包含100个录音,其中80个来自Studio,20个来自Zoom。
数据集赞助与许可
- 赞助商: Advanced Info Services Public Company Limited
- 许可: Creative Commons BY-SA 4.0



