five

awghuku/thai_ser

收藏
Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/awghuku/thai_ser
下载链接
链接失效反馈
官方服务:
资源简介:
THAI SER是一个泰语语音情感识别数据集,包含5种主要情感:中性、愤怒、快乐、悲伤和沮丧。录音总时长为41小时36分钟,包含27,854个话语,由200名专业演员(112名女性,88名男性)录制。录音分为两种环境:工作室和Zoom。工作室录音进一步分为两种环境:Studio A(隔音墙控制噪音)和Studio B(无隔音墙的普通房间)。每个录音分为两个会话:脚本会话和即兴会话。情感标签通过3-8名注释者的多数投票确定。数据集还提供了详细的文件命名规则和目录结构。

THAI SER是一个泰语语音情感识别数据集,包含5种主要情感:中性、愤怒、快乐、悲伤和沮丧。录音总时长为41小时36分钟,包含27,854个话语,由200名专业演员(112名女性,88名男性)录制。录音分为两种环境:工作室和Zoom。工作室录音进一步分为两种环境:Studio A(隔音墙控制噪音)和Studio B(无隔音墙的普通房间)。每个录音分为两个会话:脚本会话和即兴会话。情感标签通过3-8名注释者的多数投票确定。数据集还提供了详细的文件命名规则和目录结构。
提供机构:
awghuku
原始信息汇总

数据集概述

数据集名称

THAI SER

数据集内容

该数据集包含音频文件和对应的情感标签,用于泰语语音情感识别。

特征

  • audio: 音频文件,格式为.flac,采样率约44.1 KHz。
  • label: 情感标签,包括以下类别:
    • 0: Anger
    • 1: Frustration
    • 2: Happiness
    • 3: Neutral
    • 4: Sadness

数据集结构

  • 录音环境: 分为Studio和Zoom两类,其中Studio又分为Studio A(噪音控制,隔音墙)和Studio B(普通房间无隔音)。
  • 录音会话: 每个录音分为Script Session和Improvisation Session。
  • 文件命名: 文件名包含录音ID、麦克风类型、演员ID、会话类型、场景ID等信息。

数据集统计

  • 总录音时长: 41小时36分钟
  • 总录音数: 27,854条
  • 训练集: 14,231条录音,总大小为2,977,334,910.978字节

数据集版本

  • 版本1: 发布于2021年3月26日,包含100个录音,其中80个来自Studio,20个来自Zoom。

数据集赞助与许可

  • 赞助商: Advanced Info Services Public Company Limited
  • 许可: Creative Commons BY-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作