EdwardLin2023/ASVP_ESD
收藏Hugging Face2023-04-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EdwardLin2023/ASVP_ESD
下载链接
链接失效反馈官方服务:
资源简介:
ASVP-ESD数据集是由华南理工大学电子与信息工程学院的Audio, Speech, and Vision Processing Lab创建的,包含了13种情感的语音和非语音样本。数据集详细记录了每种情感的样本数量、总时长、性别分布、年龄范围和语言种类等信息,旨在用于情感识别研究。
ASVP-ESD数据集是由华南理工大学电子与信息工程学院的Audio, Speech, and Vision Processing Lab创建的,包含了13种情感的语音和非语音样本。数据集详细记录了每种情感的样本数量、总时长、性别分布、年龄范围和语言种类等信息,旨在用于情感识别研究。
提供机构:
EdwardLin2023
原始信息汇总
数据集概述
数据集名称
The Audio, Speech, and Vision Processing Lab - Emotional Sound Database (ASVP - ESD)
创建机构
School of Electronic and Information Engineering, South China University of Technology
包含情感
数据集包含13种情感:
- boredom, sigh
- neutral, calm
- happy, laugh, gaggle
- sad, cry
- angry, grunt, frustration
- fearful, scream, panic
- disgust, dislike, contempt
- surprised, gasp, amazed
- excited
- pleasure
- pain, groan
- disappointment, disapproval
- breath
数据集组织
语音统计
- 总片段数:2,150
- 总时长:13347.835秒(3.708小时)
- 情感分布:
- neutral, calm: 657 clips
- angry, grunt, frustration: 385 clips
- sad, cry: 268 clips
- surprised, gasp, amazed: 144 clips
- happy, laugh, gaggle: 154 clips
- disgust, dislike, contempt: 90 clips
- fearful, scream, panic: 63 clips
- disappointment, disapproval: 132 clips
- boredom, sigh: 81 clips
- excited: 136 clips
- pain, groan: 25 clips
- pleasure: 15 clips
- breath: 0 clips
- 性别分布:
- male: 1,224 clips
- female: 926 clips
- 年龄分布:
- 20~65岁: 1,914 clips
- <3岁: 91 clips
- 3<20岁: 80 clips
-
65岁: 65 clips
- 语言分布:
- Mandarin: 937 clips
- English: 621 clips
- French: 175 clips
- Others: 417 clips
非语音统计
- 总片段数:5,484
- 总时长:14438.117秒(4.011小时)
- 情感分布:
- fearful, scream, panic: 799 clips
- surprised, gasp, amazed: 808 clips
- happy, laugh, gaggle: 878 clips
- pain, groan: 706 clips
- disgust, dislike, contempt: 473 clips
- angry, grunt, frustration: 339 clips
- sad, cry: 383 clips
- boredom, sigh: 392 clips
- disappointment, disapproval: 70 clips
- neutral, calm: 253 clips
- pleasure: 273 clips
- excited: 109 clips
- breath: 1 clip
- 性别分布:
- male: 2,919 clips
- female: 2,565 clips
- 年龄分布:
- 20~65岁: 5,224 clips
- <3岁: 87 clips
- 3<20岁: 100 clips
-
65岁: 73 clips
- 语言分布:
- English: 3,258 clips
- Mandarin: 512 clips
- Others: 1,605 clips
- French: 109 clips
搜集汇总
数据集介绍

构建方式
该数据集由华南理工大学电子与信息工程学院创建,涵盖语音和非语音的情感表达。数据集的构建基于多种情感状态,包括 boredom、happy、sad 等 13 种情感类别,以及正常和高度的情感强度。语音部分包含 2,150 个剪辑,非语音部分包含 5,484 个剪辑,通过统计不同情感、性别、年龄范围和语言的剪辑数量与时长,构建了一个全面的声音情感数据库。
特点
ASVP-ESD 数据集的特点在于其多样性,不仅包含语音剪辑,还包含非语音剪辑,使得该数据集适用于更广泛的情感识别研究。数据集中的情感类别丰富,涵盖人类情感的多个维度,且每种情感均伴有相应的声音表现,如 sigh、laugh、cry 等。此外,数据集还详细统计了不同性别、年龄和语言背景的剪辑,增加了其实用性和研究价值。
使用方法
使用 ASVP-ESD 数据集时,研究者可以根据具体的研究需求,选择相应的情感类别、性别、年龄范围或语言进行数据筛选。数据集以 cc-by-4.0 许可授权,允许用户在遵守许可协议的前提下自由使用。用户可通过数据集中的统计信息,了解各情感类别的分布情况,从而有针对性地进行情感识别算法的训练与测试。
背景与挑战
背景概述
在情感计算领域,声音作为情感表达的重要媒介,其研究对于深化人类情感理解至关重要。Audio, Speech, and Vision Processing Lab - Emotional Sound Database (ASVP - ESD) 数据集,由华南理工大学电子与信息工程学院创建于2020年,主要研究人员包括Dejoli Tientcheu Touko Landry、Qianhua He、Haikang Yan和Yanxiong Li。该数据集针对情感识别,包含了13种情感状态,总计超过2,150个语音片段和5,484个非语音片段,旨在为情感识别研究提供全面的语音和非语音素材,对相关领域产生了显著影响。
当前挑战
ASVP - ESD数据集在构建过程中,面临的挑战主要包括情感标签的一致性和准确性,以及跨语言、性别和年龄范围的样本均衡性。此外,数据集在解决领域问题,如语音情感识别的挑战上,需处理情感表达的多样性和复杂性,同时,对非语音情感表达的识别也提出了更高的技术要求。
常用场景
经典使用场景
在音频、语音和视觉处理领域,EdwardLin2023/ASVP_ESD数据集以其丰富的情感标签和多样的语音非语音样本,成为情感识别研究的重要资源。该数据集经典使用场景在于,研究人员可利用其进行声学模型训练,以实现对不同情感状态的有效识别和分类。
解决学术问题
该数据集解决了情感识别研究中样本多样性不足和标注一致性差的问题。通过提供13种情感标签和详细的语音统计信息,ASVP_ESD为学术研究提供了可靠的数据基础,有助于提升情感识别算法的准确性和鲁棒性。
衍生相关工作
基于ASVP_ESD数据集,研究者们已开展了一系列相关工作,包括情感识别算法的改进、跨语言情感识别研究以及情感分析与心理状态预测相结合的应用探索。
以上内容由遇见数据集搜集并总结生成



