birgermoell/ravdess
收藏Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/birgermoell/ravdess
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-sa-4.0
---
The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
Creators
Livingstone, Steven R.1
ORCID icon
Russo, Frank A.2
ORCID icon
Description
Citing the RAVDESS
The RAVDESS is released under a Creative Commons Attribution license, so please cite the RAVDESS if it is used in your work in any form. Published academic papers should use the academic paper citation for our PLoS1 paper. Personal works, such as machine learning projects/blog posts, should provide a URL to this Zenodo page, though a reference to our PLoS1 paper would also be appreciated.
Academic paper citation
Livingstone SR, Russo FA (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391.
Personal use citation
Include a link to this Zenodo page - https://zenodo.org/record/1188976
Commercial Licenses
Commercial licenses for the RAVDESS can be purchased. For more information, please visit our license fee page, or contact us at ravdess@gmail.com.
Contact Information
If you would like further information about the RAVDESS, to purchase a commercial license, or if you experience any issues downloading files, please contact us at ravdess@gmail.com.
Example Videos
Watch a sample of the RAVDESS speech and song videos.
Emotion Classification Users
If you're interested in using machine learning to classify emotional expressions with the RAVDESS, please see our new RAVDESS Facial Landmark Tracking data set [Zenodo project page].
Construction and Validation
Full details on the construction and perceptual validation of the RAVDESS are described in our PLoS ONE paper - https://doi.org/10.1371/journal.pone.0196391.
The RAVDESS contains 7356 files. Each file was rated 10 times on emotional validity, intensity, and genuineness. Ratings were provided by 247 individuals who were characteristic of untrained adult research participants from North America. A further set of 72 participants provided test-retest data. High levels of emotional validity, interrater reliability, and test-retest intrarater reliability were reported. Validation data is open-access, and can be downloaded along with our paper from PLoS ONE.
Description
The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) contains 7356 files (total size: 24.8 GB). The database contains 24 professional actors (12 female, 12 male), vocalizing two lexically-matched statements in a neutral North American accent. Speech includes calm, happy, sad, angry, fearful, surprise, and disgust expressions, and song contains calm, happy, sad, angry, and fearful emotions. Each expression is produced at two levels of emotional intensity (normal, strong), with an additional neutral expression. All conditions are available in three modality formats: Audio-only (16bit, 48kHz .wav), Audio-Video (720p H.264, AAC 48kHz, .mp4), and Video-only (no sound). Note, there are no song files for Actor_18.
Audio-only files
Audio-only files of all actors (01-24) are available as two separate zip files (~200 MB each):
Speech file (Audio_Speech_Actors_01-24.zip, 215 MB) contains 1440 files: 60 trials per actor x 24 actors = 1440.
Song file (Audio_Song_Actors_01-24.zip, 198 MB) contains 1012 files: 44 trials per actor x 23 actors = 1012.
Audio-Visual and Video-only files
Video files are provided as separate zip downloads for each actor (01-24, ~500 MB each), and are split into separate speech and song downloads:
Speech files (Video_Speech_Actor_01.zip to Video_Speech_Actor_24.zip) collectively contains 2880 files: 60 trials per actor x 2 modalities (AV, VO) x 24 actors = 2880.
Song files (Video_Song_Actor_01.zip to Video_Song_Actor_24.zip) collectively contains 2024 files: 44 trials per actor x 2 modalities (AV, VO) x 23 actors = 2024.
File Summary
In total, the RAVDESS collection includes 7356 files (2880+2024+1440+1012 files).
File naming convention
Each of the 7356 RAVDESS files has a unique filename. The filename consists of a 7-part numerical identifier (e.g., 02-01-06-01-02-01-12.mp4). These identifiers define the stimulus characteristics:
Filename identifiers
Modality (01 = full-AV, 02 = video-only, 03 = audio-only).
Vocal channel (01 = speech, 02 = song).
Emotion (01 = neutral, 02 = calm, 03 = happy, 04 = sad, 05 = angry, 06 = fearful, 07 = disgust, 08 = surprised).
Emotional intensity (01 = normal, 02 = strong). NOTE: There is no strong intensity for the 'neutral' emotion.
Statement (01 = "Kids are talking by the door", 02 = "Dogs are sitting by the door").
Repetition (01 = 1st repetition, 02 = 2nd repetition).
Actor (01 to 24. Odd numbered actors are male, even numbered actors are female).
Filename example: 02-01-06-01-02-01-12.mp4
Video-only (02)
Speech (01)
Fearful (06)
Normal intensity (01)
Statement "dogs" (02)
1st Repetition (01)
12th Actor (12)
Female, as the actor ID number is even.
License information
The RAVDESS is released under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License, CC BY-NC-SA 4.0
Commercial licenses for the RAVDESS can also be purchased. For more information, please visit our license fee page, or contact us at ravdess@gmail.com.
Related Data sets
RAVDESS Facial Landmark Tracking data set [Zenodo project page].
Dataset from https://zenodo.org/records/1188976
--- 许可证:CC BY-NC-SA 4.0 ---
瑞尔森情感语音与歌曲音视频数据库(Ryerson Audio-Visual Database of Emotional Speech and Song, RAVDESS)
创作者
史蒂文·R·利文斯通(Steven R. Livingstone)¹
ORCID图标
弗兰克·A·鲁索(Frank A. Russo)²
ORCID图标
RAVDESS引用规范
本数据库采用知识共享署名许可协议发布,因此无论以何种形式在研究工作中使用该数据库,均需对RAVDESS进行引用。已发表的学术论文需引用我们发表在《公共科学图书馆·综合》(PLoS ONE)上的学术文章;个人作品(如机器学习项目、博客文章)则需提供本Zenodo页面的链接,引用我们的PLoS ONE论文也会被致谢。
学术论文引用格式
利文斯通SR,鲁索FA(2018)瑞尔森情感语音与歌曲音视频数据库(RAVDESS):北美英语语境下的动态多模态面部与语音表情集。PLoS ONE 13(5): e0196391. https://doi.org/10.1371/journal.pone.0196391.
个人作品引用格式
需包含本Zenodo页面的链接:https://zenodo.org/record/1188976
商业许可证
RAVDESS的商业许可证可购买获取。如需了解更多信息,请访问我们的许可费用页面,或发送邮件至ravdess@gmail.com联系我们。
联系信息
若您想获取RAVDESS的更多信息、购买商业许可证,或在下载文件时遇到任何问题,请发送邮件至ravdess@gmail.com联系我们。
示例视频
观看RAVDESS语音与歌曲视频的样例片段。
情感分类使用者
若您希望使用机器学习方法基于RAVDESS对情感表情进行分类,请参阅我们全新的RAVDESS面部地标点跟踪数据集[Zenodo项目页面]。
构建与验证
关于RAVDESS的构建流程与感知验证的完整细节,请参阅我们发表在《公共科学图书馆·综合》(PLoS ONE)上的文章:https://doi.org/10.1371/journal.pone.0196391.
数据集概况
本数据集共包含7356个文件,每个文件均由247名符合北美未训练成年研究参与者特征的受试者进行10次情感有效性、强度与真实性评分。另有72名受试者提供了重测数据。研究结果显示,该数据集在情感有效性、评分者间信度以及重测内部信度上均达到较高水平。验证数据为开放获取内容,可与我们发表在《公共科学图书馆·综合》(PLoS ONE)上的文章一同下载。
详细描述
瑞尔森情感语音与歌曲音视频数据库(RAVDESS)共包含7356个文件,总大小为24.8 GB。该数据库招募了24名专业演员(12名女性、12名男性),让他们以中性北美口音朗读两段语义匹配的语句。语音数据包含平静、快乐、悲伤、愤怒、恐惧、惊讶与厌恶七种情感表达,歌曲数据则包含平静、快乐、悲伤、愤怒与恐惧五种情感。每种情感均设置两种情感强度等级(正常、强烈),并额外包含中性情感表达。所有条件均提供三种模态格式:仅音频(16bit、48kHz .wav格式)、音视频(720p H.264、AAC 48kHz .mp4格式)以及仅视频(无音频)。请注意,演员18(Actor_18)无歌曲文件。
仅音频文件
所有演员(01-24)的仅音频文件分为两个独立的压缩包(每个约200 MB):
- 语音文件(Audio_Speech_Actors_01-24.zip,215 MB)包含1440个文件:每位演员60个试次 × 24名演员 = 1440。
- 歌曲文件(Audio_Song_Actors_01-24.zip,198 MB)包含1012个文件:每位演员44个试次 × 23名演员 = 1012。
音视频与仅视频文件
视频文件按每位演员(01-24,每个约500 MB)单独提供压缩包下载,并分为语音与歌曲两个子类别:
- 语音文件(Video_Speech_Actor_01.zip 至 Video_Speech_Actor_24.zip)总计包含2880个文件:每位演员60个试次 × 2种模态(音视频、仅视频) × 24名演员 = 2880。
- 歌曲文件(Video_Song_Actor_01.zip 至 Video_Song_Actor_24.zip)总计包含2024个文件:每位演员44个试次 × 2种模态(音视频、仅视频) × 23名演员 = 2024。
文件汇总
RAVDESS数据集总计包含7356个文件(2880+2024+1440+1012)。
文件命名规则
RAVDESS的7356个文件均拥有唯一文件名。文件名由7段数字标识符组成(例如:02-01-06-01-02-01-12.mp4),这些标识符定义了刺激材料的特征:
文件名标识符说明:
1. 模态(01 = 全音视频,02 = 仅视频,03 = 仅音频)
2. 语音通道(01 = 语音,02 = 歌曲)
3. 情感(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶)
4. 情感强度(01 = 正常,02 = 强烈)。注意:“中性”情感无强烈强度等级。
5. 语句(01 = “孩子们在门旁交谈”,02 = “狗狗在门旁坐着”)
6. 重复次数(01 = 第一次重复,02 = 第二次重复)
7. 演员编号(01至24。奇数编号为男性演员,偶数编号为女性演员)
文件名示例:02-01-06-01-02-01-12.mp4
- 仅视频(02)
- 语音(01)
- 恐惧(06)
- 正常强度(01)
- 语句为“狗狗在门旁坐着”(02)
- 第一次重复(01)
- 第12位演员(12)
- 女性演员,因演员编号为偶数。
许可证信息
RAVDESS采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0)发布。
RAVDESS的商业许可证亦可购买获取。如需了解更多信息,请访问我们的许可费用页面,或发送邮件至ravdess@gmail.com联系我们。
相关数据集
RAVDESS面部地标点跟踪数据集[Zenodo项目页面]。
数据集来源:https://zenodo.org/records/1188976
提供机构:
birgermoell
原始信息汇总
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
数据集概述
- 名称: Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
- 文件数量: 7356个文件
- 总大小: 24.8 GB
数据集内容
- 参与者: 24名专业演员(12名女性,12名男性)
- 语言: 中性北美口音
- 表达类型:
- 语音: 平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶
- 歌曲: 平静、快乐、悲伤、愤怒和恐惧
- 情感强度: 正常和强烈(中性情感无强烈强度)
- 语句: 两个词汇匹配的语句
- 格式:
- 音频: 16bit, 48kHz .wav
- 音频-视频: 720p H.264, AAC 48kHz, .mp4
- 视频: 无声
文件结构
- 音频文件:
- 语音: 1440个文件(60个试验/演员 x 24个演员)
- 歌曲: 1012个文件(44个试验/演员 x 23个演员)
- 视频文件:
- 语音: 2880个文件(60个试验/演员 x 2种格式 x 24个演员)
- 歌曲: 2024个文件(44个试验/演员 x 2种格式 x 23个演员)
文件命名规则
- 标识符: 7部分数字标识符(例如,02-01-06-01-02-01-12.mp4)
- 格式: 01 = 完整音频-视频,02 = 仅视频,03 = 仅音频
- 语音通道: 01 = 语音,02 = 歌曲
- 情感: 01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶
- 情感强度: 01 = 正常,02 = 强烈(中性无强烈强度)
- 语句: 01 = "Kids are talking by the door", 02 = "Dogs are sitting by the door"
- 重复: 01 = 第一次重复,02 = 第二次重复
- 演员: 01至24(奇数为男性,偶数为女性)
许可证
- 许可证类型: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
- 商业使用: 可购买商业许可证
相关数据集
- RAVDESS Facial Landmark Tracking数据集
搜集汇总
数据集介绍

构建方式
Ryerson音频视觉情感语音与歌曲数据库(RAVDESS)的构建,是通过24位专业演员以北美英语的中性口音,分别录制两种语义匹配的陈述,涵盖平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶等情感表达,以及歌曲中的平静、快乐、悲伤、愤怒和恐惧情感。每位演员的情感表达分为正常和强烈两个强度级别,并额外提供中性表达。所有条件均以音频、音频视觉联合和仅视频三种格式提供,总计包含7356个文件,每份文件均经过10次情感有效性、强度和真实性的评估,确保了高水平的情感有效性、评分者间一致性和重测一致性。
特点
RAVDESS数据库的特点在于其动态的多模态特性,包含了面部和声音的情感表达。数据库中的文件被详细标注,具有唯一的七部分数字标识符,用以定义刺激特征,包括模态、声道、情感、情感强度、陈述、重复次数和演员编号。此外,该数据库遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可证发布,既保障了学术研究的开放获取,也提供了商业使用的途径。
使用方法
使用RAVDESS数据库时,用户可根据需求选择音频、音频视觉联合或仅视频格式的文件。数据库提供的详细文件命名规则,使得用户能够准确识别每个文件的情感和刺激特征。针对情感表达的机器学习分类,数据库还提供了面部标记跟踪数据集以供参考。在使用数据库时,需遵循相应的引用规范,并在商业用途时购买相应的许可证。
背景与挑战
背景概述
Ryerson音频视觉情感语音与歌曲数据库(RAVDESS)是由Livingstone, Steven R.与Russo, Frank A.于2018年创建的,旨在为情感表达的研究提供一个动态的多模态数据集。该数据集涵盖了24位专业演员以北美英语口音表达的七种情感状态,包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶。每种情感状态都有正常和强烈的两个强度级别,以及额外的中性表达。RAVDESS的构建与感知验证细节在其发表的PLoS ONE论文中有详细描述,该数据集的发布对情感计算、语音识别和人工智能领域产生了显著影响。
当前挑战
RAVDESS在构建过程中遇到的挑战主要包括确保情感表达的准确性与可靠性。为此,研究团队采用了严格的评分系统,对每个文件进行了10次情感有效性、强度和真实性的评分。此外,数据集在解决情感表达分类问题的同时,也面临着多模态数据同步、标注一致性以及跨文化适用性等挑战。
常用场景
经典使用场景
在情感计算领域,birgermoell/ravdess数据集以其丰富的情感表达和多种模态格式,成为研究情绪识别的经典资源。该数据集包含了专业演员以北美口音表演的不同情感状态下的言语和歌唱,为研究者提供了在音频、视频及音视频结合的条件下,对情绪进行分类和识别的完备素材。
衍生相关工作
基于该数据集,衍生出了一系列相关研究工作,如RAVDESS面部特征跟踪数据集,这些工作进一步扩展了原始数据集的应用范围,促进了情感计算领域的发展,并推动了相关技术的进步。
数据集最近研究
最新研究方向
在情感计算领域,RAVDESS数据集因其丰富的音频-视觉模态情感表达而备受关注。近期研究主要聚焦于利用该数据集进行情感识别与分类,特别是在机器学习模型中的应用。研究者们致力于开发更为精确的算法,以实现对情绪状态的细粒度识别,从而推动人机交互、情感辅佐治疗等领域的进展。RAVDESS数据集的动态、多模态特性使其成为验证情感识别技术有效性的重要资源,对提升情绪智能系统的准确性与可靠性具有重要意义。
以上内容由遇见数据集搜集并总结生成



