five

Emotive Narrative Storytelling (EMNS) corpus

收藏
arXiv2023-05-26 更新2024-06-21 收录
下载链接:
https://github.com/knoriy/EMNS-DCT
下载链接
链接失效反馈
官方服务:
资源简介:
EMNS数据集是由伯恩茅斯大学的数字娱乐中心创建,旨在提升交互式叙事驱动系统中的语音表达性和情感质量。该数据集包含2.3小时的录音,由一名女性演讲者提供,涵盖八种表演情感状态,情感分布均匀,具有0.68%的变异度。数据集还包括表达性水平和自然语言描述,附带单词强调标签。EMNS数据集通过精心选择Mozilla的Common Voice数据集中的句子,确保了语音的多样性和未来扩展的可能性。此外,数据集的创建过程中使用了Montreal Forced Aligner进行语音和文本的对齐,以提高语音合成的自然度和表达性。该数据集适用于语音合成研究,特别是在虚拟助手、交互式故事讲述和娱乐平台等领域,旨在通过合成语音有效传达情感,创造更吸引人的用户体验。

The EMNS dataset was created by the Digital Entertainment Centre at Bournemouth University, aiming to enhance the vocal expressiveness and emotional quality of interactive narrative-driven systems. This dataset contains 2.3 hours of recorded speech provided by a female speaker, covering eight acted emotional states with uniform emotional distribution and a variability of 0.68%. The dataset also includes expressiveness levels and natural language descriptions, accompanied by word-level emphasis tags. The EMNS dataset ensures vocal diversity and potential for future expansion by carefully selecting sentences from Mozilla's Common Voice dataset. Additionally, the Montreal Forced Aligner was utilized during the dataset creation process to align speech and text, thereby improving the naturalness and expressiveness of speech synthesis. This dataset is applicable to speech synthesis research, particularly in fields such as virtual assistants, interactive storytelling, and entertainment platforms, with the goal of effectively conveying emotions through synthesized speech to create more engaging user experiences.
提供机构:
数字娱乐中心,伯恩茅斯大学,英国
创建时间:
2023-05-22
搜集汇总
数据集介绍
main_image_url
构建方式
在情感语音合成领域,构建高质量数据集是提升合成语音表现力的关键。EMNS语料库的构建采用了系统化的远程采集流程,通过定制化的网络应用平台实现。该平台设定了管理员、演员和查看者三种角色,演员在指定情感提示下录制预定义语句,随后由管理员审核录音的转录准确性和音频质量,剔除含杂音或发音错误的样本。录音在专业声学环境中进行,使用心形指向麦克风并优化拾音距离与角度,确保音频清晰纯净。语料库的语句选自Mozilla Common Voice数据集,保证了语音多样性,并利用Montreal Forced Aligner进行音素对齐和静音修剪,进一步提升了数据的精确度与可用性。
使用方法
EMNS语料库为语音合成与情感计算研究提供了多方面的应用途径。研究者可利用其丰富的标注信息训练先进的文本转语音模型,特别是注重情感适应性和表达控制的系统。数据集中的自然语言描述与重音标记有助于开发上下文感知的语音生成算法,提升叙事连贯性。在语音情感识别任务中,均衡的情感类别和强度标签可作为有效的训练与评估基准。此外,其开源的远程数据采集工具允许其他学者扩展数据规模或适配不同语言场景,推动个性化与跨文化语音合成研究的发展。
背景与挑战
背景概述
随着语音合成技术在交互式叙事系统中的广泛应用,对自然且富有情感表现力的语音需求日益增长。EMNS(情感叙事讲述)语料库由伯恩茅斯大学数字娱乐中心与国立计算机动画中心的研究团队于2023年创建,旨在解决传统语音合成系统在情感表达上的局限性。该数据集包含2.3小时由女性说话者录制的标注语音,涵盖八种表演情感状态,并均匀分布以0.68%的方差呈现。通过整合自然语言描述与词汇强调标签,EMNS为提升合成语音的情感深度与表达力提供了关键资源,推动了人机交互与计算副语言学领域的研究进展。
当前挑战
在语音合成领域,情感表达的准确性与自然度一直是核心挑战。EMNS语料库致力于解决交互式叙事系统中语音情感单一与缺乏语境适应性的问题,通过提供多样化的情感标签与表达强度等级,增强了合成语音的情感真实感。在构建过程中,研究团队面临确保语音质量与情感一致性的双重挑战:需在远程录制环境下控制背景噪音与录音失真,同时平衡情感类别的分布以避免偏差。此外,整合自然语言描述与强调标签要求精细的标注流程,以保障数据集的实用性与可扩展性。
常用场景
经典使用场景
在情感语音合成领域,EMNS语料库为交互式叙事系统提供了核心训练资源。该数据集通过标注八种情感状态及十级表现力强度,使研究者能够构建能够动态调整语音情感色彩的文本转语音模型。其经典应用体现在为虚拟角色生成富有表现力的对话,尤其在游戏叙事和互动故事中,系统可依据情节发展实时合成符合角色心境的情感化语音,显著提升用户的沉浸体验。
解决学术问题
EMNS语料库有效解决了传统语音合成中情感表达单一、缺乏韵律变化的关键问题。通过提供高质量、无噪声且包含自然语言描述的语音样本,该数据集支持了语音情感识别与合成领域对副语言特征的研究需求。其均衡的情感分布与精细的表现力标注,为探索情感与语音声学特征的映射关系提供了可靠数据基础,推动了更具表现力和人性化的语音合成技术的发展。
实际应用
该数据集的实际价值在多个交互式娱乐与辅助系统中得以体现。在电子游戏领域,开发者可利用EMNS训练语音引擎,使非玩家角色根据剧情冲突或玩家选择呈现愤怒、悲伤或兴奋等多样化的语音反馈。在电视节目或图形小说改编的互动应用中,该数据集能驱动旁白或角色语音的情感适配,创造出更具吸引力的叙事体验。同时,其开源的数据收集工具也降低了高质量情感语音数据的获取门槛。
数据集最近研究
最新研究方向
在情感语音合成领域,EMNS语料库以其独特的情感叙事设计,正推动交互式叙事系统向更高表达力迈进。该数据集整合了八种基础情感状态与十级情感强度,结合自然语言描述与词重音标注,为前沿研究提供了丰富的情感语音资源。当前研究聚焦于利用EMNS提升语音合成模型的情感适应性与上下文感知能力,尤其在虚拟助手与互动娱乐应用中,实现更自然、更具沉浸感的人机对话。其高质量、无噪声的录音特性,以及开源的数据收集工具,进一步促进了远程语音数据采集与跨文化情感识别研究的发展,为情感计算与语音技术的融合开辟了新路径。
相关研究论文
  • 1
    EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels数字娱乐中心,伯恩茅斯大学,英国 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作