VoxEmoset

Name: VoxEmoset
Creator: Ewha Womans University, Princeton University, NAVER CLOUD
Published: 2025-11-05 20:40:28
License: 暂无描述

arXiv2025-11-05 更新2025-11-07 收录

下载链接：

http://1.COXstudio

下载链接

链接失效反馈

官方服务：

资源简介：

VoxEmoset是一个大规模的情感语音描述与情感图像配对数据集，包含24.7万个情感丰富的语音描述，用于训练和评估语音到图像（S2I）模型。该数据集通过先进的文本到语音（TTS）引擎自动生成，涵盖了多种情感类别，包括快乐、兴奋、愤怒、厌恶、恐惧和悲伤。VoxEmoset旨在解决传统语音到图像模型在处理情感和语调信息方面的局限性，为S2I模型提供更具表现力和情感共鸣的图像生成能力。

提供机构：

Ewha Womans University, Princeton University, NAVER CLOUD

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

在语音-图像跨模态研究领域，VoxEmoset数据集通过创新的自动化流程构建而成。该数据集以EmoSet视觉情感数据集为基础，从中选取了11.8万张标注有六种基本情感的人类与机器标注图像。随后利用多模态大语言模型为每张图像生成三条事实性描述文本，避免直接的情感表达，确保描述聚焦于场景的客观要素。最后采用先进的F5-TTS文本转语音系统，结合来自CREMA-D、MEAD和RAVDESS等多个情感语音数据集的声音参考，合成具有丰富情感表现力的语音样本，并通过Emotion2Vec模型进行质量验证，最终形成包含24.7万条语音-图像对的大规模数据集。

特点

作为语音驱动图像生成领域的重要资源，VoxEmoset展现出独特的跨模态特性。该数据集首次在语音-图像配对数据中系统性地融入了情感维度，其语音样本不仅传递语义内容，更通过音调、语速等副语言特征承载细腻的情感信息。在数据质量方面，经NMOS指标评估，其语音质量与真实世界数据集SpokenCOCO和Flickr8kAudio相媲美，同时情感可区分度达到0.8998的高水平。数据集覆盖愤怒、厌恶、恐惧、悲伤和愉悦五类情感，通过精心设计的生成流程确保了语音与图像在情感表达上的一致性，为研究语音中的情感线索如何影响图像生成提供了理想平台。

使用方法

在语音到图像生成的研究实践中，VoxEmoset数据集发挥着多重功能。研究者可将该数据集用于端到端语音到图像模型的训练，通过其丰富的情感语音样本学习如何将语音中的语言和副语言信息共同映射到视觉空间。在评估阶段，数据集支持对生成图像的情感一致性进行量化分析，通过情感分类准确率等指标衡量模型捕捉语音情感特征的能力。此外，数据集还可用于零样本泛化测试，验证模型在未见过的情感表达上的表现。使用时应遵循标准的数据划分方案，注意语音样本需要重采样至16kHz以兼容主流语音编码器，同时建议结合CLIPScore和FID等多维度指标进行全面评估。

背景与挑战

背景概述

VoxEmoset数据集于2025年由NAVER CLOVD、梨花女子大学和普林斯顿大学的研究团队联合发布，旨在解决语音到图像生成领域中情感表达不足的核心问题。该数据集通过先进的多模态大语言模型和文本转语音技术，自动合成了24.7万条情感语音-图像配对数据，覆盖愤怒、厌恶、享受、恐惧和悲伤五类情感。其创新性在于突破了传统语音数据集仅关注语义内容的局限，首次系统性地融合了语音中的副语言信息，为构建端到端的情感驱动式语音-图像生成模型奠定了数据基础。

当前挑战

该数据集面临的领域挑战主要体现为语音模态中情感一致性与语言歧义的平衡问题：语音信号在传递语义时易受语调、语速等副语言特征干扰，导致生成图像与预期情感出现偏差；同时，同音词歧义与方言差异可能引发视觉元素的错误关联。在构建过程中，需克服合成数据真实性与多样性的双重挑战：文本转语音系统需在保留情感强度的同时避免音质失真，而跨模态对齐要求语音特征在压缩为语义令牌时兼顾信息密度与情感保真度。此外，数据规模扩展还受到计算资源与多模态标注成本的制约。

常用场景

经典使用场景

在语音驱动的图像生成研究领域，VoxEmoset数据集为探索语音信号与视觉内容之间的情感映射关系提供了重要支撑。该数据集通过结合情感语音样本与对应图像描述，构建了大规模的多模态对齐样本，使得研究人员能够深入分析语音中的韵律特征如何影响图像生成的情感表达。在语音到图像生成模型的训练过程中，VoxEmoset常被用于验证模型对情感语义的捕捉能力，特别是在处理不同情感类别时生成图像的视觉表现差异。

衍生相关工作

VoxEmoset的发布催生了一系列跨模态生成领域的创新研究。以该数据集为基础，VoxStudio模型首次实现了端到端的语音到图像生成框架，启发了后续对语音信息瓶颈模块的深入探索。相关研究进一步拓展到语音情感编辑、多模态内容合成等方向，如基于语音提示的图像编辑技术。在数据集层面，VoxEmoset的情感标注体系为构建更细粒度的多模态数据集提供了参考标准，推动了语音-视觉联合表示学习的发展。

数据集最近研究