DeepDialogue

github2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/SALT-Research/DeepDialogue-code

下载链接

链接失效反馈

官方服务：

资源简介：

DeepDialogue是一个多轮情感丰富的口语对话数据集，用于语音情感识别(SER)任务。数据集有两个版本，XTTS版本和Orpheus版本，均可在HuggingFace上获取。

DeepDialogue is a multi-turn spoken dialogue dataset rich in emotional content, designed for speech emotion recognition (SER) tasks. The dataset has two variants: the XTTS version and the Orpheus version, both of which are available on HuggingFace.

创建时间：

2025-05-16

原始信息汇总

DeepDialogue数据集概述

基本信息

数据集名称: DeepDialogue
论文标题: DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset
论文链接: https://arxiv.org/abs/2505.19978
项目网站: https://salt-research.github.io/DeepDialogue

数据集内容

类型: 多轮情感丰富的口语对话数据集
用途: 语音情感识别(SER)任务

数据版本

数据集提供两个版本，均托管在HuggingFace平台：

XTTS版本: https://huggingface.co/datasets/SALT-Research/DeepDialogue-xtts
Orpheus版本: https://huggingface.co/datasets/SALT-Research/DeepDialogue-orpheus

实验代码

代码位置: ser/目录
训练命令: bash bash train.sh
评估脚本: bash python evaluate_ravdess.py --model_path /path/to/deepdialogue-trained/model --ssl_model_name facebook/hubert-base-ls960 --ravdess_root /path/to/ravdess --hidden_size 128 --feature_dim 768 --batch_size 32 --seed 42

引用格式

bibtex @misc{koudounas2025deepdialoguemultiturnemotionallyrichspoken, title={DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset}, author={Alkis Koudounas and Moreno La Quatra and Elena Baralis}, year={2025}, eprint={2505.19978}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.19978}, }

搜集汇总

数据集介绍

构建方式

DeepDialogue数据集的构建基于多轮情感丰富的口语对话场景，通过精心设计的实验流程收集语音样本。研究团队采用两种不同的文本转语音系统（XTTS和Orpheus）生成对话数据，确保语音样本在情感表达和自然度上的多样性。数据采集过程严格遵循语音情感识别领域的标准协议，所有语音样本均经过专业标注，涵盖多种情感状态和对话情境。

使用方法

研究者可通过HuggingFace平台获取数据集的XTTS和Orpheus两个版本。使用前需配置Python环境并安装相关依赖库，包括transformers和datasets等。数据集支持标准语音处理流程，可直接用于训练语音情感识别模型。评估脚本提供了5折交叉验证功能，支持在RAVDESS等基准数据集上进行模型性能测试。用户可根据需要修改训练脚本参数，灵活调整模型架构和训练策略。

背景与挑战

背景概述

DeepDialogue数据集由SALT Research团队于2025年推出，旨在为多轮情感丰富的口语对话研究提供高质量数据支持。该数据集由Alkis Koudounas、Moreno La Quatra和Elena Baralis等学者共同构建，聚焦于语音情感识别（SER）任务，填补了多轮对话中情感动态变化研究的空白。其创新性在于整合了XTTS和Orpheus两种语音合成技术生成的对话数据，为情感计算、对话系统等领域提供了新的研究范式。数据集通过HuggingFace平台开源，迅速成为语音情感分析领域的重要基准之一。

当前挑战

DeepDialogue数据集面临的核心挑战体现在两个维度：在领域问题层面，多轮对话中情感的连续性和上下文依赖性对传统语音情感识别模型构成严峻考验，现有方法难以准确捕捉对话流中的情感迁移模式；在构建过程中，合成语音的自然度与情感表达真实性的平衡成为关键难点，研究者需克服不同语音合成系统（XTTS/Orpheus）产生的声学特征差异，确保数据集的情感标注一致性。此外，跨数据集验证时（如RAVDESS），模型泛化能力受到发音风格与录音条件差异的显著影响。

常用场景

经典使用场景

在情感计算与人机交互领域，DeepDialogue数据集作为多轮情感丰富的口语对话资源，为语音情感识别（SER）任务提供了标准化的实验基准。研究者通过该数据集可模拟真实对话场景中的情感动态变化，尤其适用于探究长时程对话中情感状态的迁移规律与建模方法。其多模态特性支持同时分析语音韵律、文本语义与情感标签的关联性。

解决学术问题

该数据集有效解决了对话系统中情感连贯性建模的学术难题，填补了传统单轮情感数据集无法捕捉对话上下文影响的空白。通过提供细粒度的情感标注与多说话人交互数据，支持跨轮次情感传递分析、情感状态预测等核心研究，推动了对话系统情感理解从静态向动态演进的范式转变。

实际应用

在智能客服与虚拟助手开发中，基于DeepDialogue训练的模型能显著提升系统对用户情绪变化的响应质量。其真实场景采集的对话数据特别适用于医疗问诊、心理辅导等需要高情感敏感度的领域，帮助AI系统实现更具共情力的多轮交互。数据集衍生的预训练模型可直接部署于实时对话情绪监测系统。

数据集最近研究