DeepDialogue-orpheus

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/SALT-Research/DeepDialogue-orpheus

下载链接

链接失效反馈

官方服务：

资源简介：

Deep Dialogue (Orpheus TTS)数据集是一个包含对话信息的音频数据集，涉及情感、对话和会话等多种场景。数据集包含了对话ID、模型目录、领域、时间戳、对话轮次、说话者、文本、情感、音频路径等相关信息，适用于音频分类和自动语音识别任务。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，DeepDialogue-orpheus数据集通过精心设计的构建流程实现了多模态对话数据的规模化采集。该数据集采用九种不同参数规模（4B至72B）的大语言模型两两配对，在41个主题领域中生成包含3至10轮对话的交互内容。每个对话轮次均标注了20种情感标签，并利用Orpheus文本转语音模型进行音频合成，该模型能够基于文本中的词汇选择、标点符号和句式结构等语言学特征隐式推断情感表达。整个构建过程确保了语音身份在对话中的一致性，最终形成包含180GB高质量音频的完整语料库。

特点

作为多模态对话研究的重要资源，本数据集展现出多维度特征优势。其核心价值在于融合了文本与语音的双重模态，涵盖40150个高质量多轮对话，每个对话均配备完整的情感轨迹标注和对应的语音片段。数据集采用先进的Orpheus TTS模型生成语音，该模型通过隐式情感推断机制实现自然的情感表达，同时保持对话中说话人语音特征的一致性。数据组织采用分层结构，既包含完整的对话音频文件，也提供经过精细标注的独立语句片段，为语音情感分析和对话系统研究提供了丰富的研究素材。

使用方法

针对多模态对话研究需求，该数据集提供了灵活的数据访问方式。研究者可通过Git LFS工具完整克隆约180GB的数据集，或通过Hugging Face平台选择性下载特定组件。数据集采用标准化的目录结构组织，按模型组合分组存储对话数据，每个对话包含JSON格式的文本元数据、完整对话音频及分句音频片段。配套的Python代码示例展示了如何按模型组合、主题领域或具体对话加载数据，并提供了音频播放和波形可视化功能，便于研究者进行深入的语音分析和情感计算研究。

背景与挑战

背景概述

在人工智能对话系统快速发展的背景下，SALT-Research团队于2025年推出了DeepDialogue-orpheus多模态数据集。该数据集通过整合9种参数量达4B至72B的大型语言模型，构建了涵盖41个领域主题的4万余轮高质量对话。其创新性在于采用Orpheus文本转语音模型，实现了基于文本语义隐式推理的20类情感语音合成，为多模态对话生成与情感计算研究提供了重要基础。

当前挑战

该数据集致力于解决多模态对话系统中情感连贯性与语音自然度的核心难题。在构建过程中面临双重挑战：一方面需要确保不同语言模型生成对话时情感轨迹的连贯演进，另一方面需克服大规模高质量语音数据生成的计算复杂度。特别是Orpheus模型需从文本标点、词汇选择等语言学特征中隐式推断情感表达，这对音频与文本的情感一致性提出了更高要求。

常用场景

经典使用场景

在对话系统研究领域，DeepDialogue-orpheus数据集凭借其多模态特性成为情感对话建模的重要资源。该数据集通过整合文本对话与对应的高质量语音合成数据，为研究者提供了分析情感在对话中动态演变的完整框架。其经典应用场景包括训练端到端的语音对话系统，评估情感识别算法在连续对话中的表现，以及探索多轮交互中情感一致性的保持机制。

衍生相关工作

围绕该数据集已衍生出多个重要研究方向，包括基于情感轨迹建模的对话生成、多模态情感识别框架的构建，以及语音情感合成技术的改进。相关研究探索了不同规模语言模型的情感表达能力差异，建立了文本与语音模态的情感对应关系分析，并推动了Orpheus等先进TTS模型在隐含情感推理方面的发展，为多模态对话系统的演进提供了重要参考。

数据集最近研究