DeepDialogue-xtts

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/SALT-Research/DeepDialogue-xtts

下载链接

链接失效反馈

官方服务：

资源简介：

DeepDialogue-xtts是一个多模态数据集，包含大型语言模型之间的合成对话和通过XTTS-v2生成的情感丰富的语音。该数据集旨在用于会话推理、情感韵律和跨模态话语动力学的研究。每个对话都包括一个包含对话域、时间戳、参与LLM和逐轮对话的JSON文件，以及一个包含每个发言的WAV文件、完整对话的音频文件和元数据的文件夹。

创建时间：

2025-05-13

原始信息汇总

DeepDialogue-xtts 数据集概述

数据集基本信息

数据集名称: DeepDialogue-xtts
存储位置: https://huggingface.co/datasets/SALT-Research/DeepDialogue-xtts
下载大小: 80,172,060 字节
数据集大小: 261,914,837 字节
训练集样本数: 243,295 条

数据结构

特征字段

对话标识类
- conversation_id: 对话唯一标识符 (string)
- turn_index: 对话轮次索引 (int64)
- speaker: 说话者标识 (string)
模型信息类
- model_dir: 模型目录 (string)
- model1: 模型1标识 (string)
- model2: 模型2标识 (string)
- audio_model: 音频生成模型 (string)
内容信息类
- text: 文本内容 (string)
- audio_original_text: 原始文本 (string)
- audio_substituted_text: 替换后文本 (string)
- audio_cleaned_text: 清洗后文本 (string)
- audio_ref_transcript: 参考文本 (string)
情感信息类
- emotion: 情感标签 (string)
- audio_dialogue_emotion: 对话情感标签 (string)
- audio_ravdess_emotion: RAVDESS情感标签 (string)
音频信息类
- full_audio_path: 完整音频路径 (string)
- segment_audio_path: 分段音频路径 (string)
- audio_segment_id: 音频分段ID (float64)
- audio_ref_audio: 参考音频路径 (string)
- audio_start_time: 音频起始时间 (float64)
- audio_end_time: 音频结束时间 (float64)
- audio_duration: 音频时长 (float64)
- audio_following_silence: 后续静音时长 (float64)
元数据类
- domain: 领域标签 (string)
- timestamp: 时间戳 (string)
- audio_actor: 音频演员 (string)
- audio_generation_time: 音频生成时间 (float64)
- audio_realtime_factor: 实时因子 (float64)

数据划分

训练集: 包含全部243,295条样本
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

DeepDialogue-xtts数据集通过多轮对话场景的精心设计，构建了一个涵盖丰富语音与文本特征的对话语料库。该数据集采用结构化存储方式，每条记录包含对话ID、领域标签、时间戳等元数据，并同步采集对话文本、情感标签及对应音频片段。语音数据经过专业处理，标注了起始时间、持续时间、情感特征等声学参数，同时保留原始文本与清洗后文本的对应关系，确保数据的一致性与可追溯性。

使用方法

研究人员可通过加载数据集的标准HuggingFace接口快速获取训练集，利用内置的对话ID和轮次索引实现多轮对话场景重构。语音合成研究可重点调用audio_cleaned_text与对应音频路径进行声学模型训练，情感分析任务则可联合text字段与emotion/audio_ravdess_emotion双标签体系。数据提供的realtime_factor等参数支持语音生成效率的定量评估，而ref_audio字段为语音克隆研究提供高质量的参考音频样本。

背景与挑战

背景概述

DeepDialogue-xtts数据集由语音合成与对话系统领域的研究团队开发，旨在推动多模态对话生成技术的发展。该数据集收录了丰富的对话内容，涵盖了多种情感表达和语音特征，为研究者提供了跨模态对话分析的宝贵资源。其核心研究问题聚焦于如何实现自然流畅的语音对话生成，并探索情感与语音特征之间的关联。自发布以来，DeepDialogue-xtts已成为语音合成和对话系统领域的重要基准数据集，为相关技术的进步提供了有力支持。

当前挑战

DeepDialogue-xtts数据集面临的挑战主要包括两个方面：在领域问题方面，如何准确捕捉和复现对话中的情感变化以及语音特征，仍是一个亟待解决的难题；在构建过程中，数据采集的多样性与一致性之间的平衡、多模态数据的对齐与标注精度，以及大规模语音数据的存储与处理效率，均为实际构建过程中的主要技术瓶颈。

常用场景

经典使用场景

在对话系统研究领域，DeepDialogue-xtts数据集因其多模态特性成为评估文本转语音(TTS)与情感识别模型的基准工具。该数据集通过包含对话文本、情感标签及对应音频片段的三元组结构，使研究者能够系统分析语音合成过程中文本语义与情感表达的耦合关系。其独特的跨模型对话记录为探究不同语音合成架构的交互表现提供了实验基础，尤其在多轮对话情境下，可模拟真实人机交互中的语音连贯性与情感一致性。

解决学术问题

该数据集有效解决了对话系统中情感传递失真、跨轮次语音风格不一致等核心难题。通过标注细粒度的情感标签与精确的时间对齐信息，支持语音合成模型的情感迁移能力研究，填补了传统TTS数据集缺乏对话上下文关联的空白。其包含的多种语音模型输出数据，为比较神经声码器与参数合成技术的优劣提供了实证基础，推动了语音合成领域从孤立语句向连贯对话的范式转变。

实际应用

在智能客服、虚拟助手等实际场景中，DeepDialogue-xtts支持开发具有情感适应能力的对话系统。基于其丰富的语音-文本对齐数据，企业可训练出能根据用户情绪自动调节语速、语调的响应模型。医疗领域的心理辅导机器人利用该数据集的情绪标注，可识别患者潜在的心理状态变化，实现更具同理心的人机交互。教育科技公司则借助其多说话人数据，构建个性化的语言学习陪练系统。

数据集最近研究