synthetic_dialogue_zh

Hugging Face2026-03-08 更新2026-03-09 收录

下载链接：

https://huggingface.co/datasets/Jaylin0418/synthetic_dialogue_zh

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多模态对话数据集，包含文本和音频信息。数据集采用MIT许可证，包含18个训练样本，总大小为66,223,296字节。每个样本包含丰富的字段信息，如对话ID、模式、主题、场景、系统提示、对话轮次索引、两个LLM模型的输出、说话者信息、对话文本以及副语言信息（如性别、音高、语速、音量和情感）。此外，数据集还包含音频相关字段，如音频路径、音频数据（采样率24,000Hz）、音频起始和结束时间、音频持续时间以及完整对话音频。参考信息字段包括参考文本、参考ID、参考元数据、参考年龄、参考性别、参考口音和参考情感。该数据集适用于多模态对话系统、情感分析、语音合成等任务。

创建时间：

2026-03-05

原始信息汇总

synthetic_dialogue_zh 数据集概述

数据集基本信息

许可证: MIT
下载大小: 5096320093 字节
数据集大小: 6238482374 字节
默认配置名称: default

数据内容与结构

数据总量: 3439 个样本
数据分割: 仅包含训练集（train）
数据文件路径模式: data/train-*

数据特征（Features）

数据集包含以下字段：

对话与元数据

conversation_id: 对话标识符（字符串）
mode: 模式（字符串）
topic: 话题（字符串）
scenario: 场景（字符串）
final_txt_path: 最终文本路径（字符串）
system_prompt: 系统提示（字符串）
turn_index: 轮次索引（int32）
LLM1: 语言模型1（字符串）
LLM2: 语言模型2（字符串）
speaker: 说话者（字符串）
text: 文本内容（字符串）

副语言信息（Paralinguistic Info）

paralinguistic_info: 结构体，包含以下子字段：
- gender: 性别（字符串）
- pitch: 音高（字符串）
- speed: 语速（字符串）
- volume: 音量（字符串）
- emotion: 情感（字符串）

音频数据（标准版本）

audio_path: 音频文件路径（字符串）
audio: 音频数据（采样率 24000 Hz）
audio_start: 音频起始时间（float32）
audio_end: 音频结束时间（float32）
audio_duration: 音频持续时间（float32）
full_dialogue_audio: 完整对话音频路径（字符串）

音频数据（包含停顿与重叠版本）

audio_path_pause_overlap: 音频文件路径（字符串）
audio_pause_overlap: 音频数据（采样率 24000 Hz）
audio_start_pause_overlap: 音频起始时间（float32）
audio_end_pause_overlap: 音频结束时间（float32）
audio_duration_pause_overlap: 音频持续时间（float32）
full_dialogue_audio_pause_overlap: 完整对话音频路径（字符串）

参考信息

reference: 参考信息（字符串）
reference_id: 参考标识符（字符串）
reference_metadata: 参考元数据（字符串）
reference_age: 参考年龄（字符串）
reference_gender: 参考性别（字符串）
reference_accent: 参考口音（字符串）
emotion_reference: 情感参考（字符串列表）

搜集汇总

数据集介绍

构建方式

在对话生成与语音合成领域，synthetic_dialogue_zh数据集通过精心设计的流程构建而成。该数据集采用双大型语言模型交互模式，围绕特定话题和场景生成多轮对话文本，并进一步结合语音合成技术，为每一轮对话生成了对应的音频数据。构建过程中，系统不仅记录了对话的文本内容与说话者信息，还细致标注了副语言特征，如性别、音高、语速、音量及情感状态，同时整合了包含停顿与重叠的音频版本，确保了数据在语音自然度与对话连贯性上的高质量。

使用方法

该数据集适用于对话系统、语音合成及多模态机器学习等多个研究方向。使用者可通过加载指定的数据文件，访问每一轮对话的文本、对应音频及其丰富的元数据字段。研究人员能够利用对话文本进行自然语言理解与生成任务的训练，同时结合同步的音频数据开发语音识别或情感语音合成模型。数据集中提供的副语言信息和参考说话人属性，为进一步探究语音风格迁移、个性化对话生成等前沿课题奠定了坚实的数据基础。

背景与挑战

背景概述

在自然语言处理与语音合成技术融合发展的背景下，synthetic_dialogue_zh数据集应运而生，旨在推动中文对话系统的多模态研究。该数据集由研究团队通过大语言模型生成对话内容，并整合了丰富的副语言信息与音频特征，涵盖了多样的话题、场景与说话模式。其核心研究问题聚焦于如何构建高质量、大规模且具有自然交互特性的中文对话语料，以支持对话生成、情感语音合成及多模态人机交互等前沿领域的模型训练与评估。该数据集的创建为中文语境下的对话智能体开发提供了关键资源，显著促进了相关技术从纯文本向语音与情感维度拓展的进程。

当前挑战

synthetic_dialogue_zh数据集面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决中文多模态对话建模的复杂性，包括如何确保生成对话的语义连贯性、情感表达的准确性以及语音与文本之间的同步对齐，这些都对模型的跨模态理解与生成能力提出了较高要求。在构建过程中，挑战涉及大规模合成数据的质量控制，例如平衡话题与场景的多样性、保持副语言特征（如音高、语速、情感）的真实性，以及处理音频数据中的停顿与重叠现象，确保最终语料在自然度和技术可用性上达到研究标准。

常用场景

经典使用场景

在对话系统与语音合成领域，synthetic_dialogue_zh数据集为研究者提供了丰富的中文多轮对话资源。其经典使用场景在于训练和评估端到端的对话生成模型，特别是结合文本与语音模态的交互系统。通过模拟真实对话场景，该数据集支持模型学习自然语言理解与生成、情感表达及副语言信息的整合，为构建更人性化的智能助手奠定数据基础。

解决学术问题

该数据集有效解决了中文对话研究中数据稀缺与多样性不足的学术难题。它通过合成方法生成了涵盖多种话题、场景和情感状态的对话样本，并附有详细的副语言信息如音高、语速和情感标签，使得研究者能够深入探索多模态对话建模、情感识别与语音合成对齐等核心问题。其结构化特征为跨模态学习提供了标准化基准，推动了对话人工智能向更自然、更具表现力的方向发展。

实际应用

在实际应用中，synthetic_dialogue_zh数据集被广泛用于开发智能客服、虚拟陪伴助手和教育对话系统。基于其多轮对话结构和语音数据，企业可以训练出能够理解用户情感、调整语音语调的交互式代理，提升服务体验。同时，该数据集支持语音合成技术的优化，帮助生成更自然、富有情感的中文语音，应用于有声读物、导航提示等场景，增强人机交互的真实感与亲和力。

数据集最近研究