sdf_dataset_en

Hugging Face2025-04-03 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/minghanw/sdf_dataset_en

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechDialogueFactory数据集是一个大规模、高质量的合成语音对话数据集，旨在为开发和评估语音LLM提供支持。数据集包含了300个多样化的自定义提示，涵盖了广泛的话题、时空设置和文化背景。通过自动质量评估框架筛选，确保了最终输出的高质量。数据集适用于研究和开发目的，但需要注意可能包含有害、有偏见或不适当的内容。

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

在语音对话系统研究领域，构建高质量数据集面临成本与真实性的双重挑战。SpeechDialogueFactory数据集通过四阶段合成管道实现规模化构建：首先利用大语言模型生成包含场景设定和角色特征的元数据；随后基于叙事逻辑编写包含情感递进和副语言特征的对话脚本；继而模拟真实对话过程生成带有语音韵律标注的语句；最终结合角色特征检索和语音克隆技术完成语音合成。该流程采用300个多样化提示模板，经自动质量评估框架筛选后形成3000余组对话，确保内容覆盖16个主题领域和17种情感状态。

特点

作为面向语音大模型训练的专业数据集，其核心价值体现在多维度的真实性模拟。数据集包含32000余个对话轮次，总时长超过430000秒，平均每轮语音达13.6秒。内容设计上融合时空情境与文化背景的多样性，涵盖科技变革、医疗健康等16个主题域，情感表达从积极到消极形成连续谱系。技术特色在于完整保留对话元数据、逐轮文本转录、副语言标注及高质量语音文件的四位一体结构，为语音对话研究提供全景式数据支持。

使用方法

通过Hugging Face数据集库可便捷加载该资源，典型应用场景包含端到端语音对话模型训练与评估。数据样本以结构化形式呈现，研究者可分别获取场景元数据、完整脚本、带韵律标注的逐轮文本及合并音频。特别提供基于帧长度的语音切分方案，支持将连续对话流按说话轮次精准分割。使用须知强调需对合成内容进行伦理审查，建议配合人工审核机制消除潜在偏见风险，适用于符合伦理规范的学术研究场景。

背景与挑战

背景概述

SpeechDialogueFactory数据集诞生于2025年，由Minghan Wang等学者领衔开发，旨在解决语音对话系统领域的关键瓶颈问题。作为SpeechDialogueFactory项目的核心组成部分，该数据集针对传统语音对话数据采集成本高昂、隐私风险突出以及对话真实性不足等痛点，通过创新的合成技术构建了具备自然对话流与丰富副语言特征的大规模语料库。其覆盖16个主题领域与17种情感状态，包含3000余段高质量对话，总时长超过430000秒，为语音大语言模型（Speech-LLMs）的研发提供了重要基础设施，显著推动了多模态对话系统的研究进程。

当前挑战

该数据集主要应对语音对话建模中的双重挑战：在领域问题层面，需突破真实对话数据稀缺性导致的模型泛化能力局限，同时解决多轮对话中副语言特征（如情感韵律、话轮转换）的建模难题；在构建过程中，面临合成对话的自然度控制、跨模态对齐（文本-语音一致性）以及消除大语言模型固有偏见等技术挑战。尽管采用300个多样化提示模板与自动化质量评估框架，合成内容仍存在潜在有害信息残留的风险，这要求使用者必须建立额外的伦理审查机制。

常用场景

经典使用场景

在语音对话系统开发领域，sdf_dataset_en数据集因其丰富的对话场景和精细的副语言标注而成为研究者的首选基准。该数据集广泛应用于语音大语言模型（Speech-LLMs）的训练与评估，特别是在模拟真实对话交互、情感识别和多轮对话管理等核心任务中展现出色性能。通过3000余个涵盖16个主题的对话样本，研究者能够系统性分析不同语境下语音对话的韵律特征和情感表达规律。

衍生相关工作

基于该数据集衍生的研究已形成系列突破性成果，包括对话状态跟踪模型DST-SDF、跨模态情感识别框架EmoCross等经典工作。微软亚洲研究院开发的DialogueLM直接采用该数据集进行预训练，在多项对话理解基准上刷新记录。近期发表于ACL的ParaLingua研究则利用数据集中的副语言标注，建立了语音与文本模态的情感对齐模型，开辟了多模态对话分析的新方向。

数据集最近研究