200-dialogues-voices-libritts

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/sdialog/200-dialogues-voices-libritts

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含200个对话的数据集，使用SDialog生成。对话中的两个角色均使用gemma3:27b-it-qat作为语言模型，但只有医生角色会接收到截断的问号消息。数据集分为训练集、验证集和测试集，索引范围分别指定了医生和病人的数据部分。此外，该数据集还包含了基于LibriTTS数据集构建的语音库，使用IndexTTS模型生成语句，dScaper创建通道和元数据，以及使用PyRoomAcoustics进行音频空间化。

创建时间：

2025-07-28

原始信息汇总

数据集概述

基本信息

数据集名称：200 dialogues generated using SDialog
数据集标识：sdialog/200-dialogues-voices-libritts

数据生成

生成方式：使用SDialog生成的200个对话
语言模型：gemma3:27b-it-qat（双方角色使用）
特殊处理：仅医生角色对话会被截断?

数据划分

训练集：
- 医生角色：doc 0-59
- 患者角色：pat 0-119
开发集：
- 医生角色：doc 60-79
- 患者角色：pat 120-139
测试集：
- 医生角色：doc 80-99
- 患者角色：pat 140-199

音频设置

语音库来源：LibriTTS数据集
语音生成模型：IndexTTS
声道和元数据创建工具：dScaper
音频空间化处理工具：PyRoomAcoustics

搜集汇总

数据集介绍

构建方式

该数据集基于SDialog系统生成的200组医患对话构建，采用分层抽样策略确保角色身份无重叠。对话生成环节中，医生与患者角色均使用gemma3:27b-it-qat语言模型驱动，其中医生对话结尾实施问句截断处理以增强专业性。音频部分依托LibriTTS语音库构建声纹特征，通过IndexTTS模型生成语音波形，并运用dScaper工具合成多通道元数据，最终采用PyRoomAcoustics进行三维声场空间化渲染。数据划分严格遵循身份隔离原则，训练集、验证集和测试集分别包含60/20/20组医生角色和120/20/60组患者角色。

特点

数据集的核心价值在于其多模态特性与临床对话场景的高度适配性。文本层面采用参数优化的量子化语言模型生成，对话结构呈现典型的医患问答模式，医生角色的疑问句截断机制有效模拟了真实诊疗场景的言语特征。音频维度创新性地融合了LibriTTS的高保真发音库与物理声学建模技术，PyRoomAcoustics的空间音频处理使得每个发声源具备精确的方位坐标，dScaper合成的环境噪声与混响参数为语音识别研究提供了丰富的声学干扰样本。数据划分方案通过严格的身份隔离策略，有效避免了模型评估时的信息泄露风险。

使用方法

该数据集适用于多模态对话系统的端到端训练与评估。研究者可基于标准数据划分方案，分别加载文本对话记录与对应空间化音频流。文本数据包含原始对话序列与角色标记，建议采用序列到序列架构建模对话轮次转换。音频文件支持常规语音识别任务，其包含的声场空间元数据特别适用于远场语音增强算法开发。评估阶段需注意角色身份的不可见性要求，测试集医生角色ID（80-99）与患者角色ID（140-199）应严格作为独立验证单元。音频通道信息可用于构建多麦克风阵列的声源定位基准测试。

背景与挑战

背景概述

200-dialogues-voices-libritts数据集是近年来语音合成与对话系统交叉领域的重要研究成果，由研究团队基于SDialog框架开发。该数据集构建于LibriTTS语音数据库之上，采用IndexTTS模型进行话语生成，并运用dScaper工具创建声道与元数据，辅以PyRoomAcoustics实现音频空间化处理。其核心价值在于提供了200组医生与患者角色的对话样本，通过Gemma3:27b-it-qat大语言模型生成对话内容，为语音交互系统的自然度与场景适应性研究提供了高质量素材。数据集的划分严格遵循角色身份不重叠原则，确保了评估的客观性。

常用场景

经典使用场景

在语音合成与人机交互领域，200-dialogues-voices-libritts数据集以其独特的对话结构和语音特征，成为研究多轮对话生成与语音合成的经典基准。该数据集通过模拟医患对话场景，结合Gemma3语言模型生成的文本内容，为研究者提供了丰富的多模态交互数据。其精心设计的训练集、开发集和测试集划分，确保了模型评估的可靠性与泛化能力。

解决学术问题

该数据集有效解决了对话系统中自然语言生成与语音合成协同优化的关键问题。通过LibriTTS语音库与IndexTTS模型的结合，实现了高质量语音输出的同时保持了对话的连贯性。其空间化音频处理技术为多说话人场景下的声学特征研究提供了新思路，填补了对话系统在真实环境声学模拟方面的空白。

衍生相关工作

基于该数据集衍生的研究包括多模态对话状态跟踪、语音情感识别等方向。部分工作探索了Gemma3模型在不同领域对话中的迁移学习能力，另有研究专注于改进IndexTTS在医疗术语发音上的准确性。这些工作共同推动了人机交互系统在专业领域的应用深度。

以上内容由遇见数据集搜集并总结生成