LLM-Dys
收藏github2025-05-29 更新2025-06-01 收录
下载链接:
https://github.com/Berkeley-Speech-Group/LLM-Dys
下载链接
链接失效反馈官方服务:
资源简介:
LLM-Dys是一个创新的项目,利用大型语言模型帮助实现真实的非流畅语音合成。我们的综合数据集支持高级语音合成研究,包括超过10,000小时的数据,可以轻松扩展。数据集包含多种类型的非流畅性,包括单词级别和音素级别的重复、插入、删除、暂停和替换等。
LLM-Dys is an innovative project that leverages large language models to facilitate the synthesis of realistic non-fluent speech. Our comprehensive dataset supports advanced speech synthesis research, with over 10,000 hours of data and easy expandability. The dataset covers a diverse range of non-fluent speech phenomena, including word-level and phoneme-level repetitions, insertions, deletions, pauses, substitutions, and more.
创建时间:
2025-05-23
原始信息汇总
LLM-Dys 数据集概述
🔊 数据集简介
LLM-Dys 是一个利用大型语言模型实现真实不流畅语音合成的创新项目,提供多种音频示例展示。
🔍 不流畅类型
单词级别不流畅
- 重复 (REP): 单词或短语的重复
- 插入 (INS): 插入单词或常见短语
- 删除 (DEL): 省略预期单词
- 停顿 (PAU): 单词间延长停顿
- 替换 (SUB): 目标单词替换
音素级别不流畅
- 重复 (REP): 音节的重复
- 插入 (INS): 插入单个音素
- 删除 (DEL): 省略单个音素
- 停顿 (PAU): 单词内音素间延长停顿
- 替换 (SUB): 单个音素替换
- 延长 (PRO): 特定音素时长延长
✨ 主要特点
- 利用先进LLM技术的自然真实不流畅模式
- 全面支持单词和音素级别所有不流畅类型
- 超过10,000小时可扩展的广泛数据集
- 高质量语音合成,评估指标表现优异
- 通过VCTK数据集集成实现多说话人能力
📊 数据集详情
- 示例数据集: Google Drive (每种类型4000个样本)
- 完整数据集大小: ~5TB (12790小时)
🚀 获取完整数据集
-
克隆仓库 bash git clone https://github.com/Anonymousmmp/LLM-Dys.git
-
设置环境 bash cd data_simulation/VITS pip install -r environment.yml
-
配置VITS (需参考VITS官方配置步骤)
🛠️ 数据生成指南
单词级别合成
bash
标准单词级别合成
cd word_level python run_word.py
停顿类型合成
python run_word_pau.py python batch_pau_add.py
音素级别合成
bash
标准音素级别合成
cd phoneme_level python run_phn.py
停顿类型合成
python run_phn_pau.py python batch_pau_add.py
延长类型合成
python run_phn_pro.py
🔄 不流畅转录器
训练转录器模型
bash cd dysfluency_transcriber pip install -r environment.yml python train_word_level.py # 单词级别转录
或
python train_phn_level.py # 音素级别转录
搜集汇总
数据集介绍

构建方式
在语音合成领域,LLM-Dys数据集通过创新的技术手段构建而成。该数据集依托大规模语言模型技术,采用VITS架构进行语音合成,并整合了VCTK数据集以实现多说话人支持。构建过程中,研究人员针对词语和音素两个层级设计了六类不流畅模式(重复、插入、删除、停顿、替换和延长),通过自动化脚本批量生成包含各类不流畅特征的语音样本。数据生成流程包含环境配置、参数设置和批量执行三个主要环节,最终形成包含12,790小时语音的庞大语料库。
特点
作为专注于非流畅语音合成的专业数据集,LLM-Dys展现出多维度优势。其核心价值在于完整覆盖词语和音素层级的六类不流畅模式,每种类型提供4,000个标准样本。数据集采用模块化设计,支持通过参数调整控制不流畅特征的强度和出现频率。技术层面融合了前沿的VITS合成架构,确保生成语音具有自然流畅的基频和韵律特征。数据规模达5TB的体量为模型训练提供了充分资源,而标准化的标注体系则便于研究者进行定量分析。
使用方法
该数据集的使用遵循分层操作逻辑。基础应用层面,研究者可通过Google Drive获取样本数据快速开展实验。完整数据集需通过GitHub仓库的生成脚本进行构建,涉及环境配置、路径设置和批量执行等步骤。具体应用时,用户可分别调用word_level和phoneme_level目录下的脚本,针对不同不流畅类型生成定制化语音数据。高级功能包括使用dysfluency_transcriber模块进行不流畅标注模型训练,支持词语和音素两个粒度的转录任务。所有操作流程均配有详细的参数说明和示例命令。
背景与挑战
背景概述
LLM-Dys数据集由伯克利语音研究团队于2025年推出,旨在通过大语言模型技术实现真实非流畅语音的合成。该数据集聚焦于言语障碍模拟领域,覆盖词汇和音素两个语言学层级,包含重复、插入、删除等六类典型非流畅特征。作为首个基于LLM的大规模非流畅语音合成数据集,其超过12,790小时的语料规模为言语病理学、辅助通讯设备开发等跨学科研究提供了重要基础。数据集创新性地整合VCTK多说话人语料,在保留语音自然度的同时实现了非流畅特征的精准可控生成。
当前挑战
在解决领域问题层面,LLM-Dys需克服非流畅特征建模的复杂性挑战:语音中断、音节重复等微观语言现象具有高度随机性,传统声学模型难以准确捕捉其时间动态特性。构建过程中面临数据标注一致性难题,专业言语治疗师需对10,000+小时语料进行多层级的非流畅标记,而音素级停顿延长等细微特征标注易受主观判断影响。大规模多说话人生成时,还需平衡非流畅模式植入与原始语音身份特征保留之间的冲突,这对VITS架构的对抗训练策略提出了极高要求。
常用场景
经典使用场景
在语音合成与自然语言处理领域,LLM-Dys数据集为研究非流畅语音生成提供了重要资源。该数据集通过模拟真实场景中的词汇和音素层面的非流畅现象,如重复、插入、删除等,为开发更自然的语音合成系统奠定了基础。研究者可利用该数据集训练模型,生成包含各类非流畅特征的语音样本,从而提升合成语音的真实感和自然度。
解决学术问题
LLM-Dys数据集解决了语音合成中非流畅现象模拟不足的学术难题。传统语音合成技术往往忽略非流畅特征,导致生成语音过于机械。该数据集通过覆盖多种非流畅类型,为研究非流畅语音的生成机制和评估方法提供了数据支持,推动了语音合成技术的多样化和人性化发展。
衍生相关工作
LLM-Dys数据集衍生了多项经典研究工作,包括基于VITS架构的非流畅语音生成模型和端到端语音转录系统。这些工作进一步优化了非流畅语音的合成效果,并探索了其在多说话人场景下的应用。数据集的开源性也促进了学术界对非流畅语音研究的广泛参与。
以上内容由遇见数据集搜集并总结生成



