LLM-Dys

github2025-05-29 更新2025-06-01 收录

下载链接：

https://github.com/Berkeley-Speech-Group/LLM-Dys

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-Dys是一个创新的项目，利用大型语言模型帮助实现真实的非流畅语音合成。我们的综合数据集支持高级语音合成研究，包括超过10,000小时的数据，可以轻松扩展。数据集包含多种类型的非流畅性，包括单词级别和音素级别的重复、插入、删除、暂停和替换等。

LLM-Dys is an innovative project that leverages large language models to facilitate the synthesis of realistic non-fluent speech. Our comprehensive dataset supports advanced speech synthesis research, with over 10,000 hours of data and easy expandability. The dataset covers a diverse range of non-fluent speech phenomena, including word-level and phoneme-level repetitions, insertions, deletions, pauses, substitutions, and more.

创建时间：

2025-05-23

原始信息汇总

LLM-Dys 数据集概述

🔊 数据集简介

LLM-Dys 是一个利用大型语言模型实现真实不流畅语音合成的创新项目，提供多种音频示例展示。

🔍 不流畅类型

单词级别不流畅

重复 (REP): 单词或短语的重复
插入 (INS): 插入单词或常见短语
删除 (DEL): 省略预期单词
停顿 (PAU): 单词间延长停顿
替换 (SUB): 目标单词替换

音素级别不流畅

重复 (REP): 音节的重复
插入 (INS): 插入单个音素
删除 (DEL): 省略单个音素
停顿 (PAU): 单词内音素间延长停顿
替换 (SUB): 单个音素替换
延长 (PRO): 特定音素时长延长

✨ 主要特点

利用先进LLM技术的自然真实不流畅模式
全面支持单词和音素级别所有不流畅类型
超过10,000小时可扩展的广泛数据集
高质量语音合成，评估指标表现优异
通过VCTK数据集集成实现多说话人能力

📊 数据集详情

示例数据集: Google Drive (每种类型4000个样本)
完整数据集大小: ~5TB (12790小时)

🚀 获取完整数据集

克隆仓库 bash git clone https://github.com/Anonymousmmp/LLM-Dys.git
设置环境 bash cd data_simulation/VITS pip install -r environment.yml
配置VITS (需参考VITS官方配置步骤)

🛠️ 数据生成指南

单词级别合成

bash

标准单词级别合成

cd word_level python run_word.py

停顿类型合成

python run_word_pau.py python batch_pau_add.py

音素级别合成

bash

标准音素级别合成

cd phoneme_level python run_phn.py

停顿类型合成

python run_phn_pau.py python batch_pau_add.py

延长类型合成

python run_phn_pro.py

🔄 不流畅转录器

训练转录器模型

bash cd dysfluency_transcriber pip install -r environment.yml python train_word_level.py # 单词级别转录

或

python train_phn_level.py # 音素级别转录

搜集汇总

数据集介绍

构建方式

在语音合成领域，LLM-Dys数据集通过创新的技术手段构建而成。该数据集依托大规模语言模型技术，采用VITS架构进行语音合成，并整合了VCTK数据集以实现多说话人支持。构建过程中，研究人员针对词语和音素两个层级设计了六类不流畅模式（重复、插入、删除、停顿、替换和延长），通过自动化脚本批量生成包含各类不流畅特征的语音样本。数据生成流程包含环境配置、参数设置和批量执行三个主要环节，最终形成包含12,790小时语音的庞大语料库。

特点

作为专注于非流畅语音合成的专业数据集，LLM-Dys展现出多维度优势。其核心价值在于完整覆盖词语和音素层级的六类不流畅模式，每种类型提供4,000个标准样本。数据集采用模块化设计，支持通过参数调整控制不流畅特征的强度和出现频率。技术层面融合了前沿的VITS合成架构，确保生成语音具有自然流畅的基频和韵律特征。数据规模达5TB的体量为模型训练提供了充分资源，而标准化的标注体系则便于研究者进行定量分析。

使用方法

该数据集的使用遵循分层操作逻辑。基础应用层面，研究者可通过Google Drive获取样本数据快速开展实验。完整数据集需通过GitHub仓库的生成脚本进行构建，涉及环境配置、路径设置和批量执行等步骤。具体应用时，用户可分别调用word_level和phoneme_level目录下的脚本，针对不同不流畅类型生成定制化语音数据。高级功能包括使用dysfluency_transcriber模块进行不流畅标注模型训练，支持词语和音素两个粒度的转录任务。所有操作流程均配有详细的参数说明和示例命令。

背景与挑战

背景概述

LLM-Dys数据集由伯克利语音研究团队于2025年推出，旨在通过大语言模型技术实现真实非流畅语音的合成。该数据集聚焦于言语障碍模拟领域，覆盖词汇和音素两个语言学层级，包含重复、插入、删除等六类典型非流畅特征。作为首个基于LLM的大规模非流畅语音合成数据集，其超过12,790小时的语料规模为言语病理学、辅助通讯设备开发等跨学科研究提供了重要基础。数据集创新性地整合VCTK多说话人语料，在保留语音自然度的同时实现了非流畅特征的精准可控生成。

当前挑战

在解决领域问题层面，LLM-Dys需克服非流畅特征建模的复杂性挑战：语音中断、音节重复等微观语言现象具有高度随机性，传统声学模型难以准确捕捉其时间动态特性。构建过程中面临数据标注一致性难题，专业言语治疗师需对10,000+小时语料进行多层级的非流畅标记，而音素级停顿延长等细微特征标注易受主观判断影响。大规模多说话人生成时，还需平衡非流畅模式植入与原始语音身份特征保留之间的冲突，这对VITS架构的对抗训练策略提出了极高要求。

常用场景

经典使用场景

在语音合成与自然语言处理领域，LLM-Dys数据集为研究非流畅语音生成提供了重要资源。该数据集通过模拟真实场景中的词汇和音素层面的非流畅现象，如重复、插入、删除等，为开发更自然的语音合成系统奠定了基础。研究者可利用该数据集训练模型，生成包含各类非流畅特征的语音样本，从而提升合成语音的真实感和自然度。

解决学术问题

LLM-Dys数据集解决了语音合成中非流畅现象模拟不足的学术难题。传统语音合成技术往往忽略非流畅特征，导致生成语音过于机械。该数据集通过覆盖多种非流畅类型，为研究非流畅语音的生成机制和评估方法提供了数据支持，推动了语音合成技术的多样化和人性化发展。

衍生相关工作

LLM-Dys数据集衍生了多项经典研究工作，包括基于VITS架构的非流畅语音生成模型和端到端语音转录系统。这些工作进一步优化了非流畅语音的合成效果，并探索了其在多说话人场景下的应用。数据集的开源性也促进了学术界对非流畅语音研究的广泛参与。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集