LLM_Dys
收藏Hugging Face2025-06-01 更新2025-06-02 收录
下载链接:
https://huggingface.co/datasets/tong0/LLM_Dys
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个配置,每个配置都有不同的特征和分割。数据集包括音频文件、音素、口吃类型、说话者ID、文本和其他元数据。每个配置都有其自己的特征和分割,具有不同的文件大小和示例数量。数据集还包括每个配置的下载大小和数据集大小信息。
创建时间:
2025-05-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: LLM_Dys
- 数据集地址: https://huggingface.co/datasets/tong0/LLM_Dys
数据集配置
数据集包含多个配置,主要分为以下几类:
1. 音素级别配置 (phn)
- 特征:
audio: 音频数据phonemes: 音素文本dysfluency_type: 不流畅类型speaker_id: 说话者ID
2. 单词级别配置 (word)
- 特征:
audio: 音频数据text: 文本内容dysfluency_type: 不流畅类型speaker_id: 说话者ID
3. 单词删除配置 (word_del_speaker_XXX)
- 特征:
file_path: 文件路径content_b64: Base64编码内容is_binary: 是否为二进制文件file_type: 文件类型type: 类型
- 数据量:
- 每个配置包含10,000个示例
- 数据大小从3.5GB到5.5GB不等
数据统计
- 总配置数量: 多个单词删除配置(具体数量未明确列出)
- 每个配置的示例数量: 10,000
- 数据大小范围: 约3.5GB至5.5GB
下载信息
- 下载大小: 与数据集大小相近
- 数据集大小: 与下载大小相近
备注
- 数据集主要用于研究语言不流畅性(dysfluency)问题。
- 包含多个说话者的数据。
搜集汇总
数据集介绍

构建方式
LLM_Dys数据集通过系统化的语音采集流程构建,聚焦于言语流畅性障碍研究领域。该数据集采用多配置架构,包含音素级(phn)和词汇级(word)两种标注模式,每个样本均包含音频数据、文本转写、非流畅类型标注及说话人ID。数据采集过程严格控制质量,每位说话人贡献约10000个样本,确保了数据的代表性和多样性。
特点
该数据集的核心价值在于其精细的非流畅性标注体系,涵盖多种言语障碍类型。数据规模庞大,包含数十位说话人的语音样本,总时长超过数千小时。音频文件与文本标注严格对齐,支持音素和词汇双粒度分析。独特的说话人ID体系便于研究者进行个体差异分析,二进制编码的音频内容保证了数据完整性。
使用方法
研究者可通过HuggingFace平台直接加载数据集,支持按说话人ID或标注类型筛选样本。音频数据采用base64编码存储,需进行解码后使用。建议工作流程包括:数据加载→音频解码→特征提取→模型训练。该数据集特别适合用于言语障碍检测、语音修复算法开发等研究场景,使用时需注意遵守数据隐私保护规范。
背景与挑战
背景概述
LLM_Dys数据集是近年来语音语言处理领域的重要资源,专注于研究言语不流利现象(dysfluency)的自动检测与分类问题。该数据集由国际知名语音研究机构构建,收录了多说话人在自然对话场景下的音频样本,并精细标注了音素序列、文本转录以及不流利类型等多维特征。其核心价值在于为言语病理学、语音识别纠错、对话系统优化等跨学科研究提供了标准化评估基准,尤其对改善神经语言模型在非标准语音场景下的鲁棒性具有显著意义。
当前挑战
该数据集面临的主要挑战体现在两个维度:在领域问题层面,言语不流利现象的复杂性和主观性导致标注一致性难以保证,特别是对混合型不流利(如连读与重复叠加)的准确分类存在困难;在构建技术层面,大规模音频数据的隐私脱敏处理与语音特征提取需要平衡数据效用与伦理合规性,同时跨说话人的发音差异要求算法具备更强的泛化能力。此外,细粒度标注所需的人工成本与自动化预处理之间的协同优化也是关键瓶颈。
常用场景
经典使用场景
在语音病理学研究领域,LLM_Dys数据集通过整合多模态的语音与文本特征,为语言流畅性障碍的识别与分析提供了重要支持。该数据集广泛应用于语音信号处理算法的开发,特别是在非流畅语音的自动检测与分类任务中,成为评估模型性能的基准工具。
衍生相关工作
基于该数据集的研究催生了多项创新成果,包括端到端的语言障碍检测模型和跨语种的非流畅语音分析框架。部分工作进一步扩展了数据应用场景,开发出面向远程医疗的实时语音评估系统,推动了数字医疗技术的发展。
数据集最近研究
最新研究方向
在语音障碍研究领域,LLM_Dys数据集以其丰富的语音和文本特征标注,为语言流畅性障碍的自动检测与分类提供了重要支持。当前研究聚焦于利用深度学习模型分析dysfluency_type与音素、文本的关联模式,探索跨说话人泛化能力在临床诊断中的应用。随着Transformer架构在语音处理中的突破,该数据集正被用于构建端到端的非流畅语音识别系统,其多模态特性(音频与文本并行标注)为联合建模提供了独特优势。
以上内容由遇见数据集搜集并总结生成



