UltraVoice
收藏github2025-10-25 更新2025-10-28 收录
下载链接:
https://github.com/bigai-nlco/UltraVoice
下载链接
链接失效反馈官方服务:
资源简介:
UltraVoice是第一个为多粒度语音风格控制设计的大规模语音对话数据集,包含超过830小时的语音对话,涵盖情感、语速、音量、口音、语言和复合风格六个关键语音风格维度的指令
UltraVoice is the first large-scale speech dialogue dataset designed for multi-granularity speech style control, containing over 830 hours of speech dialogues and covering instructions for six key speech style dimensions: emotion, speech rate, volume, accent, language, and composite style.
创建时间:
2025-10-22
原始信息汇总
UltraVoice 数据集概述
数据集基本信息
- 名称:UltraVoice
- 规模:100,770个高质量语音对话样本,总计832.92小时音频
- 发布时间:2025年10月
- 许可证:MIT License
核心特性
- 主要目标:为语音对话模型提供细粒度语音风格控制能力
- 关键创新:首个针对多维度细粒度语音风格控制的大规模语音对话数据集
数据构成
风格控制样本(84,832个)
涵盖六个主要语音风格维度:
- 情感:中性、快乐、悲伤、愤怒、惊讶、恐惧、厌恶
- 音量:低、正常、高
- 语速:慢、正常、快
- 口音:AU、CA、GB、IN、SG、ZA
- 语言:中文、日语、韩语
- 复合风格:多风格组合
通用样本(15,938个)
- 通用英语问答样本,确保平衡性和泛化能力
质量指标
- 平均字符错误率:5.93%
- UTMOS自然度评分:4.00
- 表明高质量、自然的语音和稳定的风格控制
实验验证
细粒度语音风格控制性能
- 指令遵循率提升:14.61-40.09个百分点
- 平均意见得分提升:29.12-42.33%
通用对话能力
- 在URO-Bench基准测试中表现优异
- 基础设置平均提升:+10.84%
- 专业设置平均提升:+7.87%
可控文本到语音验证
- 词错误率降低:从19.82降至3.97
- 情感相似度:0.95
- 自然度评分:4.46 UTMOS
模型检查点
- 数据集地址:https://huggingface.co/datasets/tutu0604/UltraVoice
- 微调模型:https://huggingface.co/tutu0604/UltraVoice-SFT
引用格式
bibtex [待提供]
搜集汇总
数据集介绍

构建方式
在语音对话系统研究领域,构建具备细粒度风格控制能力的数据集对实现自然交互至关重要。UltraVoice通过四阶段流程构建:首先精心筛选文本语料,随后注入多样化风格指令并生成对应回复,接着利用高质量语音合成技术生成风格化语音,最终经过严格的质量控制与过滤机制确保数据纯净度。这一系统化构建策略覆盖了情感、语速、音量、口音、语言及复合风格六大维度,形成了包含十万余样本、总时长超过830小时的大规模语音对话资源。
特点
该数据集在细粒度语音风格控制方面展现出显著优势,其核心特征体现在多维度的精确标注体系。数据集囊括情感(7类)、音量(3级)、语速(3级)、口音(6地区)、语言(3种)及复合风格等多重控制维度,通过t-SNE可视化与声学特征分析验证了各类风格的明显区分度。平均字符错误率控制在5.93%与UTMOS自然度评分达4.00的优异指标,充分证明了语音质量与风格控制的稳定性,为可控语音合成研究提供了丰富的数据支撑。
使用方法
研究实践表明,该数据集可通过监督微调方式有效提升语音对话模型的性能。具体应用时,研究人员可加载预训练的基础模型,利用数据集中的风格标注指令进行端到端微调,在保持通用对话能力的同时显著增强风格控制精度。实验证明该方法能使模型在指令遵循率提升14.61-40.09个百分点,平均意见得分改善29.12-42.33%。此外,数据集还可重构为可控文本转语音训练集,在跨域测试中实现3.97%的词错误率与0.95的情感相似度,展现出强大的迁移应用价值。
背景与挑战
背景概述
在语音对话系统研究中,精细化的语音风格控制能力长期被视为实现类人交互的关键瓶颈。为突破这一局限,BigAI-NLCO团队于2025年10月正式发布UltraVoice数据集,该资源涵盖83万小时语音对话,针对情感、语速、音量、口音、语言及复合风格六维度构建控制体系。通过微调SLAM-Omni与VocalNet等主流模型,该数据集显著提升了语音风格控制的精确度与自然度,同时在URO-Bench基准测试中验证了其对通用对话能力的增强效应,为多模态人机交互研究开辟了新路径。
当前挑战
语音对话模型面临的核心挑战在于平衡功能性需求与表达性控制,传统系统虽在基础问答任务表现良好,却难以实现情感韵律等细腻的风格调制。构建过程中需攻克多维度标注一致性难题,包括跨语言音素对齐、声学参数标准化,以及复合风格组合的语义保真度维护。此外,832小时音频数据的质量控制要求字符错误率低于6%,同时需通过UTMOS评分保障语音自然度,这对数据清洗与合成技术提出了极高要求。
常用场景
经典使用场景
在语音对话系统研究领域,UltraVoice数据集为细粒度语音风格控制提供了标准化评估基准。该数据集通过六维风格控制框架(情感、语速、音量、口音、语言及复合风格),使研究人员能够系统评估模型在生成具有特定风格属性语音时的表现。典型应用包括在多轮对话中测试模型对动态风格指令的响应能力,例如要求语音助手以悲伤语气慢速讲述故事,或模拟不同地域口音的客服对话场景。
实际应用
在现实应用层面,UltraVoice支撑的语音生成技术已渗透到多个垂直领域。智能客服系统可利用其口音与情感控制能力,生成符合地域文化特征的应答语音;在线教育平台通过语速与音量调节,实现自适应学习内容播报;娱乐产业则借助复合风格合成功能,创造具有戏剧张力的有声内容。特别在跨语言场景中,中日韩三语平行数据为全球化语音产品提供了本地化解决方案。
衍生相关工作
基于该数据集衍生的经典工作包括三大方向:其一是SLAM-Omni与VocalNet系列的风格控制优化,通过监督微调实现了42.33%的MOS提升;其二是可控文本转语音系统UltraVoice-0.5B-SFT,在保持3.97%词错误率的同时达成0.95的情感相似度;其三是在URO-Bench上的泛化能力验证,推动形成了兼顾风格控制与基础对话能力的模型评估范式,为后续多模态对话研究树立了新标杆。
以上内容由遇见数据集搜集并总结生成



