expresso-norm-merged-full-8192
收藏Hugging Face2025-06-13 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/nytopop/expresso-norm-merged-full-8192
下载链接
链接失效反馈官方服务:
资源简介:
Expresso数据集是一个高质量的表达性语音数据集,包含表达性渲染的朗读语音和即兴对话。数据集共有4位演讲者(2男2女),总时长40小时(朗读11小时,即兴对话30小时)。该数据集的音频在专业的录音室中以48kHz/24bit的格式录制,具有最小的背景噪音。朗读语音和唱歌的文件为单声道wav格式,对话部分为立体声(每个演员一个通道),保留了原始的轮流对话流程。数据集分为三个部分:合并集、即兴集和朗读集,每个部分都有详细的风格统计数据。数据集遵循CC BY-NC 4.0许可。
创建时间:
2025-06-12
搜集汇总
数据集介绍

构建方式
Expresso数据集作为语音合成领域的重要资源,其构建过程体现了严谨的工程方法论。数据集整合了即兴对话和朗读语音两大来源,所有音频均经过24kHz重采样处理,并采用RMS归一化技术将目标RMS值标准化为0.1。通过SNAC编码系统生成orpheus码本,其中即兴对话部分被精心组织为多轮次交互窗口,最大上下文长度控制在8192个标记。说话人身份通过规范化命名体系进行统一标注,文本提示采用'speaker: [style] transcript'的标准格式,确保了数据结构的统一性。
特点
该数据集最显著的特征在于其丰富的表达风格多样性,涵盖26种即兴对话风格和8种朗读风格,累计包含40小时的高质量48kHz语音数据。四位发音人(两男两女)的语音样本以专业录音室标准采集,朗读部分采用单声道wav格式,对话部分则保留原始双声道轮替结构。数据集特别设计了不同长度限制的子集(8192/4096/2048标记),为模型训练提供了灵活的上下文窗口选择。风格统计表详细展示了各类表达风格在朗读与即兴对话中的分布情况,为研究者提供了细粒度的分析基础。
使用方法
使用该数据集时需注意其CC BY-NC 4.0许可协议的限制。研究者可通过HuggingFace平台直接访问不同分割版本,包括完整合并集(merged)、即兴对话集(improv)及朗读集(read)。数据加载后,每个语音样本对应的input_ids序列可直接用于声学模型训练。文本提示中的说话人标识和风格标签为可控语音合成提供了语义控制维度。建议参考原始论文中的基准方法,利用多轮对话窗口特征进行上下文感知的语音合成研究,或通过风格标签实现表达性语音转换任务。
背景与挑战
背景概述
Expresso数据集作为语音合成领域的重要资源,由Facebook Research团队于2023年推出,旨在推动离散表达性语音重合成技术的研究。该数据集收录了4位专业播音员在录音棚环境下录制的48kHz高保真音频,包含朗读式语音(8种风格)和即兴对话(26种风格)两大模态,总时长约40小时。其创新性体现在首次系统性地整合了韵律标注与多风格语音数据,为语音合成、情感计算等研究方向提供了高质量的基准测试平台。相关成果发表于INTERSPEECH 2023会议,通过SNAC编码和Orpheus码本技术实现了对复杂韵律特征的离散化表征,显著提升了合成语音的表现力与自然度。
当前挑战
构建Expresso数据集面临双重挑战:在领域问题层面,如何准确捕捉26种情感风格的声学特征是核心难题,特别是即兴对话中非语言符号(如笑声、叹息)与文本内容的动态关联需要精细标注;多说话人跨风格一致性要求解决基频、语速等声学参数的可比性问题。在数据构建层面,专业录音环境虽保障了音质,但立体声对话的原始轮次时序对齐消耗大量计算资源;将48kHz原始音频降采样至24kHz时需平衡信息保留与处理效率;采用RMS归一化处理时,不同情感强度的振幅差异导致目标值设定存在权衡。此外,即兴对话中风格标签的主观性标注需要设计严格的交叉验证机制。
常用场景
经典使用场景
在语音合成与语音转换研究领域,expresso-norm-merged-full-8192数据集因其高质量的标注和丰富的风格变体成为基准测试的首选。研究者们频繁利用其多说话人、多风格的特性,开发能够捕捉细微情感差异的声学模型。该数据集特别适合探索长序列建模问题,其8192的最大上下文长度为建模对话连贯性提供了理想条件。
实际应用
在智能语音助手开发中,该数据集支持创建更具表现力的对话系统。教育科技公司利用其丰富的风格变体训练朗读辅助工具,使电子书朗读能根据内容自动切换情感语调。医疗领域则应用其即兴对话数据开发语言治疗系统,通过风格模仿帮助社交障碍患者改善沟通能力。
衍生相关工作
基于该数据集衍生的经典研究包括Meta的TextlessLib语音重合成框架,其提出的SNAC编码方案成为离散表征的新基准。斯坦福团队开发的StyleTTS模型利用该数据实现了零样本风格迁移,而CMU的ProDiff工作则通过该数据集验证了扩散模型在长序列语音生成中的优越性。这些工作共同推动了表达性语音合成领域的标准化进程。
以上内容由遇见数据集搜集并总结生成



