Speech-DRAME
收藏arXiv2025-11-03 更新2025-11-19 收录
下载链接:
https://github.com/Anuttacon/speech_drame
下载链接
链接失效反馈官方服务:
资源简介:
Speech-DRAME是一个统一的框架,旨在解决语音角色扮演的评估问题。它提供了三个层面的贡献:一个具有双语人工注释数据的评估基准,一个经过微调的评估模型,以及一个语音角色扮演基准。Speech-DRAME区分了两种互补的评估策略:原型评估和现实主义评估。与零样本ALLM评估器相比,DRAME-Eval与人类评分的吻合度更高。通过整合透明的基准资源、建模方法和系统级评估,Speech-DRAME为评估语音提供了第一个全面、可重复的基础。
提供机构:
卡内基梅隆大学,安努塔康
创建时间:
2025-11-03
搜集汇总
数据集介绍

构建方式
Speech-DRAME框架通过双轨策略构建数据集:原型评估采用自上而下方法,基于社会学角色理论,从七类角色原型(如职业身份、社会角色)生成模板化场景,并利用多种语音基础模型合成双语语音样本;真实感评估则采用自下而上方法,从真实人类语音(如媒体录音、专业与非专业演员录制)中提取角色档案与局部场景,并引入负样本对比以增强评估鲁棒性。所有数据均经过标准化人工标注流程,包括语义筛选、多维度评分与置信度记录,确保数据质量与可复现性。
特点
该数据集具备三大核心特征:其一,采用双语(中英文)并行设计,覆盖原型与真实感双重评估视角,前者强调角色原型的泛化性,后者聚焦语音传递的细微差异与情境贴合度;其二,标注维度丰富且层次分明,原型评估涵盖音频质量、拟人度与场景适配性,真实感评估则细化至韵律动态、情感表达、角色一致性等十项指标,并采用渐进式情感评分机制以提升判别精度;其三,数据来源多样且平衡,既包含模型合成语音,也整合真实人类录音与负样本构造,有效避免了单一数据源的偏差,为语音角色扮演的全面评估提供了可靠基础。
使用方法
该数据集支持三种主要应用方式:首先,可作为评估基准用于训练与测试语音评估模型,用户可通过官方划分的训练集与测试集进行模型微调与零样本/少样本学习,重点优化其对多维度评分的预测一致性;其次,可作为角色扮演生成模型的评测平台,利用预训练的DRAME-Eval模型自动评估不同语音基础模型在原型与真实感任务上的表现,系统比较端到端与级联架构的优劣;最后,支持细粒度分析任务,研究者可依据标注中的置信度与注释信息,深入探究模型在特定维度(如情感过渡或角色特质体现)上的失败模式,推动语音交互系统的迭代与优化。
背景与挑战
背景概述
Speech-DRAME数据集由卡内基梅隆大学与Anuttacon研究团队于2025年联合创建,旨在解决语音角色扮演评估中的关键挑战。该数据集构建了首个双语人工标注的语音角色扮演评估基准,通过原型评估与现实评估双重策略,系统化衡量语音基础模型在韵律、情感传递与角色一致性等方面的表现。其创新性框架为语音交互系统的角色扮演能力提供了可复现的评估基础,显著推动了多模态对话代理的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决语音角色扮演中副语言线索缺失、多维度评估指标压缩及合成语音参考局限性等核心难题;在构建过程中,需克服真实人类语音数据稀缺、双语标注一致性维护以及负样本对比构造等技术瓶颈。具体表现为如何准确捕捉语调节奏等细微特征,同时确保评估模型在合成数据与真实录音间的泛化能力。
常用场景
经典使用场景
在语音角色扮演研究领域,Speech-DRAME数据集通过其双轨评估框架为生成式语音模型提供了标准化测试环境。该数据集最经典的应用场景体现在系统化评估语音基础模型在角色扮演任务中的表现,研究者可借助其架构化的评估基准对模型输出的韵律一致性、情感表达准确性和角色贴合度进行量化分析。该框架通过原型评估与现实评估的双重机制,既支持基于刻板印象的快速筛查,又能深入检验语音生成系统在真实语境中的表现力,已成为该领域模型能力验证的核心工具。
解决学术问题
Speech-DRAME有效解决了语音角色扮演研究中长期存在的评估标准缺失问题。传统方法依赖零样本音频大语言模型作为评判者,往往忽略副语言特征并将多维度表现压缩为粗糙分数。该数据集通过人工标注的韵律动态、情感表达、角色一致性等细粒度维度,建立了可复现的评估体系。其提供的双轨评估策略分别从原型契合度与真实感两个层面突破评估瓶颈,显著提升了自动评估与人类感知的相关性,为语音生成模型的迭代优化提供了可靠的研究基础。
衍生相关工作
基于Speech-DRAME的评估范式,研究社区已衍生出多项创新工作。在模型架构方面,出现了专用于角色语音生成的层次化注意力网络;在训练策略上,发展了基于对比学习的角色嵌入方法;在评估体系延伸方面,产生了融合视觉信息的跨模态角色扮演基准。这些工作通过继承数据集的双轨评估思想,进一步拓展了语音角色扮演在多轮对话一致性、跨文化适应性等方面的研究边界,形成了以人类对齐为核心的技术演进路线。
以上内容由遇见数据集搜集并总结生成



