ChatReward-30K
收藏arXiv2025-05-15 更新2025-05-16 收录
下载链接:
https://github.com/jishengpeng/WavReward
下载链接
链接失效反馈官方服务:
资源简介:
ChatReward-30K是一个用于训练和评估语音反馈模型的数据集,包含语音对话模型的理解和生成方面的内容。数据集涵盖了各种任务,如基于文本的聊天、指令聊天的九个声学属性和隐含聊天。ChatReward-30K是第一个能够全面评估语音对话系统的声学能力和隐含对话能力的数据集。
ChatReward-30K is a dataset for training and evaluating speech feedback models, covering the understanding and generation capabilities of speech dialogue models. The dataset encompasses various tasks, including text-based chatting, nine acoustic attributes of instructed chatting, and implicit chatting. ChatReward-30K is the first dataset that can comprehensively evaluate both the acoustic capabilities and implicit dialogue capabilities of speech dialogue systems.
提供机构:
浙江大学 & 阿里巴巴集团
创建时间:
2025-05-15
原始信息汇总
WavReward数据集概述
数据集基本信息
- 名称:WavReward
- 描述:用于口语对话模型的通用奖励评估数据集
- 状态:待论文接收后开源(当前未开放)
核心特点
- 用途:训练通用奖励评估器以评估口语对话模型
- 数据类型:预计包含口语对话数据及相应评估指标
注意事项
- 当前数据尚未公开
- 开源时间取决于论文接收进度
搜集汇总
数据集介绍

构建方式
ChatReward-30K数据集的构建过程分为三个阶段:首先,利用GPT-4通过提示工程生成多样化的对话文本,涵盖日常生活、健康管理等多个话题,并嵌入丰富的元语言信息;其次,针对不同声学属性(如情感、年龄、口音等)定制语音合成流程,采用GPT-4o-mini-TTS、Step-Audio-TTS-3B等工具生成符合特定声学特征的语音片段;最后,通过Whisper-Large-V3和Emotion2Vec模型进行数据过滤,并由人类专家对文本、语音及评分结果进行人工验证与调整,确保数据质量。
特点
ChatReward-30K是首个专为语音对话模型设计的综合评估数据集,其特点包括:1)覆盖内容与声学双维度评估,包含性别、年龄、情感等9类声学特征;2)同时涵盖理解与生成任务,支持对语音合成能力的多场景评测;3)创新性地引入隐含对话场景,测试模型对非文本信息的感知能力;4)每个对话样本包含正负例响应,并附人类专家1-5分评分;5)数据规模达3万样本,时长超129小时,在声学属性分布上呈现均衡性,尤其强化情感类数据的覆盖。
使用方法
该数据集主要用于训练和评估语音反馈模型WavReward。使用时需将语音对话输入WavReward模型,系统会基于链式思维推理机制对文本内容与声学信息(如情感语调匹配度)进行联合评估,输出1-5分的综合评分。研究者在实际应用中可将数据集按85:15比例划分为训练集(ChatReward-30K-train)和测试集(ChatReward-30K-test),通过强化学习算法优化评估模型性能。对于隐含对话等复杂场景,建议结合人类专家A/B测试验证模型评估结果的合理性。
背景与挑战
背景概述
ChatReward-30K是由浙江大学和阿里巴巴集团的研究团队于2025年提出的一个专门用于训练和评估语音对话模型奖励模型的数据集。该数据集旨在解决端到端语音对话模型在智能商数(IQ)和情感商数(EQ)评估方面的空白。ChatReward-30K包含30,000个样本,涵盖了文本对话、显式语音指令理解和生成、以及隐式对话场景,是首个能够全面评估语音对话模型在声学信息和隐式对话能力方面的数据集。该数据集的创建标志着语音对话模型评估从纯文本向多模态、多维度评估的重要转变。
当前挑战
ChatReward-30K面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,语音对话模型评估需要处理大量非文本声学信息(如情感、口音、音高等)的理解与生成,这些信息在当前基于文本的语言模型评估中难以准确捕捉。此外,对话本质上是多维度、多标签的,且非文本信息往往具有隐含性,这为评估带来了复杂性。在构建过程方面,挑战包括:1)如何准确生成和标注多样化的声学属性对话数据;2)如何确保合成语音的质量与自然度;3)如何设计合理的人类专家评分标准以反映对话质量的多个维度。这些挑战使得构建一个全面、可靠的语音对话评估数据集变得尤为困难。
常用场景
经典使用场景
在语音对话系统研究领域,ChatReward-30K数据集为评估端到端语音对话模型的综合表现提供了标准化测试平台。该数据集通过包含文本对话、九种声学属性指令对话及隐含对话等多模态场景,支持研究者全面检验模型在内容连贯性、情感表达准确性及非文本信息处理能力等方面的表现。其独特的语音到语音对话配对设计,使得模型评估能够突破传统文本转写的局限,直接衡量声学特征的匹配程度。
衍生相关工作
该数据集催生了多项突破性研究,包括WavReward奖励模型框架的提出,其通过强化学习将音频语言模型转化为对话评估器。后续研究如Emotion2Vec-Wav扩展了情感特征编码能力,AudioChain则借鉴其隐含对话评估范式开发了链式推理架构。在产业界,阿里巴巴的Qwen2.5-Omni和字节跳动的Mini-Omni等产品均采用该数据集进行模型优化,推动了语音交互技术从功能实现向情感智能的跨越发展。
数据集最近研究
最新研究方向
近年来,ChatReward-30K数据集在语音对话系统评估领域引起了广泛关注。该数据集专注于评估端到端语音对话模型在文本和声学层面的表现,特别是在理解与生成非文本声学信息(如情感、音调、语速等)方面的能力。随着GPT-4o-audio等端到端语音对话模型的兴起,如何全面评估其智能商数(IQ)和情感商数(EQ)成为研究热点。ChatReward-30K通过提供包含多维度声学信息和隐式对话场景的偏好数据集,填补了这一领域的空白。该数据集不仅支持传统文本对话的评估,还能对声学信息的理解和生成进行全面测评,为语音对话模型的优化提供了重要基准。WavReward模型基于ChatReward-30K训练,通过强化学习和非线性奖励机制,显著提升了评估的准确性和鲁棒性,在主观A/B测试中以83%的优势领先现有方法。这一进展为语音交互技术的实际应用奠定了坚实基础,尤其在情感计算和人机交互领域具有深远意义。
相关研究论文
- 1WavReward: Spoken Dialogue Models With Generalist Reward Evaluators浙江大学 & 阿里巴巴集团 · 2025年
以上内容由遇见数据集搜集并总结生成



