Voice Chat Bot Bench (VCB Bench)
收藏arXiv2025-10-13 更新2025-10-15 收录
下载链接:
https://github.com/193746/VCB-Bench-Evalkit
下载链接
链接失效反馈官方服务:
资源简介:
VCB Bench是一个高质量的中文评估基准,完全基于真实的人声构建。它从三个互补的视角评估大型音频语言模型(LALMs):指令遵循(包括超越文本命令的语音级别控制)、知识理解和鲁棒性(在内容、环境和说话者特征方面的干扰下保持稳定性)。该数据集包含来自第三方专业录音、综艺节目问答片段和内部策划的两人对话数据集的数据。VCB Bench为推动中文语音对话模型的进步提供了可重复和细粒度的评估框架,为模型改进提供了标准化方法和实用见解。
VCB Bench is a high-quality Chinese evaluation benchmark entirely constructed from real human speech. It evaluates large audio language models (LALMs) from three complementary perspectives: instruction following (including speech-level control beyond textual commands), knowledge comprehension, and robustness (maintaining stability under interference across content, environment, and speaker characteristics). The dataset comprises data from third-party professional audio recordings, quiz segments from variety shows, and internally curated two-person dialogue datasets. VCB Bench provides a reproducible and fine-grained evaluation framework to advance the development of Chinese speech dialogue models, offering standardized methodologies and practical insights for model improvement.
提供机构:
腾讯人工智能实验室,北京,中国
创建时间:
2025-10-13
搜集汇总
数据集介绍

构建方式
VCB Bench数据集通过整合三方专业录音、综艺问答音频及内部双人对话数据构建而成。专业录音数据采用人工撰写任务文本与第三方录制团队协作的生产流程,所有音频均经过质量检验和GPT-4o多模态模型筛选;综艺数据通过爬取原始音频后进行人工标注、语音转写及智能评分;对话数据则运用GPT-4o对长音频进行语义分段并生成问答对,最终经由人工复核确保数据质量。
特点
该数据集作为首个全真实语音的中文语音对话评估基准,具备三大核心特征:覆盖指令遵循、知识理解与鲁棒性三维度评估体系,其中指令遵循突破文本局限引入语音层级控制任务;全部数据源自非合成真人语音,涵盖多方言、噪声环境等真实场景变异;支持中英双语评估并包含12学科通识知识,兼具细粒度任务划分与可复现性框架设计。
使用方法
研究者可通过调用模型的音频转文本或音频转音频接口进行评估,使用GPT-4o自动评分系统对开放性问题进行1-5分量表评分,对参考性问答执行二元判定。在故事补全任务中采用负对数似然比较法,多轮对话评估则遵循上下文音频输入与最终轮次加权计分协议,同时引入平均意见分进行主观质量验证,确保评估结果的全面性与可靠性。
背景与挑战
背景概述
随着大语言模型在自然语言理解与生成领域取得显著进展,融合语音信号处理与语言建模的大型音频语言模型应运而生,推动了多模态对话系统的演进。VCB Bench作为首个专注于中文真实语音对话的综合性评估基准,由腾讯AI Lab与武汉大学的研究团队于2025年联合创建。该数据集旨在解决现有基准在语言覆盖度、数据真实性与评估维度上的局限性,通过构建基于真人语音的高质量语料库,系统评估模型在指令遵循、知识理解与鲁棒性三大核心维度的表现,为中文语音交互技术的标准化发展提供了关键支撑。
当前挑战
在语音对话智能体领域,VCB Bench致力于应对多维度评估挑战:其核心任务涵盖跨语言指令理解、多学科知识推理及复杂声学场景下的稳定性验证。数据构建过程中面临双重挑战:一方面需克服真实语音采集的复杂性,包括环境噪声干扰、说话人特性变异及口语化表达的非规范性;另一方面需通过多轮质量控制与跨模态对齐技术,确保语音-文本数据在语义层面的一致性,同时平衡语言学多样性评估与计算效率间的矛盾。
常用场景
经典使用场景
在语音交互技术快速演进的背景下,VCB Bench作为首个基于真实汉语语音的全面评估基准,其经典应用聚焦于系统化评测大型音频语言模型在指令遵循、知识理解及鲁棒性三大维度的综合表现。该数据集通过多轮对话控制、跨语言指令执行及抗干扰能力测试,为模型优化提供了精细化诊断工具,尤其适用于评估模型在真实场景中的语义连贯性与环境适应性。
解决学术问题
VCB Bench有效解决了当前语音模型研究中的三大核心问题:其一,填补了汉语真实语音评估数据的空白,突破了传统英语中心化与合成语音依赖的局限;其二,通过多维度评测框架揭示了模型在跨模态对齐、知识推理及抗干扰能力的缺陷,为模型架构优化提供了理论依据;其三,建立了可复现的标准化评估流程,推动了语音对话系统在语义理解与生成一致性方面的学术进展。
衍生相关工作
基于VCB Bench的评估范式,衍生出多项创新性研究:GLM4-Voice在情感控制任务中实现了93%的指令遵循精度,StepAudio2Mini通过固定文本-语音令牌对齐技术优化了多轮对话逻辑,而Mimo-Audio则在数学推理任务中突破84分,展现了深层语义解析潜力。这些工作共同推动了端到端语音模型在跨语言适配与认知推理方向的技术迭代。
以上内容由遇见数据集搜集并总结生成



