CP-Bench
收藏arXiv2025-09-20 更新2025-09-24 收录
下载链接:
https://huggingface.co/datasets/MERaLiON/CPQA-Evaluation-Set
下载链接
链接失效反馈官方服务:
资源简介:
CP-Bench是一个用于评估语音-大型语言模型(speech-LLM)在语境-副语言推理方面的基准数据集,该数据集包括两个经过精心策划的问题-回答(QA)数据集,需要同时理解语言和同理心。数据集包含来自真实世界长段和短段语音的两个QA数据集,每个数据集包含480个语音样本,分别评估模型在不同长度音频片段中的行为。数据集包含1,567个QA对(长段)和1,180个QA对(短段),涵盖内容、直接副语言和语境副语言三个主要问题类别。数据集的创建过程包括情感丰富的语音收集、自动和人工的情感与性别标签生成,以及QA对的生成。CP-Bench旨在解决现有评估中在语境副语言推理方面的关键差距,为构建更具情境感知和情感智能的语音模型提供新的方向。
提供机构:
新加坡A⋆STAR信息通信研究院(I2R)
创建时间:
2025-09-20
原始信息汇总
CPQA-Eval-LLM 数据集概述
数据集简介
CPQA-Eval-LLM 数据集是一个评估集,旨在评估大型语音语言模型(Speech-LLMs)理解语音中上下文和副语言线索的能力。
数据集内容
- 包含 2647 个由大型语言模型生成的问题-答案对。
- 包含 479 个相关的 YouTube 视频链接。
数据结构
数据以 Hugging Face 数据集格式提供,结构如下:
- YouTube 视频链接及其对应的开始/结束时间戳存储在其他属性(other_attributes)字段中。
- 问题存储在 instruction.text 字段中。
- 答案存储在 answer.text 字段中。
相关论文
- Wang, Qiongqiong, Sailor, Hardik B., Liu, Tianchi, and Aw, Ai Ti. "Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation" In Interspeech, 2025.
- arXiv: https://arxiv.org/abs/2505.13338
许可证
- Apache 2.0 许可证。
搜集汇总
数据集介绍

构建方式
在语音智能研究领域,CP-Bench数据集的构建采用了系统化的多阶段流程。该数据集基于真实场景的长短语音片段,通过数据浓缩技术筛选情感丰富的语音样本,形成包含480个长片段和480个短片段的初始集合。标注过程融合自动化工具与人工校验:使用Emotion2Vec工具进行情感标注,采用微调的WavLM-ECAPA模型进行性别标注,并由三名标注员依据统一指南进行交叉验证与修正。每个语音样本至少生成两个问答对,标注员结合WhisperX转录文本与语音副语言特征,构建需要同时理解语言内容和情感语调的复杂问题。最终形成包含1,567个长集问答对和1,180个短集问答对的多维度评估资源。
使用方法
该数据集的核心应用在于系统化评估语音大语言模型的上下文副语言推理能力。研究者在实验中采用基于LLaMA-3-70B的自动化评估机制,通过专门设计的评分提示词对模型输出进行0-5分制评判。评估过程需注意不同模型的技术特性,例如对超30秒的长语音需进行分段处理,并通过五次重复实验降低方差。特别重要的是温度参数调控研究,实验表明不同问题类型对生成随机性的敏感度存在差异,需通过温度梯度测试探索最优参数配置。评估结果采用未加权平均分算法,确保各类问题具有同等权重,从而客观反映模型在跨维度任务中的综合表现。
背景与挑战
背景概述
随着大语言模型在多模态领域的扩展,语音-大语言模型(speech-LLMs)在语音识别和翻译等任务中展现出卓越性能,然而其在理解语音的副语言特征方面仍存在明显局限。副语言特征如情感、语调及说话人身份等,对于实现社交与情感智能至关重要,却未被现有评估体系充分涵盖。在此背景下,新加坡科技研究局(A*STAR)信息通信研究院的研究团队于2025年提出了CP-Bench基准数据集,旨在系统评估语音-大语言模型在上下文副语言推理方面的能力。该数据集聚焦于语言内容与副语言线索的融合理解,推动语音-语言多模态推理研究向更全面、人性化的方向发展。
当前挑战
CP-Bench致力于解决语音-大语言模型在上下文副语言推理任务中的评估空白,其核心挑战在于模型需同时解析语言内容与情感、语调等非语言线索,并完成因果推断等高层推理。在构建过程中,数据集的创建面临多重挑战:一是需从真实场景语音中筛选情感丰富的样本,并确保标注一致性;二是生成高质量的问答对时,需平衡语言正确性与副语言相关性,避免依赖文本线索而忽略音频特征;三是短语音样本中说话人数量稀少导致某些问题类型样本不足,影响统计可靠性。此外,评估过程中依赖单一LLM评判可能引入偏差,需进一步优化评估方法的稳健性。
常用场景
经典使用场景
在语音大语言模型的多模态评估领域,CP-Bench作为首个专注于上下文副语言推理的基准测试工具,其经典应用场景体现在系统评估模型对语音内容与情感、语调等非语言线索的整合能力。该数据集通过精心构建的长短语音问答对,要求模型不仅解析文字转录内容,还需捕捉说话者的情绪状态、性别特征及对话动态等副语言信息,从而全面衡量语音大语言模型在真实对话环境中的综合推理性能。
解决学术问题
CP-Bench主要解决了当前语音大语言模型评估中存在的关键学术问题,即传统基准测试仅关注孤立任务如语音识别或情感分类,而缺乏对语言内容与副语言线索协同推理能力的系统评估。该数据集通过引入上下文副语言问答任务,填补了多模态推理研究的空白,推动了模型在情感智能、社会交互理解等前沿方向的发展,为构建更具语境感知能力的语音模型提供了理论依据和评估标准。
实际应用
在实际应用层面,CP-Bench为开发具备社会智能的语音交互系统提供了重要支撑。其评估框架可直接应用于智能客服、情感陪护机器人、多模态教育工具等场景,通过测试模型对语音中隐含情绪、意图及社会关系的解析能力,助力提升人机交互的自然性与共情水平。该数据集对医疗诊断辅助、安全监控等需要深度语境分析的领域也具有潜在价值。
数据集最近研究
最新研究方向
在语音大语言模型(Speech-LLM)领域,CP-Bench数据集的推出标志着对上下文副语言推理能力评估的前沿探索。该数据集聚焦于整合语音内容与情感、韵律等非语言线索,填补了现有评测基准在跨模态推理方面的空白。当前研究热点集中于开发能够同时理解语言语义和副语言特征的模型,以提升语音交互中的社会情感智能。这一方向的影响在于推动语音技术向更具情境感知和共情能力的方向发展,为构建更人性化的多模态人工智能系统提供关键支撑。
相关研究论文
- 1Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data新加坡A⋆STAR信息通信研究院(I2R) · 2025年
以上内容由遇见数据集搜集并总结生成



