C3
收藏arXiv2025-07-31 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/ChengqianMa/C3
下载链接
链接失效反馈官方服务:
资源简介:
C3数据集是一个中英双语口语对话模型基准数据集,由北京大学、LIGHTSPEED和独立研究员共同创建。该数据集包含1079个对话实例,旨在帮助研究者探索口语对话模型在处理复杂对话场景中的挑战。数据集内容涵盖了语音学歧义、语义歧义、省略、指代和多轮交互等方面,并提供了相应的评估方法。该数据集可以帮助研究者评估口语对话模型在处理人类对话中的实际效果,并促进口语对话模型的进一步发展。
The C3 dataset is a Chinese-English bilingual spoken dialogue model benchmark dataset, co-created by Peking University, LIGHTSPEED, and independent researchers. It contains 1,079 dialogue instances, and is designed to help researchers explore the challenges faced by spoken dialogue models when handling complex conversational scenarios. The dataset covers aspects such as phonetic ambiguity, semantic ambiguity, ellipsis, reference resolution and multi-turn interaction, and provides corresponding evaluation methods. This dataset can assist researchers in evaluating the actual performance of spoken dialogue models in processing human conversations, and promote the further development of spoken dialogue models.
提供机构:
北京大学, LIGHTSPEED, 独立研究员
创建时间:
2025-07-31
搜集汇总
数据集介绍

构建方式
C3数据集通过系统化的流程构建,首先从真实对话语料中筛选具有语音和语义歧义、省略、共指及多轮交互特征的实例。采用双语平行设计,包含1079个中英文对话样本,每个样本均经过人工校验和语音特征标准化处理。数据构建采用半自动化方法,先通过工具标注语音特征(如停顿、重音)和语义结构,再经语言学专家复核,确保样本覆盖五种对话复杂性现象。音频部分使用TTS生成后人工修正,消除音色和背景噪音的干扰,并补充人工录制的参考回答作为评估基准。
特点
该数据集的核心价值在于其多维复杂性设计:语音层面涵盖异形词、异音词及超音段特征(如语调、停顿)引发的歧义;语义层面包含词汇和句法歧义;对话流层面则系统考察省略、共指解析和多轮上下文维持能力。独特之处在于双语平行对比(中英文各540/539例)和现象独立标注,例如将歧义与非歧义语境分离(Cam-data与Ccon-data)。每个样本均提供音频-文本双模态输入及结构化参考答案,并附带LLM自动评估协议,其与人工评估的一致性系数超过0.87。
使用方法
使用该数据集时需遵循三层评估框架:语音歧义任务要求模型识别并生成正确语音特征(如重音位置);语义任务需解析多义句的潜在解释;上下文任务则测试省略补全和共指消解能力。评估时需将模型输出与参考答案通过LLM裁判(GPT-4o/DeepSeek-R1)比对,其中语音生成质量需人工标注。对于多轮对话,需串联历史对话作为输入,检验答案一致性。实验表明不同模型在语言和现象维度表现差异显著(如GPT-4o英文准确率55.68% vs Qwen2.5-Omni中文40.08%),建议根据目标场景选择评估子集。
背景与挑战
背景概述
C3数据集由北京大学、LIGHTSPEED及独立研究员团队于2025年提出,旨在填补语音对话模型(SDMs)在复杂对话理解能力评估方面的研究空白。该双语基准数据集包含1,079个中英文实例,聚焦语音对话特有的五大挑战:语音歧义(如异形同音词、语调差异)、语义歧义(如词汇多义性)、省略、共指消解及多轮交互。相较于文本大语言模型(LLMs)的成熟评估体系,C3首次系统量化了SDMs在真实语音交互场景中的表现,其创新性在于同时涵盖语音与语义层面的复杂性,并为多语言、多模态对话研究提供了标准化评估框架。
当前挑战
C3数据集针对语音对话模型面临的核心挑战包括:1) 领域问题层面,需解决语音歧义(如汉语声调差异导致语义变化)、跨轮次上下文依赖(如省略恢复)等自然对话特有的理解难题;2) 构建过程中需克服语音标注复杂性(如人工校验1,586个音频-文本对的语调与停顿)、多语言平行语料稀缺(需平衡中英文语言特性差异),以及评估方法设计(开发与人类判断一致性达0.87以上的LLM自动评分体系)。这些挑战推动了对SDMs细粒度能力评估范式的革新。
常用场景
经典使用场景
在语音对话模型(SDMs)的研究与开发中,C3数据集作为一项双语基准测试工具,主要用于评估模型在处理复杂对话场景中的表现。该数据集特别关注语音对话中特有的歧义性和上下文依赖性,如音韵歧义、语义歧义、省略、共指及多轮交互等现象。通过提供包含1079个实例的英文和中文对话样本,C3为研究者提供了一个标准化的测试平台,以全面评估SDMs在实际应用中的理解与生成能力。
实际应用
在实际应用层面,C3数据集对智能语音助手、客服机器人等场景具有显著价值。其针对音韵特征的评估标准可优化语音合成系统的自然度,特别是在处理中文同音字和英文重音歧义时。数据集中的省略和共指案例为医疗问诊、法律咨询等专业领域对话系统提供了改进方向,使其能更准确地捕捉用户隐含意图。多轮交互数据则直接提升了教育辅导、会议记录等长对话场景的系统表现,使机器能够像人类一样维持连贯的对话脉络。
衍生相关工作
C3数据集的发布催生了一系列创新性研究。基于其构建的LLM评估方法被ADU-Bench等后续基准测试采纳,形成了语音对话评估的新范式。在模型架构方面,Qwen2.5-Omni和GPT-4o-Audio-Preview等先进SDMs通过在该数据集上的迭代优化,显著提升了跨语言处理能力。此外,数据集揭示的音韵歧义挑战直接促进了像VITA-Audio这样的端到端语音表征模型的发展,这些衍生工作共同推动了语音对话技术向更自然、更智能的方向演进。
以上内容由遇见数据集搜集并总结生成



