five

CoDeTT

收藏
arXiv2026-03-26 更新2026-03-28 收录
下载链接:
https://github.com/YingaoWang-casia/CoDeTT.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
CoDeTT是由百融公司BRVoice团队构建的面向对话系统回合制决策评估的多场景双语数据集,包含300小时中英文对话数据及14类细粒度决策标注。该数据集通过混合生成式与真实对话数据构建,覆盖系统活跃/闲置两种状态下的18,000条平衡样本,每条数据包含五轮历史对话上下文。其创新性地将传统边界检测扩展为结构化决策问题,为语音助手的自然交互、多模态对话系统等场景提供细粒度性能评估基准,解决了现有评测体系对语义意图与上下文关联性建模不足的痛点。
提供机构:
百融公司·BRVoice团队
创建时间:
2026-03-26
原始信息汇总

CoDeTT Benchmark 数据集概述

数据集基本信息

数据集获取地址

评测框架与工具

  • 主评测入口benchmark.py(统一流程)
  • 特定模型评测脚本
    • benchmark_qwen3.py:Qwen3-Omni 接口评测脚本
    • benchmark_minicpm.py:MiniCPM 本地评测脚本
    • benchmark_ke_semantic.py:KE-SemanticVAD 评测脚本
  • 辅助工具four_class.py(四分类统计工具)
  • 标签过滤工具scripts/filter_test_hard_labels.py

数据标签体系

  • 支持的四分类标签
    • 中文:完整不完整附和Dismissal
    • 英文:completionincompletebackchanneldismissal_speaking

环境与运行要求

  • Python版本:建议 3.10+
  • 依赖安装pip install -r requirements.txt
  • 数据路径:脚本内包含默认数据集路径(DEFAULT_DATASETS_EN / DEFAULT_DATASETS_ZH),在新环境中需修改为本地路径。

输出结果

  • 主要输出文件
    • results.json:总体与分项指标
    • report.md:Markdown 报告
    • per_sample*.jsonl:逐样本日志
    • error_samples.jsonl:失败样本(如脚本有该输出)

引用信息

  • BibTeX

@misc{shen2026codettcontextawaredecisionbenchmark, title={CoDeTT: A Context-Aware Decision Benchmark for Turn-Taking Evaluation}, author={Huan Shen and Yingao Wang and Shangkun Huang and Wei Zou and Yunzhang Chen}, year={2026}, eprint={2603.25434}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2603.25434}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在口语对话系统领域,构建能够反映真实交互复杂性的数据集至关重要。CoDeTT数据集通过一个精心设计的六阶段混合流程构建而成,旨在弥合纯净文本与现实声学复杂性之间的鸿沟。该流程始于利用先进生成模型生成涵盖14种细粒度决策场景的连续多轮对话历史,并通过自动化判断确保语义精确性。随后,采用高保真语音合成技术,结合动态说话人音色和经过语速筛选的声学参考,将文本转录为语音。为确保合成语音的自然度,数据集进一步通过自动语音识别系统进行验证,强制执行严格的词错误率阈值。为模拟真实环境复杂性,目标查询经过动态混音处理,融入随机非语音噪声或背景人声片段。此外,数据集整合了来自真实对话语料库的自发人类声学样本,以提供自然锚点。最终,所有组件经过严格平衡与整合,形成一个包含超过300小时双语多轮对话的连续基准数据集。
特点
CoDeTT数据集的核心特征在于其将话轮转换重新定义为一个结构化的决策问题,并提供了一个层次化的诊断框架。该数据集超越了传统二元端点检测的局限,构建了一个包含14种细粒度决策场景的全面分类体系,这些场景根据系统状态(系统发言或空闲)映射到四种核心决策策略。数据集规模庞大,包含18,000个标注实例,并在各场景间实现了均衡分布,确保了评估的鲁棒性。每个实例均配备了完整的五轮多轮对话历史,为模型进行上下文感知推理提供了丰富语境。尤为突出的是,数据集引入了语义错配率这一创新指标,能够量化模型在功能正确但语义推理错误的失败模式,从而暴露模型可能依赖表面声学启发式而非深层语境理解的缺陷。
使用方法
为系统评估不同架构的话轮转换模型,CoDeTT设计了一套统一的两阶段漏斗式评估协议。该协议首先将所有模型的输出统一到一个共享的宏观动作空间,评估其在接管、维持、停止/倾听、忽略这四个核心动作上的功能正确性,从而实现跨范式模型的公平比较。对于具备原生音频推理能力的全模态大语音语言模型,协议进一步在第二阶段评估其直接对14种语义意图的预测能力,以探究其细粒度话轮转换理解水平。评估不仅采用标准的类别特定准确率来衡量整体性能,更关键地引入了语义错配率作为诊断工具,用以揭示模型决策背后的语义对齐程度。研究人员可通过调整历史轮数等参数,系统分析模型在不同对话语境下的结构行为与语义对齐表现,从而获得对模型鲁棒性与弱点的深刻洞察。
背景与挑战
背景概述
在口语对话系统与流式交互代理的研究领域,话轮转换作为协调说话者交替、保障对话流畅性的核心机制,其建模与评估长期面临标准化不足的困境。传统评估方法多局限于二元话语边界检测,难以系统揭示模型在不同交互情境下的决策弱点。为应对这一挑战,百融公司的BRVoice团队于2026年提出了CoDeTT基准数据集。该数据集将话轮转换重新定义为结构化决策问题,构建了包含精细决策类别与多场景对话历史的双语语料库,旨在为话轮转换系统提供系统化、情境感知的评估框架,推动对话智能向更鲁棒、更符合人类语用习惯的方向发展。
当前挑战
CoDeTT数据集致力于解决话轮转换建模中的核心挑战:超越传统的二元边界检测,实现对模型在复杂、多变的真实对话情境下决策意图的细粒度评估。其构建过程面临多重技术难题:首先,需设计能够涵盖丰富语用意图(如反馈、打断、旁白、噪声干扰等)的层次化分类体系,并确保各类别样本的平衡性;其次,数据集合成需融合高质量语音合成、真实声学环境模拟与自然对话语料,在保证语义精确性的同时,复现现实世界的声音复杂性;最后,建立统一的评估协议,以兼容不同架构的模型,并引入语义错配率等创新指标,以揭示模型‘行为正确但理由错误’的深层缺陷。
常用场景
经典使用场景
在口语对话系统与流式交互代理的研究中,CoDeTT数据集被广泛应用于评估模型在复杂语境下的轮转决策能力。该数据集通过构建包含14种细粒度决策场景的多轮对话,为研究者提供了一个标准化的测试平台,用以系统分析模型在不同系统状态(如系统发言或空闲)下对维持、停止倾听、接管或驳回等核心动作的预测性能。其经典使用场景在于诊断现有轮转模型在真实交互中可能出现的语义误判,例如区分用户思考停顿与环境噪音,从而推动模型从简单的端点检测向深层次语境理解演进。
解决学术问题
CoDeTT数据集致力于解决轮转建模领域长期存在的评估碎片化问题。传统方法通常局限于二元话语端点检测,难以系统比较模型或揭示其在多变对话条件下的弱点。该数据集通过引入层次化决策分类与语义失配率指标,将轮转重新定义为结构化决策问题,使研究者能够量化模型在功能正确但语义依据错误时的“幸运猜测”现象。这不仅暴露了现有模型在多方话语角色归属、突发性插话等复杂场景下的瓶颈,也为开发具有稳健语用推理能力的新一代对话系统提供了关键诊断工具。
衍生相关工作
CoDeTT数据集的发布催生了一系列围绕语境感知轮转评估的衍生研究。其提出的语义失配率指标已被后续工作采纳,用于深入分析大型全模态语音语言模型(如Gemini3-Pro、GPT-4o-audio等)的决策依据质量。同时,该数据集的结构化评估框架启发了对现有轮转控制器(如EasyTurn、Smart-Turn-v3)的瓶颈进行系统性诊断,促使学界探索融合多层次语境历史的动态推理机制。此外,CoDeTT的细粒度场景分类也为构建更复杂的多模态轮转基准提供了范式参考,推动了整个领域向可解释、可诊断的评估体系发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作