CoDeTT

github2026-04-01 更新2026-04-03 收录

下载链接：

https://github.com/YingaoWang-casia/CoDeTT.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CoDeTT Benchmark 用于评测 Turn-Taking（轮次接管）模型在多场景决策任务中的表现，支持统一四分类评测与多模型对比。

The CoDeTT Benchmark is designed to evaluate the performance of turn-taking models in multi-scenario decision-making tasks, and supports unified four-category evaluation and multi-model comparison.

创建时间：

2026-03-09

原始信息汇总

CoDeTT Benchmark 数据集概述

数据集基本信息

数据集名称：CoDeTT Benchmark
主要用途：用于评测 Turn-Taking（轮次接管）模型在多场景决策任务中的表现，支持统一四分类评测与多模型对比。
相关论文：CoDeTT: A Context-Aware Decision Benchmark for Turn-Taking Evaluation
发布年份：2026年

数据集获取地址

Hugging Face：YingaoWang-casia/CoDeTT
ModelScope：wyawya/CoDeTT

评测工具与脚本

本仓库提供以下评测脚本：

benchmark.py：主评测入口（统一流程）
benchmark_qwen3.py：Qwen3-Omni 接口评测脚本
benchmark_minicpm.py：MiniCPM 本地评测脚本
benchmark_ke_semantic.py：KE-SemanticVAD 评测脚本
four_class.py：四分类统计工具

快速使用指南

环境准备：建议 Python 3.10+。
主评测流程：运行 python benchmark.py --out_dir ./outputs --run_name exp1。
模型特定评测：提供针对 Qwen3-Omni、MiniCPM 和 KE-SemanticVAD 的专用脚本。

输出结果

评测脚本通常生成以下文件：

results.json：总体与分项指标
report.md：Markdown 报告
per_sample*.jsonl：逐样本日志
error_samples.jsonl：失败样本（如脚本有该输出）

注意事项

代码中部分默认路径为硬编码，在新环境需手动修改为本地路径。
若出现 “No dataset files found”，需检查脚本内默认数据路径或通过 CLI 传入正确的数据集路径。
运行 API 相关脚本前，需确认模型服务地址、端口与鉴权配置可用。

引用信息

若使用本仓库或 CoDeTT 数据，建议引用：

@misc{shen2026codettcontextawaredecisionbenchmark, title={CoDeTT: A Context-Aware Decision Benchmark for Turn-Taking Evaluation}, author={Huan Shen and Yingao Wang and Shangkun Huang and Wei Zou and Yunzhang Chen}, year={2026}, eprint={2603.25434}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2603.25434}, }

搜集汇总

数据集介绍

构建方式

在对话系统与语音交互领域，轮次接管（Turn-Taking）是衡量智能体交互自然性与决策能力的关键。CoDeTT基准数据集的构建，旨在为多场景决策任务提供一个统一且严谨的评测框架。其构建过程基于精心设计的上下文感知范式，通过整合多样化的对话场景与交互轮次，形成结构化的评测样本。数据来源于模拟与真实交互的混合，确保了场景的覆盖广度与决策复杂性。每个样本均标注了明确的四分类标签，为模型在接管、保持、放弃或等待等决策行为上提供了清晰的监督信号，从而支撑起一个标准化、可复现的评测环境。

特点

CoDeTT数据集的核心特点在于其高度的场景适应性与评测统一性。数据集囊括了多种交互环境下的对话实例，能够全面检验模型在不同上下文中的轮次决策能力。其采用的统一四分类评测体系，允许研究者在一个一致的指标框架下，对各类轮次接管模型进行公平对比。此外，数据集支持灵活的历史上下文配置，用户可根据需要调整历史回合的纳入范围，从而深入探究上下文长度对决策性能的影响。这种设计既保证了评测的严谨性，又为方法创新提供了充分的探索空间。

使用方法

为便于研究者使用，CoDeTT提供了模块化且清晰的评测流程。用户可通过主评测脚本快速启动统一评测，该脚本内置了默认的数据集与模型路径。对于特定模型的评测，如Qwen3-Omni或MiniCPM，仓库提供了专用的适配脚本，用户只需配置相应的API端点或本地模型目录即可运行。KE-SemanticVAD等专用模型的评测则支持通过命令行参数灵活指定数据路径与历史回合数。所有脚本运行后均会生成结构化的输出结果，包括总体指标、详细报告及逐样本日志，极大简化了性能分析与错误排查的过程。

背景与挑战

背景概述

在对话系统与人机交互研究领域，轮次接管（Turn-Taking）是衡量智能体对话流畅性与上下文理解能力的关键问题。CoDeTT基准数据集由研究人员于2026年提出，相关论文发表于arXiv平台，旨在构建一个面向多场景决策任务的评估框架。该数据集的核心研究聚焦于如何精准评测模型在复杂对话环境中进行轮次接管的决策性能，通过统一四分类评估机制支持不同模型的对比分析。其创建推动了上下文感知决策评测的标准化进程，为人机对话系统的鲁棒性与适应性研究提供了重要数据支撑。

当前挑战

CoDeTT数据集致力于解决轮次接管决策问题中的核心挑战，即在多轮对话中准确判断当前发言权归属，这要求模型深度融合语义、时序与上下文信息。构建过程中的挑战主要体现在数据采集与标注的复杂性上，需要确保多场景对话语料的真实性与多样性，同时设计统一的四分类评估体系以涵盖不同决策边界。此外，基准的实现需兼容各类模型接口，从本地部署到API服务，涉及路径配置与依赖管理的技术异构性，增加了评测流程的集成难度。

常用场景

经典使用场景

在对话系统与多模态交互研究中，轮次接管（Turn-Taking）是确保对话流畅性与自然性的核心机制。CoDeTT基准通过构建多场景决策任务，为模型提供了统一的四分类评测框架，涵盖保持、接管、让出与放弃等关键行为。这一设计使得研究者能够在多样化语境下，系统评估模型对对话节奏与意图的感知能力，从而推动轮次决策技术的精细化发展。

解决学术问题

传统轮次接管研究常受限于场景单一与评测标准不一致，难以全面衡量模型的上下文理解与决策鲁棒性。CoDeTT通过引入上下文感知的决策基准，有效解决了多轮对话中意图歧义、时机判断与策略适应性等学术挑战。该数据集促进了跨模型对比与性能量化，为对话系统、人机交互及语音处理领域提供了可靠的评估工具，加速了相关理论框架的完善与技术迭代。

衍生相关工作

围绕CoDeTT基准，学术界已衍生出多项经典研究工作，例如基于Qwen3-Omni与MiniCPM等大语言模型的轮次决策优化，以及KE-SemanticVAD等语义语音活动检测技术的集成应用。这些工作进一步拓展了上下文建模、多模态融合与轻量化部署等方向，形成了从理论到实践的完整研究链条，持续推动轮次接管技术在人工智能领域的创新与落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集