CoVe-12k

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/Zichen1024/CoVe-12k

下载链接

链接失效反馈

官方服务：

资源简介：

CoVe-12K 是一个包含 12,000 条高质量多轮交互式工具使用轨迹的数据集，这些轨迹由 CoVe（约束验证）框架合成。该数据集用于训练基于 Qwen3-4B-Instruct-2507 的模型 CoVe-4B。CoVe 框架通过模糊化显式约束来指导用户模拟器 LLM，并使用原始约束作为确定性检查表来验证代理的工具调用。该数据集在 τ²-bench 上表现出色，CoVe-4B 在 ≤8B 组中表现最佳，并与高达 70B 的模型相媲美。

创建时间：

2026-02-26

原始信息汇总

CoVe-12K 数据集概述

基本信息

数据集名称: CoVe-12K
发布地址: https://huggingface.co/datasets/Zichen1024/CoVe-12k
许可协议: Apache-2.0
任务类别: 文本生成
主要语言: 英语
标签: Agent
数据规模: 10K<n<100K

数据集内容

CoVe-12K 是一个包含 12,000 条高质量多轮交互式工具使用轨迹 的数据集。这些数据由 CoVe 框架合成。

框架与方法

数据通过 CoVe 框架生成。该框架通过模糊化显式约束来引导用户模拟器大语言模型，并使用原始约束作为确定性检查清单来验证智能体的工具调用。

性能表现

基于此数据集训练的 CoVe-4B 模型在 τ²-bench 基准测试中，在 ≤8B 参数规模的模型组中取得了顶尖性能，并可媲美高达 70B 参数规模的模型。

引用

如需引用，请使用以下 BibTeX 条目： bibtex @article{Chen2026CoVe, title = {CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification}, author = {Chen, Jinpeng and Gong, Cheng and Li, Hanbo and Liu, Ziru and Tian, Zichen and Fu, Xinyu and Wu, Shi and Zhang, Chenyang and Zhang, Wu and Zhang, Suiyun and Tu, Dandan and Liu, Rui}, journal = {arXiv preprint arXiv:2603.01940}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在智能体工具调用研究领域，高质量交互轨迹的获取是模型训练的关键瓶颈。CoVe-12k数据集的构建采用了创新的约束-验证框架，通过将明确的工具使用约束进行模糊化处理，引导一个用户模拟大语言模型生成多样化的多轮交互场景。随后，原始的精确约束被用作确定性检查清单，对智能体在模拟过程中产生的工具调用行为进行严格验证，从而确保最终合成的12,000条轨迹兼具高度的真实性与逻辑严谨性。

使用方法

研究者可将此数据集直接用于训练或微调具备工具调用能力的大语言模型，例如其关联的CoVe-4B模型便是基于Qwen3-4B-Instruct-2507在此数据集上训练而得。典型的使用流程包括加载数据集、进行指令微调，并最终在如τ²-bench等工具使用基准测试上评估模型性能。该数据集旨在提升模型在复杂、多步骤的真实世界任务中理解指令、规划并正确调用工具的能力。

背景与挑战

背景概述

在人工智能领域，开发能够熟练使用外部工具的智能体是迈向通用人工智能的关键一步。CoVe-12k数据集于2026年由陈金鹏等研究人员提出，其核心研究问题聚焦于如何高效训练具备多轮交互与工具调用能力的语言模型。该数据集通过创新的约束-验证框架合成，旨在解决传统方法在生成高质量、多样化工具使用轨迹时面临的效率与真实性瓶颈。它的出现为训练轻量级但高性能的交互式智能体提供了高质量数据基础，推动了具身智能与工具学习方向的发展。

当前挑战

该数据集致力于应对交互式工具使用智能体训练中的核心挑战，即如何确保智能体在复杂、开放的多轮对话中，能够准确、可靠地规划并执行工具调用序列。具体挑战包括生成轨迹需同时满足任务逻辑一致性与工具参数约束，以及避免合成数据与真实应用场景间的分布偏移。在构建过程中，主要挑战在于设计一个可扩展的框架，以自动化方式将明确的约束条件转化为多样化的用户模拟指令，并建立一套确定性的验证机制来高效筛选出符合要求的优质交互轨迹，从而保证数据集的规模与信度。

常用场景

经典使用场景

在智能体与工具交互的研究领域，CoVe-12k数据集为多轮交互式工具使用轨迹提供了高质量的合成范例。该数据集通过约束验证框架生成，典型应用场景包括训练和评估语言模型在复杂任务中调用外部工具的能力。研究者利用这些轨迹来优化智能体在遵循指令、处理模糊约束以及执行顺序操作方面的表现，从而推动对话式人工智能向更可靠、更高效的方向发展。

解决学术问题

CoVe-12k数据集主要针对智能体工具使用中的约束遵循与验证问题。它通过明确的约束模糊化引导和确定性检查清单，解决了传统方法在复杂多步任务中容易出现的错误传播和约束偏离难题。该数据集的意义在于提供了一种可扩展的合成数据范式，降低了高质量交互轨迹的获取成本，并为验证驱动训练奠定了数据基础，显著提升了小规模模型在工具调用任务上的性能。

实际应用

在实际应用层面，基于CoVe-12k训练的智能体能够集成到各类需要自动化工具调用的系统中。例如，在客户服务场景中，智能体可以准确查询数据库或调用API来解答用户问题；在数据分析领域，它能根据自然语言指令执行计算或生成图表。这些应用体现了智能体将用户需求转化为具体工具操作的能力，提升了人机协作的流畅度和任务完成效率。

数据集最近研究