five

CCTU

收藏
github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/Junjie-Ye/CCTU
下载链接
链接失效反馈
官方服务:
资源简介:
CCTU是一个用于评估大型语言模型在复杂约束下工具使用能力的基准。它基于12个约束类别的分类法,涵盖资源、行为、工具集和响应四个维度。该基准包含200个精心策划的测试案例,涉及多种工具使用场景,每个案例平均涉及七种约束类型,平均提示长度超过4,700个令牌。

CCTU is a benchmark for evaluating the tool-use capabilities of large language models (LLMs) under complex constraints. It is based on a taxonomy of 12 constraint categories, covering four dimensions: resources, behaviors, tool sets, and responses. This benchmark contains 200 carefully curated test cases spanning diverse tool-use scenarios. Each case involves an average of seven constraint types, with an average prompt length exceeding 4,700 tokens.
创建时间:
2026-03-16
原始信息汇总

CCTU 数据集概述

数据集基本信息

  • 数据集名称:CCTU (A Benchmark for Tool Use under Complex Constraints)
  • 创建者:Junjie Ye
  • 发布日期:2026年3月17日
  • 论文地址:https://arxiv.org/abs/2603.15309
  • 数据地址:https://huggingface.co/datasets/Junjie-Ye/CCTU/
  • 代码仓库地址:https://github.com/Junjie-Ye/CCTU
  • 许可证:Apache License 2.0

数据集简介

CCTU 是一个用于评估大语言模型在复杂约束下使用工具能力的基准测试。该基准基于一个包含12个约束类别的分类法,这些类别跨越四个维度:资源、行为、工具集和响应。数据集包含200个经过精心策划的、具有挑战性的测试用例,覆盖了多样化的工具使用场景。每个测试用例平均涉及七种约束类型,平均提示长度超过4700个词元。

核心特点

  • 约束复杂性:定义了12个约束类别,涵盖资源、行为、工具集和响应四个维度。
  • 测试规模:包含200个测试用例。
  • 场景多样性:覆盖多种工具使用场景。
  • 评估严谨性:开发了可执行的约束验证模块,用于在多轮交互中进行步骤级验证并确保合规性。

评估结果摘要

评估了九种先进的大语言模型在思考模式和非思考模式下的表现。主要发现如下:

  • 当严格要求遵守所有约束时,没有任何模型的任务完成率超过20%。
  • 模型在超过50%的情况下违反了约束,尤其在资源和响应维度。
  • 即使收到关于约束违反的详细反馈,大语言模型也表现出有限的自我优化能力。

模型性能排行榜

排行榜展示了模型在单跳、并行单跳、多跳和并行多跳任务上的成功率(SR)和完美成功率(PSR)。

思考模式

在思考模式下,Claude Opus 4.6 在多个任务类型的成功率(SR)上表现最佳,而 GPT-5.2 在完美成功率(PSR)上总体领先。

非思考模式

在非思考模式下,Claude Opus 4.6 在成功率(SR)上总体领先,而 GPT-5.2 在完美成功率(PSR)上总体领先。

使用方法

环境要求

  • Python 3.8+

安装依赖

bash pip install -r requirements.txt

评估大语言模型

  1. 从 https://huggingface.co/datasets/Junjie-Ye/CCTU 下载 input_data.jsonl 并放置在 data 文件夹下。
  2. 运行评估脚本: bash bash evaluation.sh --model $MODEL --user $USER --api_key $API_KEY --base_url $BASE_URL --output_dir $OUTPUT_DIR [--thinking]

引用

如果本数据集对您的研究有帮助,请引用: bibtex @article{CCTU, title = {CCTU: A Benchmark for Tool Use under Complex Constraints}, author = {Junjie Ye and Guoqiang Zhang and Wenjie Fu and Tao Gui and Qi Zhang and Xuanjing Huang}, journal = {CoRR}, volume = {abs/2603.15309}, year = {2026}, url = {https://doi.org/10.48550/arXiv.2603.15309}, doi = {10.48550/ARXIV.2603.15309}, eprinttype = {arXiv}, eprint = {2603.15309} }

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型工具使用评估领域,CCTU数据集的构建遵循了严谨的学术范式。其核心基于一个涵盖资源、行为、工具集和响应四个维度的12类约束分类体系。研究团队精心策划了200个具有挑战性的测试用例,这些用例覆盖了多样化的工具使用场景。每个测试用例平均融合了七种约束类型,且提示文本的平均长度超过4700个词元,旨在模拟现实世界中复杂且细致的约束条件。为确保评估的可靠性,数据集还配套开发了一个可执行的约束验证模块,该模块能够在模型与环境的多轮交互中进行步骤级验证并强制遵守约束。
特点
CCTU数据集的主要特点在于其针对复杂约束下工具使用能力评估的系统性和深度。数据集构建了一个多维度的约束分类框架,将约束系统性地归纳为资源、行为、工具集和响应四大类,共计12个具体类别,这为全面评估模型的能力提供了结构化基础。其测试用例设计极具挑战性,不仅约束类型交织复杂,而且提示信息量巨大,能够有效检验模型在长上下文、多条件限制下的指令遵循、函数调用和自我修正等综合能力。数据集附带的自动化验证模块是其另一大特色,它实现了对模型输出是否符合约束的细粒度、可重复的客观评估,显著提升了评测结果的可靠性与科学性。
使用方法
对于希望利用CCTU进行模型评估的研究者,其使用方法清晰且标准化。首先需满足Python 3.8及以上的运行环境,并通过安装指定依赖包完成环境配置。核心评估数据可从Hugging Face平台获取,需将`input_data.jsonl`文件置于项目指定的`data`目录下。评估过程通过执行封装好的脚本命令启动,用户需提供待测模型的相关参数,如模型标识、API密钥及服务地址等。该框架支持两种推理模式评估:标准模式与思维链模式,后者可通过可选参数`--thinking`启用。运行后,系统将自动调用约束验证模块,对模型在各项测试用例上的表现进行逐步验证,并生成详细的评估结果,便于研究者进行量化分析与比较。
背景与挑战
背景概述
在人工智能领域,大型语言模型在复杂约束下的工具使用能力,是衡量其实际应用效能的关键维度。CCTU数据集由复旦大学的研究人员于2026年创建,旨在系统评估语言模型在多重约束场景中调用工具、遵循指令及自我优化的综合性能。该数据集基于资源、行为、工具集和响应四个维度,构建了涵盖12类约束的精细分类体系,包含200个精心设计的测试用例,平均每个案例涉及七种约束类型,提示长度超过4700词元。CCTU的推出填补了该领域专用评估基准的空白,为开发更可靠、鲁棒的工具使用智能体提供了重要的研究基础。
当前挑战
CCTU数据集致力于解决大型语言模型在复杂约束下进行工具调用时所面临的严峻挑战,核心问题在于模型能否在多重限制条件下准确、合规地完成任务。构建过程中的主要难点在于设计兼具多样性与复杂性的约束场景,并确保评估的严谨性。为此,研究团队开发了可执行的约束验证模块,以实现步骤级验证和多轮交互中的合规性检查。现有评估结果表明,即使是最先进的模型,在严格遵循所有约束时,任务完成率仍低于20%,且在资源与响应维度的违规率超过50%。模型在接收到违规反馈后仍展现出有限的自我优化能力,这凸显了当前工具使用智能体在鲁棒性方面存在的显著瓶颈。
常用场景
经典使用场景
在大型语言模型工具使用能力评估领域,CCTU数据集作为一项专门针对复杂约束条件下工具使用行为的基准测试,其经典应用场景集中于系统化评估模型在资源、行为、工具集和响应四个维度上的约束遵循能力。该数据集通过涵盖单跳、并行单跳、多跳及并行多跳等多种任务类型,模拟了现实世界中需要模型在严格限制下调用工具、遵循指令并进行自我优化的复杂交互环境,为研究者提供了量化模型在约束遵循与任务执行间平衡能力的标准化平台。
实际应用
在实际应用层面,CCTU数据集为构建高可靠性智能辅助系统提供了关键验证工具。例如在自动化工作流调度、金融合规操作或医疗决策支持等对操作规范有严格要求的领域,该数据集能够评估智能体在多重约束下协调工具使用的安全性与稳定性。其多轮交互验证机制尤其适用于需要动态调整策略的复杂场景,如供应链优化或危机管理,帮助开发者提前发现智能体在资源分配、权限控制与输出合规性方面的潜在风险。
衍生相关工作
围绕CCTU数据集衍生的经典研究主要集中在约束感知的模型优化与评估方法创新。部分工作基于其分层约束框架开发了增量式训练策略,通过渐进式增加约束复杂度提升模型的抗干扰能力;另有研究借鉴其验证模块设计了实时反馈强化学习机制,使模型能在工具使用过程中动态修正违规行为。这些工作不仅扩展了复杂约束下工具使用理论的研究边界,也为后续如动态约束生成、跨领域约束迁移等方向提供了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作