CCTU
收藏CCTU 数据集概述
数据集基本信息
- 数据集名称:CCTU (A Benchmark for Tool Use under Complex Constraints)
- 创建者:Junjie Ye
- 发布日期:2026年3月17日
- 论文地址:https://arxiv.org/abs/2603.15309
- 数据地址:https://huggingface.co/datasets/Junjie-Ye/CCTU/
- 代码仓库地址:https://github.com/Junjie-Ye/CCTU
- 许可证:Apache License 2.0
数据集简介
CCTU 是一个用于评估大语言模型在复杂约束下使用工具能力的基准测试。该基准基于一个包含12个约束类别的分类法,这些类别跨越四个维度:资源、行为、工具集和响应。数据集包含200个经过精心策划的、具有挑战性的测试用例,覆盖了多样化的工具使用场景。每个测试用例平均涉及七种约束类型,平均提示长度超过4700个词元。
核心特点
- 约束复杂性:定义了12个约束类别,涵盖资源、行为、工具集和响应四个维度。
- 测试规模:包含200个测试用例。
- 场景多样性:覆盖多种工具使用场景。
- 评估严谨性:开发了可执行的约束验证模块,用于在多轮交互中进行步骤级验证并确保合规性。
评估结果摘要
评估了九种先进的大语言模型在思考模式和非思考模式下的表现。主要发现如下:
- 当严格要求遵守所有约束时,没有任何模型的任务完成率超过20%。
- 模型在超过50%的情况下违反了约束,尤其在资源和响应维度。
- 即使收到关于约束违反的详细反馈,大语言模型也表现出有限的自我优化能力。
模型性能排行榜
排行榜展示了模型在单跳、并行单跳、多跳和并行多跳任务上的成功率(SR)和完美成功率(PSR)。
思考模式
在思考模式下,Claude Opus 4.6 在多个任务类型的成功率(SR)上表现最佳,而 GPT-5.2 在完美成功率(PSR)上总体领先。
非思考模式
在非思考模式下,Claude Opus 4.6 在成功率(SR)上总体领先,而 GPT-5.2 在完美成功率(PSR)上总体领先。
使用方法
环境要求
- Python 3.8+
安装依赖
bash pip install -r requirements.txt
评估大语言模型
- 从 https://huggingface.co/datasets/Junjie-Ye/CCTU 下载
input_data.jsonl并放置在data文件夹下。 - 运行评估脚本: bash bash evaluation.sh --model $MODEL --user $USER --api_key $API_KEY --base_url $BASE_URL --output_dir $OUTPUT_DIR [--thinking]
引用
如果本数据集对您的研究有帮助,请引用: bibtex @article{CCTU, title = {CCTU: A Benchmark for Tool Use under Complex Constraints}, author = {Junjie Ye and Guoqiang Zhang and Wenjie Fu and Tao Gui and Qi Zhang and Xuanjing Huang}, journal = {CoRR}, volume = {abs/2603.15309}, year = {2026}, url = {https://doi.org/10.48550/arXiv.2603.15309}, doi = {10.48550/ARXIV.2603.15309}, eprinttype = {arXiv}, eprint = {2603.15309} }




