NYU CTF Bench
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/NYU-LLM-CTF/nyuctf_agents
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个评估大型语言模型代理自动任务规划能力的基准,包含了CTF挑战。为了防止过拟合,还包含了一个开发集,其中有55个额外的挑战。该数据集总共包含290个挑战,覆盖了六个类别,其任务是解决CTF挑战。
This dataset is a benchmark for evaluating the automatic task planning capabilities of large language model agents, which encompasses Capture the Flag (CTF) challenges. To prevent overfitting, it also includes a development set with 55 additional challenges. In total, this dataset contains 290 challenges spanning six categories, with the core task being to solve these CTF challenges.
提供机构:
NYU
搜集汇总
数据集介绍

背景与挑战
背景概述
NYU CTF Bench是一个包含LLM代理的数据集,旨在解决CTF挑战。它包括D-CIPHER多代理框架和NYU CTF Baseline代理,支持在docker环境中运行,并提供详细的设置和使用指南。
以上内容由遇见数据集搜集并总结生成



