five

NYU CTF Bench

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/NYU-LLM-CTF/nyuctf_agents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个评估大型语言模型代理自动任务规划能力的基准,包含了CTF挑战。为了防止过拟合,还包含了一个开发集,其中有55个额外的挑战。该数据集总共包含290个挑战,覆盖了六个类别,其任务是解决CTF挑战。

This dataset is a benchmark for evaluating the automatic task planning capabilities of large language model agents, which encompasses Capture the Flag (CTF) challenges. To prevent overfitting, it also includes a development set with 55 additional challenges. In total, this dataset contains 290 challenges spanning six categories, with the core task being to solve these CTF challenges.
提供机构:
NYU
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
NYU CTF Bench是一个包含LLM代理的数据集,旨在解决CTF挑战。它包括D-CIPHER多代理框架和NYU CTF Baseline代理,支持在docker环境中运行,并提供详细的设置和使用指南。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作