autogenCTF/CTFAIA
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/autogenCTF/CTFAIA
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
pretty_name: CTF(Capture The Flag) AI Assistants Benchmark
---
阿里巴巴国际站与西北工业大学联合开发项目
网络空间安全学院-NLP&大模型安全课题组-高德宏&杨黎斌&刘鹏望&胥基&赖起敬&张一涵&周梓伦&张诗扬&刘苗苗&王义翔
[**[LeaderBoard]**](https://huggingface.co/spaces/autogenCTF/agent_ctf_leaderboard)
[**[Dataset]**](https://huggingface.co/datasets/autogenCTF/CTFAIA)
[**[GitHub]**](https://github.com/Miracle-x/AutoGen-CTF)
[**[CTF platform]**](http://47.251.44.45:8000)
[**[Contribute to CTF platform]**](https://github.com/TedLau/Docker-AutoCTF)
# CTFAIA dataset
CTFAIA is a benchmark which aims to evaluate the performance of next-generation LLMs in the field of cybersecurity, particularly CTF competition issues.
We added gating to prevent bots from scraping the dataset. Please do not reshare the validation or test set in a crawlable format.
## Data and leaderboard
CTFAIA is made of more than 100 non-trivial question with an unambiguous answer, requiring different levels of tooling and autonomy to solve. It is therefore divided in 3 levels, where level 1 may not need to use any tools to solve, level 2 requires 1-2 tools and considerable logic ability to achieve, level 3 not only requires the flexible application of tools, but also requires LLMs to have strong reasoning ability and judgment ability, as well as independent exploration.. Each version of the question is divided into a fully public dev set for validation, and a test set with private answers and metadata.
CTFAIA leaderboard can be found in this space (https://huggingface.co/spaces/autogenCTF/agent_ctf_leaderboard).
CTFAIA data can be found in [this dataset](https://huggingface.co/datasets/autogenCTF/CTFAIA). Questions are contained in `metadata.jsonl`. Some questions come with an additional folder, that can be found in the folder and whose id is given in the field `Annex`.
---
语言:英语
展示名称:CTF(Capture The Flag)AI助手基准测试集
---
阿里巴巴国际站与西北工业大学联合开发项目
网络空间安全学院-NLP与大模型安全课题组:高德宏、杨黎斌、刘鹏望、胥基、赖起敬、张一涵、周梓伦、张诗扬、刘苗苗、王义翔
[**[排行榜]**](https://huggingface.co/spaces/autogenCTF/agent_ctf_leaderboard)
[**[数据集]**](https://huggingface.co/datasets/autogenCTF/CTFAIA)
[**[GitHub仓库]**](https://github.com/Miracle-x/AutoGen-CTF)
[**[CTF竞赛平台]**](http://47.251.44.45:8000)
[**[为CTF平台贡献代码]**](https://github.com/TedLau/Docker-AutoCTF)
# CTFAIA 数据集
CTFAIA是一款基准测试集,旨在评估新一代大语言模型(Large Language Model,LLM)在网络安全领域,尤其是CTF竞赛任务中的表现。
我们设置了访问限制以防止爬虫爬取本数据集,请切勿以可被爬取的格式重新分享验证集与测试集。
## 数据集与排行榜
CTFAIA包含100余道具有明确标准答案的非平凡问题,解决这些问题需要不同程度的工具调用能力与自主决策能力。因此该数据集分为三个难度等级:等级1无需使用任何工具即可解决;等级2需要调用1-2种工具,并具备较强的逻辑推理能力方可完成;等级3不仅需要灵活运用工具,还要求大语言模型具备出色的推理、判断能力以及独立探索能力。每个问题版本均分为完全公开的开发验证集,以及包含私有答案与元数据的测试集。
CTFAIA排行榜可通过该空间访问:https://huggingface.co/spaces/autogenCTF/agent_ctf_leaderboard。
CTFAIA数据集可通过[该数据集仓库](https://huggingface.co/datasets/autogenCTF/CTFAIA)获取。问题数据存储于`metadata.jsonl`文件中,部分问题附带额外文件夹,其文件夹ID可通过元数据中的`Annex`字段获取。
提供机构:
autogenCTF
原始信息汇总
CTFAIA 数据集概述
数据集名称
- 名称: CTF(Capture The Flag) AI Assistants Benchmark
- 简称: CTFAIA
数据集描述
- 目的: 评估下一代大型语言模型在网络安全领域,特别是CTF竞赛问题上的表现。
- 特点: 包含超过100个非平凡问题,答案明确,需要不同程度的工具使用和自主解决能力。
- 结构: 分为三个难度级别,每个级别对工具使用和逻辑能力的要求不同。
- 数据划分: 分为公开的开发集(用于验证)和测试集(答案和元数据保密)。
数据集内容
- 问题存储: 问题存储在
metadata.jsonl文件中。 - 附加文件: 部分问题附带额外文件夹,其ID在
Annex字段中给出。
访问与贡献
搜集汇总
数据集介绍

构建方式
CTFAIA数据集是由阿里巴巴国际站与西北工业大学联合开发,旨在评估下一代大型语言模型在网络安全领域,特别是CTF(Capture The Flag)竞赛问题中的表现。该数据集包含超过100个具有明确答案的非平凡问题,按照解决问题的难度分为三个等级,每个等级对应不同的工具使用和自主性要求。数据集通过在问题中添加门控机制,防止机器人抓取数据,确保数据的安全性。问题分为完全公开的开发集用于验证,以及包含私有答案和元数据的测试集。
特点
CTFAIA数据集的特点在于其针对网络安全领域的专门设计,问题涵盖不同难度级别,从无需工具到需要灵活应用多种工具,并要求模型具备强大的推理和判断能力,以及独立探索的能力。此外,数据集的构建考虑到了数据的安全性,通过门控机制有效防止了数据的非法抓取和共享。每个问题都配备了完整的元数据信息,方便模型的训练和评估。
使用方法
使用CTFAIA数据集时,研究者可以从HuggingFace平台获取数据,问题存储在`metadata.jsonl`文件中。部分问题附带额外的文件夹,包含附加信息,其ID在元数据字段`Annex`中给出。用户需遵循数据使用规范,不得以可爬取的格式重新分享验证集或测试集,以维护数据集的完整性和安全性。通过访问 leaderboard 页面,研究者可以查看不同模型在CTFAIA数据集上的表现,以评估和比较模型的性能。
背景与挑战
背景概述
在网络安全领域,CTF(Capture The Flag)竞赛作为一种实战性技术竞赛,长久以来一直是检验安全研究人员技能的重要方式。在此背景下,阿里巴巴国际站与西北工业大学联合开发的CTFAIA数据集应运而生。该数据集由网络空间安全学院-NLP&大模型安全课题组的学者们共同研发,旨在评估新一代大型语言模型在网络安全尤其是CTF竞赛问题上的表现。自创建以来,CTFAIA数据集以其独特的设计理念和对模型能力的深入探讨,对网络安全领域的研究产生了显著影响。
当前挑战
CTFAIA数据集在构建过程中面临着多方面的挑战。首先,竞赛问题需要设计成既有明确的答案,又需要不同层次的技术工具和自主性来求解,这要求问题设计必须具有高度的创新性和实用性。其次,数据集分为三个难度级别,从无需工具到需要灵活运用多种工具,并对模型的推理和判断能力提出了更高的要求。此外,数据集在构建时还需考虑防止数据被机器人抓取,确保数据的安全性和有效性。这些挑战不仅考验了数据集的构建技术,也对其后续的应用和评估提出了更高的标准。
常用场景
经典使用场景
在网络安全领域,CTFAIA数据集被广泛用于评估下一代大型语言模型在CTF(Capture The Flag)竞赛问题上的表现。该数据集包含了超过100个具有明确答案的非平凡问题,根据解决问题的难度分为三个级别,从而成为检验模型在不同层次工具使用和自主性上的能力基准。
实际应用
实际应用中,CTFAIA数据集可用于网络安全公司的技术选拔,以及教育机构在网络安全课程中的教学和评估。此外,安全研究人员可以利用该数据集来测试和优化他们的安全工具和策略。
衍生相关工作
基于CTFAIA数据集,学术界和工业界已经衍生出一系列相关工作,包括但不限于对现有模型的改进、新型安全评估工具的开发,以及针对特定类型CTF挑战的定制化模型训练。这些工作进一步扩展了数据集的应用范围,并推动了网络安全领域的技术进步。
以上内容由遇见数据集搜集并总结生成



