five

cyber-task-horizons

收藏
github2026-04-03 更新2026-04-04 收录
下载链接:
https://github.com/lyptus-research/cyber-task-horizons-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于重现论文中的图表、表格和统计数据,包含原始评估日志、模型运行数据、任务难度数据等。数据集可用于再现论文结果、进行自定义IRT分析、分析模型在网络安全任务上的行为、研究专家如何解决安全任务、探索令牌预算扩展以及比较人类和模型难度估计等。

This dataset is intended to reproduce the figures, tables, and statistical data presented in the corresponding paper, and includes original evaluation logs, model runtime data, task difficulty data, and other relevant resources. It can be used to reproduce paper results, perform custom Item Response Theory (IRT) analyses, examine model behaviors on cybersecurity tasks, study how experts solve security-related tasks, explore token budget scaling, and compare human and model difficulty estimates, among other use cases.
创建时间:
2026-04-02
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称:Offensive Cyber Task Horizons: Data and Analysis
  • 存储库地址:https://github.com/lyptus-research/cyber-task-horizons-data
  • HuggingFace地址:https://huggingface.co/datasets/lyptus-research/cyber-task-horizons
  • 关联论文:Offensive Cyber Task Horizons: Measuring the Rate of Growth in AI Offensive Cybersecurity Capability (Lyptus Research, 2026)
  • 许可证
    • 数据 (data/ 目录下内容):CC-BY-4.0
    • 代码 (analysis/ 目录下内容):MIT

研究背景与目的

  • 本研究将METR的时间范围方法应用于进攻性网络安全领域。
  • 任务由人类专家标注完成时间,模型在每个任务上进行评估。
  • 对成功率与难度数据拟合2参数IRT逻辑曲线,并读取每个曲线的时间范围(模型以给定成功率完成任务所需的任务时长)。
  • 绘制时间范围与模型发布日期关系图,以计算能力翻倍时间。

数据集内容与结构

评估基准

研究涵盖七个网络安全基准,范围从终端命令到多小时的漏洞利用开发:

基准名称 评估任务数 JSONL中任务数 难度范围 类型
CyBashBench 200 200 1秒 - 30秒 命令生成
NL2Bash 136 136 4秒 - 4分钟 命令生成
InterCode-CTF 99 99 10秒 - 10分钟 初学者CTF
NYUCTF 50 50 2分钟 - 6小时 大学CTF
CyBench 40 40 2分钟 - 25小时 专业CTF
CVEBench 40 40 15分钟 - 8小时 真实CVE复现
CyberGym 122 322 30分钟 - 8小时 内存安全PoC生成

评估模型

评估的模型涵盖2019年至2026年初,包括:

  • GPT-4
  • Claude 3.5 Sonnet
  • o1, o3
  • Gemini 2.5 Pro
  • Claude Opus 4/4.6
  • GPT-5.x Codex
  • 开源模型(GLM-5, DeepSeek V3.1)

所有评估均使用固定的200万token预算,并采用Inspect AI的ReAct智能体框架。

数据目录结构

data/ eval_logs/ 原始Inspect AI .eval文件(Git LFS,约18 GB) human/ 匿名化的专家完成与估计数据 tasks/ 每个基准的任务定义和计时元数据 <benchmark>/ 每个基准的任务JSONL、人类运行记录、模型估计 cvebench/ solutions/ CVEBench解决方案文档(CC-BY-4.0) models/ 模型发布日期、别名和提供商配置 methodology/ 评估配置和智能体框架源代码 research_agent.py 智能体框架:继续提示、工具配置 README.md 系统提示、提示软化、智能体参数 june_2025/ 2025年6月遗留研究数据(METR格式)

数据文件描述

模型评估日志

  • 位置data/eval_logs/
  • 内容:所有模型评估活动的原始.eval文件(约18 GB,通过Git LFS存储)。
  • 格式:每个子目录以评估集ID命名,包含一个或多个.eval文件。每个文件记录一个模型尝试一个任务的完整过程,包括智能体轨迹(系统提示、工具调用、输出、token使用情况和得分)。
  • 映射关系:评估集ID与模型和基准的映射关系位于analysis/lib/eval_sets.py

人类研究数据

  • 位置data/human/
  • 核心文件
    • completions.csv:174次专家任务尝试,包含计时、得分、基准信息。
    • estimations.csv:310条可见解决方案的时间估计,包含置信度。
    • expert_survey.csv:研究后调查(经验水平、定性反馈)。
    • eval_logs/:90个终端转录记录,为匿名化的.eval文件。
    • DATA_DICTIONARY.md:列定义和快速入门代码。
    • human_snapshot.json:原始API快照(相同数据,嵌套JSON格式)。
  • 匿名化:专家标识符已匿名化(expert_01至expert_10)。CSV文件中的答案文本已编辑。.eval文件中的终端转录显示了专家的完整工作过程。

任务元数据

  • 位置data/tasks/<benchmark>/
  • 内容
    • 每个基准的任务定义(完整的JSONL,包含描述、标志和元数据)。
    • 前沿模型时间估计(*_model_estimates.jsonl)。
    • 人类完成数据(*_human_runs.jsonl,适用于CyBench、CVEBench、InterCode-CTF、NL2Bash和NYUCTF)。
  • 注意:CyBashBench和CyberGym没有单独的human_runs文件。data/tasks/cvebench/solutions/包含原始的CVEBench解决方案文档。
  • 任务选择元数据data/tasks/task_metadata.csv是任务选择过程的审查产物,涵盖除CyBashBench外的所有基准。CyberGym有1507个条目(完整的上游集合,而非评估的122个)。

评估方法

  • 位置data/methodology/
  • 内容
    • research_agent.py:智能体框架源代码,包括论文中描述的继续提示和空级联终止逻辑。
    • README.md:评估参数、提取的研究系统提示(仅应用于GPT-5.x Codex模型)和提示软化文本替换。

分析管道与可复现性

  • 工具:使用DVC进行可复现的图形生成。
  • 依赖:依赖于METR的eval-analysis-public(固定提交52cb829)进行IRT逻辑回归和趋势线计算。
  • 冻结阶段
    • snapshot_human_data(阶段0):原始数据从研究API实时拉取。预构建的快照已随附在analysis/figures/data/中。
    • prepare_runs(阶段1):加载原始.eval文件并构建管道表。预构建的parquet文件已随附。
  • 运行测试cd analysis 然后 uv run pytest tests/
  • 生成图表:运行dvc repro将在analysis/figures/out/中生成PNG图形和JSON数据文件。JSON文件包含每个图形背后的结构化数据,是论文网页版中site.data.*模板变量和交互式Plotly图表的来源。

数据用途

  1. 复现论文dvc repro可从原始数据重新生成每个图形、表格和统计量。
  2. 拟合自定义IRT曲线:预构建的model_runs.parquettask_difficulties.parquet包含自定义IRT分析所需的一切。
  3. 分析模型在网络安全任务上的行为:原始.eval文件包含完整的智能体轨迹,可用于研究不同模型如何处理同一任务。
  4. 研究专家如何解决安全任务:人类.eval文件包含专家会话的完整终端转录。
  5. 探索token预算缩放:每次运行的token计数位于.eval文件中,1000万token的重新运行数据显示了成功率如何随计算量扩展。
  6. 比较人类和模型难度估计estimations.csv包含专家时间估计。data/tasks/<benchmark>/*_model_estimates.jsonl包含相同任务的前沿模型估计。
  7. 添加新模型:IRT管道与模型无关。如果使用Inspect AI在相同基准上运行新模型,可以添加.eval文件并重新运行管道以查看其在趋势线上的位置。
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,为量化人工智能攻防能力的演进速率,该数据集构建过程融合了多源任务评估与人类专家标注。研究团队选取了七个涵盖不同难度与类型的网络安全基准,包括从基础命令生成到复杂漏洞利用的广泛任务。每个任务均通过人类专家完成时间进行难度标注,并利用Inspect AI框架对2019年至2026年初的多种前沿模型进行统一评估,生成包含完整代理轨迹的.eval日志文件。数据整合阶段,采用项目反应理论拟合成功率与任务难度的关系,从而推导出各模型的时间界限指标。
特点
该数据集的核心特点在于其跨模型、跨任务的系统性评估框架。它囊括了GPT-4、Claude 3.5 Sonnet、o1、o3、Gemini 2.5 Pro以及开源模型如GLM-5等多样化的模型在固定200万令牌预算下的表现数据。数据集不仅包含模型评估日志,还提供了90份人类专家完成任务的匿名终端转录记录,实现了人机行为模式的直接对比。此外,数据集结构清晰,附有完整的任务元数据、专家时间估计以及交互式图表数据,支持对模型成长趋势、令牌预算敏感性以及任务难度估计一致性等多维度深入分析。
使用方法
利用该数据集,研究者可通过DVC管道完整复现论文中的所有图表与统计结果。用户可修改超参数文件以探索不同设置对结果的影响,或基于预构建的中间数据文件进行自定义的项目反应理论曲线拟合。数据集中的原始.eval日志支持对模型在具体网络安全任务上的决策轨迹进行细粒度分析,包括工具调用、推理过程及令牌消耗。同时,通过整合人类专家完成数据与模型估计数据,可开展跨源难度估计的一致性研究,或纳入新模型评估结果以扩展趋势分析。
背景与挑战
背景概述
随着人工智能在网络安全领域的渗透日益加深,评估AI模型在进攻性网络安全任务中的能力演进成为一项关键研究议题。2026年,Lyptus Research机构的Jack Payne、Jeremy Miller和Sean Peters共同创建了Cyber-Task-Horizons数据集,旨在系统性地测量AI模型在多样化网络攻防任务上的表现增长速率。该数据集整合了七个涵盖从基础命令生成到复杂漏洞利用的基准测试,并引入了人类专家完成时间作为任务难度标注。通过应用项目反应理论(IRT)拟合模型成功率与任务难度的关系,研究团队能够量化不同模型的时间视野,进而揭示AI进攻性网络安全能力的指数增长趋势,为AI安全评估与政策制定提供了实证基础。
当前挑战
构建Cyber-Task-Horizons数据集面临的核心挑战在于如何准确量化网络攻防任务的固有难度,并确保评估结果具有跨模型与跨时间的可比性。研究团队需设计涵盖广泛难度谱系的任务集合,从数秒完成的终端命令生成到耗时数小时的现实漏洞复现,同时收集人类专家的实际完成时间作为难度锚点。在数据构建过程中,挑战还包括处理大规模评估日志(约18GB)的存储与处理,确保人类与模型评估轨迹的完整记录,以及开发可复现的分析流水线以支持敏感性检验与趋势外推。这些挑战的克服使得数据集能够可靠地追踪AI能力边界的移动,并为理解AI在网络安全中的演化轨迹提供坚实数据支撑。
常用场景
经典使用场景
在网络安全研究领域,该数据集为评估人工智能模型在攻击性网络安全任务中的能力增长提供了基准。研究人员利用其包含的七个基准测试,涵盖从终端命令生成到多小时漏洞开发的广泛任务,通过项目反应理论(IRT)拟合模型成功概率与任务难度之间的关系,从而量化模型的时间视野。这一方法使得跨模型性能比较成为可能,为理解AI在网络安全中的演进轨迹奠定了实证基础。
实际应用
在实际应用中,该数据集可用于指导网络安全工具的开发和评估。安全团队可以借鉴其评估框架,测试自动化渗透测试工具或AI辅助安全分析系统在真实任务场景下的效能。同时,通过分析模型在各类任务中的行为轨迹与失败模式,开发者能够识别现有系统的薄弱环节,优化AI代理的决策逻辑与工具使用策略,从而提升实际安全运维的自动化水平与响应效率。
衍生相关工作
围绕该数据集,已衍生出多项关于AI能力评估与网络安全的前沿研究。例如,基于其IRT框架与时间视野计算,后续工作可探索不同模型架构或训练数据对攻击性任务性能的影响。同时,数据集支持对开源与闭源模型的对比分析,促进了关于AI能力可及性与安全风险的讨论。这些工作共同推动了将计量经济学方法应用于AI安全评估的交叉学科发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作