AICrypto

Name: AICrypto
Creator: 中国科学院信息工程研究所, 中国科学院大学网络空间安全学院, 上海人工智能实验室, 清华大学交叉信息研究院, 清华大学人工智能学院
Published: 2025-07-13 19:11:01
License: 暂无描述

arXiv2025-07-13 更新2025-07-16 收录

下载链接：

https://aicryptobench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

AICrypto是一个全面评估大型语言模型（LLMs）密码学能力的基准数据集，由中国科学院信息工程研究所等机构的研究人员开发。该数据集包含135个选择题、150个捕获旗帜（CTF）挑战和18个证明问题，涵盖了从事实记忆到漏洞利用和形式推理的广泛技能。所有任务都经过密码学专家的仔细审查或构建，以确保正确性和严谨性。AICrypto旨在帮助研究人员更好地理解LLMs在密码学领域的潜力和局限性，为未来的研究提供参考。

AICrypto is a benchmark dataset for comprehensively evaluating the cryptographic capabilities of Large Language Models (LLMs), developed by researchers from institutions including the Institute of Information Engineering, Chinese Academy of Sciences and other relevant organizations. This dataset includes 135 multiple-choice questions, 150 Capture-the-Flag (CTF) challenges and 18 proof problems, covering a wide spectrum of skills ranging from factual memorization to vulnerability exploitation and formal reasoning. All tasks have been carefully reviewed or constructed by cryptographic experts to guarantee correctness and rigor. AICrypto is designed to help researchers better understand the potential and limitations of LLMs in the field of cryptography, providing a valuable reference for future research works.

提供机构：

中国科学院信息工程研究所, 中国科学院大学网络空间安全学院, 上海人工智能实验室, 清华大学交叉信息研究院, 清华大学人工智能学院

创建时间：

2025-07-13

原始信息汇总

AICrypto 数据集概述

基本信息

数据集名称: AICrypto
开发团队: 来自中国科学院信息工程研究所、清华大学等机构的研究团队
论文状态: 即将发布（计划2025年7月15日开放）
核心目标: 评估大语言模型(LLM)在密码学领域的能力

基准构成

任务类型

多选题(MCQ)
- 数量: 135题
- 组成:
  - 118道单选题
  - 17道多选题
- 来源: 人工筛选的在线资源
- 分类: 5个主题领域
夺旗挑战(CTF)
- 数量: 150题
- 组成:
  - 137题来自2023年后竞赛
  - 13题来自早期竞赛
- 分类: 8个类别
- 验证: 全部经过密码学专家人工审核
证明题(Proof)
- 数量: 18题
- 来源: 密码学专家设计的3套考试题

评分体系

每类任务满分100分
总分计算公式: 三类任务标准化分数之和（最高300分）

关键发现

模型表现对比

MCQ任务:
- 最佳模型(o3)准确率97.8%（仅错3题）
- 人类专家最高准确率78.5%
CTF任务:
- 人类平均成功率81.2%
- 最佳模型(gemini-2.5-pro-preview)成功率55.3%

能力差异

优势领域:
- 密码学概念记忆
- 常见漏洞利用
- 常规证明
薄弱环节:
- 抽象数学概念理解
- 多步推理任务
- 动态分析任务

样本展示

多选题示例

Q1. 修改版Diffie-Hellman协议分析（5个选项） Q2. RSA密钥计算问题（5个选项） Q3. 加密方案安全性判断（7个选项）

CTF挑战示例

Challenge 1: RSA School 3rd Grade

来源: Blue-hens-2023竞赛
提供文件:
- main.py (加密脚本)
- output.txt (输出参数)

Challenge 2: Naptime

来源: UIUCTF-2024竞赛
需下载完整挑战文件

评估框架

自动化系统: 基于智能体的CTF评估框架
基准参考: 包含人类专家表现基线
测试范围: 覆盖17个主流LLM

搜集汇总

数据集介绍

构建方式

AICrypto数据集通过精心设计的三个任务类型构建而成，包括135道多项选择题、150道夺旗挑战和18道证明题。多项选择题源自顶尖大学密码学考试题库及在线教育平台，经过密码学专家人工校验和数值改写以避免数据污染。夺旗挑战主要选自2023年后专业竞赛题目，涵盖古典密码学、RSA、椭圆曲线密码学等八类密码学问题，并采用基于代理的自动化评估框架。证明题直接采用顶尖大学密码学课程的三套期末考试原题，由领域专家命题以确保学术严谨性。所有任务均通过标准化评分体系进行量化评估，并引入人类专家表现作为基准参照。

特点

该数据集具有多维度的评估体系，全面覆盖密码学领域从理论到实践的技能谱系。多项选择题侧重基础概念记忆，涵盖数学基础、对称加密等五大知识领域；夺旗挑战模拟真实攻击场景，强调漏洞利用和数值分析能力；证明题则检验形式化推理与数学论证能力。数据集特别设计了动态与静态两类夺旗挑战，配备标准化文件结构和辅助脚本，支持大规模自动化评估。所有题目均通过密码学专家双重验证，确保技术准确性和时效性，其中90%的CTF题目来自近三年赛事，有效避免数据陈旧问题。

使用方法

使用AICrypto需遵循任务特定的评估协议：多项选择题采用单轮对话形式，模型需按结构化格式输出推理过程和最终选项；夺旗挑战通过多轮交互的代理框架实现，模型在受限的Ubuntu环境中通过命令执行、文件创建等动作逐步解决问题，每次交互仅允许单一操作；证明题采用多轮对话评估，模型需保持考试上下文连贯性，严格按LaTeX格式输出推理与证明。评估指标分别采用准确率（MCQ）、通过率pass@3（CTF）和专家评分率（证明题），最终通过加权计算300分制综合得分。为保障评估效度，建议配合提供的人类专家基线数据进行能力对比分析。

背景与挑战

背景概述

AICrypto是由中国科学院信息工程研究所、清华大学交叉信息研究院等机构的研究团队于2025年提出的首个专门评估大语言模型密码学能力的综合性基准。该数据集包含135道多选题、150道夺旗挑战赛题目和18道证明题，涵盖从概念记忆到漏洞利用和形式化推理等多层次密码学技能。作为密码学与人工智能交叉领域的重要探索，AICrypto填补了现有网络安全基准在密码学专项评估上的空白，为衡量大语言模型在密码算法分析、协议验证等核心任务中的表现提供了标准化测试框架。

当前挑战

AICrypto面临的挑战主要体现在两个方面：领域问题挑战方面，需解决大语言模型对抽象数学概念理解不足、多步推理能力薄弱等核心问题，特别是在格密码、椭圆曲线密码等需要高阶数学推理的任务中表现显著落后于人类专家；构建过程挑战方面，需确保150道CTF题目的时效性与安全性平衡，解决动态分析任务的环境部署难题，以及18道证明题的学术严谨性验证问题。此外，针对夺旗挑战设计的基于智能体的自动化评估框架，还需克服大数运算精度控制、安全沙箱隔离等技术挑战。

常用场景

经典使用场景

AICrypto数据集作为首个专注于评估大语言模型密码学能力的综合性基准，其经典使用场景集中在密码学教育、安全协议验证和漏洞挖掘领域。通过精心设计的135道选择题、150道CTF挑战题和18道证明题，该数据集能够系统评估模型从概念记忆到形式化推理的多层次能力。在密码学课程设计中，教育者可通过MCQ模块快速检测学生对基础概念的掌握程度；安全研究人员则利用CTF挑战模拟真实场景下的漏洞利用过程，验证模型对RSA、椭圆曲线等算法的实战分析能力。

解决学术问题

该数据集有效解决了密码学领域三大核心研究问题：一是填补了现有评估体系对LLMs密码学能力系统性测量的空白，通过专家验证的题目设计确保评估效度；二是揭示了模型在抽象数学理解与多步动态推理方面的关键缺陷，如实验显示顶尖模型在CTF挑战中成功率仅55.3%，远低于人类专家的81.2%；三是建立了自动化评估框架，特别设计的基于代理的CTF评测系统支持复杂密码操作的自动化验证，为后续研究提供可复现的基准平台。

衍生相关工作

该数据集已衍生出多个标志性研究方向：基于其CTF评估框架发展的AutoPentest系统实现了自动化漏洞挖掘流程；受证明题模块启发提出的FormalCrypto项目将密码学证明生成形式化为序列推理任务；后续研究团队进一步扩展了 lattice-based cryptography 的挑战规模，形成专注于后量子密码评估的Q-CryptoBench。数据集构建方法论更被CyBench等网络安全基准借鉴，推动形成了LLM安全能力评估的标准范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集