Random-Crypto Benchmark

github2025-11-05 更新2025-11-06 收录

下载链接：

https://github.com/aielte-research/Random-Crypto

下载链接

链接失效反馈

官方服务：

资源简介：

Random-Crypto基准测试是一个程序生成的密码学CTF挑战数据集，专为基于LLM的智能体强化学习而设计。包含50个人工验证的评估挑战和5000个未验证的训练挑战

The Random-Crypto Benchmark is a program-generated cryptographic CTF challenge dataset designed specifically for reinforcement learning of LLM-based AI Agents. It contains 50 manually-verified evaluation challenges and 5000 unvalidated training challenges.

创建时间：

2025-11-03

原始信息汇总

Random-Crypto数据集概述

数据集简介

Random-Crypto Benchmark是一个程序化生成的密码学CTF挑战数据集，专为基于大型语言模型的智能体强化学习设计。

数据集组成

验证集

50个人工验证的挑战，用于评估
文件地址：https://github.com/aielte-research/Random-Crypto/tree/main/challenges/verified_challenges_50/all_challenges.csv

训练集

5000个未验证的挑战，用于训练
文件地址：https://github.com/aielte-research/Random-Crypto/tree/main/challenges/non_verified_challenges_5000/all_challenges.csv

数据集生成

环境配置

需要安装Python依赖包，并设置OpenAI API密钥

生成示例

生成50个挑战（每个类型1个）：python main.py --variants 1 --output_folder my_generated_challenges
生成5000个挑战（每个类型100个）：python main.py --variants 100 --output_folder my_generated_challenges

贡献者

Lajos Muzsai (muzsailajos@protonmail.com)
David Imolai (david@imol.ai)
András Lukács (andras.lukacs@ttk.elte.hu)

引用格式

bibtex @article{muzsai2025improving, title={Improving LLM Agents with Reinforcement Learning on Cryptographic CTF Challenges}, author={Muzsai, Lajos and Imolai, David and Luk{a}cs, Andr{a}s}, journal={arXiv preprint arXiv:2506.02048}, year={2025} }

搜集汇总

数据集介绍

构建方式

在密码学领域的研究中，Random-Crypto Benchmark通过程序化生成技术构建了一个包含密码学CTF挑战的数据集。该数据集采用自动化流程，利用OpenAI API生成多样化的挑战实例，支持通过命令行参数灵活控制生成数量与类型，例如生成50个已验证挑战用于评估或5000个未验证挑战用于训练，确保了数据的大规模与可扩展性。

特点

该数据集的核心特点在于其精心设计的结构，分为50个人工验证的高质量挑战和5000个未验证挑战，分别服务于评估与训练需求。这种划分不仅提升了数据的可靠性，还兼顾了强化学习场景下的多样性与复杂性，涵盖了多种密码学问题类型，为基于大语言模型的智能体提供了丰富的学习环境。

使用方法

在应用层面，用户需配置Python虚拟环境并安装依赖项，通过设置OpenAI API密钥启动生成脚本。典型用法包括指定变体数量和输出目录，例如生成50或5000个挑战，从而直接支持强化学习代理的训练与测试流程，操作简洁且易于集成到现有研究框架中。

背景与挑战

背景概述

在人工智能与密码学交叉研究蓬勃发展的背景下，Random-Crypto Benchmark于2025年由Lajos Muzsai等研究者联合推出，其核心目标在于构建程序化生成的密码学夺旗挑战数据集。该数据集通过结构化生成机制，为大型语言模型智能体提供强化学习训练环境，致力于解决智能体在密码学场景中的自主推理与策略优化问题，对推进可解释人工智能在安全领域的应用具有重要价值。

当前挑战

该数据集需应对密码学领域固有的复杂性问题，包括非对称加密算法的逆向推导与哈希碰撞检测等高阶挑战，同时需确保生成题目符合密码学理论规范。在构建过程中面临程序化生成的质量控制难题，既要维持题目类型的多样性，又需通过人工验证保证核心测试集的可靠性，这种规模与精度之间的平衡成为数据集发展的关键制约因素。

常用场景

经典使用场景

在密码学与人工智能交叉领域，Random-Crypto Benchmark作为程序化生成的密码学夺旗挑战数据集，其核心应用场景聚焦于大语言模型智能体的强化学习训练。通过系统化构建包含50道人工验证挑战与5000道非验证挑战的梯度难度题库，该数据集为智能体提供了从基础密码分析到复杂协议破解的渐进式学习环境，有效模拟了真实网络安全竞赛中的动态解题场景。

衍生相关工作

自数据集发布以来，已催生多项创新性研究。原始论文提出的强化学习框架为后续工作奠定了方法论基础，衍生出包括多智能体协作解密、元学习跨领域迁移等突破性方向。这些研究通过扩展挑战类型和优化训练策略，持续推动着密码学智能体在鲁棒性和泛化能力方面的边界拓展。

数据集最近研究