Post-Quantum-Cryptography-Benchmark
收藏github2026-03-26 更新2026-03-27 收录
下载链接:
https://github.com/zhe-liangzhi/Post-Quantum-Cryptography-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
一个专门用于评估LLMs在后量子密码学方面能力的基准测试数据集,包括1695个单选题、565个多选题和428个开放式问答对。该数据集涵盖了后量子密码学的八个主要分支:数学基础、安全归约理论、核心算法设计与构造、标准化与密钥封装机制、算法软件与硬件实现与优化、密码协议迁移、侧信道攻击与保护、PQC迁移与混合部署策略。
A benchmark dataset specifically developed for evaluating the capabilities of Large Language Models (LLMs) in the field of post-quantum cryptography (PQC). It comprises 1,695 single-choice questions, 565 multiple-choice questions, and 428 open-ended question-answer pairs. This dataset covers eight core branches of post-quantum cryptography: foundational mathematics, security reduction theory, core algorithm design and construction, standardization and key encapsulation mechanisms (KEMs), software and hardware implementation and optimization of cryptographic algorithms, cryptographic protocol migration, side-channel attacks and countermeasures, and PQC migration and hybrid deployment strategies.
创建时间:
2026-03-26
原始信息汇总
数据集概述
数据集名称
Post-Quantum-Cryptography-Benchmark
数据集简介
该数据集是一个专门用于评估大型语言模型在后量子密码学领域能力的基准测试集。它包含三种类型的问题对:
- 1695个单项选择题对。
- 565个多项选择题对。
- 428个开放式问答对。
覆盖领域
数据集涵盖了后量子密码学的八个主要分支:
- 后量子密码学的数学基础
- 安全归约理论
- 核心算法设计与构造
- 标准化与密钥封装机制
- 算法的软件与硬件实现及优化
- 密码协议迁移
- 侧信道攻击与防护
- 后量子密码迁移与混合部署策略
模型测试结果
数据集创建者对17个模型(包括16个主流大型语言模型和一个名为PQC-LLM的微调模型)进行了测试,性能排名如下:
| 排名 | 模型 | 问答(基础) | 问答(扩展) | 多项选择(F1) | 多项选择(EM) | 单项选择(Acc) |
|---|---|---|---|---|---|---|
| 1 | PQC-LLM | 74.48 | 76.1 | 89.4 | 52.9 | 86.1 |
| 2 | Qwen3-235B | 75.5 | 71.9 | 91.1 | 48.1 | 80.1 |
| 3 | Claude-opus | 72.4 | 68.8 | 88.3 | 46.2 | 83.2 |
| 4 | Gemini-3-flash | 71.4 | 73.9 | 87.8 | 43.4 | 80.7 |
| 5 | GLM-4.7 | 70.5 | 72.8 | 87.0 | 41.6 | 81.8 |
| 6 | Mistral-large | 70.3 | 67.2 | 88.1 | 45.8 | 77.6 |
| 7 | Doubao | 74.5 | 68.7 | 86.7 | 42.5 | 75.3 |
| 8 | GPT-5.2 | 74.1 | 70.7 | 84.6 | 38.6 | 77.2 |
| 9 | DeepSeek-V3.2 | 73.7 | 69.7 | 84.4 | 38.1 | 78.1 |
| 10 | LongCat | 70.0 | 64.4 | 87.3 | 42.7 | 78.9 |
| 11 | HY | 70.8 | 66.8 | 86.2 | 38.6 | 78.6 |
| 12 | ERNIE | 70.1 | 66.6 | 83.9 | 40.7 | 73.8 |
| 13 | MiniMax | 66.8 | 70.2 | 83.6 | 37.2 | 70.7 |
| 14 | llama-4-maverick | 65.9 | 67.0 | 85.1 | 36.6 | 76.3 |
| 15 | Ling | 67.1 | 67.5 | 81.6 | 32.7 | 74.0 |
| 16 | MiMo-v2 | 68.3 | 65.7 | 83.6 | 37.2 | 61.4 |
| 17 | Grok-4-1 | 65.2 | 63.5 | 83.0 | 29.6 | 64.4 |
数据集地址
https://github.com/zhe-liangzhi/Post-Quantum-Cryptography-Benchmark
搜集汇总
数据集介绍

构建方式
在量子计算技术迅猛发展的背景下,后量子密码学成为保障未来信息安全的关键领域。Post-Quantum-Cryptography-Benchmark数据集的构建旨在系统评估大型语言模型在后量子密码学方面的理解与应用能力。该数据集通过精心设计,涵盖了从数学基础到实际部署的八个核心分支,共包含1695对单选题、565对多选题以及428对开放式问答对,确保了内容的全面性与深度。构建过程中,专家团队依据后量子密码学的标准化框架与最新研究进展,对题目进行了严格的筛选与验证,以保证每道题目都能准确反映该领域的核心知识与挑战。
特点
该数据集的一个显著特点是其多维度的评估体系,不仅覆盖了后量子密码学的理论根基,如数学基础与安全归约理论,还延伸至算法设计、标准化进程以及软硬件实现等实践层面。题目类型丰富,包括单选、多选与开放式问答,能够全面考察模型在不同认知层次上的表现。此外,数据集还提供了对16个主流大型语言模型及一个名为PQC-LLM的微调模型的基准测试结果,为研究者提供了直观的性能对比参考,揭示了当前模型在该领域的优势与局限。
使用方法
使用该数据集时,研究人员可将其作为标准基准,用于评估和比较不同大型语言模型在后量子密码学任务上的性能。具体而言,用户可以通过加载数据集中的题目,输入至目标模型进行推理,并依据提供的评分标准(如准确率、F1分数等)计算各项指标。数据集的结构化设计便于自动化测试流程的集成,支持从基础知识问答到复杂问题解决的全面评估。此外,基于已有的基准结果,用户能够识别模型的薄弱环节,进而指导后续的模型优化或微调策略,推动后量子密码学与人工智能的交叉研究进展。
背景与挑战
背景概述
随着量子计算技术的迅猛发展,传统公钥密码体系面临严峻威胁,后量子密码学应运而生,旨在构建能够抵御量子攻击的新型密码算法。在此背景下,Post-Quantum-Cryptography-Benchmark数据集应运而生,由相关研究团队精心构建,专注于评估大型语言模型在后量子密码学领域的理解与应用能力。该数据集涵盖了数学基础、安全归约理论、算法设计、标准化进程、软硬件实现、协议迁移、侧信道攻击及混合部署策略等八大核心分支,共计包含1695个单选题对、565个多选题对和428个开放式问答对,为后量子密码学与人工智能的交叉研究提供了系统化的评估基准。
当前挑战
该数据集致力于解决后量子密码学领域知识评估的挑战,其核心问题在于如何全面、准确地衡量大型语言模型对这一高度专业化、数学密集型的密码学分支的掌握程度。构建过程中,挑战主要体现在题目设计的深度与广度平衡上,需确保覆盖从理论基础到实际应用的多个维度,同时保持问题的科学严谨性与评估的客观性。此外,数据集的构建还需应对后量子密码学本身快速演进带来的动态性,确保题目内容与最新研究进展及标准化进程同步,避免因知识滞后而影响评估的有效性。
常用场景
经典使用场景
在量子计算技术迅猛发展的背景下,后量子密码学成为保障未来信息安全的关键领域。Post-Quantum-Cryptography-Benchmark数据集通过涵盖数学基础、安全归约理论、算法设计等八个核心分支,构建了一个全面评估大型语言模型在后量子密码学领域知识掌握程度的基准平台。该数据集包含单选、多选及开放式问答等多种题型,为研究者提供了系统测试模型理解深度与推理能力的标准化工具,尤其适用于衡量模型在复杂密码学概念上的表现。
解决学术问题
该数据集有效应对了后量子密码学研究中模型评估标准缺失的挑战。通过设计覆盖算法构造、协议迁移、侧信道防护等维度的多样化问题,它解决了如何量化评估语言模型对新兴密码学知识的理解准确性这一学术难题。其意义在于为密码学与人工智能的交叉研究建立了可复现的评估框架,推动了模型在专业领域的知识对齐与能力验证,为后续研究提供了可靠的性能比较基准。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于基准结果微调得到的PQC-LLM模型,显著提升了在后量子密码学问题上的回答准确率,展示了领域适应训练的有效性。多篇学术论文利用该数据集对比了主流语言模型的密码学知识差异,深入分析了模型在数学推理与安全归约等任务上的薄弱环节。这些工作共同推动了后量子密码学评估方法的完善,并为模型的专业化改进指明了方向。
以上内容由遇见数据集搜集并总结生成



