TAPAS datasets
收藏arXiv2025-10-10 更新2025-10-14 收录
下载链接:
https://huggingface.co/datasets/TAPAS
下载链接
链接失效反馈官方服务:
资源简介:
TAPAS数据集是一套用于分析后量子密码学的工具包,包含了多种LWE设置,可供AI研究人员直接用于原型设计新的LWE破解方法。这些数据集覆盖了广泛的LWE难度设置,包括不同的网格维度、模数以及秘密和错误分布。数据集的创建过程包括从初始样本集生成数百万个LWE样本,并进行预处理的步骤,如子采样和网格约简,以提高AI模型的训练效果。TAPAS数据集旨在帮助AI研究人员更深入地研究LWE问题,并促进后量子密码学的研究。
The TAPAS Dataset is a specialized toolkit for post-quantum cryptanalysis, which includes a diverse set of LWE parameter settings and can be directly employed by AI researchers to prototype novel LWE cryptanalysis methods. This dataset covers a broad spectrum of LWE difficulty configurations, encompassing varying lattice dimensions, modulus values, secret distributions, and error distributions. The development process of the TAPAS Dataset entails generating millions of LWE samples from an initial sample collection, followed by preprocessing steps including subsampling and lattice reduction to improve the training efficacy of AI models. The TAPAS Dataset is designed to help AI researchers conduct in-depth studies on the LWE problem and advance post-quantum cryptography research.
提供机构:
FAIR at Meta
创建时间:
2025-10-10
搜集汇总
数据集介绍

构建方式
在格密码学领域,TAPAS数据集的构建采用了前沿的格约简技术。该过程始于生成4n个初始LWE样本,通过子采样技术从这些样本中衍生出数百万新样本。随后利用BKZ2.0和flatter算法对每个子采样矩阵进行交替格约简,并引入惩罚参数ω平衡约简强度与误差控制。约简过程中通过动态切换算法策略确保约简质量,最终形成具有标准化结构的约简样本矩阵,为AI模型提供可直接使用的训练数据。
特点
TAPAS数据集在密码学数据资源中具有显著特性。其覆盖了从n=256到1024的多维格参数配置,包含二进制与三元秘密分布场景,样本规模达到4亿级别,远超现有同类数据集。数据集通过精确控制的约简过程产生独特的悬崖形标准差分布特征,其中冷酷比特数量直接关联攻击难度。不同参数组合形成的差异化难度梯度,为研究攻击算法的泛化能力提供了系统化实验环境。
使用方法
该数据集为后量子密码分析研究提供了标准化实验平台。研究者可直接加载HuggingFace平台上的预处理数据,基于Transformer架构构建区分器模型,通过预测约简样本中的噪声内积来隐含学习秘密向量。训练时可结合角度嵌入技术处理模运算输入,利用Adam优化器进行参数调优。针对不同难度参数配置,可采用SALSA攻击的区分器训练范式或Cool&Cruel攻击的混合策略,通过线性回归与暴力搜索相结合的方式实现秘密恢复。
背景与挑战
背景概述
TAPAS数据集由Meta FAIR研究院与杜克大学的研究团队于2025年联合发布,旨在解决后量子密码学中学习误差问题的AI分析需求。该数据集聚焦于LWE问题的核心研究挑战,即从含噪声的线性方程组中恢复秘密向量,这一难题构成了CRYSTALS-KYBER等标准化后量子密码系统的数学基础。通过提供大规模预处理后的LWE样本,TAPAS显著降低了AI社区进入密码分析领域的门槛,为探索新型攻击范式提供了关键数据支撑。
当前挑战
在领域问题层面,TAPAS需应对LWE问题固有的数学复杂性挑战,包括高维模运算的建模困难与稀疏秘密向量的恢复瓶颈。数据构建过程中面临双重挑战:其一是计算资源密集型的数据生成流程,单次矩阵预处理需消耗数万CPU小时;其二是格约减算法的优化平衡,需在约减质量与计算效率间取得精确权衡。此外,数据规模与参数多样性的扩展仍需突破现有格约减技术的理论局限。
常用场景
实际应用
在实际应用层面,TAPAS数据集为后量子密码标准的部署安全提供了重要保障。密码分析人员可利用该数据集训练AI模型,模拟对CRYSTALS-KYBER等标准化方案的攻击测试,评估其在实际部署环境中的抗攻击能力。安全厂商能够基于数据集开发自动化安全评估工具,而学术界则可通过分析攻击成功案例,指导新一代抗量子密码协议的设计改进。
衍生相关工作
该数据集催生了多项创新性研究工作。SALSA系列攻击方法通过利用数据集的预处理样本,首次证明了Transformer架构在LWE秘密恢复中的有效性;Cool&Cruel攻击则基于数据集中发现的列向量不对称性,开创了混合暴力搜索与线性回归的新范式。后续研究进一步探索了角度嵌入、预训练策略等增强技术,这些衍生工作共同推动了AI密码分析领域的快速发展。
以上内容由遇见数据集搜集并总结生成



