TAPAS

Name: TAPAS
Creator: AI at Meta
Published: 2025-05-14 21:25:11
License: 暂无描述

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/facebook/TAPAS

下载链接

链接失效反馈

官方服务：

资源简介：

TAPAS数据集是一个用于分析和研究后量子密码学中Learning with Errors (LWE)问题的工具包。它包含了多种LWE设置的数据，可供AI研究人员直接用来原型设计破解LWE的新方法。

The TAPAS dataset is a specialized toolkit for analyzing and researching the Learning with Errors (LWE) problem in post-quantum cryptography. It contains datasets under various LWE parameter settings, enabling AI researchers to directly prototype novel methods for breaking the LWE problem.

提供机构：

AI at Meta

创建时间：

2025-05-13

原始信息汇总

TAPAS数据集概述

数据集基本信息

许可证: CC-BY-4.0
标签: 数学、密码学
数据集名称: Datasets for Learning the Learning with Errors Problem
数据规模: 100M < n < 1B

数据集简介

TAPAS数据集是为加速AI在LWE（Learning with Errors）攻击研究中的进展而设计的工具包。LWE是后量子密码学中的一个重要数学难题。该数据集覆盖了多种LWE设置，可供AI从业者直接使用，以开发新的LWE破解方法。

数据集详情

n	log q	omega	rho	样本数量
256	20	10	0.4284	400M
512	12	10	0.9036	40M
512	28	10	0.6740	40M
512	41	10	0.3992	40M
1024	26	10	0.8600	40M

使用说明

下载并解压.tar.gz文件至具有足够存储空间的目录。
对于分块的数据集，解压后需将所有文件合并为一个data.prefix文件。
配合代码库使用：https://github.com/facebookresearch/LWE-benchmarking
按照README中的说明生成完整的LWE对并训练AI模型。

搜集汇总

数据集介绍

构建方式

在密码学领域，后量子密码算法的安全性研究日益受到重视。TAPAS数据集的构建采用了系统化的方法，针对Learning with Errors（LWE）这一后量子密码学核心数学问题，精心设计了不同参数组合的数据生成方案。研究团队通过严谨的算法流程，生成了涵盖n=256/512/1024等多种维度、log q值在12至41之间的海量样本数据，每个参数组合下生成40M至400M不等的样本量，为AI模型训练提供了丰富的素材。

使用方法

该数据集的使用需要与配套的基准测试代码协同工作。用户需从指定仓库获取数据处理脚本，将下载的分块数据解压合并后生成完整的数据文件。具体实施时，需按照开源项目提供的技术文档指导，完成LWE数据对的生成和模型训练流程。数据集特别适合用于验证新型机器学习算法在密码分析任务中的表现，为后量子密码安全性研究提供了标准化的评估平台。

背景与挑战

背景概述

TAPAS数据集由Facebook Research团队于近年推出，旨在解决后量子密码学中Learning with Errors（LWE）问题的AI驱动攻击研究需求。作为格密码学的基础难题，LWE问题在构建抗量子计算攻击的加密方案中具有核心地位。该数据集填补了人工智能领域缺乏标准化LWE训练数据的空白，通过提供不同参数配置下的4亿条样本，显著降低了研究者构建训练数据的计算门槛。其多尺度参数覆盖（维度n从256到1024，模数q对数从12到41）的设计，为探索AI模型在密码分析中的泛化能力提供了系统性研究基础。

当前挑战

在领域问题层面，TAPAS需应对LWE问题特有的双重挑战：一方面，高维格空间中的噪声分布导致传统机器学习特征提取困难；另一方面，不同参数配置下LWE实例的数学特性差异要求模型具备参数自适应能力。数据集构建过程中，团队面临生成算法复杂度与数据质量的平衡难题——既要保证样本符合LWE问题的理论分布特性，又需控制万亿级规模数据的生成成本。此外，log q值跨度达29个数量级的参数设计，对数据存储格式的统一性提出了苛刻要求。

常用场景

经典使用场景

在密码学领域，TAPAS数据集为研究后量子密码学中的Learning with Errors（LWE）问题提供了标准化的数据支持。该数据集最经典的使用场景是训练和评估基于人工智能的LWE攻击模型。通过提供多样化的参数设置和大规模样本，研究人员能够快速验证新型攻击算法的有效性，无需耗费大量时间生成训练数据。

解决学术问题

TAPAS数据集有效解决了后量子密码学研究中数据匮乏的核心问题。其覆盖了从256到1024维不同模数设置的LWE实例，为比较经典攻击与AI攻击的性能提供了基准。该资源显著降低了跨领域研究门槛，使机器学习专家无需深入密码学细节即可开展LWE破解研究，加速了后量子密码安全性的评估进程。

实际应用

在实际应用中，该数据集被广泛用于构建后量子密码系统的安全评估框架。网络安全公司利用这些数据训练深度学习模型，模拟攻击者行为以测试格基密码方案的鲁棒性。政府部门和研究机构则通过分析不同参数下AI攻击的成功率，为标准化进程中的参数选择提供数据支撑。

数据集最近研究