NAAP-440

github2022-11-23 更新2024-05-31 收录

下载链接：

https://github.com/talcs/NAAP-440

下载链接

链接失效反馈

官方服务：

资源简介：

NAAP-440数据集包含440行，用于神经架构准确性预测，包括模型ID、是否为测试集、最大准确率等字段，以及训练过程中的损失和准确率数据。

The NAAP-440 dataset consists of 440 rows, targeting neural architecture accuracy prediction tasks. It encompasses fields including model ID, whether the sample is assigned to the test set, maximum accuracy, as well as loss and accuracy data recorded during the training procedure.

创建时间：

2022-08-13

原始信息汇总

数据集概述

数据集名称

NAAP-440

数据集来源

原始数据集可在 Kaggle 获取，同时作为本仓库的一部分，文件名为 naap440.csv。

数据集引用

引用格式：

@article{hakim2022naap, title={NAAP-440 Dataset and Baseline for Neural Architecture Accuracy Prediction}, author={Hakim, Tal}, journal={arXiv preprint arXiv:2209.06626}, year={2022} }

数据集结构

NAAP-440 包含440行数据，主要字段包括：
- ModelId : int (1 to 440) - 候选方案/架构的ID
- IsTest : int (0 or 1) - 将样本分为训练集和测试集的二元标志
- MaxAccuracy : float (0 to 1) - 在CIFAR10测试集上训练模型的最大准确度
- NumParams : int - 架构中的可学习参数数量
- NumMACs : int - 架构的MAC数量
- NumLayers : int - 架构中的卷积层数量（架构深度）
- NumStages : int - 架构中stride=2的卷积层数量
- FirstLayerWidth : int - 第一卷积层的核数量
- LastLayerWidth : int - 最后一卷积层的核数量（输入分类器的特征向量维度）
- e{i}LossMean : float (0 to inf) - 每个epoch的SGD批次的平均CE损失值
- e{i}LossMedian : float (0 to inf) - 每个epoch的SGD批次的中间CE损失值
- e{i}Accuracy : float (0 to 1) - 完成epoch后在CIFAR10测试集上达到的准确度

基准结果

基准测试结果格式为 MAE / Monotonicity Score / #Monotonicity Violations。详细信息请参阅论文 NAAP-440 Dataset and Baseline for Neural Architecture Accuracy Prediction 中的基准部分。

数据集生成和实验

数据集生成涉及多个步骤，包括生成候选网络方案、训练架构、创建CSV数据集以及运行实验。每个步骤都有相应的Python脚本和命令行示例。

数据集用途

用于神经架构准确度预测，旨在加速神经架构搜索（NAS）的研究。

搜集汇总

数据集介绍

构建方式

NAAP-440数据集的构建过程基于深度优先搜索（DFS）算法，通过预定义的卷积层属性生成候选网络架构。每个架构在CIFAR10数据集上进行90个epoch的训练，记录其训练过程中的损失和准确率等关键指标。最终，所有训练结果被整理成包含440个样本的CSV文件，每个样本包含模型ID、训练集/测试集标识、最大准确率、参数量、计算量等详细信息。

使用方法

NAAP-440数据集的使用方法包括加载CSV文件并提取所需的字段进行分析。用户可以通过Python脚本加载数据集，并使用回归算法（如线性回归、决策树、梯度提升等）对模型性能进行预测。实验脚本支持并行训练和评估，用户可根据需求调整参数并生成实验结果。数据集还可用于验证神经网络架构搜索的加速方法，例如通过特征选择和插值技术预测模型准确率。

背景与挑战

背景概述

NAAP-440数据集由Tal Hakim于2022年提出，旨在加速神经架构搜索（NAS）过程中的精度预测。该数据集包含440种不同的神经网络架构，涵盖了从模型参数数量到训练过程中的损失和精度等多个维度的信息。通过提供这些架构在CIFAR-10数据集上的训练结果，NAAP-440为研究人员提供了一个基准，用于评估和比较不同NAS加速方法的有效性。该数据集的发布推动了NAS领域的研究，特别是在减少计算资源和时间成本方面，具有重要的学术和工程价值。

当前挑战

NAAP-440数据集面临的主要挑战包括：首先，神经架构搜索本身是一个计算密集型任务，如何在有限的资源下高效地生成和评估大量架构是一个难题。其次，数据集中包含的架构特征和训练结果需要精确捕捉，以确保预测模型的可靠性。此外，如何在不同的加速场景下（如仅使用少量训练轮次）保持预测精度，也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建过程，也对后续的研究提出了更高的要求。

常用场景

经典使用场景

NAAP-440数据集在神经架构搜索（NAS）领域中被广泛用于加速模型性能预测的研究。通过提供440种不同神经架构的训练数据，该数据集为研究人员提供了一个标准化的基准，用于评估和比较不同预测算法的性能。特别是在CIFAR10数据集上的训练结果，使得研究者能够快速验证其预测模型的准确性，从而减少实际训练的时间和计算资源消耗。

解决学术问题

NAAP-440数据集解决了神经架构搜索中的关键问题，即如何在早期阶段准确预测神经网络的性能。通过提供详细的训练过程数据，该数据集使得研究者能够开发出高效的预测模型，从而减少对大量计算资源的依赖。这不仅加速了NAS的进程，还为自动化机器学习（AutoML）领域提供了重要的理论支持。

实际应用

在实际应用中，NAAP-440数据集被广泛用于自动化机器学习平台的开发。通过利用该数据集，开发者能够快速筛选出性能优异的神经网络架构，从而优化深度学习模型的训练过程。此外，该数据集还被用于工业界的模型优化和部署，帮助企业在有限的计算资源下实现高效的模型训练和推理。

数据集最近研究