Model Zoos

Name: Model Zoos
Creator: 圣加仑大学计算机科学学院AIML实验室
Published: 2022-09-29 21:20:42
License: 暂无描述

arXiv2022-09-29 更新2024-07-24 收录

下载链接：

https://github.com/ModelZoos/ModelZooDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Model Zoos数据集由圣加仑大学计算机科学学院AIML实验室创建，包含50,360个独特的神经网络模型，这些模型基于8个图像分类数据集，通过多种超参数组合训练而成。数据集旨在通过研究模型在权重空间中的几何、曲率和光滑性，揭示模型的训练状态和潜在属性。该数据集可用于模型分析、学习动态探索、表示学习以及生成新模型等多个领域，为机器学习研究提供了一个标准化的基准。

The Model Zoos dataset was developed by the AIML Lab at the School of Computer Science, University of St. Gallen. It comprises 50,360 unique neural network models trained across 8 image classification datasets using diverse hyperparameter configurations. The dataset aims to uncover the training states and latent properties of models by investigating their geometry, curvature and smoothness within the weight space. It supports a wide range of applications including model analysis, learning dynamics exploration, representation learning and novel model generation, serving as a standardized benchmark for machine learning research.

提供机构：

圣加仑大学计算机科学学院AIML实验室

创建时间：

2022-09-29

原始信息汇总

数据集概述

摘要

该数据集包含一系列多样化的神经网络模型集合，称为“模型动物园”。这些模型在训练过程中在权重空间中形成独特的平滑轨迹，构成权重空间中的拓扑结构。数据集基于六个图像数据集，包含27个模型动物园，涵盖50,360个独特的神经网络模型，共计超过2,585,360个模型状态。此外，每个模型动物园还伴随有稀疏化的对应版本。

模型动物园

模型动物园数据集托管在Zenodo上，提供原始检查点以及每个模型的性能指标，如准确率。每个图像数据集的模型动物园上传在单独的Zenodo仓库中，以便扩展。

图像数据集及其DOI链接

图像数据集	DOI链接
MNIST CNN-s (原始和预处理)	https://doi.org/10.5281/zenodo.6632086
Fashion-MNIST CNN-s (原始和预处理)	https://doi.org/10.5281/zenodo.6632104
SVHN CNN-s (原始和预处理)	https://doi.org/10.5281/zenodo.6632120
USPS CNN-s (原始和预处理)	https://doi.org/10.5281/zenodo.6633626
Cifar10 CNN-s和CNN-l (原始和预处理)	https://doi.org/10.5281/zenodo.6620868
STL10 CNN-s和CNN-l (原始)	https://doi.org/10.5281/zenodo.6631783
STL10 CNN-s和CNN-l (预处理)	https://doi.org/10.5281/zenodo.6634138
CIFAR10 ResNet-18 (原始, 压缩)	https://doi.org/10.5281/zenodo.6974028
CIFAR10 ResNet-18 (原始, 完整)	Google Drive [部分链接]
CIFAR100 ResNet-18 (原始, 压缩)	https://doi.org/10.5281/zenodo.6977381
CIFAR100 ResNet-18 (原始, 完整)	Google Drive [部分链接]
Tiny-Imagenet ResNet-18 (原始, 压缩)	https://doi.org/10.5281/zenodo.7023277
EuroSAT CNN-s (原始)	https://doi.org/10.5281/zenodo.8141666

稀疏化模型动物园

稀疏化模型动物园包含完整模型的稀疏化双胞胎，通过变分 dropout 生成稀疏化轨迹，并跟踪性能、稀疏度和稀疏化检查点。

稀疏化图像数据集及其DOI链接

图像数据集	DOI链接
MNIST 稀疏化 CNN-s (原始)	https://doi.org/10.5281/zenodo.7023335
SVHN 稀疏化 CNN-s (原始)	https://doi.org/10.5281/zenodo.7027566
EuroSAT CNN-s (原始)	https://doi.org/10.5281/zenodo.8141666

可访问性

提供了一个自定义的PyTorch数据集类来加载和预处理原始模型动物园。代码相关模块位于code/checkpoints_to_datasets/，类定义在dataset_base.py。此外，还提供了预计算的数据集文件，包含训练、测试和验证数据集。

许可证

模型动物园数据集采用Creative Commons Attribution 4.0 International license (CC-BY 4.0)。

搜集汇总

数据集介绍

构建方式

在神经网络模型群体研究领域，Model Zoos数据集的构建体现了系统化与多样化的设计理念。该数据集基于八个标准图像分类数据集，通过精心设计的生成因子配置，包括数据集、架构及超参数组合，系统训练了27个模型动物园。每个动物园采用三种配置策略：随机种子、固定种子及固定超参数，以涵盖权重空间中的不同轨迹与结构。训练过程中，每个模型均遵循统一的协议，记录51个检查点，并生成稀疏化模型副本，最终汇集了超过384万模型状态，确保了数据在生成因子、权重及性能层面的丰富多样性。

特点

Model Zoos数据集的核心特点在于其规模宏大与结构多元。数据集包含50,360个独特的神经网络模型，覆盖了从简单卷积网络到ResNet-18等多种架构，并在超参数空间进行了广泛采样。通过设计不同的种子与超参数配置，数据集在模型性能、权重分布及行为一致性上展现出显著差异，例如在固定种子配置中权重空间呈现聚类结构，而随机种子配置则增强了模型的泛化多样性。此外，数据集提供了完整的元数据与性能评估，支持对模型属性、学习动态及表示学习等多个下游任务的深入研究。

使用方法

该数据集为神经网络群体研究提供了标准化基准，适用于多种前沿探索。研究人员可利用其进行模型分析，例如通过权重或激活预测模型性能与超参数；也可用于推断学习动态，研究训练轨迹中的几何特性以优化早期停止或超参数选择。在表示学习方面，数据集可作为训练样本，学习神经网络权重的低维表示，进而生成具有可控属性的新模型。使用过程中，用户可通过提供的代码库加载与预处理数据，并参考基准实验设计，确保研究结果的可比性与可复现性。

背景与挑战

背景概述

在深度学习领域，神经网络模型已从实验室环境演进为诸多现实问题的前沿解决方案。模型权重空间中的训练轨迹与结构分析，成为理解模型行为与优化动态的关键研究方向。由圣加仑大学AIML实验室等机构的研究团队于2022年发布的Model Zoos数据集，旨在系统化构建多样化的神经网络模型种群，以探究权重空间的几何特性、训练状态信息及潜在模型性质。该数据集基于八个图像分类数据集，涵盖27个模型动物园，包含超过5万个独立模型及其稀疏化版本，共计约384万个模型状态，为模型分析、学习动态推断、表示学习及模型生成等任务提供了标准化基准。

当前挑战

Model Zoos数据集致力于解决神经网络模型种群分析与比较的领域挑战，其核心在于缺乏统一且多样化的模型集合以支持可复现研究。构建过程中面临多重困难：首先，需在超参数配置、初始化方法及随机种子等生成因子间取得平衡，以确保模型种群在权重空间与性能上兼具代表性与多样性；其次，大规模模型训练与状态记录消耗显著计算资源，且需设计严谨的数据分割策略以避免信息泄露。此外，数据集还需涵盖不同架构与任务复杂度，以扩展其适用性，同时提供稀疏化模型副本以支持剪枝研究，这些要求均增加了数据采集与管理的复杂性。

常用场景

经典使用场景

在深度学习的模型分析领域，Model Zoos数据集为研究者提供了一个系统化生成的神经网络模型集合，这些模型在权重空间中形成了独特的轨迹和结构。该数据集最经典的使用场景在于探索神经网络训练过程中的几何特性与学习动态，通过分析模型权重在训练过程中的演化，揭示不同超参数配置下模型行为的共性与差异。研究者可利用该数据集进行模型轨迹的可视化分析，探究权重空间的曲率与平滑度如何反映训练状态，从而深入理解神经网络优化过程中的内在规律。

衍生相关工作

基于Model Zoos数据集，已衍生出多项经典研究工作，推动了神经网络群体分析领域的发展。例如，Schürholt等人利用该数据集学习神经网络权重的自监督表征，并证明这些表征能够有效预测模型的准确率、泛化间隙等属性。Knyazev等人则提出了针对未见架构的参数预测方法，通过在模型群体上学习权重生成机制，实现了对新网络结构的快速初始化。此外，该数据集还被应用于模型生成任务，如Hyper-Representations工作通过从模型群体中采样权重，生成具有可控属性的新模型，为迁移学习与模型预训练提供了新的思路。这些研究共同深化了对神经网络权重空间结构与功能的理解。

数据集最近研究