Phase Transition Model Zoo
收藏arXiv2025-04-25 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.18072v1
下载链接
链接失效反馈官方服务:
资源简介:
Phase Transition Model Zoo是一个包含约2.5k个独特神经网络的模型动物园,这些模型涵盖了11K到900M参数的范围,超过60k个检查点。该数据集涵盖了计算机视觉、自然语言处理和科学机器学习等多个领域,旨在为权重空间学习(WSL)和更广泛的应用提供资源。数据集中的模型具有不同的架构、大小和训练数据集,覆盖了所有已知的模型阶段。每个模型都计算了损失景观指标,并通过多个训练周期的检查点进行验证,以全面覆盖所有阶段。
Phase Transition Model Zoo is a model zoo containing approximately 2.5k unique neural networks, spanning a parameter scale from 11K to 900M and including over 60k checkpoints. This dataset covers multiple research fields including computer vision, natural language processing, and scientific machine learning, aiming to provide resources for weight space learning (WSL) and broader applications. The models in this dataset feature diverse architectures, sizes, and training datasets, covering all known model phases. Loss landscape metrics have been calculated for each model, and validation is conducted using checkpoints across multiple training epochs to achieve comprehensive coverage of all phases.
提供机构:
瑞士圣加仑大学计算机科学系, 美国达特茅斯学院计算机科学系
创建时间:
2025-04-25
搜集汇总
数据集介绍

构建方式
Phase Transition Model Zoo数据集的构建基于神经网络权重空间的系统性探索,通过控制负载与温度两类超参数的组合来覆盖已知的五个损失景观相位。研究团队在计算机视觉、自然语言处理和科学机器学习三个领域构建了12个大规模模型动物园,涵盖ResNet、ViT、GPT-2和PINN等架构,通过调整模型宽度(负载)和批量大小/学习率(温度)生成约2.5K个独特模型及6万多个检查点。每个模型均标注了性能指标和损失景观度量(如Hessian迹、模式连通性、CKA相似性),并通过三重随机种子验证确保相位覆盖的鲁棒性。
特点
该数据集的核心价值在于首次将统计物理中的相变理论系统引入模型多样性定义,通过损失景观度量实现模型行为的量化分类。其特点包括:(1) 跨领域覆盖性,包含视觉分类、语言生成和物理方程求解等任务;(2) 相位完整性,明确标注Phase I至IV-B五个相位区域;(3) 动态训练过程记录,每个模型提供多训练阶段的检查点;(4) 规模可扩展性,模型参数量级从11K到900M不等。特别值得注意的是,数据集揭示了相位布局在不同架构和领域间的普适性规律,如ViT在高温低负载区域的锐利相变特征。
使用方法
该数据集支持三种主要应用范式:(1) 相位感知研究:通过加载特定相位的模型组分析训练动态或下游任务表现差异,如验证Phase IV模型在迁移学习中更具适应性;(2) 权重空间学习:利用模型种群训练权重预测器或生成器,示例代码提供从PyTorch检查点提取层统计量的标准化流程;(3) 方法系统性评估:配套工具包支持在负载-温度网格上可视化任意指标(如剪枝鲁棒性、权重平均效果)的相位分布。使用时建议优先通过config.json还原训练环境,并参考论文附录提供的相位判定阈值标准。
背景与挑战
背景概述
Phase Transition Model Zoo是由Konstantin Schürholt、Léo Meynent、Yefan Zhou、Haiquan Lu、Yaoqing Yang和Damian Borth等研究人员于2025年提出的一个大规模神经网络模型集合数据集。该数据集的核心研究问题在于系统性地探索神经网络在权重空间中的相变现象,结合统计物理学中的相变理论与深度学习模型训练的动态特性。数据集包含12个跨计算机视觉、自然语言处理和科学机器学习(SciML)领域的模型集合,总计约2500个独特神经网络模型和超过6万个检查点。通过引入基于损失景观相的分类体系,该工作首次在模型集合中实现了对神经网络训练相变的量化控制,为权重空间学习(Weight Space Learning)领域提供了首个系统覆盖不同训练相的标准评估资源。
当前挑战
该数据集面临的主要挑战体现在两个维度:在领域问题层面,需解决神经网络训练动态缺乏系统性表征的难题,传统模型集合(如Hugging Face)缺乏对训练相变的量化控制,难以支撑相变相关的理论研究;在构建过程层面,技术挑战包括:1)跨多种架构(ResNet/ViT/GPT-2/PINN)统一相变边界的界定标准,2)大规模模型训练中损失景观指标(如Hessian迹、模式连通性)的计算复杂度控制,3)保持60k+检查点间训练参数可比性的工程实现,以及4)不同模态(CV/NLP/SciML)数据在相变表征上的对齐问题。
常用场景
经典使用场景
Phase Transition Model Zoo数据集在神经网络权重空间学习(WSL)领域具有广泛的应用场景。该数据集通过系统性地覆盖不同架构、规模和数据集训练的神经网络模型,为研究者提供了一个结构化的模型种群。其最经典的使用场景包括研究神经网络训练过程中的相变现象,探索不同训练阶段(如欠拟合、过拟合等)对模型性能的影响。数据集中的模型涵盖了计算机视觉、自然语言处理和科学机器学习等多个领域,使得研究者能够跨领域验证相变理论的普适性。
实际应用
在实际应用层面,Phase Transition Model Zoo数据集为模型训练和优化提供了重要参考。工程师可以利用该数据集中的相信息来指导超参数调优,例如选择合适的学习率和批量大小组合以避免模型陷入不良训练阶段。在迁移学习场景中,数据集揭示了预训练模型阶段对下游任务性能的影响规律,帮助开发者更明智地选择基础模型。此外,该数据集还支持模型剪枝、集成学习和权重平均等技术的研发,通过分析这些技术在各个阶段的适用性,提升实际部署中的模型效率和鲁棒性。
衍生相关工作
该数据集已经衍生出多个重要的研究方向。在模型分析方面,研究者利用该数据集开发了从权重预测模型性能的方法(如Unterthiner等人工作)。在模型生成领域,Schürholt等人基于该数据集提出了超表示(HyperRepresentations)框架来生成神经网络权重。数据集还启发了相感知的模型平均技术(如Wortsman等人的Model Soups)以及基于相信息的神经网络架构搜索方法。近期工作(如Zhou等人的MD Tree)进一步利用该数据集的相标注来开发模型诊断工具,展示了数据集在推动权重空间学习创新方面的持续影响力。
以上内容由遇见数据集搜集并总结生成



