MLDS
收藏arXiv2021-04-21 更新2024-06-21 收录
下载链接:
https://www.mlcathome.org/mlds.html
下载链接
链接失效反馈官方服务:
资源简介:
MLDS是一个由马里兰大学巴尔的摩分校的John Clemens创建的大型数据集,包含超过22万个经过训练的神经网络模型。这些模型通过MLC@Home项目,一个基于全球志愿者分布式计算的平台生成。数据集旨在通过直接分析神经网络的结构和权重,解决传统评估方法如损失函数难以检测的问题。MLDS数据集不仅用于模型间的比较,还用于研究模型与训练数据之间的关系,特别是在模型安全性和可追溯性方面的应用。
MLDS is a large-scale dataset created by John Clemens from the University of Maryland, Baltimore County, containing over 220,000 trained neural network models. These models are generated via the MLC@Home project, a distributed computing platform powered by global volunteers. This dataset is designed to address problems that traditional evaluation methods such as loss functions struggle to detect, through direct analysis of the structure and weights of neural networks. The MLDS dataset is used not only for comparing different neural network models, but also for researching the relationship between models and their training data, with specific applications in model security and traceability.
提供机构:
马里兰大学巴尔的摩分校
创建时间:
2021-04-21
搜集汇总
数据集介绍

构建方式
MLDS数据集依托于MLC@Home分布式计算平台,通过全球志愿者的闲置计算资源生成。该平台基于BOINC架构,使用PyTorch的C++ API构建,支持多种CPU和GPU架构,并统一采用32位浮点运算以确保计算一致性。数据集包含三个子集:MLDS-DS1和MLDS-DS2分别包含41,000个循环神经网络,用于模仿五种简单机器,网络结构为4层GRU和4层线性层,共4,364个可训练参数;MLDS-DS2额外引入“魔法序列”以模拟后门行为。MLDS-DS3包含100,000个网络,模仿100个随机生成的自动机,网络结构为4层LSTM和2层线性层,共136,846个参数。每个网络在达到验证损失低于10⁻⁵后上传,并附带训练元数据。
特点
MLDS数据集的核心特点在于其大规模、结构一致且标注精细的权重空间元分析能力。所有网络架构固定,仅权重因训练数据和随机性而异,便于直接比较。子集设计具有对比性:MLDS-DS1与MLDS-DS2的机器几乎相同,仅后者含后门,可研究微小训练数据差异导致的权重空间分岔;MLDS-DS3则通过复杂自动机探索权重空间的可解释性。初步分析显示,基于UMAP降维和分类器,网络在权重空间中按训练数据聚类,甚至能区分清洁与后门网络,准确率最高达100%。数据集以PyTorch格式和JSON权重文件提供,支持大规模元学习研究。
使用方法
使用MLDS时,研究者可下载PyTorch模型文件或JSON权重向量,通过线性化各层权重并拼接为一维特征向量,进行权重空间分析。典型应用包括:利用UMAP等降维技术可视化网络聚类,以探究训练数据与权重的映射关系;训练元分类器(如随机森林、多层感知机)将网络映射回其训练数据或检测后门。数据集支持跨子集对比,例如比较MLDS-DS1与MLDS-DS2中同一机器类型的网络,以评估后门检测方法。此外,元数据(如训练轮次、硬件信息)可用于分析训练动态。所有操作均基于公开的MLC@Home平台和开源代码,便于复现与扩展。
背景与挑战
背景概述
深度神经网络作为解决复杂现实问题的强大模型,已在图像分类、语言翻译乃至蛋白质折叠等任务中取得了显著成功。然而,其训练过程的随机性与海量参数使得模型内部机制如同黑箱,难以通过人工直接审查。这种不透明性可能掩盖因训练数据偏差或恶意篡改而导致的潜在不良行为,且传统的间接评估指标(如损失函数)往往难以有效检测。在此背景下,John Clemens等人于2021年创建了MLDS(Machine Learning Datasets)数据集,旨在通过收集数千个结构相同但权重各异的已训练神经网络,开辟权重空间元分析的新路径。该数据集依托MLC@Home分布式计算平台,汇聚全球志愿者计算资源生成,为探究模型与训练数据之间的映射关系、检测后门模型等提供了前所未有的研究基础,对提升神经网络的可解释性与安全性具有深远影响。
当前挑战
MLDS数据集所面临的挑战主要源自其核心研究目标与构建过程。在领域问题层面,其首要挑战是解决神经网络权重空间分析的可行性问题:如何从海量高维参数中提取有效信息,以区分不同训练数据来源的模型,或识别嵌入后门的恶意模型。这要求超越传统测试集性能评估,建立直接的权重空间度量。在数据集构建层面,挑战尤为严峻:一是需要海量并行计算资源以生成数万乃至数十万个结构一致的网络,作者为此首创了基于BOINC的MLC@Home志愿者计算项目,协调数千台异构设备(CPU/GPU)并确保计算精度统一;二是精心设计子数据集(如MLDS-DS1/DS2/DS3),控制网络架构、训练数据与后门植入等变量,以支持多维度对比分析;三是确保数据质量,包括验证网络收敛性、记录完整元数据(如训练硬件、轮次、损失历史),为后续研究提供可靠基准。
常用场景
经典使用场景
在深度学习可解释性与安全性研究领域,MLDS数据集为神经网络的权重空间分析提供了关键支撑。该数据集包含数千个结构相同但权重各异的已训练循环神经网络,这些网络分别模仿简单状态机与随机生成自动机的行为。研究者可通过UMAP等降维技术,将网络权重映射至低维空间,观察同一训练数据生成的模型在权重空间中的聚类现象。这种跨模型的元分析范式,使得从参数层面直接探究网络行为成为可能,突破了传统仅依赖输入输出响应的间接评估局限。
实际应用
在实际应用层面,MLDS数据集推动了神经网络安全审计与模型溯源技术的发展。当第三方训练的模型被部署于自动驾驶、医疗诊断等关键系统时,利用该数据集训练的元分类器可无需运行任何测试样本,仅通过分析模型权重即可识别其是否包含恶意后门或训练数据异常。此外,MLC@Home分布式计算平台的成功实践,开创了利用全球志愿者计算资源生成大规模训练模型的新范式,为未来实时监控模型行为、构建可信AI系统奠定了工程基础。
衍生相关工作
MLDS数据集催生了多项经典后续工作。在Trojan检测领域,研究者借鉴其权重空间聚类思路,开发了针对卷积神经网络的恶意修改检测方法。在模型可解释性方面,基于该数据集的UMAP可视化分析启发了对网络决策边界与训练数据分布关系的深入探讨。此外,MLC@Home平台的成功经验被扩展至神经架构搜索与超参数优化任务,推动了分布式机器学习基础设施的发展。这些衍生工作共同构建了从权重空间理解神经网络行为的系统化研究框架。
以上内容由遇见数据集搜集并总结生成



