LoRA-WiSE

github2024-06-28 更新2024-06-29 收录

下载链接：

https://github.com/MoSalama98/DSiRe

下载链接

链接失效反馈

官方服务：

资源简介：

LoRA-WiSE是一个用于评估LoRA数据集大小恢复方法的综合基准，包含超过25,000个来自2,000多个不同LoRA微调模型的权重快照。该数据集旨在帮助预测微调图像的数量，平均绝对误差为0.36图像。

LoRA-WiSE is a comprehensive benchmark for evaluating LoRA dataset size recovery methods. It contains over 25,000 weight snapshots sourced from more than 2,000 distinct LoRA fine-tuned models. This benchmark is designed to aid in predicting the number of fine-tuning images, with a mean absolute error of 0.36 images.

创建时间：

2024-06-17

原始信息汇总

数据集大小从LoRA权重恢复

摘要

本文介绍了一个新的任务：数据集大小恢复，旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了DSiRe方法，用于恢复使用LoRA进行微调的模型中用于微调的图像数量。我们发现LoRA矩阵的范数和谱与微调数据集大小密切相关，并利用这一发现提出了一种简单而有效的预测算法。为了评估LoRA权重数据集大小恢复，我们开发并发布了一个新的基准LoRA-WISE，包含超过25,000个来自2,000多个不同LoRA微调模型的权重快照。我们的最佳分类器可以以0.36张图像的平均绝对误差预测微调图像的数量，确立了这种攻击的可行性。

任务

本文引入了一个新的任务：数据集大小恢复，旨在直接从模型的权重中确定用于训练模型的样本数量。任务设置如下：

用户可以访问n个不同的LoRA微调模型，每个模型都标注了其数据集大小。
假设所有n个模型都源自同一个源模型，并且使用相同的参数进行训练。
仅使用这些n个观察到的模型，目标是预测在相同参数下训练的新模型的数据集大小。

我们的方法DSiRe解决了这个任务，特别关注于恢复用于微调模型的图像数量的重要特殊情况，其中微调是通过LoRA进行的。DSiRe在这个任务中表现出高精度，仅使用每个数据集大小类别的5个模型就能获得可靠的结果。

LoRA-WiSE基准

我们提出了LoRA权重大小评估（LoRA-WiSE）基准，这是一个专门设计用于评估生成模型LoRA数据集大小恢复方法的综合基准。

该基准可以从Hugging Face下载这里。

运行DSiRe

dsire.py脚本处理从Hugging Face下载的LoRA-WiSE数据集。以下是在LoRA-WiSE基准子集上运行DSiRe进行数据集大小恢复的示例。

低范围

bash python dsire.py --subset="low_32" --rank=32

中范围

bash python dsire.py --subset="medium_16" --rank=16

高范围

bash python dsire.py --subset="high_32" --rank=32

搜集汇总

数据集介绍

构建方式

在深度学习领域，模型逆向工程和成员推断攻击旨在重建和验证模型训练所用的数据。然而，这些方法无法保证找到所有训练样本，因为它们不知道训练集的大小。为此，研究者提出了一个新的任务：数据集大小恢复，旨在直接从模型权重中确定用于训练的样本数量。特别地，针对使用LoRA进行微调的模型，研究者开发了DSiRe方法，通过分析LoRA矩阵的范数和谱特性，构建了一个包含超过25,000个权重快照的基准数据集，即LoRA-WiSE。

特点

LoRA-WiSE数据集的显著特点在于其针对LoRA微调模型的数据集大小恢复任务进行了专门设计。该数据集包含了来自2,000多个不同LoRA微调模型的权重快照，覆盖了广泛的微调数据集大小。通过这些数据，研究者能够训练和验证其提出的DSiRe方法，从而实现对新模型微调数据集大小的准确预测。

使用方法

使用LoRA-WiSE数据集进行研究或开发时，首先需克隆相关代码库并设置虚拟环境。随后，通过运行dsire.py脚本，可以下载并处理LoRA-WiSE数据集的不同子集。例如，通过指定不同的子集和秩参数，用户可以针对低、中、高范围的微调数据集大小进行预测。此外，数据集的下载和使用依赖于Hugging Face平台，确保了数据的可访问性和易用性。

背景与挑战

背景概述

LoRA-WiSE数据集由Mohammad Salama、Jonathan Kahana、Eliahu Horwitz和Yedid Hoshen等研究人员于2024年创建，旨在解决模型训练数据集大小恢复的问题。该数据集的核心研究问题是从模型的LoRA权重中直接推断出用于训练的样本数量。通过引入DSiRe方法，研究人员发现LoRA矩阵的范数和谱与微调数据集的大小密切相关，从而提出了一种简单而有效的预测算法。LoRA-WiSE数据集包含超过25,000个权重快照，来自2,000多个不同的LoRA微调模型，为评估数据集大小恢复方法提供了全面的基准。

当前挑战

LoRA-WiSE数据集面临的挑战主要集中在两个方面。首先，从LoRA权重中恢复数据集大小的任务本身具有高度复杂性，因为需要准确推断出训练样本的数量，而这一信息通常是未知的。其次，构建该数据集的过程中，研究人员必须处理大量不同模型和权重快照，确保数据集的多样性和代表性，以便为评估算法提供可靠的基准。此外，如何在高维数据中有效提取与数据集大小相关的特征，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

LoRA-WiSE数据集在模型微调领域中具有经典应用场景，主要用于评估和预测通过低秩适应（LoRA）技术微调的模型所使用的训练数据集大小。该数据集通过收集超过25,000个来自2,000多个不同LoRA微调模型的权重快照，为研究人员提供了一个全面的基准，用于测试和验证数据集大小恢复方法的有效性。

解决学术问题

LoRA-WiSE数据集解决了模型微调中的一个关键学术问题，即从模型权重中恢复训练数据集的大小。这一问题的解决不仅有助于理解模型训练过程中的数据依赖性，还为防御模型逆向和成员推断攻击提供了新的视角。通过精确预测训练数据集的大小，研究人员可以更好地评估和提升模型的隐私保护能力。

衍生相关工作

LoRA-WiSE数据集的发布催生了一系列相关研究工作，特别是在模型隐私保护和数据集大小预测领域。例如，一些研究者利用该数据集开发了新的模型逆向防御方法，通过分析和调整LoRA权重来增强模型的隐私保护能力。此外，还有研究探讨了如何利用LoRA-WiSE数据集中的信息来改进现有的微调技术，以提高模型的泛化能力和性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集