five

LoRA-WiSE

收藏
github2024-06-28 更新2024-06-29 收录
下载链接:
https://github.com/MoSalama98/DSiRe
下载链接
链接失效反馈
官方服务:
资源简介:
LoRA-WiSE是一个用于评估LoRA数据集大小恢复方法的综合基准,包含超过25,000个来自2,000多个不同LoRA微调模型的权重快照。该数据集旨在帮助预测微调图像的数量,平均绝对误差为0.36图像。

LoRA-WiSE is a comprehensive benchmark for evaluating LoRA dataset size recovery methods. It contains over 25,000 weight snapshots sourced from more than 2,000 distinct LoRA fine-tuned models. This benchmark is designed to aid in predicting the number of fine-tuning images, with a mean absolute error of 0.36 images.
创建时间:
2024-06-17
原始信息汇总

数据集大小从LoRA权重恢复

摘要

本文介绍了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了DSiRe方法,用于恢复使用LoRA进行微调的模型中用于微调的图像数量。我们发现LoRA矩阵的范数和谱与微调数据集大小密切相关,并利用这一发现提出了一种简单而有效的预测算法。为了评估LoRA权重数据集大小恢复,我们开发并发布了一个新的基准LoRA-WISE,包含超过25,000个来自2,000多个不同LoRA微调模型的权重快照。我们的最佳分类器可以以0.36张图像的平均绝对误差预测微调图像的数量,确立了这种攻击的可行性。

任务

本文引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。任务设置如下:

  • 用户可以访问n个不同的LoRA微调模型,每个模型都标注了其数据集大小。
  • 假设所有n个模型都源自同一个源模型,并且使用相同的参数进行训练。
  • 仅使用这些n个观察到的模型,目标是预测在相同参数下训练的新模型的数据集大小。

我们的方法DSiRe解决了这个任务,特别关注于恢复用于微调模型的图像数量的重要特殊情况,其中微调是通过LoRA进行的。DSiRe在这个任务中表现出高精度,仅使用每个数据集大小类别的5个模型就能获得可靠的结果。

LoRA-WiSE基准

我们提出了LoRA权重大小评估(LoRA-WiSE)基准,这是一个专门设计用于评估生成模型LoRA数据集大小恢复方法的综合基准。

  • 该基准可以从Hugging Face下载这里

运行DSiRe

dsire.py脚本处理从Hugging Face下载的LoRA-WiSE数据集。以下是在LoRA-WiSE基准子集上运行DSiRe进行数据集大小恢复的示例。

低范围

bash python dsire.py --subset="low_32" --rank=32

中范围

bash python dsire.py --subset="medium_16" --rank=16

高范围

bash python dsire.py --subset="high_32" --rank=32

搜集汇总
数据集介绍
main_image_url
构建方式
在深度学习领域,模型逆向工程和成员推断攻击旨在重建和验证模型训练所用的数据。然而,这些方法无法保证找到所有训练样本,因为它们不知道训练集的大小。为此,研究者提出了一个新的任务:数据集大小恢复,旨在直接从模型权重中确定用于训练的样本数量。特别地,针对使用LoRA进行微调的模型,研究者开发了DSiRe方法,通过分析LoRA矩阵的范数和谱特性,构建了一个包含超过25,000个权重快照的基准数据集,即LoRA-WiSE。
特点
LoRA-WiSE数据集的显著特点在于其针对LoRA微调模型的数据集大小恢复任务进行了专门设计。该数据集包含了来自2,000多个不同LoRA微调模型的权重快照,覆盖了广泛的微调数据集大小。通过这些数据,研究者能够训练和验证其提出的DSiRe方法,从而实现对新模型微调数据集大小的准确预测。
使用方法
使用LoRA-WiSE数据集进行研究或开发时,首先需克隆相关代码库并设置虚拟环境。随后,通过运行dsire.py脚本,可以下载并处理LoRA-WiSE数据集的不同子集。例如,通过指定不同的子集和秩参数,用户可以针对低、中、高范围的微调数据集大小进行预测。此外,数据集的下载和使用依赖于Hugging Face平台,确保了数据的可访问性和易用性。
背景与挑战
背景概述
LoRA-WiSE数据集由Mohammad Salama、Jonathan Kahana、Eliahu Horwitz和Yedid Hoshen等研究人员于2024年创建,旨在解决模型训练数据集大小恢复的问题。该数据集的核心研究问题是从模型的LoRA权重中直接推断出用于训练的样本数量。通过引入DSiRe方法,研究人员发现LoRA矩阵的范数和谱与微调数据集的大小密切相关,从而提出了一种简单而有效的预测算法。LoRA-WiSE数据集包含超过25,000个权重快照,来自2,000多个不同的LoRA微调模型,为评估数据集大小恢复方法提供了全面的基准。
当前挑战
LoRA-WiSE数据集面临的挑战主要集中在两个方面。首先,从LoRA权重中恢复数据集大小的任务本身具有高度复杂性,因为需要准确推断出训练样本的数量,而这一信息通常是未知的。其次,构建该数据集的过程中,研究人员必须处理大量不同模型和权重快照,确保数据集的多样性和代表性,以便为评估算法提供可靠的基准。此外,如何在高维数据中有效提取与数据集大小相关的特征,也是该数据集面临的重要技术挑战。
常用场景
经典使用场景
LoRA-WiSE数据集在模型微调领域中具有经典应用场景,主要用于评估和预测通过低秩适应(LoRA)技术微调的模型所使用的训练数据集大小。该数据集通过收集超过25,000个来自2,000多个不同LoRA微调模型的权重快照,为研究人员提供了一个全面的基准,用于测试和验证数据集大小恢复方法的有效性。
解决学术问题
LoRA-WiSE数据集解决了模型微调中的一个关键学术问题,即从模型权重中恢复训练数据集的大小。这一问题的解决不仅有助于理解模型训练过程中的数据依赖性,还为防御模型逆向和成员推断攻击提供了新的视角。通过精确预测训练数据集的大小,研究人员可以更好地评估和提升模型的隐私保护能力。
衍生相关工作
LoRA-WiSE数据集的发布催生了一系列相关研究工作,特别是在模型隐私保护和数据集大小预测领域。例如,一些研究者利用该数据集开发了新的模型逆向防御方法,通过分析和调整LoRA权重来增强模型的隐私保护能力。此外,还有研究探讨了如何利用LoRA-WiSE数据集中的信息来改进现有的微调技术,以提高模型的泛化能力和性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作