LoRA-WiSE
收藏数据集大小从LoRA权重恢复
摘要
本文介绍了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。我们提出了DSiRe方法,用于恢复使用LoRA进行微调的模型中用于微调的图像数量。我们发现LoRA矩阵的范数和谱与微调数据集大小密切相关,并利用这一发现提出了一种简单而有效的预测算法。为了评估LoRA权重数据集大小恢复,我们开发并发布了一个新的基准LoRA-WISE,包含超过25,000个来自2,000多个不同LoRA微调模型的权重快照。我们的最佳分类器可以以0.36张图像的平均绝对误差预测微调图像的数量,确立了这种攻击的可行性。
任务
本文引入了一个新的任务:数据集大小恢复,旨在直接从模型的权重中确定用于训练模型的样本数量。任务设置如下:
- 用户可以访问n个不同的LoRA微调模型,每个模型都标注了其数据集大小。
- 假设所有n个模型都源自同一个源模型,并且使用相同的参数进行训练。
- 仅使用这些n个观察到的模型,目标是预测在相同参数下训练的新模型的数据集大小。
我们的方法DSiRe解决了这个任务,特别关注于恢复用于微调模型的图像数量的重要特殊情况,其中微调是通过LoRA进行的。DSiRe在这个任务中表现出高精度,仅使用每个数据集大小类别的5个模型就能获得可靠的结果。
LoRA-WiSE基准
我们提出了LoRA权重大小评估(LoRA-WiSE)基准,这是一个专门设计用于评估生成模型LoRA数据集大小恢复方法的综合基准。
- 该基准可以从Hugging Face下载这里。
运行DSiRe
dsire.py脚本处理从Hugging Face下载的LoRA-WiSE数据集。以下是在LoRA-WiSE基准子集上运行DSiRe进行数据集大小恢复的示例。
低范围
bash python dsire.py --subset="low_32" --rank=32
中范围
bash python dsire.py --subset="medium_16" --rank=16
高范围
bash python dsire.py --subset="high_32" --rank=32




