five

未明确提及

收藏
arXiv2023-11-27 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2311.15547v1
下载链接
链接失效反馈
官方服务:
资源简介:
本文研究了在潜在空间中进行数据集蒸馏的方法,旨在通过使用预训练的通用自动编码器将大型数据集压缩成更小、更紧凑的集合,以便在下游任务中训练的模型能够与在完整数据集上训练的模型表现相当。潜在空间中的数据集蒸馏通过减少时间和空间消耗,同时保持性能,使得能够处理高分辨率数据集或达到更高的数据压缩比。此外,在相同的存储预算内,可以存储比像素级图像更多的潜在代码,进一步提升了方法的性能。

This paper investigates dataset distillation in the latent space, aiming to compress large-scale datasets into smaller, more compact subsets using pretrained general-purpose autoencoders, such that models trained on the distilled subsets for downstream tasks can achieve performance comparable to those trained on the full original datasets. Dataset distillation in the latent space enables handling high-resolution datasets or achieving higher data compression ratios by reducing time and storage overhead while preserving task performance. Furthermore, more latent codes can be stored within the same storage budget compared to pixel-level images, which further improves the performance of the proposed approach.
提供机构:
上海交通大学人工智能研究院
创建时间:
2023-11-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作