Dataset Quantization

arXiv2023-08-21 更新2024-06-21 收录

下载链接：

https://github.com/magic-research/Dataset_Quantization

下载链接

链接失效反馈

官方服务：

资源简介：

Dataset Quantization（DQ）是一个创新的数据集压缩框架，由字节跳动公司和新加坡国立大学联合开发。该框架旨在将大规模数据集压缩成小规模的子集，适用于训练任何神经网络架构。DQ通过递归地将数据集分割成多个非重叠的子集，并从每个子集中均匀采样，以最大化数据多样性和代表性。此方法特别适用于处理如ImageNet-1k这样的大型数据集，能够在不损失模型训练性能的情况下，实现高达40%的数据压缩。DQ的应用领域广泛，包括视觉任务（如分类、语义分割和目标检测）和语言任务（如指令调整任务），能够有效解决数据集过大导致计算资源有限的问题。

Dataset Quantization (DQ) is an innovative dataset compression framework co-developed by ByteDance and the National University of Singapore. This framework aims to compress large-scale datasets into small-scale subsets, and is applicable to training any neural network architectures. DQ recursively splits a dataset into multiple non-overlapping subsets, and performs uniform sampling from each subset to maximize data diversity and representativeness. This method is particularly suitable for handling large-scale datasets such as ImageNet-1k, and can achieve up to 40% data compression without sacrificing model training performance. DQ has a wide range of application scenarios, including visual tasks such as classification, semantic segmentation and object detection, as well as language tasks such as instruction tuning tasks, which can effectively solve the problem of limited computing resources caused by overly large datasets.

提供机构：

字节跳动公司新加坡国立大学

创建时间：

2023-08-21

搜集汇总

数据集介绍

构建方式

在深度学习领域，大规模数据集的高昂计算与存储成本催生了数据集压缩技术的探索。Dataset Quantization（DQ）提出了一种创新的数据集量化框架，其构建过程首先将整个数据集递归地划分为多个非重叠的数据箱（bin），每个数据箱通过最大化子模增益来确保内部样本的多样性与代表性。随后，从每个数据箱中均匀采样一定比例的样本，形成最终的压缩子集。为进一步降低存储冗余，DQ采用基于注意力的补丁评分机制，丢弃信息量较低的图像补丁，并在训练时通过预训练的掩码自编码器（MAE）进行图像重建，从而在保持数据分布完整性的同时实现高效压缩。

特点

Dataset Quantization的核心特点在于其卓越的跨架构泛化能力与高效的压缩性能。与依赖特定网络架构梯度匹配的数据集蒸馏方法不同，DQ通过数据箱划分与均匀采样，使生成的压缩数据集能够广泛适用于未见过的网络架构（如ViT、ResNet、Swin Transformer等），在低数据保留比下仍保持高多样性。实验表明，DQ在ImageNet-1K等大规模数据集上仅需60%的数据即可实现无损模型训练，且压缩过程计算效率极高（如ImageNet压缩至60%仅需72 GPU小时），较传统方法提升数百倍。此外，DQ在视觉与语言任务中均表现出色，例如在指令调优任务中仅需20%数据即可达到全数据训练的性能。

使用方法

Dataset Quantization生成的数据集可直接用于各类深度神经网络的训练与微调。在视觉任务中，用户可将压缩后的数据集（如保留60%的ImageNet子集）用于图像分类、目标检测或语义分割模型的训练，无需调整训练流程即可获得与全数据训练相当的性能。对于语言任务，DQ压缩的指令数据（如Alpaca数据集）可用于大型语言模型的高效指令调优，在BBH、DROP等基准测试中实现优异结果。使用时仅需加载DQ生成的样本索引及补丁信息，并通过预训练MAE解码器重建图像，即可无缝集成至现有训练管道。此外，DQ支持灵活的数据保留比配置，用户可根据计算资源与性能需求调整压缩比例，平衡效率与精度。

背景与挑战

背景概述

数据集量化（Dataset Quantization, DQ）由字节跳动与新加坡国立大学的研究团队于2023年提出，旨在应对大规模深度学习模型训练中数据冗余与计算资源受限的瓶颈。该框架通过递归分箱与均匀采样的策略，将原始数据集压缩为紧凑子集，同时保持对未见网络架构的泛化能力。其核心创新在于融合了数据集蒸馏与核心集选择的优势，首次实现了在ImageNet-1K等大规模数据集上的无损压缩，为计算机视觉与自然语言处理领域的模型训练提供了高效数据支撑。

当前挑战

数据集量化面临的挑战主要体现在两方面：其一，在解决领域问题上，传统数据集蒸馏方法因梯度匹配与特定网络架构耦合，导致合成数据存在偏差，在训练未见架构时性能显著下降；核心集选择方法则在低数据保留率下因样本多样性不足而影响模型训练效果。其二，在构建过程中，大规模数据集压缩的计算成本极高，例如已有方法需耗费数万GPU小时处理ImageNet-1K，且递归分箱策略虽提升多样性，却引入了额外的计算复杂度。此外，如何在压缩过程中平衡样本代表性与分布覆盖度，亦是技术实现的关键难点。

常用场景

经典使用场景

在深度学习领域，大规模数据集训练常受限于计算与存储资源。Dataset Quantization（DQ）作为一种创新的数据集压缩框架，其经典应用场景在于将海量训练样本高效压缩为紧凑子集，同时保持模型训练性能无损。该方法通过递归分箱与均匀采样策略，生成具有高度多样性与代表性的小型数据集，广泛应用于计算机视觉与自然语言处理任务中，显著降低了训练成本并提升了数据利用效率。

实际应用

在实际应用层面，Dataset Quantization 展现出卓越的工程价值。在计算机视觉任务中，仅需60%的ImageNet数据即可训练出与全数据集性能相当的模型，并成功迁移至目标检测、语义分割等下游任务。在自然语言处理领域，仅用20%的指令调优数据便能达到与全数据训练可比的效果，显著降低了大型语言模型的微调成本。该方法在计算效率上具有显著优势，压缩ImageNet数据集所需时间仅为传统方法的1/388，为工业界部署提供了切实可行的解决方案。

衍生相关工作

Dataset Quantization 的提出催生了一系列相关研究进展。其核心思想启发了对数据集压缩范式的重新思考，推动了基于分箱采样与特征分布保持的新型压缩方法探索。在后续工作中，研究者们将DQ框架与多种核心集选择算法结合，进一步提升了压缩效率与泛化能力。同时，该方法为跨模态数据集压缩、视频理解任务的数据高效训练等方向提供了重要参考，促进了数据集压缩技术在更广泛领域的应用与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集