lbGen

github2025-03-20 更新2025-03-08 收录

下载链接：

https://github.com/vvvvvjdy/lbGen

下载链接

链接失效反馈

官方服务：

资源简介：

lbGen是一个低偏差通用注释数据集生成框架，能够直接生成带有类别注释的低偏差图像。预训练在这个生成的数据集上可以显著提高模型在跨类别或跨域场景下的泛化能力。

lbGen is a low-bias general-purpose annotated dataset generation framework, which can directly generate low-bias images with category annotations. Pre-training on this generated dataset can significantly improve the generalization ability of models in cross-category or cross-domain scenarios.

创建时间：

2025-03-07

原始信息汇总

Low-Biased General Annotated Dataset Generation (lbGen)

概述

lbGen 是一个低偏差通用注释数据集生成框架，能够直接生成带有类别注释的低偏差图像。该数据集的预训练可以显著提高模型在跨类别或跨域场景下的泛化能力。

数据生成

环境设置：使用 conda 创建 Python 3.11 环境，并安装依赖。
训练：通过微调扩散模型（sd15）来获得 lbGen 生成器。
数据生成：在微调后的扩散模型基础上生成数据集。

使用说明

环境设置： bash cd your_path/lbGen-main conda create -n lbgen python=3.11 -y conda activate lbgen pip install -r debias.txt
训练： bash cd training bash scripts/sd15.sh
数据生成： bash cd /code/data_gen python sd15gen.py

注意事项

此代码可能无法准确复制论文中的结果，可能是因为代码清理过程中的错误以及当前可用的 sd1.5 与之前 runwayml 版本之间的差异。

致谢

此代码主要基于 diffusers 和 CoMat 构建。

引用

如果您发现 lbGen 对您的研究和应用有帮助，请考虑关注此仓库并引用以下论文：

@article{jiang_debias, title={Unbiased General Annotated Dataset Generation}, author={Jiang, Dengyang and Wang, Haoyu and Zhang, Lei and Wei, Wei and Dai, Guang and Wang, Mengmeng and Wang, Jingdong and Zhang, Yanning}, journal={arXiv preprint arXiv:2412.10831}, year={2024} }

搜集汇总

数据集介绍

构建方式

lbGen数据集的构建是基于低偏差原则，通过直接生成带有类别注释的低偏差图像。该框架采用细调的扩散模型（sd15）进行训练，以生成在交叉类别或交叉领域场景下具有更强泛化能力的模型。

特点

lbGen数据集的主要特点在于其无偏差性，能够有效提升模型在跨类别或跨领域任务中的泛化能力。该数据集通过精细的构建方法，确保了图像和类别注释的高质量，适用于各类机器学习模型的训练和评估。

使用方法

使用lbGen数据集首先需要设置环境，通过conda创建Python环境并安装相关依赖。接着，在单机多GPU的环境下对模型进行训练，训练完成后即可通过脚本生成数据集。生成的数据将保存在指定路径下，供后续的数据分析和模型训练使用。

背景与挑战

背景概述

Low-Biased General Annotated Dataset Generation（lbGen）数据集由西北工业大学、SGIT AI Lab、浙江工业大学及百度公司的研究人员合作创建，旨在直接生成带有类别注释的低偏置图像。该数据集的构建背景在于提升模型在跨类别或跨领域场景下的泛化能力，其研究成果已发表在2024年的arXiv预印本上。lbGen数据集的产生对于促进无偏注释数据集的生成方法研究具有重要的学术价值和实践意义，对计算机视觉领域的发展产生了积极影响。

当前挑战

该数据集在构建过程中面临的主要挑战包括：确保图像生成的低偏置特性，以防止模型学习到不公正的偏见；生成图像的类别注释需要具有较高的准确性，以保证数据集的质量；此外，数据集生成框架的设计与实现需要兼顾效率和泛化能力，以满足不同场景下的应用需求。

常用场景

经典使用场景

在当前深度学习模型训练中，降低数据偏差以增强模型泛化能力是核心关切。lbGen数据集的生成框架正是为了满足此类需求而设计，其经典使用场景在于为模型训练提供低偏差的图像及其类别注释，直接生成可用于模型预训练的数据集，进而显著提升模型在跨类别或跨领域场景下的泛化性能。

衍生相关工作

基于lbGen数据集的研究成果，已衍生出一系列相关工作，包括但不限于对生成模型结构的优化、数据生成算法的改进，以及针对特定领域定制化的低偏差数据集构建方法。这些相关工作进一步推动了机器学习领域对于数据质量和模型泛化能力研究的深入。

数据集最近研究