DLC_512x256

github2025-07-21 更新2025-07-22 收录

下载链接：

https://github.com/lavoiems/DiscreteLatentCode

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了ImageNet作为512x256 DLCs数据集，用于训练DLC-SEDD和DLC-DiT模型。该数据集是通过使用SEM-DinoV2模型对ImageNet进行编码并获取DLC生成的。

We provide a 512×256 ImageNet-based DLCs dataset for training the DLC-SEDD and DLC-DiT models. This dataset is generated by encoding the original ImageNet dataset with the SEM-DinoV2 model and deriving the corresponding DLCs.

创建时间：

2025-07-11

原始信息汇总

数据集概述：Compositional Discrete Latent Code for High Fidelity, Productive Diffusion Models

数据集简介

作者: Samuel Lavoie, Michael Noukhovitch, Aaron Courville
核心内容: 引入组合离散潜在代码（DLCs），支持扩散模型中的高保真图像生成和组合生成。

📁 DLC数据集

数据集名称: ImageNet as 512x256 DLCs
描述: 通过SEM-DinoV2模型编码ImageNet并提取DLC生成的数据集。
数据集链接: lavoies/DLC_512x256
使用方法: python from datasets import load_dataset dataset = load_dataset("lavoies/DLC_512x256", split="train") features = dataset[0][features] dlc = dataset[0][labels]

📀 预训练模型

预训练SEM编码器

模型名称: SEM_dinov2_L512
DLC形状: 512x256
ImageNet1k线性探测准确率: 85.3
模型链接: lavoies/SEM_dinov2_L512
使用方法: python from transformers import AutoImageProcessor, AutoModel processor = AutoImageProcessor.from_pretrained(lavoies/SEM_dinov2_L512, trust_remote_code=True) model = AutoModel.from_pretrained(lavoies/SEM_dinov2_L512, trust_remote_code=True)

预训练DLC-SEDD

模型名称: DLC_SEDD_L512
DLC形状: 512x256
模型链接: lavoies/DLC_SEDD_L512
使用方法: python from transformers import AutoModel model = AutoModel.from_pretrained(lavoies/DLC_SEDD_L512, trust_remote_code=True)

预训练DLC-DiT

模型名称: DLC_DiT_L512
DLC形状: 512x256
模型链接: lavoies/DLC_DiT_L512
使用方法: python from ditpipeline_dlc_dit import DLCDiTPipeline pipe = DLCDiTPipeline.from_pretrained(lavoies/DLC_DiT_L512, trust_remote_code=True)

微调文本和DLC LLADA模型

模型名称: DLC_LLADA_L512
DLC形状: 512x256
模型链接: lavoies/DLC_LLADA_L512
使用方法: python from transformers import AutoModel model = AutoModel.from_pretrained(lavoies/DLC_LLADA_L512, trust_remote_code=True)

生成方法

无条件生成

bash python sedd/run_sample.py --sample_dir . --model_path lavoies/DLC_SEDD_L512 --batch_size 32 --steps 512 --total_samples 32 --save_name uncond python dit/sample_sem.py --model lavoies/DLC_DiT_L512 --cfg-scale 1.5 --image-size 256 --sem-path diffused_SEMs/uncond.pt

文本到图像生成

bash PROMPT="An image of a golden retriever" python dit/chat_sem.py --model_name_or_path lavoies/DLC_LLADA_L512 --output_path golden.pt --remasking random --L 512 --V 256 --temperature 0.2 --steps 512 --num_samples 3 --prompt="$PROMPT" python dit/sample_sem.py --model lavoies/DLC_DiT_L512 --cfg-scale 3 --image-size 256 --sem-path golden.pt

语义组合生成

bash python dit/sample_comp_imgs.py --temp 0.001 --cfg-scale 3.5 --class-id n07734744_10099,n01910747_10038 --seed 0

参考文献

SEM编码器基于DinoV2
DLC生成模型实现基于SEDD
DLC到图像生成基于Fast-DiT，其本身基于DiT

搜集汇总

数据集介绍

构建方式

DLC_512x256数据集的构建依托于先进的SEM-DinoV2模型框架，通过将ImageNet数据集中的图像编码为512x256维度的离散潜在代码（DLC）实现。该过程采用基于DinoV2架构的语义嵌入模型（SEM），在ImageNet-1k数据上进行微调后，对原始图像进行特征提取和离散化处理，最终形成具有85.3%线性探测精度的结构化编码表示。数据集构建严格遵循可复现性原则，所有预处理流程均通过标准化脚本实现。

特点

该数据集的核心特点体现在其高维离散编码的复合性表达能力上。512x256的矩阵结构不仅保留了原始图像的细粒度视觉特征，还通过潜在空间的离散化实现了语义解耦。数据样本包含两个关键字段：'features'字段存储原始图像的SEM编码，'labels'字段则对应离散化后的DLC表示。这种双通道设计既支持生成模型训练，又为语义组合研究提供了可能，其线性可分性在ImageNet-1k上达到85.3%的验证精度。

使用方法

数据集可通过HuggingFace平台便捷加载，使用load_dataset函数指定lavoies/DLC_512x256路径即可获取训练集。典型应用场景包含三个层次：基础层面可直接调用预训练SEM编码器进行图像特征提取；生成层面可利用DLC-SEDD或DLC-DiT模型实现无条件图像生成；高级应用则通过LLADA模型支持文本引导的语义组合生成。具体操作通过标准化脚本实现，包括run_sample.py进行无条件生成，chat_sem.py处理文本提示，以及sample_comp_imgs.py完成多图像特征融合。

背景与挑战

背景概述

DLC_512x256数据集由Samuel Lavoie、Michael Noukhovitch和Aaron Courville等研究人员共同开发，旨在推动扩散模型在高保真图像生成与组合生成方面的研究。该数据集基于ImageNet图像数据，通过SEM-DinoV2模型编码生成512x256维度的离散潜在代码（DLC），为扩散模型提供了结构化特征表示。其核心创新在于将连续语义嵌入离散化，既保留了原始图像的语义信息，又实现了高效的组合生成能力。该工作建立在DinoV2、SEDD和DiT等前沿技术基础上，在ImageNet-1k上达到85.3%的线性探测准确率，为多模态生成任务提供了新的基准工具。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，离散潜在代码需要平衡特征保真度与组合泛化能力，既要准确捕捉图像语义细节，又要支持跨类别的特征组合操作；在构建过程中，大规模图像编码面临计算复杂度高、特征空间对齐困难等问题，需通过DinoV2架构改进和离散化策略优化来解决。此外，将连续SEM转换为离散DLC时存在信息损失风险，需要设计精确的量化机制来维持下游生成模型的质量。

常用场景

经典使用场景

在计算机视觉与生成模型领域，DLC_512x256数据集通过其独特的组合式离散潜码架构，为高保真图像合成提供了标准化实验平台。该数据集常被用于验证扩散模型在语义组合生成任务中的性能，例如通过ImageNet编码实现的蘑菇与水母特征融合实验，展现了跨类别语义解耦与重组的能力。研究人员利用其512x256的潜空间维度，能够系统评估模型在细粒度特征保留与生成多样性方面的平衡。

衍生相关工作

该数据集催生了多个里程碑式研究，包括基于SEDD框架的离散扩散概率建模、Fast-DiT架构的潜码到图像转换优化等。其技术路线衍生出DLC-SEDD和DLC-DiT两大基准模型，后续工作如LLADA进一步扩展了文本引导的潜空间编辑能力。这些成果共同推动了可控生成领域的范式演进。

数据集最近研究