five

DLC_512x256

收藏
github2025-07-21 更新2025-07-22 收录
下载链接:
https://github.com/lavoiems/DiscreteLatentCode
下载链接
链接失效反馈
官方服务:
资源简介:
我们提供了ImageNet作为512x256 DLCs数据集,用于训练DLC-SEDD和DLC-DiT模型。该数据集是通过使用SEM-DinoV2模型对ImageNet进行编码并获取DLC生成的。

We provide a 512×256 ImageNet-based DLCs dataset for training the DLC-SEDD and DLC-DiT models. This dataset is generated by encoding the original ImageNet dataset with the SEM-DinoV2 model and deriving the corresponding DLCs.
创建时间:
2025-07-11
原始信息汇总

数据集概述:Compositional Discrete Latent Code for High Fidelity, Productive Diffusion Models

数据集简介

  • 作者: Samuel Lavoie, Michael Noukhovitch, Aaron Courville
  • 核心内容: 引入组合离散潜在代码(DLCs),支持扩散模型中的高保真图像生成和组合生成。

📁 DLC数据集

  • 数据集名称: ImageNet as 512x256 DLCs
  • 描述: 通过SEM-DinoV2模型编码ImageNet并提取DLC生成的数据集。
  • 数据集链接: lavoies/DLC_512x256
  • 使用方法: python from datasets import load_dataset dataset = load_dataset("lavoies/DLC_512x256", split="train") features = dataset[0][features] dlc = dataset[0][labels]

📀 预训练模型

预训练SEM编码器

  • 模型名称: SEM_dinov2_L512
  • DLC形状: 512x256
  • ImageNet1k线性探测准确率: 85.3
  • 模型链接: lavoies/SEM_dinov2_L512
  • 使用方法: python from transformers import AutoImageProcessor, AutoModel processor = AutoImageProcessor.from_pretrained(lavoies/SEM_dinov2_L512, trust_remote_code=True) model = AutoModel.from_pretrained(lavoies/SEM_dinov2_L512, trust_remote_code=True)

预训练DLC-SEDD

  • 模型名称: DLC_SEDD_L512
  • DLC形状: 512x256
  • 模型链接: lavoies/DLC_SEDD_L512
  • 使用方法: python from transformers import AutoModel model = AutoModel.from_pretrained(lavoies/DLC_SEDD_L512, trust_remote_code=True)

预训练DLC-DiT

  • 模型名称: DLC_DiT_L512
  • DLC形状: 512x256
  • 模型链接: lavoies/DLC_DiT_L512
  • 使用方法: python from ditpipeline_dlc_dit import DLCDiTPipeline pipe = DLCDiTPipeline.from_pretrained(lavoies/DLC_DiT_L512, trust_remote_code=True)

微调文本和DLC LLADA模型

  • 模型名称: DLC_LLADA_L512
  • DLC形状: 512x256
  • 模型链接: lavoies/DLC_LLADA_L512
  • 使用方法: python from transformers import AutoModel model = AutoModel.from_pretrained(lavoies/DLC_LLADA_L512, trust_remote_code=True)

生成方法

无条件生成

bash python sedd/run_sample.py --sample_dir . --model_path lavoies/DLC_SEDD_L512 --batch_size 32 --steps 512 --total_samples 32 --save_name uncond python dit/sample_sem.py --model lavoies/DLC_DiT_L512 --cfg-scale 1.5 --image-size 256 --sem-path diffused_SEMs/uncond.pt

文本到图像生成

bash PROMPT="An image of a golden retriever" python dit/chat_sem.py --model_name_or_path lavoies/DLC_LLADA_L512 --output_path golden.pt --remasking random --L 512 --V 256 --temperature 0.2 --steps 512 --num_samples 3 --prompt="$PROMPT" python dit/sample_sem.py --model lavoies/DLC_DiT_L512 --cfg-scale 3 --image-size 256 --sem-path golden.pt

语义组合生成

bash python dit/sample_comp_imgs.py --temp 0.001 --cfg-scale 3.5 --class-id n07734744_10099,n01910747_10038 --seed 0

参考文献

  • SEM编码器基于DinoV2
  • DLC生成模型实现基于SEDD
  • DLC到图像生成基于Fast-DiT,其本身基于DiT
搜集汇总
数据集介绍
main_image_url
构建方式
DLC_512x256数据集的构建依托于先进的SEM-DinoV2模型框架,通过将ImageNet数据集中的图像编码为512x256维度的离散潜在代码(DLC)实现。该过程采用基于DinoV2架构的语义嵌入模型(SEM),在ImageNet-1k数据上进行微调后,对原始图像进行特征提取和离散化处理,最终形成具有85.3%线性探测精度的结构化编码表示。数据集构建严格遵循可复现性原则,所有预处理流程均通过标准化脚本实现。
特点
该数据集的核心特点体现在其高维离散编码的复合性表达能力上。512x256的矩阵结构不仅保留了原始图像的细粒度视觉特征,还通过潜在空间的离散化实现了语义解耦。数据样本包含两个关键字段:'features'字段存储原始图像的SEM编码,'labels'字段则对应离散化后的DLC表示。这种双通道设计既支持生成模型训练,又为语义组合研究提供了可能,其线性可分性在ImageNet-1k上达到85.3%的验证精度。
使用方法
数据集可通过HuggingFace平台便捷加载,使用load_dataset函数指定lavoies/DLC_512x256路径即可获取训练集。典型应用场景包含三个层次:基础层面可直接调用预训练SEM编码器进行图像特征提取;生成层面可利用DLC-SEDD或DLC-DiT模型实现无条件图像生成;高级应用则通过LLADA模型支持文本引导的语义组合生成。具体操作通过标准化脚本实现,包括run_sample.py进行无条件生成,chat_sem.py处理文本提示,以及sample_comp_imgs.py完成多图像特征融合。
背景与挑战
背景概述
DLC_512x256数据集由Samuel Lavoie、Michael Noukhovitch和Aaron Courville等研究人员共同开发,旨在推动扩散模型在高保真图像生成与组合生成方面的研究。该数据集基于ImageNet图像数据,通过SEM-DinoV2模型编码生成512x256维度的离散潜在代码(DLC),为扩散模型提供了结构化特征表示。其核心创新在于将连续语义嵌入离散化,既保留了原始图像的语义信息,又实现了高效的组合生成能力。该工作建立在DinoV2、SEDD和DiT等前沿技术基础上,在ImageNet-1k上达到85.3%的线性探测准确率,为多模态生成任务提供了新的基准工具。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,离散潜在代码需要平衡特征保真度与组合泛化能力,既要准确捕捉图像语义细节,又要支持跨类别的特征组合操作;在构建过程中,大规模图像编码面临计算复杂度高、特征空间对齐困难等问题,需通过DinoV2架构改进和离散化策略优化来解决。此外,将连续SEM转换为离散DLC时存在信息损失风险,需要设计精确的量化机制来维持下游生成模型的质量。
常用场景
经典使用场景
在计算机视觉与生成模型领域,DLC_512x256数据集通过其独特的组合式离散潜码架构,为高保真图像合成提供了标准化实验平台。该数据集常被用于验证扩散模型在语义组合生成任务中的性能,例如通过ImageNet编码实现的蘑菇与水母特征融合实验,展现了跨类别语义解耦与重组的能力。研究人员利用其512x256的潜空间维度,能够系统评估模型在细粒度特征保留与生成多样性方面的平衡。
衍生相关工作
该数据集催生了多个里程碑式研究,包括基于SEDD框架的离散扩散概率建模、Fast-DiT架构的潜码到图像转换优化等。其技术路线衍生出DLC-SEDD和DLC-DiT两大基准模型,后续工作如LLADA进一步扩展了文本引导的潜空间编辑能力。这些成果共同推动了可控生成领域的范式演进。
数据集最近研究
最新研究方向
在计算机视觉与生成模型领域,DLC_512x256数据集作为离散潜在代码(DLC)技术的核心载体,正推动高保真度图像合成与组合式生成的前沿探索。其基于DinoV2架构的语义嵌入映射(SEM)编码器实现了85.3%的ImageNet线性探测准确率,为扩散模型提供了结构化表征基础。当前研究聚焦于三个维度:通过SEDD框架优化离散扩散过程的熵约束,利用DiT架构实现潜在代码到图像的端到端转换,以及结合LLADA技术探索文本引导的组合生成。这种技术路径在医疗影像合成、跨模态内容创作等场景展现出潜力,其512x256的高分辨率特性尤其适用于需要细粒度控制的工业设计应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作