NearID-SDXL_1024

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/Aleksandar/NearID-SDXL_1024

下载链接

链接失效反馈

官方服务：

资源简介：

NearID-SDXL_1024数据集是NearID项目的一部分，包含通过Stable Diffusion XL修复技术生成的1024×1024分辨率的近身份干扰图像。每个样本包含最多3个干扰图像（nimg1, nimg2, nimg3），这些干扰图像是在与基础NearID数据集中相应锚点完全相同的背景/上下文中修复的不同但视觉上相似的实例。该数据集用于训练和评估能够区分真实身份与上下文捷径的身份嵌入模型。数据集结构包括样本ID、对象类别、类别描述、干扰图像、有效干扰图像数量、源Objaverse对象标识符、每个干扰图像的生成提示和质量标签等字段。数据集适用于图像特征提取、图像分类和图像到图像转换等任务。

创建时间：

2026-04-02

原始信息汇总

NearID-SDXL_1024 数据集概述

基本信息

数据集名称：NearID-SDXL_1024 (Near-Identity Distractors)
语言：英语
许可证：CC-BY-4.0
数据规模：10K<n<100K
任务类别：图像特征提取、图像分类、图像到图像
标签：nearid、near-identity-distractors、identity-embedding、inpainting、synthetic、metric-learning

数据集描述

该数据集包含通过Stable Diffusion XL 修复技术生成的近身份干扰项，分辨率为1024×1024，是NearID项目的一部分。

每个样本包含最多3个干扰图像：这些是不同的、但在视觉上相似的实例，它们被修复到与基础Aleksandar/NearID数据集中相应锚点完全相同的背景/上下文中。这些干扰项用于训练和评估能够区分真实身份与上下文捷径的身份嵌入模型。

数据集结构

列名	类型	描述
`id`	int64	样本ID（与基础NearID数据集匹配）
`category`	string	对象类别（`rigid`）
`category_description`	string	对象的自然语言描述
`nimg1`, `nimg2`, `nimg3`	image	近身份干扰图像（每个样本最多3张）
`n_images`	int64	有效干扰图像的数量
`objaverse_id`	string	源Objaverse对象标识符
`prompts1`, `prompts2`, `prompts3`	string	每个干扰项的生成提示词
`quality`	string	质量标签

数据生成方法

对于基础NearID数据集中的每个锚点身份，检索一个语义相似但不同的对象实例。
使用Stable Diffusion XL 修复技术将干扰实例修复到与锚点相同的背景中。
分辨率：1024×1024像素。

所有NearID数据集系列

数据集	描述	分辨率
Aleksandar/NearID	多视角正样本（锚点 + 正视角）	基础分辨率
Aleksandar/NearID-Flux	通过FLUX.1修复生成的近身份干扰项	512×512
Aleksandar/NearID-Flux_1024	通过FLUX.1修复生成的近身份干扰项	1024×1024
Aleksandar/NearID-FluxC	通过FLUX.1 Canny引导修复生成的近身份干扰项	512×512
Aleksandar/NearID-FluxC_1024	通过FLUX.1 Canny引导修复生成的近身份干扰项	1024×1024
Aleksandar/NearID-PowerPaint	通过PowerPaint修复生成的近身份干扰项	512×512
Aleksandar/NearID-Qwen	通过基于Qwen的修复生成的近身份干扰项	512×512
Aleksandar/NearID-Qwen_1328	通过基于Qwen的修复生成的近身份干扰项	1328×1328
Aleksandar/NearID-SDXL	通过Stable Diffusion XL修复生成的近身份干扰项	512×512
Aleksandar/NearID-SDXL_1024	通过Stable Diffusion XL修复生成的近身份干扰项	1024×1024

许可证与归属

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，身份表征学习旨在区分对象的本质特征与背景干扰。NearID-SDXL_1024数据集的构建基于基础NearID数据集中的锚点身份，通过检索语义相似但不同的对象实例，利用Stable Diffusion XL修复模型将这些干扰实例精确嵌入到与锚点相同的背景环境中，生成分辨率为1024×1024像素的图像。这一过程确保了每个样本包含最多三个视觉上高度相似但身份相异的干扰图像，从而构建了一个受控的测试环境，迫使模型依赖内在身份特征而非上下文线索进行判别。

特点

该数据集的核心特点在于其提供的近身份干扰图像，这些图像在视觉上与锚点极为相似，但代表了不同的对象实例，且共享完全一致的背景。数据集以高分辨率1024×1024呈现，确保了图像的细节丰富性。每个样本均附带对象类别、自然语言描述、生成提示词及质量标签等元数据，结构清晰完整。作为NearID项目的一部分，该数据集专门设计用于训练和评估身份嵌入模型，旨在提升模型在复杂场景中区分真实身份与背景捷径的能力。

使用方法

使用该数据集时，研究人员可首先通过Hugging Face的datasets库加载NearID-SDXL_1024数据集以获取干扰图像，同时加载基础NearID数据集以获得锚点和正样本对。这种组合使得能够构建包含锚点、正样本和近身份干扰样本的三元组，适用于度量学习或对比学习任务。数据集可直接用于训练身份嵌入模型，如NearID-SigLIP2，以优化模型在区分细微身份差异时的鲁棒性，并可用于评估模型在排除背景依赖情况下的性能表现。

背景与挑战

背景概述

在计算机视觉领域，身份表征学习旨在从视觉数据中提取能够唯一标识特定实体（如物体、人脸或动物）的稳健特征。传统方法常依赖大规模标注数据或对比学习，但模型易受背景、光照或视角等无关因素的干扰，导致所学特征缺乏对内在身份的判别力。NearID-SDXL_1024数据集应运而生，由阿卜杜拉国王科技大学（KAUST）和Snap研究院的研究团队于2024年主导创建，其核心研究问题是推动身份嵌入模型超越上下文捷径，专注于学习纯粹的身份语义。该数据集通过生成高分辨率（1024×1024）的近身份干扰项，为评估和训练模型提供了精准的基准，对提升物体识别、图像检索等任务的泛化能力具有重要影响。

当前挑战

该数据集致力于解决身份表征学习中的关键挑战：模型往往依赖背景或环境线索而非物体本身的身份特征进行判别，这种现象被称为上下文捷径学习。NearID-SDXL_1024通过构造视觉高度相似但身份不同的干扰项，迫使模型必须区分细微的内在差异，从而增强特征的判别性。在构建过程中，挑战主要集中于生成过程的精确控制：需确保干扰项与锚点共享完全相同的背景，同时替换为语义相似的不同物体实例，这要求稳定的扩散模型（如Stable Diffusion XL）在修复过程中保持背景一致性并生成高质量、多样化的干扰图像，避免引入伪影或身份混淆，以保障数据集的可靠性与评估有效性。

常用场景

经典使用场景

在计算机视觉与身份表征学习领域，NearID-SDXL_1024数据集为模型训练与评估提供了关键资源。其核心应用场景在于构建身份嵌入模型的训练与测试框架，通过提供与锚点图像共享相同背景但身份不同的干扰项图像，迫使模型必须依赖对象的内在身份特征而非环境上下文进行区分。这一设计使得数据集成为训练鲁棒身份识别模型的理想基准，尤其在需要模型忽略背景干扰、专注于对象本质属性的任务中展现出独特价值。

衍生相关工作

围绕NearID-SDXL_1024数据集，已衍生出一系列重要的研究工作。其核心论文《NearID: Identity Representation Learning via Near-identity Distractors》系统阐述了利用近身份干扰项学习身份表征的理论与方法。基于此，研究社区开发了配套的身份嵌入模型nearid-siglip2，并扩展了使用不同生成模型（如FLUX.1、PowerPaint、Qwen）创建干扰项的数据集变体，形成了完整的NearID数据集家族。这些工作共同深化了对生成式数据在表征学习中作用的理解，并推动了身份嵌入模型评估基准的发展。

数据集最近研究