NearID dataset

Name: NearID dataset
Creator: 阿卜杜拉国王科技大学; Snap研究院
Published: 2026-04-02 20:33:14
License: 暂无描述

arXiv2026-04-02 更新2026-04-04 收录

下载链接：

https://gorluxor.github.io/NearID/

下载链接

链接失效反馈

官方服务：

资源简介：

NearID数据集由阿卜杜拉国王科技大学和Snap研究院联合构建，旨在解决视觉编码器中对象身份与背景上下文纠缠的问题。该数据集包含19,000个对象身份和316,000个经过匹配上下文处理的近身份干扰项，数据通过四种生成模型合成。其创新性地将语义相似但不同的实例置于相同背景中，以隔离纯粹的身份信号。数据集主要应用于个性化生成、图像编辑等身份敏感任务的评估与模型训练，显著提升了身份表示的 discriminative 能力。

The NearID dataset was jointly constructed by King Abdullah University of Science and Technology (KAUST) and Snap Research, aiming to address the issue of entanglement between object identity and background context in visual encoders. This dataset contains 19,000 object identities and 316,000 near-identity distractors processed with matched context, and the data is synthesized using four generative models. It innovatively places semantically similar but distinct instances within identical backgrounds to isolate pure identity signals. The dataset is primarily used for the evaluation and model training of identity-sensitive tasks such as personalized generation and image editing, and it significantly enhances the discriminative capability of identity representations.

提供机构：

阿卜杜拉国王科技大学; Snap研究院

创建时间：

2026-04-02

原始信息汇总

NearID 数据集概述

数据集基本信息

数据集名称: NearID
核心目标: 解决视觉编码器将上下文与身份混淆的问题，并改进基于这些编码器的评估指标。
关键方法: 通过引入匹配上下文的干扰项（近身份干扰项）来消除上下文捷径，并隔离内在的身份信号。

核心方法

框架: 对比学习框架，使用显式结构化的近身份干扰项。
正样本: 通过深度条件生成和跨视图特征扭曲从 Objaverse 3D 资产（SynCD 流程）生成的同一对象身份的 3D 一致多视图图像。
负样本（近身份干扰项）: 一个不同但视觉上相似的实例，被修复到与锚点完全相同的背景中。
模型架构: 冻结的 SigLIP2 骨干网络 + 15M 参数的 MAP 头，用于重塑相似性几何结构。

主要性能结果

SSR（身份检索成功率）: 99.17%（相比 SigLIP2 基线提升 +68.43%）。
PA（配对准确率）: 99.71%（相比 SigLIP2 基线提升 +50.90%）。
MTG Oracle 对齐（M-O）: 0.465（相比 SigLIP2 基线提升 +0.285）。
DB++ 人类对齐（M-H）: 0.545（相比 SigLIP2 基线提升 +0.029）。
训练参数量: 仅 15M 可训练参数。
评估成本: 比 VLM 评估便宜约 324 倍。

对比基准

在近身份协议下，与现有嵌入方法和 VLM 方法对比：

Qwen3VL 30B: SSR 49.73%， PA 69.20%， M-O 0.219。
CLIP: SSR 10.31%， PA 20.92%， M-O 0.239， M-H 0.493。
DINOv2: SSR 20.43%， PA 34.55%， M-O 0.324， M-H 0.492。
VSM*: SSR 32.13%， PA 46.70%， M-O 0.394， M-H 0.190。
SigLIP2: SSR 30.74%， PA 48.81%， M-O 0.180， M-H 0.516。
NearID: 在 SSR、PA、M-O 和 M-H 指标上均达到最佳或前列性能。

训练过程可视化（KPCA演化）

初始状态（SigLIP2 基线）: 正样本和近身份干扰项交织在一起，无法区分。
训练过程（步骤 100-2500）: 身份集群开始形成，干扰项逐渐被排斥。
最终状态（步骤 3300）: 形成紧密的正样本集群，干扰项被清晰地推离。

定性评估

身份区分: NearID 能正确抑制与锚点共享相同背景的干扰项，并为正样本分配更高的相似性分数。
局部编辑识别: 在 MTG 数据集的局部编辑任务中，NearID 能捕捉部分级别的身份差异。
注意力聚焦: 训练后，MAP 头的注意力重新聚焦于身份判别区域。

在 DreamBench++ 上的表现

按类别 M-H: NearID 在 Object 类别上领先（0.549），在 Animal、Human 和 Style 类别上具有竞争力。
效率: 以 15M 参数的 MAP 头实现可比性能，每个嵌入计算时间 <1 ms。

分数分布

MTG 测试集 ECDF: NearID 的分数分布与 Oracle（参考标准）紧密跟踪，表明其分数与实际部分编辑严重程度相关。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，身份表征学习长期面临背景信息与对象身份纠缠的挑战。NearID数据集通过构建匹配背景的干扰项，为身份信号的精确分离提供了结构化基准。其构建过程以SynCD数据集为基础，经过严格的筛选流程，保留了19,386个具有多视角多样性的刚性物体身份。随后，研究团队运用四种先进的生成模型，包括Stable Diffusion XL、FLUX.1、Qwen-Image和PowerPaint，通过图像修复技术，将语义相似但身份不同的实例精确嵌入到与参考图像完全相同的背景中，从而生成了超过316,000个近身份干扰项。这种多模型合成策略确保了干扰项在生成先验和伪影分布上的多样性，有效避免了模型对单一生成指纹的过拟合。

特点

该数据集的核心特征在于其精心设计的匹配背景干扰项，这些干扰项消除了传统评估中背景信息提供的捷径，迫使模型必须依赖对象本身的内在身份线索进行判别。数据集规模庞大，涵盖近两万个独特身份，每个身份最多提供三个不同视角的正样本，显著超越了以往同类数据集的视角覆盖度。此外，数据集构建采用了多种前沿生成模型，确保了干扰项在视觉相似性与生成多样性之间的平衡，为模型鲁棒性的评估提供了坚实基础。这种结构化的负样本设计，为学习严格的身份相似性层级关系提供了明确的训练信号。

使用方法

在身份感知的生成与编辑任务评估中，NearID数据集提供了一套严谨的匹配背景评估协议。该协议通过计算双向可判别性边际，量化模型在相同背景下区分真实身份与近身份干扰项的能力。具体而言，评估指标包括样本成功率（SSR）和成对准确率（PA），它们衡量了跨背景身份相似性是否始终高于匹配背景的干扰项相似性。研究人员可以在此协议下，系统性地诊断现有视觉编码器在身份与背景解耦方面的缺陷。同时，该数据集与Mind-the-Glitch（MTG）和DreamBench++等基准的结合使用，能够进一步验证所学表征在局部编辑敏感度以及与人类感知对齐方面的性能。

背景与挑战

背景概述

NearID数据集由阿卜杜拉国王科技大学（KAUST）与Snap Research的研究团队于2026年提出，旨在解决视觉表示学习中的身份与背景纠缠问题。该数据集聚焦于对象级身份识别，通过构建包含19,386个独特身份和316,505个近身份干扰项的大规模匹配上下文样本，为个性化生成与图像编辑领域提供了首个系统性的评估基准。其核心研究在于消除背景捷径，迫使模型仅依赖内在身份信号进行判别，从而显著提升了身份表示的鲁棒性与可靠性。

当前挑战

NearID数据集面临的挑战主要集中于两个方面：在领域问题层面，传统视觉编码器（如CLIP、DINOv2）在匹配上下文条件下难以区分身份与背景，导致身份混淆，严重影响了个性化生成评估的准确性；在构建过程中，需通过多模型合成管道生成高质量且多样化的近身份干扰项，同时确保严格的身份唯一性与视角多样性，这涉及复杂的生成模型集成与大规模数据过滤，以克服合成数据中的伪影与偏差问题。

常用场景

经典使用场景

在个性化图像生成与编辑领域，NearID数据集被广泛用于评估模型的身份保持能力。该数据集通过精心构建的近身份干扰项，即语义相似但身份不同的实例置于相同背景中，有效消除了背景线索的干扰，从而为身份表示学习提供了纯净的测试环境。研究者利用该数据集训练轻量级投影头，在冻结的基础编码器上优化身份判别性能，显著提升了模型在匹配上下文条件下的身份区分准确率。

衍生相关工作

NearID数据集衍生了一系列经典研究工作，主要集中在身份表示学习与评估协议的设计上。例如，基于该数据集的两层对比目标被扩展用于改进视觉语义匹配（VSM）等专用度量，提升了局部身份编辑的敏感性。同时，其评估协议启发了如Finer-Personalization Rank等方法，进一步推动了基于检索的身份保持评估框架的发展。这些工作共同深化了对身份语境解耦的理解，并为生成模型的可靠评估奠定了坚实基础。

数据集最近研究