relsim

Name: relsim
Creator: 威斯康星大学麦迪逊分校, 加州大学洛杉矶分校, Adobe研究院
Published: 2025-12-09 02:59:56
License: 暂无描述

arXiv2025-12-09 更新2025-12-10 收录

下载链接：

https://thaoshibe.github.io/relsim

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Adobe研究院等机构联合构建，专注于捕捉图像间的抽象关系相似性，而非传统表面特征相似性。数据集包含114,881组图像-匿名描述对，数据源自LAION-2B图像库的精选子集，通过人工标注和VLM模型生成描述，将具体对象替换为占位符以突出关系逻辑。创建过程包括关系图像筛选、人工分组标注和自动化描述生成三个关键步骤，旨在解决计算机视觉中关系推理能力缺失的问题，可应用于图像检索、类比生成等需要深层语义理解的场景。

This dataset was jointly developed by Adobe Research and other partner institutions, focusing on capturing abstract relational similarity between images rather than traditional surface-level feature similarity. It contains 114,881 image-anonymous description pairs, sourced from a curated subset of the LAION-2B image repository. Descriptions were generated via both manual annotation and VLM models, where specific objects are replaced with placeholders to emphasize relational logic. Its creation involves three core steps: relational image screening, manual group annotation, and automated description generation. This dataset aims to address the gap in relational reasoning capabilities within computer vision, and can be applied to scenarios requiring deep semantic understanding such as image retrieval and analogical generation.

提供机构：

威斯康星大学麦迪逊分校, 加州大学洛杉矶分校, Adobe研究院

创建时间：

2025-12-09

原始信息汇总

Relational Visual Similarity 数据集概述

基本信息

数据集名称：Relational Visual Similarity (relsim)
发布年份：2025
发布平台：arXiv
论文标题：Relational Visual Similarity
论文链接：https://arxiv.org/abs/2512.07833
代码仓库：github/relsim
HuggingFace数据集：HuggingFace Dataset
数据查看器：Data Viewer
定性展示：Qualitative Gallery
图像检索演示：Image Retrieval

核心概念

关系视觉相似性 (relational visual similarity, relsim)：一种新的视觉相似性概念，关注图像内部视觉元素之间的关系或功能的对应性，即使视觉属性不同。
属性相似性 (attribute similarity)：传统视觉相似性度量（如LPIPS, CLIP, DINO）关注的内容，侧重于感知属性相似性。

数据集内容

规模：包含114k+图像-描述对。
描述特点：描述是匿名的，描述场景的底层关系逻辑而非表面内容。
数据组成部分：
- 种子组 (Seed Groups)：500+ {图像组，匿名描述}。
- 匿名描述 (Anonymous Captions)：114k+ {图像，匿名描述}。
数据集链接：
- 种子组：datasets/seed-groups
- 匿名描述：datasets/anonymous-captions-114k

模型与工具

模型：基于该数据集微调的视觉语言模型，用于度量图像间的关系相似性。
Python包：relsim
安装：pip install relsim
预训练模型：thaoshibe/relsim-qwenvl25-lora
快速使用示例： python from relsim.relsim_score import relsim from PIL import Image

model, preprocess = relsim( pretrained=True, checkpoint_dir="thaoshibe/relsim-qwenvl25-lora")

img1 = preprocess(Image.open("image_path_1")) img2 = preprocess(Image.open("image_path_2")) similarity = model(img1, img2) print(f"relsim score: {similarity:.3f}")

应用与展示

定性展示库：展示了基于属性度量（如LPIPS, CLIP, DINO）和基于关系度量（relsim）的图像检索结果对比。
数据查看器：提供数据集中使用的数据集的查看界面。

引用信息

bibtex @misc{nguyen2025relationalvisualsimilarity, title={Relational Visual Similarity}, author={Thao Nguyen and Sicheng Mo and Krishna Kumar Singh and Yilin Wang and Jing Shi and Nicholas Kolkin and Eli Shechtman and Yong Jae Lee and Yuheng Li}, year={2025}, eprint={2512.07833}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.07833}, }

搜集汇总

数据集介绍

构建方式

在视觉相似性研究领域，传统数据集主要聚焦于属性层面的匹配，而忽略了人类认知中至关重要的关系相似性维度。RelSim数据集的构建旨在填补这一空白，其过程始于从LAION-2B大规模图像语料库中筛选出蕴含丰富关系结构的图像。通过微调视觉语言模型，对图像进行“关系趣味性”分类，最终遴选出约11.4万张被认为具有高阶关系线索的图像。随后，研究团队手动策划了532组共享同一底层关系逻辑的图像集合，并利用视觉语言模型为每组生成统一的匿名描述。这些描述使用占位符抽象掉具体对象，仅捕捉场景的内在关系逻辑，从而形成了图像与匿名描述配对的数据集。

特点

RelSim数据集的核心特征在于其首创性地专注于关系视觉相似性，而非传统的属性相似性。该数据集通过匿名描述捕捉图像中元素间的抽象关系与功能对应，例如“随时间变化的{主体}”，从而将共享相同逻辑结构但视觉属性迥异的图像联系起来。其构建的匿名描述机制有效剥离了表层语义内容，促使模型学习人类进行类比推理时所依赖的深层关系模式。此外，数据集规模适中且经过精心筛选，确保了高质量的关系信息密度，为训练能够理解图像抽象逻辑的模型提供了坚实基础。

使用方法

RelSim数据集主要用于训练和评估能够度量关系视觉相似性的模型。在训练阶段，研究者以数据集中的图像-匿名描述对为基础，采用对比学习框架，优化视觉特征提取器，使其产生的图像嵌入与对应匿名描述的文本嵌入在表示空间中对齐。在评估阶段，该数据集支持关系图像检索等任务，即给定查询图像，从包含干扰项的图像库中检索出关系逻辑最相似的图像。此外，数据集衍生的相似性度量可应用于类比图像生成等下游任务，评估生成模型在保持输入图像核心关系结构方面的能力。其匿名描述也为可控的关系理解研究提供了可解释的中间表示。

背景与挑战

背景概述

视觉相似性度量是计算机视觉领域的核心问题，传统方法主要聚焦于属性层面的相似性，例如颜色、形状或语义类别等表面特征的匹配。然而，人类视觉认知不仅依赖于属性相似性，还能感知更为抽象的关系相似性，即图像内部元素之间的逻辑或结构对应关系。为填补这一研究空白，威斯康星大学麦迪逊分校与Adobe研究院的研究团队于2025年提出了RelSim数据集。该数据集旨在建模关系视觉相似性，通过从LAION-2B大规模图像库中筛选出11.4万张蕴含可迁移关系结构的图像，并配以匿名化描述其底层逻辑的文本标注，构建了首个专注于关系相似性建模的数据资源。RelSim的推出为视觉计算领域引入了新的研究方向，推动了图像理解从表层特征向深层逻辑推理的演进。

当前挑战

RelSim数据集致力于解决关系视觉相似性建模这一新兴领域问题，其核心挑战在于如何超越传统属性相似性框架，捕捉人类对图像间抽象逻辑关系的感知能力。具体而言，该领域问题面临关系定义与量化的困难，因为关系相似性往往依赖于高层次的概念抽象与先验知识，而非直观的视觉特征。在数据集构建过程中，研究团队遭遇了多重挑战：首先，从海量图像中高效筛选出蕴含丰富关系结构的样本需要设计可靠的过滤机制，以区分表面内容与深层逻辑；其次，为图像生成准确且泛化的匿名化描述极具难度，这要求模型能够从图像组中归纳出共享的关系模式，同时避免泄露具体的语义信息；此外，确保标注质量与一致性也需克服人工验证的规模限制与潜在主观偏差。

常用场景

经典使用场景

在视觉计算领域，传统图像相似性度量主要聚焦于感知属性层面的匹配，如颜色、形状或语义类别。然而，人类视觉认知不仅限于此，还能识别图像间抽象的关系结构相似性。RelSim数据集的经典使用场景在于训练和评估能够捕捉这种关系相似性的模型。通过包含11.4万张图像与匿名标注的数据对，该数据集使模型能够学习忽略表面视觉特征，转而理解图像内部元素之间的逻辑关联，例如时间演变、空间布局或功能类比。这一场景为视觉相似性研究开辟了新的维度，推动了超越属性匹配的认知启发性计算。

衍生相关工作

RelSim数据集的提出催生了一系列围绕关系视觉理解的研究工作。在模型架构方面，许多研究开始探索融合视觉语言模型与关系推理机制的新型网络设计，以更好地捕捉匿名标注所隐含的抽象逻辑。在评估基准上，后续工作扩展了关系相似性的任务范畴，开发了针对特定领域如科学可视化、艺术创作的专用数据集。同时，该数据集也激发了跨模态关系学习的研究，推动视觉与语言模型在类比推理、概念抽象等高级认知任务上的性能提升，形成了视觉计算与人工智能交叉领域的新兴研究方向。

数据集最近研究