ReIV

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/sklevtsova/ReIV

下载链接

链接失效反馈

官方服务：

资源简介：

Re-Imagine Vision Benchmark 是一个用于图像分类和图像到图像任务的基准数据集，包含原始和经过逻辑处理的猫和狗图像。数据集旨在支持对象检测、图像分类、生成检测以及模型推理能力的评估。原始图像来自 Kaggle 的猫和狗数据集，共收集了 2000 张图片，分别存储在 './original/cats_orig' 和 './original/dogs_orig' 目录中，并按类别命名（如 CLASS_NUM.jpg）。每张原始图像通过 RelTR 生成场景图，并基于此创建了部分掩码。此外，还收集了包含猫和狗对的图像以及类别相关属性（如猫与牛奶和老鼠，狗与骨头和玩具）。使用三种开源图像编辑模型（HiDream、Step1X-Edit 和 FLUX.2 dev）对每张原始图像生成多种处理后的图像，包括添加无用信息（UI）、改变毛色（SV）、添加依赖对象（AD）、插入条件（IC）和反事实处理（CF）。处理后的图像按生成模型分类存放，命名格式为原始名称加处理类型（如 cat_1_AD.jpg）。对于 SV 处理，文件名还包含颜色信息（如 cat_1_SV_purple.jpg）。HiDream 模型还生成了包含生成参数的 .json 文件。此外，还为每对图像生成了添加牛奶或骨头的额外图片。数据集规模介于 10K 到 100K 之间，适用于图像处理和模型评估任务。

创建时间：

2026-02-23

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，Re-Imagine Vision Benchmark（ReIV）的构建体现了对模型感知与推理能力的系统性评估需求。该数据集以猫和狗的原图像为基础，这些图像源自Kaggle平台上的公开数据集，共计2000幅，并按照类别与编号进行规范命名与存储。随后，研究团队运用RelTR工具为每幅图像生成场景图，并基于此创建了各部分的掩码，同时收集了包含猫狗对的图像及类别关联物体（如猫与牛奶、老鼠，狗与骨头、玩具）的补充数据。为引入逻辑操控，研究采用了HiDream、Step1X-Edit和FLUX.2 dev三种开源图像编辑模型，对每幅原图像进行了五类操控处理，包括添加背景蝴蝶、改变毛色至非自然色彩、插入类别相关物体、在鼻部放置蝴蝶以及移除耳朵，所有操控图像均按原图名称与操控类型进行命名与分类存储。

特点

ReIV数据集的显著特点在于其精心设计的逻辑操控结构，旨在深入探究多模态模型对视觉内容的真实关注度。数据集不仅包含原始猫狗图像，还通过系统化的图像编辑生成了多样化的变体，涵盖了无用信息添加、样本值变更、依赖关系引入、条件插入及反事实修改等多种操控类型，每种类型均对应特定的语义逻辑变化。此外，数据集还提供了猫狗配对图像及类别属性关联图像，进一步丰富了场景的复杂性。所有图像均配有规范的命名体系与元数据（如HiDream模型生成的JSON参数文件），确保了数据的一致性与可追溯性，为模型在物体检测、图像分类、生成检测及推理能力评估等任务中提供了多层次、结构化的测试基准。

使用方法

在人工智能研究与应用中，ReIV数据集可作为评估多模态大语言模型视觉感知与逻辑推理能力的有效工具。研究者可首先加载原始图像与对应的操控图像，通过对比模型在原始与操控条件下的输出差异，分析模型是否真正关注图像中的关键视觉元素。数据集支持物体检测与图像分类任务，用户可训练或测试模型在识别猫、狗及其关联物体（如老鼠、骨头）上的性能；同时，操控图像特别适用于生成检测，帮助识别模型是否被非自然修改所误导。对于推理能力评估，可设计实验让模型回答关于图像内容（如“动物的耳朵是否存在？”）的问题，以检验其基于视觉输入的逻辑判断。数据集中的配对图像与属性添加变体还可用于研究模型在多物体场景中的注意力分配。使用前，建议参考数据集目录结构，按模型名称与操控类型读取图像，并利用提供的元数据（如JSON文件）进行参数分析，以确保实验的严谨性与可重复性。

背景与挑战

背景概述

Re-Imagine Vision Benchmark（ReIV）数据集由Snezhana Klevtsova和Petr Lukianchenko于2026年提出，旨在评估多模态大语言模型在视觉理解任务中的实际感知能力。该数据集聚焦于图像分类与图像生成检测领域，通过整合来自Kaggle平台的原始猫狗图像，并运用先进图像编辑模型进行逻辑操控，构建了一个包含原始图像与多种人工干预变体的基准测试集。其核心研究问题在于探究模型是否真正关注图像内容，而非依赖先验知识进行推断，从而推动多模态人工智能在细粒度视觉推理方面的发展，对提升模型的可解释性与鲁棒性具有重要影响。

当前挑战

ReIV数据集致力于解决多模态模型在视觉理解中存在的幻觉与过度依赖先验知识问题，其挑战在于如何精确评估模型对图像细节的逻辑感知能力，例如区分自然与人工编辑特征。在构建过程中，数据集面临多重技术挑战：一是需确保原始图像的质量与多样性，以覆盖不同场景与对象姿态；二是依赖外部图像编辑模型生成可控的语义操控图像，如添加无关信息或改变毛发颜色，这要求编辑过程保持高度一致性与可复现性；三是需设计系统化的标注与存储结构，以支持复杂的实验分析，同时处理大规模图像数据带来的存储与计算负担。

常用场景

经典使用场景

在计算机视觉与多模态人工智能领域，ReIV数据集以其精心设计的逻辑操控图像为特色，为模型评估提供了独特基准。该数据集最经典的使用场景在于系统评估多模态大语言模型（MLLMs）的视觉推理与注意力机制。研究者通过对比模型对原始图像与经过“无用信息添加”、“样本值修改”、“依赖关系引入”、“条件插入”及“反事实编辑”等五类逻辑操控后图像的响应差异，能够精确量化模型是否真正关注并理解图像内容，而非仅依赖文本提示或先验知识进行推断。

实际应用

超越纯学术研究，ReIV数据集在实际应用场景中展现出重要价值。它可直接用于开发和测试需要高精度视觉理解能力的AI系统，例如内容安全审核中识别被恶意篡改的媒体信息，辅助医疗影像分析中检测细微且违反常理的异常特征，或在自动驾驶领域评估感知系统对罕见或反常识道路场景的鲁棒性。通过使用该数据集进行压力测试，产业界能够筛选出视觉推理更可靠的多模态模型，从而降低AI系统在关键任务中因“看到却未理解”而引发的操作风险。

衍生相关工作

自ReIV基准发布以来，已衍生出一系列关注模型视觉基础能力的相关研究工作。部分研究借鉴其构建范式，针对特定领域（如遥感图像、科学图表）创建了类似的逻辑操控评测集。另一些工作则利用ReIV的评估结果，深入分析了不同模型架构（如基于Transformer的视觉编码器与扩散模型）在视觉注意力分配上的差异。此外，该数据集也催生了旨在提升模型视觉忠实性的新训练方法，例如通过对比学习强化模型对图像细微逻辑变化的敏感性，推动了“可信多模态AI”这一子方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集