RISEBench

Name: RISEBench
Creator: 上海交通大学, 上海人工智能实验室, 武汉大学, 同济大学
Published: 2025-04-09 00:43:44
License: 暂无描述

arXiv2025-04-09 更新2025-04-07 收录

下载链接：

https://github.com/PhoenixZ810/RISEBench

下载链接

链接失效反馈

官方服务：

资源简介：

RISEBench是一个专门设计用于评估推理指导下的视觉编辑能力的小型基准测试。该数据集由上海交通大学、上海人工智能实验室、武汉大学和同济大学共同创建，包含四种关键推理类型的任务：时间推理、因果推理、空间推理和逻辑推理。每个类别都经过精心设计，包含高质量、多样化的测试案例。该数据集旨在为推理感知视觉编辑提供基础见解，并催化未来研究。

RISEBench is a small-scale benchmark specifically designed to evaluate reasoning-guided visual editing capabilities. Developed jointly by Shanghai Jiao Tong University, Shanghai AI Laboratory, Wuhan University and Tongji University, this dataset includes tasks across four core reasoning categories: temporal reasoning, causal reasoning, spatial reasoning and logical reasoning. Each category is meticulously crafted with high-quality, diverse test cases. This benchmark aims to provide foundational insights into reasoning-aware visual editing and catalyze future research.

提供机构：

上海交通大学, 上海人工智能实验室, 武汉大学, 同济大学

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

RISEBench数据集通过精心设计的四类推理任务（时间推理、因果推理、空间推理和逻辑推理）构建，每类任务包含多样化的测试案例，确保评估的全面性。数据集的构建过程包括手动筛选高质量图像与指令对，并结合专家评审以确保任务的复杂性和多样性。

特点

RISEBench数据集以其专注于推理驱动的视觉编辑任务而著称，涵盖了时间、因果、空间和逻辑四大推理类型。其特点在于每个任务都要求模型不仅理解指令，还需保持图像的外观一致性和视觉合理性，从而全面评估多模态模型的综合能力。

使用方法

使用RISEBench数据集时，研究人员可通过提供的测试案例评估模型在指令遵循、外观一致性和视觉合理性三个维度的表现。评估过程支持人工评审和LMM-as-a-Judge自动化评估，确保结果的可靠性和可重复性。

背景与挑战

背景概述

RISEBench是由上海交通大学、上海人工智能实验室、武汉大学和同济大学的研究团队于2025年推出的首个专注于推理引导视觉编辑（RISE）能力的基准测试。该数据集针对大模型在多模态理解与生成任务中的核心挑战，系统性地评估模型在时间推理、因果推理、空间推理和逻辑推理四大关键维度的表现。通过构建包含高质量测试案例的评估框架，RISEBench填补了当前生成模型在复杂指令理解、外观一致性和视觉合理性等方面的评估空白，为多模态系统的演进提供了重要研究基础。

当前挑战

RISEBench面临的核心挑战体现在两个层面：在领域问题层面，现有模型难以兼顾复杂指令理解与视觉合理性，特别是在逻辑推理任务中表现显著不足；在构建过程层面，数据集需要平衡评估维度的全面性与标注一致性，既要设计涵盖四大推理类型的多样化测试案例，又要确保人类评估与LMM-as-a-Judge评估方法的高度对齐。具体挑战包括：保持编辑指令与原始图像特征的语义一致性（如时间推理中的自然衰变过程建模）、验证生成结果是否符合物理规律（如因果推理中的物体状态变化合理性），以及构建可扩展的自动化评估体系以降低人工标注成本。

常用场景

经典使用场景

RISEBench作为首个专注于推理引导视觉编辑（RISE）的基准测试，其经典使用场景主要集中在对多模态大模型（LMMs）在复杂指令理解、外观一致性和视觉合理性等方面的系统性评估。该数据集通过设计涵盖时间推理、因果推理、空间推理和逻辑推理四大类任务的高质量测试案例，为研究者提供了一个标准化平台，用以量化分析模型在结合上下文理解与逻辑推理进行图像编辑时的能力表现。例如，在时间推理任务中，模型需预测物体随时间演变的视觉状态（如香蕉腐烂过程），而逻辑推理任务则要求模型解决基于视觉输入的规则性难题（如迷宫路径规划）。

解决学术问题

RISEBench针对当前视觉生成模型的三大核心缺陷提出了解决方案：一是通过指令推理维度评估模型对隐含语义的捕捉能力，解决了传统方法仅关注显式指令而忽略上下文逻辑的问题；二是在外观一致性维度引入细粒度评分机制，量化模型在编辑过程中对原始图像特征的保留程度，突破了以往研究中定性评价的局限性；三是提出视觉合理性指标，首次将物理规律符合度纳入生成质量评估体系。该数据集通过揭示GPT-4o-Native在逻辑推理任务中的显著短板（准确率仅37.5%），为学界明确了多模态推理研究中亟待突破的关键技术瓶颈。

衍生相关工作

该数据集的发布催生了多个重要研究方向：基于LMM-as-Judge评估框架的自动化评测体系（如AlpacaEval）、针对逻辑推理短板的专用模型改进方案（如LogicDiffuser），以及融合语义重建与原生生成优势的混合架构探索（如CogView3）。论文中验证的评估方法已被EMU2等开源模型采纳为标准测试协议，其提出的四维推理分类体系更成为后续研究（如CVPR2026的ViReasoner工作）的基础理论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集