RISEBench

github2025-04-09 更新2025-04-10 收录

下载链接：

https://github.com/PhoenixZ810/RISEBench

下载链接

链接失效反馈

官方服务：

资源简介：

RISEBench是第一个用于评估推理感知视觉编辑（RISE）的基准测试数据集，专注于四种关键推理类型：时间、因果、空间和逻辑推理。该数据集旨在提供对推理感知视觉编辑的基础性见解，并促进未来研究。

RISEBench is the first benchmark dataset for evaluating reasoning-aware visual editing (RISE), which focuses on four core types of reasoning: temporal, causal, spatial, and logical reasoning. It aims to provide fundamental insights into reasoning-aware visual editing and facilitate future research.

创建时间：

2025-04-03

原始信息汇总

RISEBench 数据集概述

📌 基本信息

数据集名称: RISEBench (Reasoning-Informed Visual Editing Benchmark)
发布日期: 2025年4月
论文链接: arXiv:2504.02826
数据类型: 图像与JSON格式的指令数据
数据存储位置: data/data_total.json 和 data 目录下的输入图像

🎯 研究目标

首个专注于**推理感知视觉编辑(RISE)**的基准测试
评估四大核心推理类型：
- 时间推理 (Temporal Reasoning)
- 因果推理 (Causal Reasoning)
- 空间推理 (Spatial Reasoning)
- 逻辑推理 (Logical Reasoning)

📊 评估维度

指令推理 (Instruction Reasoning)
外观一致性 (Appearance Consistency)
视觉合理性 (Visual Plausibility)

🧩 数据集结构

输入数据:
- 图像文件：按类别存储在data目录
- JSON文件：data_total.json包含指令和对应图像路径
输出要求:

outputs/{MODEL_NAME}/images/{CATEGORY}/{INDEX_NAME}.{FORMAT}

支持格式：.png, .jpg, .jpeg

⚙️ 评估方法

自动化评估流程:
- 使用GPT-4o作为评判模型
- 通过gpt_eval.py脚本执行评估
输出结果文件:
1. {MODEL_NAME}_judge.csv (总分)
2. {MODEL_NAME}_judge.xlsx (详细评分)
3. {MODEL_NAME}.pkl (原始响应数据)

📜 引用格式

bibtex @article{zhao2025envisioning, title={Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing}, author={Zhao, Xiangyu and Zhang, Peiyuan and Tang, Kexian and Li, Hao and Zhang, Zicheng and Zhai, Guangtao and Yan, Junchi and Yang, Hua and Yang, Xue and Duan, Haodong}, journal={arXiv preprint arXiv:2504.02826}, year={2025} }

搜集汇总

数据集介绍

构建方式

RISEBench作为首个专注于推理感知视觉编辑（RISE）的基准测试数据集，其构建过程体现了严谨的科学方法论。研究团队通过整合时间推理、因果推理、空间推理和逻辑推理四大核心维度，采用多模态数据融合技术构建基础数据集。数据采集阶段精选具有复杂语义关联的视觉素材，并通过专业标注流程确保样本质量。评估体系创新性地设计了指令推理、外观一致性和视觉合理性三维评价指标，并开发了基于GPT-4o大语言模型的自动化评估管道，实现了与人工评估高度一致的可扩展评测方案。

特点

该数据集最显著的特征在于其开创性地建立了推理能力与视觉编辑任务的关联评价体系。数据集包含丰富的跨模态样本，每项数据均由视觉素材和结构化指令对组成，支持对多模态系统进行细粒度评估。技术特色体现在采用前沿的LMM-as-a-Judge评估机制，通过大语言模型实现自动化评分，既保证了评估效率又维持了专业水准。数据组织采用模块化架构，按推理类型分类存储，便于研究者进行针对性实验。

使用方法

使用该数据集需遵循标准化流程：首先通过解析data_total.json获取测试样本，按照指定目录结构存储生成结果。评估阶段需配置OpenAI API参数后运行gpt_eval.py脚本，系统将自动生成包含总分、详细评估和原始数据的三种格式报告。研究支持两种应用模式：既可作为基准测试平台比较不同模型的推理感知编辑能力，也可作为训练数据提升多模态系统的复杂场景理解能力。输出结果采用CSV、Excel和PKL三种格式存储，确保与各类分析工具的兼容性。

背景与挑战

背景概述

RISEBench是由Xiangyu Zhao、Peiyuan Zhang、Kexian Tang等研究人员于2025年推出的首个专注于推理感知视觉编辑（RISE）的基准测试数据集。该数据集由上海交通大学等机构联合开发，旨在评估模型在时序、因果、空间和逻辑推理等关键推理类型上的表现。RISEBench通过定义指令推理、外观一致性和视觉合理性三个核心评估维度，为多模态系统的下一代研究提供了标准化评估框架。其创新性地采用LMM-as-a-Judge评估流程，利用GPT-4o等先进大语言模型实现自动化评估，显著提升了评估效率与可扩展性。作为该领域的开创性工作，RISEBench为推理感知的视觉编辑研究奠定了重要基础。

当前挑战

该数据集面临的主要挑战体现在两个层面：在领域问题层面，视觉编辑任务需要模型同时处理复杂的多模态信息与抽象推理逻辑，如何准确量化模型在跨模态语义对齐与逻辑一致性上的表现仍存在技术瓶颈。在构建过程中，研究团队需克服多维度评估标准的设计难题，包括平衡主观视觉质量与客观指标的关系，以及确保自动化评估系统与人类判断的高度一致性。此外，专有模型接口的封闭性导致部分先进模型无法纳入标准化评估体系，这在一定程度上限制了基准测试的全面性。

常用场景

经典使用场景

在视觉编辑领域，RISEBench作为首个专注于推理感知的视觉编辑基准，被广泛用于评估模型在时序、因果、空间和逻辑推理等关键推理类型上的表现。其经典使用场景包括测试模型在复杂指令理解、外观一致性和视觉合理性三个维度的综合能力，为研究者提供了一个标准化的评估平台。通过整合先进的LMM-as-a-Judge评估流程，该数据集能够高效地量化模型在推理引导的视觉编辑任务中的性能表现。

衍生相关工作

基于RISEBench的评估框架，研究社区已衍生出多个创新性工作。Flux1.0-Canny等扩散模型通过该基准优化了推理引导的编辑流程，而EMU2等自回归模型则借鉴其评估维度改进了生成一致性。GPT-4o等大型多模态模型也针对该数据集调整了视觉推理模块，在保持外观一致性的同时提升了复杂指令的遵循能力。这些工作共同推动了推理感知视觉编辑技术的快速发展。

数据集最近研究