MemBench-InternVL3.5-Eval

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/laitifranz/MemBench-InternVL3.5-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

MemBench-InternVL3.5-Eval 是一个用于图像编辑实验的评估数据集，旨在比较四种不同方法在相同选择协议下的表现。数据集包含四个实验配置：baseline_flux、teacher_oracle、zero_shot 和 memcoach，每个配置下包含一个 dataset.jsonl 文件及相应的编辑/源图像对。每个 JSONL 文件包含 314 个测试集编辑条目，每条记录包含源图像的记忆分数、目标图像的参考分数、文本编辑指令、生成的编辑图像路径等信息。数据集适用于图像到图像和文本到图像的任务，特别适用于图像编辑和评估相关的研究。所有实验均使用 FLUX.1-Kontext-dev 生成的编辑图像、InternVL3.5-8B-HF 生成的反馈以及预测器生成的内存分数。数据集的使用和下载方法可参考官方代码库 MemCoach。

创建时间：

2026-02-26

原始信息汇总

MemBench-InternVL3.5-Eval 数据集概述

基本信息

数据集名称: MemBench-InternVL3.5-Eval
许可证: MIT
主要任务类别: 图像到图像、文本到图像
标签: 图像编辑、评估、membench、internvl、flux
用途: 用于图像编辑实验的评估数据集，专门用于在ppr10k上比较四种方法。此仓库仅用于复现和检查目的。

数据集结构

数据集按实验名称在顶层组织，包含四个配置/实验文件夹：

baseline_flux/
teacher_oracle/
zero_shot/
memcoach/

每个实验文件夹内部包含：

dataset.jsonl: 包含314条测试集编辑条目（每行一个JSON对象）。
edit_imgs/<id>/...: 每个示例的图像对（*_source.jpg和*_edited.jpg）。

实验与模型

所有实验均使用以下组件生成的编辑图像和分数：

编辑图像生成模型: FLUX.1-Kontext-dev
反馈生成模型: InternVL3.5-8B-HF
记忆分数生成器: 研究者的预测器

考虑的四种方法（对应四个文件夹）及其描述如下：

baseline_flux (Edit model): 使用FLUX Kontext的编辑生成基线方法。
teacher_oracle (Teacher oracle): 教师引导/预言评分设置。它与MemBench测试集一致。
zero_shot (Zero-shot): 零样本评分/推理设置。
memcoach (MemCoach (ours)): 基于激活引导的MemCoach方法（InternVL3.5引导配置）。

方法命名遵循原始论文表2中的名称。

数据格式 (JSONL核心字段)

dataset.jsonl文件中的每一行至少包含以下字段：

entry_input.source_score: 源图像A的记忆分数。
entry_input.target_score: 图像B的参考分数。
entry_input.actions: 文本编辑指令/提示。
generated_image_path: 生成的编辑图像的路径/基名。
target_score: 编辑后图像的记忆分数。

下载与使用说明

紧凑下载: 本仓库提供了一个包含所有4个实验文件夹的单一zip归档文件MemBench-InternVL3.5-Eval-Artifacts.zip。建议直接下载此文件以避免获取单个文件时触及Hugging Face的速率限制。
使用指南: 关于如何使用此数据集复现论文结果，请访问官方代码库：https://github.com/laitifranz/MemCoach/tree/main?tab=readme-ov-file#reproducing-paper-results

引用信息

如果此工作对您的研究有用，请考虑引用： bibtex @inproceedings{laiti2026memcoach, title={How to Take a Memorable Picture? Empowering Users with Actionable Feedback}, author={Laiti, Francesco and Talon, Davide and Staiano, Jacopo and Ricci, Elisa}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2026} }

搜集汇总

数据集介绍

构建方式

MemBench-InternVL3.5-Eval数据集的构建源于对图像编辑模型记忆性评估的系统性需求。该数据集以ppr10k为基础，通过统一的筛选协议整合了四种不同的图像编辑方法，每种方法对应一个独立的实验配置。具体而言，每个配置文件夹内包含一个dataset.jsonl文件，其中记录了314条测试集编辑条目，每条条目以JSON对象形式存储，并配有相应的源图像与编辑后图像对。数据生成过程依托FLUX.1-Kontext-dev模型进行图像编辑，利用InternVL3.5-8B-HF模型生成反馈，再通过专用预测器计算记忆分数，确保了评估过程的一致性与可复现性。

特点

该数据集的核心特点在于其多维度的实验设计，涵盖了从基线方法到创新技术的完整谱系。四种实验配置分别代表不同的评估范式：baseline_flux作为编辑模型基准，teacher_oracle模拟教师指导的评分环境，zero_shot体现零样本推理能力，而memcoach则展示了基于激活导向的创新方法。数据集结构清晰，每个实验文件夹均包含标准化的JSONL文件与图像资源，便于研究者进行横向对比分析。此外，数据集严格遵循MemBench测试集的协议，确保了评估结果的可靠性与学术严谨性，为图像记忆性研究提供了丰富的实验素材。

使用方法

使用该数据集时，研究者需首先下载完整的MemBench-InternVL3.5-Eval-Artifacts.zip压缩包，以避免因单独获取文件而触发访问限制。数据集的使用主要围绕对四种实验配置的对比分析展开，通过解析各文件夹内的dataset.jsonl文件，可以获取每条编辑记录的源图像分数、目标分数、编辑指令及生成图像路径等关键信息。实际应用中，用户可参照官方代码库中的复现指南，利用提供的图像对与分数数据，系统评估不同图像编辑方法在记忆性保持方面的性能差异，从而推动相关算法的优化与创新。

背景与挑战

背景概述

在计算机视觉与生成式人工智能的交叉领域，图像编辑技术正朝着理解并优化图像记忆性（memorability）的方向演进。MemBench-InternVL3.5-Eval数据集应运而生，作为MemCoach研究项目的重要组成部分，由Francesco Laiti等研究人员于2026年构建并公开。该数据集旨在系统评估不同图像编辑方法在提升或控制图像记忆性方面的性能，其核心研究问题聚焦于如何通过模型生成的反馈，引导用户执行可操作的编辑指令，从而创造出更具记忆点的视觉内容。通过整合FLUX.1-Kontext-dev、InternVL3.5-8B等前沿模型，该数据集为量化分析编辑干预对记忆评分的影响提供了标准化基准，推动了可解释与用户赋能的图像生成技术的发展。

当前挑战

该数据集致力于应对图像记忆性编辑这一新兴领域的核心挑战，即如何将主观、难以量化的图像记忆属性转化为可计算、可优化的客观任务。具体而言，挑战体现在为生成模型建立可靠的记忆性评估框架，并确保不同编辑策略（如基线生成、教师引导、零样本学习及MemCoach方法）在统一协议下的公平比较。在构建过程中，研究人员需克服多模态数据对齐的复杂性，包括精确配对源图像与编辑后图像、关联文本指令与视觉变化，并确保记忆评分预测器在不同实验配置下的一致性。此外，大规模高质量编辑样本的生成与标注，以及避免模型过拟合特定数据分布，亦是数据集构建中需审慎处理的技术难点。

常用场景

经典使用场景

在图像编辑与视觉记忆评估领域，MemBench-InternVL3.5-Eval数据集为研究者提供了标准化的测试平台，用于系统比较不同图像编辑方法在记忆保留能力上的表现。该数据集通过整合FLUX.1-Kontext-dev生成的编辑图像、InternVL3.5-8B-HF生成的反馈以及预测器计算的内存分数，构建了包含基线、教师引导、零样本及MemCoach四种实验配置的评估框架。研究者可依据数据集中的图像对与JSONL记录，定量分析各方法在保持图像视觉记忆性方面的效能，从而推动图像编辑技术的优化与创新。

解决学术问题

该数据集致力于解决图像编辑过程中视觉记忆性保持的量化评估难题，为计算机视觉与多媒体研究提供了关键基准。通过引入记忆分数作为核心指标，数据集帮助学术界克服了传统编辑质量评估中主观性强、缺乏统一标准的局限。其结构化实验设计使得研究者能够深入探究编辑指令、模型反馈与记忆保留之间的复杂关联，促进了图像生成模型的可解释性与可控性发展，为视觉内容创作与智能编辑系统的理论构建奠定了实证基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在记忆导向的图像编辑方法与评估体系创新上。例如，原始论文提出的MemCoach方法通过激活引导技术优化InternVL3.5模型的反馈生成，显著提升了编辑图像的记忆性得分。同时，基于数据集的基准比较催生了多种改进模型，如结合强化学习的自适应编辑策略、融合多模态记忆预测器的混合架构等。这些工作不仅扩展了数据集的学术影响力，还推动了视觉记忆计算这一子领域的形成，为后续研究提供了丰富的理论范式与技术工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集