MemEye
收藏github2026-05-14 更新2026-05-16 收录
下载链接:
https://github.com/MinghoKwok/MemEye
下载链接
链接失效反馈官方服务:
资源简介:
MemEye是一个诊断框架,通过两轴分类法评估多模态代理记忆:X轴(视觉证据粒度)从场景级(X1)到像素级(X4)证据;Y轴(记忆推理深度)从原子检索(Y1)到关系关联(Y2)和进化合成(Y3)。该基准包括8个生活场景任务中的371个镜像多项选择题和开放性问题,并带有注释线索回合和验证门,用于可回答性、捷径抵抗、视觉必要性和推理结构。
MemEye is a diagnostic framework for evaluating multimodal agent memory using a two-axis taxonomy: the X-axis (visual evidence granularity) spans from scene-level (X1) to pixel-level (X4) evidence, and the Y-axis (depth of memory reasoning) ranges from atomic retrieval (Y1) to relational association (Y2) and evolutionary synthesis (Y3). This benchmark includes 371 mirrored multiple-choice and open-ended questions across 8 daily life scenario tasks, with annotated clue turns and validation gates designed to assess answerability, shortcut resistance, visual necessity, and reasoning structure.
创建时间:
2026-04-16
原始信息汇总
MemEye 数据集概述
基本信息
- 数据集名称:MemEye(视觉为中心的多模态智能体记忆评估框架)
- 项目地址:https://github.com/MinghoKwok/MemEye
- 数据集托管平台:HuggingFace(https://huggingface.co/datasets/MemEyeBench/MemEye)
- 许可证:Apache License 2.0
- Python版本要求:3.10+
评估框架
MemEye 是一个诊断性评估框架,通过双轴分类法评估多模态智能体的记忆能力:
X轴(视觉证据粒度)
- X1:场景级别证据
- X4:像素级别证据
Y轴(记忆推理深度)
- Y1:原子检索
- Y2:关系关联
- Y3:演化综合
数据集规模
- 总问题数:371 道镜像 MCQ + 开放式问题
- 任务场景:8 个生活场景任务
- 标注内容:包含注释线索轮次、验证门控(可回答性、捷径抵抗、视觉必要性、推理结构)
支持的方法(13种)
| 类别 | 方法 | 模态 |
|---|---|---|
| 完整上下文 | FC-Text | 文本 |
| 完整上下文 | FC-Multimodal | 视觉 |
| 检索 | SRAG-Text | 文本 |
| 检索 | SRAG-Multimodal | 视觉 |
| 摘要 | SimpleMem | 文本 |
| 摘要 | SimpleMem-MM | 视觉 |
| 智能体记忆 | A-MEM | 文本 |
| 智能体记忆 | Reflexion | 文本 |
| 智能体记忆 | Gen. Agents | 文本 |
| 智能体记忆 | MemoryOS | 文本 |
| 智能体记忆 | M2A | 视觉 |
| 智能体记忆 | MMA | 视觉 |
| 智能体记忆 | MIRIX | 视觉 |
数据格式
数据包含以下结构:
- 角色画像(character_profile)
- 多会话对话(multi_session_dialogues),每个会话包含轮次对话及输入图片
- 人工标注问答对(human-annotated QAs),包含坐标点、问题、答案、会话ID和线索轮次
评估模式
| 模式 | 文件命名 | 评分方式 |
|---|---|---|
| MCQ | Task_Name.json | 选项精确匹配 |
| 开放式 | Task_Name_Open.json | F1、BLEU、BERTScore、LLM作为裁判 |
关键发现
- 标题描述在场景/区域级别证据上表现良好,但在实例/像素级别存在差距
- 语义检索可能混淆相关性与时间权威性,将过时证据排在新证据之上
- 原生视觉证据有助于高X维度问题,但无法单独解决演化综合问题
输出格式
每次运行在 runs/ 目录下生成:
config.json:运行配置metrics.json:按X/Y轴分解的聚合指标predictions.jsonl:逐问题预测及评分
搜集汇总
数据集介绍

构建方式
MemEye数据集构建于多模态智能体长期记忆评估的前沿需求之上,聚焦于视觉证据在记忆推理中的核心作用。该基准通过双轴分类体系系统性地设计:X轴涵盖从场景级到像素级的视觉证据粒度,Y轴涵盖从原子检索到关系关联再到演化综合的记忆推理深度。数据源自8个真实生活场景任务,包含371个镜像的多选题与开放式问题,每个问题都配有标注的线索轮次以及验证门控,以确保可回答性、抗捷径性、视觉必要性与推理结构的可靠性。
使用方法
使用MemEye基准时,用户需首先通过HuggingFace克隆包含对话JSON与图像的数据集,并运行注册脚本生成任务配置。随后可通过统一的运行脚本执行单任务评估或方法对比矩阵,支持配置多种主流智能体记忆方法(如Reflexion、A-MEM、MemoryOS等)与多个语言模型(如GPT、Gemini等)。评估模式分为多选题与开放式两种,推荐使用LLM作为裁判对开放式回答进行分数评定,同时支持F1、BLEU、BERTScore等多维度指标,所有运行结果都会自动保存至本地以供后续分析。
背景与挑战
背景概述
随着多模态大语言模型的迅猛发展,智能体需在长期交互中整合并调用视觉信息以支撑复杂推理,然而现有评估体系多聚焦于文本记忆,忽略了视觉证据在记忆中的关键角色。MemEye数据集于2025年由研究团队提出,旨在构建一个视觉为中心的评估框架,通过场景级至像素级的粒度维度(X轴)与原子检索至进化合成的推理深度维度(Y轴),系统诊断多模态智能体的记忆能力。该基准涵盖8个生活场景任务、371道对齐的单选题与开放题,并引入可答性、捷径抗性、视觉必要性及推理结构等校验门禁,为多模态记忆评测提供了精细化分析工具,对推动具身智能与长期交互系统的可靠演进具有重要影响力。
当前挑战
当前多模态智能体记忆面临的核心挑战在于,视觉证据的粒度与推理深度相互交织,导致评估难以精准定位失效环节。具体而言,场景级与区域级证据可通过文字描述捕获,但实例级与像素级细微线索仍需视觉原生信息支撑,现有模型在此区间表现分化显著。语义检索易混淆相关性与时间权威性,将已失效的视觉证据置于有效更新之上,引发记忆污染。此外,进化合成式推理要求模型在多个时间步中动态整合视觉变更,当前方法多依赖文本摘要或简单检索,难以捕捉像素级演化规律。构建过程中,需确保问题对视觉证据的依赖不可替代,避免模型通过文本捷径作答,同时设计多轮对话与人为标注的线索回合,以模拟真实记忆场景中的渐进式遗忘与更新挑战。
常用场景
经典使用场景
MemEye数据集作为首个以视觉为中心的多模态智能体记忆评估框架,其经典使用场景聚焦于诊断智能体在长期交互中保留与利用视觉证据的能力。该数据集精心设计了涵盖8个生活场景任务的371道镜像选择题与开放性问题,通过从场景级(X1)到像素级(X4)的视觉证据粒度,以及从原子检索(Y1)到关系关联(Y2)再到演化综合(Y3)的记忆推理深度,构建了一个二维评估矩阵。研究者可借助此框架系统性地测试多模态记忆系统在不同粒度视觉线索下的表现,尤其适用于评估基于检索、摘要或智能体记忆等不同范式的方法在复杂视觉记忆任务中的优劣。
解决学术问题
MemEye数据集直面当前多模态智能体记忆评估中的核心学术困境:现有基准测试普遍忽略了对智能体是否保留用于后续推理的视觉证据的检验。通过引入视觉不可替代性(visual irreplaceability)这一关键度量,该数据集实证揭示了纯文本标注在实例级与像素级证据上的固有局限,以及语义检索可能混淆时间权威性与相关性的痛点。它澄清了原生视觉证据虽有助于高粒度问题求解,却难以独立解决演化综合类推理任务这一重要学术发现,为多模态记忆系统的理论建模与能力边界划定提供了严谨的实证基础,对推动智能体记忆研究的科学化进程具有里程碑意义。
实际应用
在实际应用层面,MemEye数据集可作为多模态智能体系统开发者的标准化诊断工具,用于评估和优化具备长期记忆能力的虚拟助手、机器人交互系统或数字孪生平台。例如,在智能家居助手场景中,系统需记住用户在不同会话中提及的物品摆放位置变化(像素级证据)并随时间综合推理出最新状态;在商业智能领域,该数据集可用于检测记忆系统能否在跨会话的品牌信息更新中正确识别过时与有效视觉线索。此外,它还可作为多模态记忆竞赛的评测基准,推动工业界开发更可靠的视觉感知与记忆融合方案,从而提升实际部署中智能体对复杂视觉环境的理解与适应能力。
数据集最近研究
最新研究方向
面向多模态智能体的视觉记忆诊断与评估成为前沿焦点,MemEye通过构建视觉证据粒度(场景至像素级)与记忆推理深度(原子检索、关系关联、演化综合)的二维评价体系,系统性揭示了现有智能体在长时间交互中保留与推理视觉信息的瓶颈。研究发现,纯文本描述在场景与区域级证据上尚具竞争力,但在实例与像素级细节上存在显著空白;语义检索常将相关性误判为时间权威性,导致过时信息被错误优先排序;原生视觉输入虽能提升高层级问题表现,却无法独立解决演化综合推理任务。该工作为多模态智能体记忆系统在复杂生活场景中的鲁棒性评估提供了关键基准,推动了视觉证据不可替代性理论在代理记忆领域的实证研究。
以上内容由遇见数据集搜集并总结生成



