MemLens

github2026-05-07 更新2026-05-16 收录

下载链接：

https://github.com/xrenaf/MEMLENS

下载链接

链接失效反馈

官方服务：

资源简介：

MemLens是一个用于评估视觉语言模型中长视野对话记忆的基准数据集。它测试模型是否能够在32K/64K/128K/256K上下文窗口中检索、回忆、更新和推理嵌入在多会话对话中的视觉和文本信息。包含789个问题，涵盖5种类型：信息提取、知识更新、时间推理、多会话推理和答案拒绝（弃权）。

MemLens is a benchmark dataset for evaluating long-horizon conversational memory in vision-language models (VLMs). It assesses whether models can retrieve, recall, update, and perform reasoning over visual and textual information embedded in multi-session conversations across context windows of 32K, 64K, 128K, and 256K tokens. The dataset contains 789 questions spanning five categories: information extraction, knowledge update, temporal reasoning, multi-session reasoning, and answer rejection (abstention).

创建时间：

2026-05-06

原始信息汇总

数据集概述：MemLens

MemLens是一个用于评估视觉语言模型（VLM）在多模态、长上下文对话环境中记忆能力的基准测试平台。它专注于检验模型能否在跨多轮对话中，对视觉和文本信息进行检索、回忆、更新与推理。

核心特性

任务类型：问答（Question-Answering）与视觉问答（Visual Question-Answering）。
语言：英语（English）。
数据规模：共包含 789 个问题，分布在 5 种不同的能力测试类型中：
1. 信息提取 (Information Extraction)
2. 知识更新 (Knowledge Update)
3. 时序推理 (Temporal Reasoning)
4. 多会话推理 (Multi-Session Reasoning)
5. 拒绝回答 / 弃权 (Answer Refusal / Abstention)
上下文长度：基准测试覆盖了 32K、64K、128K 和 256K 四种不同的上下文窗口长度，用于测试模型在处理更长上下文时的表现。
数据来源：数据集（问题、元数据、会话等）采用 CC-BY-4.0 许可证。评估代码采用 MIT 许可证。数据集中的图片来源于网络，并保留其原始网站的许可证。

数据构成

数据集可在 Hugging Face (xiyuRenBill/MEMLENS) 下载，其目录结构如下：

dataset_32k.json 至 dataset_256k.json：四个包含相同 789 个问题、但上下文长度（“干草堆”对话轮次）不同的数据文件。
agent_subset_195.json：一个索引文件，列出了用于评估记忆增强型智能体（如 M3-Agent、M2A 等）的 195 个问题的 ID 子集。
release_images/：包含 4,695 张独立图片的文件夹。
metadata/：包含 Croissant 1.0 及 RAI 元数据。

支持的模型

MemLens 提供了评估代码，支持多种模型，包括闭源 API 模型和开源本地模型。

闭源 API 模型：
- GPT-4o, GPT-4.1, o3, o4-mini, Seed-1.8
- Claude Sonnet 4, Opus 4
- Gemini 2.5/3 Pro/Flash
- Kimi K2.5
开源本地模型：
- Qwen 系列 (Qwen3-VL, Qwen2.5-VL, Qwen2-VL)
- Gemma 系列 (Gemma 3, Gemma 4)
- GLM 系列 (GLM-4.6V, GLM-4.5V)
- Phi-4
- Cosmos-Reason2-8B
- Nemotron-Nano-12B VL

评估与评分

该基准测试提供了完整的评估管道，包含三个阶段：

阶段一：确定性指标。在评估过程中直接计算子串精确匹配（SubEM）、F1 分数、拒绝检测等确定性指标。
阶段二：LLM 裁判。使用一个独立的、能力更强的 LLM（如 Qwen3-VL-235B）作为裁判，对模型输出进行更准确的评分。
阶段三：提取后匹配。先使用一个 LLM 从冗长的模型输出中提取核心答案，再应用类型特定的确定性匹配进行评分。

搜集汇总

数据集介绍

构建方式

MemLens数据集旨在评估视觉语言模型在多轮对话中的长程记忆能力。其构建基于多会话对话框架，在32K至256K不等的上下文窗口中嵌入视觉与文本信息，形成包含789道题目的评测集。题目涵盖信息抽取、知识更新、时序推理、多会话推理及回答拒绝五大类型，每道题均配有对话历史、相关图像及指令。数据从Hugging Face下载，包含四份不同长度的JSON文件及4695张独立图像，并特设195题的评估子集以适配记忆增强型代理管线的运算效率。

特点

MemLens的独特之处在于其多模态长上下文对话记忆的基准设计。它系统性地考察模型能否在冗长的跨会话对话中检索、记忆、更新及推理信息，覆盖32K至256K的上下文窗口，挑战远超常规问答任务。针对五种问题类型分别设计评测指标，融合确定性匹配与LLM作为评判者的混合评分机制，确保了评估的全面性与准确性。此外，数据集提供文本消融与无上下文基线设定，支持模型能力的精细剖析。

使用方法

使用MemLens时，研究者可通过vLLM服务器或HuggingFace Transformers运行本地模型，亦可调用GPT-4o、Claude等API模型进行评测。评估分为三步：首先运行eval.py或eval_api.py生成预测结果，随后通过parse_utils.py计算确定性指标，最后利用llm_judge.py进行LLM评判以获得精细化评分。脚本run_benchmark.sh封装了完整流程，支持烟测试与断点恢复。图像路径需通过--image_dir指定，最大输入长度与生成令牌数需根据模型调整。

背景与挑战

背景概述

MemLens 数据集由 Ren 等人于 2025 年创建，旨在评估视觉语言模型在多模态长上下文对话中的记忆能力。随着大型语言模型在复杂场景中的广泛应用，模型能否在长达 32K 至 256K 标记的对话窗口内准确检索、更新与推理视觉及文本信息成为了亟待解决的核心研究问题。该数据集由多家机构合作完成，包含 789 道精心设计的问题，覆盖信息抽取、知识更新、时间推理、多会话推理及答案拒绝等五种类型，为多模态长上下文理解领域提供了一个系统化的评测基准。其发布显著推动了视觉语言模型在持续性对话场景中的能力验证与性能评估，成为相关领域研究者广泛参照的标志性资源。

当前挑战

MemLens 数据集面临的挑战主要源自两方面：一是所解决的领域问题，即视觉语言模型在处理多模态长上下文对话时，面临记忆跨度延长导致的信息遗忘、跨会话依赖关系的捕获困难，以及对动态知识更新的适应性不足等瓶颈，亟需在极高信息密度下实现精准检索与逻辑推理。二是构建过程中遇到的挑战，包括如何设计多样化的对话场景以覆盖真实应用中的复杂交互，如何确保不同上下文长度下的问题难度与分布保持公平，以及如何在高耗时的手动标注与自动生成间达到平衡，同时还需解决大量图片的版权合规与存储管理问题，从而保障数据集的质量与可持续性。

常用场景

经典使用场景

MemLens作为一项开创性的多模态长上下文对话记忆基准测试，主要用于评估视觉语言模型在多轮跨会话对话中嵌入的海量图文信息检索、回忆、更新与推理能力。其核心使用场景聚焦于32K至256K的超长上下文窗口，通过精心设计的信息提取、知识更新、时间推理、多会话推理及回答拒答五类任务，共计789个细粒度问题，系统性地检验模型能否在多段对话交织的复杂叙事中精准定位并利用分散于文本与图像中的关键线索，从而揭示当前顶尖VLM在处理持续性对话记忆时的本质局限。

衍生相关工作

MemLens的问世催生了多个具有影响力的后续研究工作。一方面，基于其195个精心抽样的代理子集，研究者系统性地评测了包括M3-Agent、M2A、M3C、Memory-T1、Mem0、MemOS和MemAgent-7B在内的记忆增强型代理流水线，推动了记忆机制与VLM深度融合的技术探索。另一方面，该基准启发了针对性的模型优化策略，如链式思维提示、结构化推理输出及图像标签化方法的有效性验证。此外，其所倡导的LLM-as-Judge评分方案与提取-匹配混合评估策略，也为后续乃至更广泛的长上下文基准测试提供了方法论参考。

数据集最近研究