MEMLENS

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/xiyuRenBill/MEMLENS

下载链接

链接失效反馈

官方服务：

资源简介：

MemLens是一个用于评估视觉语言模型在长上下文对话中记忆能力的基准数据集。该数据集测试模型是否能够在32K、64K、128K和256K的上下文窗口中检索、回忆、更新和推理嵌入在多会话对话中的视觉和文本信息。数据集包含789个问题，分为五种类型：信息提取、知识更新、时间推理、多会话推理和答案拒绝（弃权）。每个记录包含问题ID、问题类型、问题文本、答案、问题日期、会话日期、会话ID、会话内容以及答案相关的会话ID。数据集还包含图像引用，每个图像有文件路径、原始URL和自动生成的标题。数据集支持通过`datasets`库或直接加载JSON文件使用，适用于视觉问答和长上下文对话任务。

MemLens is a benchmark dataset for evaluating the memory capabilities of vision-language models in long-context conversations. The dataset tests whether models can retrieve, recall, update, and reason about visual and textual information embedded in multi-session conversations within context windows of 32K, 64K, 128K, and 256K. The dataset contains 789 questions divided into five types: information extraction, knowledge update, temporal reasoning, multi-session reasoning, and answer rejection (abstention). Each record includes question ID, question type, question text, answer, question date, session date, session ID, session content, and session IDs related to the answer. The dataset also includes image references, each with a file path, original URL, and automatically generated caption. The dataset supports usage via the `datasets` library or direct loading of JSON files and is suitable for visual question answering and long-context dialogue tasks.

创建时间：

2026-05-06

原始信息汇总

MemLens 数据集概述

基本信息

数据集名称: MemLens
许可证: CC-BY-4.0
语言: 英语
任务类别: 问答、视觉问答
标签: 多模态、长上下文、对话记忆、视觉语言模型、基准测试、VLM评估

数据集简介

MemLens 是一个用于评估视觉语言模型在多轮对话中长程记忆能力的基准数据集。它测试模型在32K/64K/128K/256K上下文窗口下，跨多轮对话检索、回忆、更新和推理视觉及文本信息的能力。

数据集规模

总问题数: 789个
问题类型: 5类（信息提取、知识更新、时间推理、多会话推理、拒绝回答）

数据集划分

配置	上下文长度	记录数	JSON大小	Parquet大小
32k	32,768 tokens	789	~98 MB	~52 MB
64k	65,536 tokens	789	~191 MB	~101 MB
128k	131,072 tokens	789	~369 MB	~195 MB
256k	262,144 tokens	789	~732 MB	~387 MB

所有四个划分包含相同的789个问题ID，仅周围上下文长度不同。

数据字段结构

每个数据记录包含以下顶层字段：

question_id: 跨划分稳定的唯一标识符
question_type: 问题类型
question: 自然语言问题及答案格式提示
answer: 标准答案
question_date: 问题轮次的时间戳
haystack_dates: 每轮对话的日期字符串列表
haystack_session_ids: 每轮对话的ID列表
haystack_sessions: 每轮对话的对话轮次列表
answer_session_ids: 包含答案证据的对话ID子集

每个对话轮次包含：

role: 角色（用户或助手）
content: 文本内容
images: 图片引用列表
has_answer: 是否包含答案证据

每个图片引用包含：

file: 仓库内相对路径
image_url: 原始来源URL
blip_caption: 自动生成的描述

代理子集

规模: 195个问题
用途: 用于评估需要记忆增强的代理管道
类型分布: 信息提取61个、多会话推理35个、时间推理48个、知识更新29个、拒绝回答22个
文件: agent_subset_195.json

下载与加载

通过 datasets 库加载

python from datasets import load_dataset ds = load_dataset("xiyuRenBill/MEMLENS", "256k")

直接 JSON 加载

python import json data = json.load(open("dataset_256k.json"))

支持模型

闭源API模型: GPT-4o、GPT-4.1、o3、o4-mini、Seed-1.8、Claude Sonnet 4 / Opus 4、Gemini 2.5/3 Pro/Flash、Kimi K2.5
开源本地模型: Qwen3-VL系列、Qwen2.5-VL系列、Qwen2-VL、Gemma 3系列、Gemma 4、GLM-4.5V/GLM-4.6V、Phi-4、Cosmos-Reason2-8B、Nemotron-Nano-12B VL

数据集组成

数据集文件：JSON和Parquet格式，按上下文长度分为四个版本
图片文件：存储在 release_images/ 目录下，包含 haystack_images/ 和 needle_images/ 子目录
元数据：包含 Croissant 1.0 + RAI 元数据文件 (metadata/croissant.json)
数据表：DATASHEET.md 包含完整的数据集文档
引用信息：CITATION.cff

许可信息

数据集内容（问题元数据、对话会话、提示模板、评分制品）采用 CC-BY-4.0 许可证
图片保留其原始来源网站的许可证，如有侵权可联系移除

搜集汇总

数据集介绍

构建方式

MemLens是一个专为评测视觉语言模型在超长上下文对话中记忆能力而构建的基准数据集。其构建过程始于精心设计的多轮对话场景，每个场景包含跨多个会话的视觉与文本信息交织。研究者围绕信息提取、知识更新、时间推理、多会话推理及拒绝回答五类认知任务，生成了789道标准化问题。每道问题均嵌入了四组长度递增的干扰上下文，分别对应32K、64K、128K和256K令牌的上下文窗口，以模拟从短时到极长对话记忆的不同挑战。数据集以JSON和Parquet双格式发布，便于研究者灵活加载与处理。

特点

MemLens的核心特色在于其多模态、长上下文与对话记忆评估三位一体的设计。数据集不仅涵盖文本对话，还融入了大量具有原始来源的视觉图像，要求模型在图文交织的复杂语义场中定位证据。其四档上下文长度配置使得研究者能够系统探究模型在不同记忆容量下的表现衰减曲线。此外，每道问题均附带详细的会话时间戳、证据分布画像及会话归属标签，为深入分析模型的记忆提取机制提供了丰富的元数据支持。

使用方法

MemLens提供了灵活的加载方式以适配不同研究需求。使用者可通过HuggingFace datasets库一键加载各上下文长度的数据分片，亦支持直接解析JSON文件以获取结构化问答记录。图像资源需下载至本地，通过给定字段中的相对路径进行索引。为加速评估，研究团队还提供了包含195道精选问题的代理子集，专用于评估记忆增强型智能体流水线。配套的开源代码仓库提供了完整的模型适配包，覆盖从闭源API模型到开源本地模型的多类评估后端。

背景与挑战

背景概述

MemLens是由Ren Xiyu、Wang Zhaowei等来自多个机构的研究者于2026年提出的多模态长上下文对话记忆基准数据集，发表于NeurIPS Datasets and Benchmarks Track。该数据集聚焦于评估视觉语言模型在跨会话、长文本窗口下对视觉与文本信息进行检索、回忆、更新与推理的能力，覆盖32K至256K不等的上下文长度。通过精心设计的789道问题，MemLens系统性地测试了模型在信息抽取、知识更新、时间推理、多会话推理及答案拒绝五类任务上的表现，填补了现有基准在多模态对话记忆评估方面的空白，为理解与改进大规模视觉语言模型的长期交互能力提供了关键工具。

当前挑战

MemLens旨在解决视觉语言模型在真实多轮、跨会话对话中难以维持与操作长期上下文信息的领域挑战。具体而言，模型需在包含大量无关干扰信息的海量历史对话中精准定位证据、追踪时间变化并更新已有知识，这对注意力机制和记忆表征形成了严峻考验。在构建过程中，团队面临了确保问题类型均衡、答案唯一且不依赖于图像压缩或OCR偶然性的难题，同时需精心编织包含视觉线索的干草堆对话以模拟真实噪声，并严格验证每条证据的唯一指向性，从而保障评估的公平性与可靠性。

常用场景

经典使用场景

MemLens作为一项评估多模态长上下文对话记忆能力的基准测试，其最经典的使用场景在于衡量视觉语言模型在跨越多个对话会话时，能否精准地提取、检索并更新蕴含于文本与图像中的信息。该数据集通过构造包含32K至256K上下文窗口的多轮对话流，巧妙地在海量无关的“干草堆”对话中嵌入关键的“针”会话，从而严谨检验模型在长文本下维持时序连贯性与推理一致性的能力。研究者常借助其五种特定的问题类型，包括信息抽取、知识更新、时序推理、多会话推理及答案拒绝，来系统剖析模型在复杂记忆任务上的表现缺陷。

实际应用

在实际产业应用中，MemLens所模拟的场景直接映射于智能客服助手、多模态知识库查询系统与个性化虚拟助理等前沿领域。例如，一个能够回顾用户数月前讨论的图像并关联当前需求的购物助手，或是一个能基于多轮屏幕截图诊断问题的企业级IT支持机器人，都需要其底层模型具备MemLens所测度的跨会话记忆与推理能力。该数据集为开发者提供了一个严苛的验证平台，用以诊断和优化模型在处理真实世界海量用户历史纪要时的性能瓶颈，从而改进产品在用户长期跟踪、上下文感知响应和个性化服务上的表现，并减少因记忆缺失导致的错误感知与重复劳动。

衍生相关工作

基于MemLens评估框架，一系列专注于增强视觉语言模型记忆能力的经典工作应运而生。其中，记忆增强型智能体管线的研究方案，如M3-Agent、M2A与M3C，采用外部记忆机制与结构化检索来辅助模型突破原生上下文窗口限制；而Memory-T1与Mem0则专注于利用长效记忆模块实现持续的上下文知识更新。这些相关工作借助MemLens提供的标准化Agent子集，在可控且高难度的195题样本上进行了公平的比较，揭示了不同记忆架构在效率与召回精度间的权衡。此外，MemLens也催生了针对多模态基座模型本身的训练策略改进，例如数据密集型长上下文微调与记忆感知注意力机制的设计，共同推动了该领域向着更鲁棒、更持久的对话记忆目标迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集