five

MEMLENS

收藏
arXiv2026-05-14 更新2026-05-16 收录
下载链接:
https://github.com/xrenaf/MEMLENS
下载链接
链接失效反馈
官方服务:
资源简介:
MEMLENS是由香港科技大学等机构联合构建的综合性多模态长时会话记忆评测基准,旨在系统评估大视觉语言模型在长上下文多轮对话中的记忆能力。该数据集包含789个精心设计的问题,覆盖信息提取、多会话推理、时序推理、知识更新与答案拒绝五大核心记忆能力,并提供了32K至256K Tokens四种标准化上下文长度版本,其数据通过多阶段流程生成,确保问题解答必须依赖视觉证据与文本的跨模态联合推理。本数据集主要应用于推动长上下文注意力机制与结构化多模态检索相结合的混合架构研究,以解决现有模型在长时多模态交互中记忆退化与视觉保真度不足的挑战。

MEMLENS is a comprehensive multimodal long-form conversational memory evaluation benchmark jointly developed by The Hong Kong University of Science and Technology and other institutions. It is designed to systematically evaluate the memory capabilities of large vision-language models in long-context multi-turn dialogues. The dataset contains 789 meticulously curated questions that encompass five core memory capabilities: information extraction, multi-conversation reasoning, temporal reasoning, knowledge update, and answer rejection. It also offers four standardized context length variants ranging from 32K to 256K Tokens. The dataset is generated through a multi-stage pipeline, which guarantees that answering these questions necessitates cross-modal joint reasoning relying on both visual evidence and textual content. This benchmark is primarily intended to advance research on hybrid architectures that integrate long-context attention mechanisms and structured multimodal retrieval, so as to address the challenges of memory degradation and insufficient visual fidelity encountered by existing models in long-term multimodal interactions.
提供机构:
香港科技大学·计算机科学与工程系; 香港中文大学; 深圳全忆智能科技有限公司; 英伟达·英伟达人工智能技术中心
创建时间:
2026-05-14
原始信息汇总

数据集概览:MemLens

MemLens 是一个用于评估视觉语言模型(VLM)在多轮对话中对视觉与文本信息进行长程记忆能力的基准测试数据集。

基本信息

  • 名称: MemLens
  • 许可证: CC-BY-4.0
  • 语言: 英文
  • 任务类别: 问答、视觉问答
  • 标签: 多模态、长上下文、对话记忆、视觉语言模型、基准测试、VLM评估

核心内容与规模

  • 问题总数: 789 个问题
  • 问题类型: 共5类,包括信息提取、知识更新、时间推理、多会话推理以及回答拒绝(弃权)。
  • 上下文窗口: 数据集提供四个不同长度的版本,分别为 32K、64K、128K 和 256K 上下文。
  • 图像资源: 包含 4,695 张独特图像,大小约为 219 MB
  • 子集: 提供一个包含 195 个问题的固定分层子集(agent_subset_195.json),专门用于评估记忆增强型代理管线。

数据文件结构

数据源自 Hugging Face 上的 xiyuRenBill/MEMLENS。预期目录布局如下:

  • dataset_32k.json (789项,约104 MB)
  • dataset_64k.json (789项,约203 MB)
  • dataset_128k.json (789项,约392 MB)
  • dataset_256k.json (789项,约778 MB)
  • agent_subset_195.json (约5.5 KB的索引文件)
  • release_images/ (4,695张图像)
  • metadata/croissant.json (Croissant 1.0 + RAI元数据)

评估方法

该基准测试采用三阶段评分方法:

  1. 阶段1 - 确定性指标: 包括子集精确匹配、F1分数、拒绝检测和校准,在评估过程中即时计算。
  2. 阶段2 - LLM评分: 使用一个独立的、功能强大的LLM(如 Qwen3-VL-235B)作为评判者进行更精确的评分。
  3. 阶段3 - 混合评分: 先使用LLM提取核心答案,再应用特定类型的确定性匹配。

支持的模型

该数据集支持广泛的模型,包括:

  • 闭源API模型: GPT-4o、GPT-4.1、o3、o4-mini、Claude Sonnet 4、Opus 4、Gemini 2.5/3 Pro/Flash、Kimi K2.5等。
  • 开源本地模型: Qwen3-VL系列、Qwen2.5-VL、Gemma 3 & 4、GLM-4.6V、Phi-4、Cosmos-Reason2-8B、Nemotron-Nano-12B VL等。

引用

bibtex @inproceedings{ren2026memlens, title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models}, author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon}, booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
MEMLENS的构建遵循一条严谨的四阶段流水线。首先,通过层级本体论采样主题,并利用网络爬虫与多模型过滤器获取高质量图像,借助双代理模拟(GPT-5.1作为用户,Gemini-3-Pro作为助手)生成多模态对话会话。其次,通过实体抽象技术,将关键命名实体替换为泛指的图像锚点,强制问题必须依赖图像与文本的联合推理才能解答,从而构建问答对。接着,将每个证据事实嵌入完整的会话中,使其在主题与风格上与干扰会话无异,以提升检索难度。最后,将证据会话、干扰会话及纯文本填充会话按时间戳交错排列,并通过跨模态令牌计数方案生成四种标准上下文长度(32K至256K tokens),确保长度可控的可比性。
使用方法
使用MEMLENS时,研究者可将多模态多会话对话历史(包含交错文本与图像)作为输入,要求模型基于历史内容回答问题。若信息不足,模型需明确拒绝回答。评估采用LLM-as-Judge方法,使用Qwen3-VL-235B作为裁判,对模型输出与标准答案进行比对打分。基准提供了四种标记长度(32K、64K、128K、256K)的实例,支持对长上下文LVLMs和记忆增强型代理进行长度控制下的公平比较。官方代码与数据集均已开源,便于复现与扩展研究。
背景与挑战
背景概述
MEMLENS诞生于多模态长程记忆评估的空白地带,由香港科技大学、香港中文大学、OmniMemory与英伟达AI技术中心的研究团队于2026年联合构建。该数据集聚焦于大型视觉语言模型在多轮对话中维持跨模态记忆一致性的核心挑战,旨在系统比较长上下文模型与记忆增强型代理在多会话、多模态证据检索与推理上的表现。MEMLENS包含789道精心设计的问题,覆盖信息提取、多会话推理、时序推理、知识更新与拒绝回答五种记忆能力,并设置32K至256K四种标准上下文长度,首次实现了对两类模型在同一尺度下的公平对比。该基准的提出填补了既有评测在视觉证据必要性验证与长度可控比较上的双重缺失,对推动鲁棒、可信的多模态对话系统发展具有重要导向意义。
当前挑战
MEMLENS所应对的领域问题在于,现有基准要么仅关注纯文本对话记忆,要么虽保留图像却允许仅凭文本作答,缺乏对多模态证据真正强依赖的系统性评测。构建过程中面临的核心挑战包括:如何通过实体抽象与图像锚定设计出仅凭文本无法破解的跨模态问题;如何生成在内容与风格上与干扰会话难以区分的证据会话,从而防止模型利用表面线索定位答案;如何在四个上下文长度下保持文本与图像的固定比例,避免位置偏差;以及如何通过三轮人工审查与自动过滤从两万余候选问题中筛选出最终的有效样本。此外,实验揭示两大互补性难题并存——长上下文模型在短语境下表现优异但随长度增长明显退化,而记忆代理虽长度鲁棒却在存储时因有损压缩丢失视觉保真度,且部分后训练策略削弱了模型的拒答能力,表明现有单一架构均无法独立攻克多模态长程记忆任务。
常用场景
经典使用场景
在大型视觉语言模型与记忆增强代理迅猛发展的浪潮中,对多模态长期记忆能力的系统性评估成为亟待填补的空白。MEMLENS 作为首个在该领域实现长度可控对比的基准,其经典使用场景在于精准衡量模型在多轮多会话对话中,面对需跨模态推理的复杂问题时,所展现出的信息提取、多会话推理、时间推理、知识更新与合理拒答五项核心记忆能力。通过标准化的上下文长度控制(32K至256K token),研究者得以在同一框架下公平比较长上下文LVLM与记忆增强代理的优劣,从而揭示不同架构在记忆任务上的本质差异与互补性。
解决学术问题
在MEMLENS问世之前,学术界缺乏一个能够同时覆盖视觉与文本双模态、并严格区分证据来源的长期记忆评估体系。现有基准或局限于纯文本,或其问题设计允许仅凭文本甚至参数化知识即可作答,导致视觉模态形同虚设。MEMLENS通过创新的实体抽象与跨模态依赖验证机制,强制要求模型必须联合利用视觉与文本证据方能正确回答,彻底排除了文本捷径的干扰。其揭示的核心发现——多会话推理能力将多数系统的准确率压制在30%以下,以及长上下文LVLM与记忆代理在视觉保真度与长度稳定性上呈现正交的失效模式——为后续混合架构的设计提供了坚实的理论依据与验证工具。
实际应用
在实际应用层面,MEMLENS 为构建高可靠性多模态对话助手提供了关键的性能诊断标尺。其评估能力直接对应产品级个人助手在真实场景中的核心挑战:例如,用户在连续数周的多次对话中分享并更新关于宠物、旅行或家居装饰的偏好与细节,一个拥有健康记忆机制的助手应能准确提取早期会话中的视觉信息(如宠物的品种),并在用户后续更改喜好后正确更新而非引用旧知识。同时,当问题涉及从未被提及的信息时,能够在降低幻觉风险方面展现出稳健的拒答能力。MEMLENS 所建立的长度可控评估协议,为这些“记忆生存能力”的量化和追踪提供了可复现的标准化方法。
数据集最近研究
最新研究方向
当前研究聚焦于构建结合长上下文注意力机制与结构化多模态检索的混合架构,以突破大型视觉语言模型在跨会话、多模态长期记忆任务中的性能瓶颈。MEMLENS作为首个在统一长度控制协议下系统性比较长上下文LVLMs与记忆增强代理的基准,揭示了二者互补的失效模式:前者在短上下文精度上依靠直接视觉定位占据优势,但随对话历史增长性能显著衰退;后者虽保持长度稳定性,却在存储阶段因模态压缩丢失细粒度视觉线索。多会话推理能力成为所有系统的共同天花板(准确率普遍低于30%),且五类记忆能力间的低相关性表明单项评测不可替代。上述发现推动了业界对视觉证据保真度与检索鲁棒性的重新重视,促使记忆系统设计从单一维度扩展转向跨模态证据的保留与精准定位,为新一代具有长时记忆能力的多模态对话智能体奠定了基础。
相关研究论文
  • 1
    MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models香港科技大学·计算机科学与工程系; 香港中文大学; 深圳全忆智能科技有限公司; 英伟达·英伟达人工智能技术中心 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作