LoCoMo V2

github2026-05-06 更新2026-05-07 收录

下载链接：

https://github.com/BrianV1981/locomo-v2

下载链接

链接失效反馈

官方服务：

资源简介：

LoCoMo V2是一个社区修正的、100%可解决的版本，修复了原始LoCoMo（长时会话记忆）基准中的致命结构缺陷，包括99个地面真实幻觉和82个死图像链接，为测试LLM和MLLM记忆系统确立了“黄金标准”。

LoCoMo V2 is a community-curated, 100% solvable version that fixes the fatal structural flaws in the original LoCoMo (Long-Context Session Memory) benchmark, including 99 ground-truth hallucinations and 82 broken image links, establishing a "gold standard" for evaluating the memory systems of LLMs and MLLMs.

创建时间：

2026-04-28

原始信息汇总

数据集概述：LoCoMo V2

基本信息

数据集名称: LoCoMo V2 (Long-term Conversational Memory Benchmark V2)
地址: https://github.com/BrianV1981/locomo-v2
类型: 长期对话记忆基准测试数据集
领域: 多模态（文本 + 图像）长期记忆评估
用途: 评估LLM和MLLM（大语言模型及多模态大语言模型）的记忆系统能力

核心改进

LoCoMo V2 是对原始 LoCoMo 数据集的社区修正版本，主要修复了以下三个致命缺陷：

修复了地面真相中的幻觉问题：原始数据集的99个得分-错误注释已被修正，消除了注释者基于自身搜索查询而产生的虚构细节。
修复了死链接问题：发现862张图片URL中有87张（10%）永久失效，导致82个问题无法回答。V2通过分区处理解决了该问题。
阻止了MemPalace式作弊：通过强制严格top-k检索限制和要求真正的多模态RAG（如LLaVA视觉扁平化），防止了文本绕过和问题篡改等作弊行为。

数据集组成

数据集中共有 1,986个问题，被分为三个严格的集合：

集合类型	问题数量	说明
纯文本集	1,251	证据链中不包含任何图像
可验证图像集	653	证据依赖于775个有效且可访问的图像URL
死图像集	82	证据依赖于永久失效的链接（不可回答）

仓库结构

/data/: 核心数据集文件，包括：
- locomo_v2_base.json: 经文本地面真相修正后的最准确文本版本
- locomo_v2_final.json: 标准版本，包含有效互联网URL
- locomo_v2_web.json: 不可变版本，URL映射到GitHub托管的原始图像
- locomo_v2_local.json: 企业级离线版本，URL映射到本地相对路径
/judge/: 标准化的A.I.M. LLM作为裁判协议，包含评估角色文件AGENTS.md和参考实现ghost_judge.py
/scripts/: Python工具脚本，用于映射替换、应用上游修复和生成V2数据集
/tests/: 单元测试，确保数据集补丁逻辑确定性地运行
/artifacts/: 构建阶段的临时日志、批处理文件和遗留预测恢复文件
LOCOMO_V2_FULL_CHANGELOG.md: 完整的变更日志文档

使用方法

用户可以将locomo_v2_base.json用于纯文本评估，后续locomo_v2_final.json将作为完整的1,986问题多模态黄金标准发布。

视觉翻译缓存（姊妹仓库）

仓库地址: locomo-visual-ground-truth
功能: 永久托管775张有效图像的本地保存版本（合理使用），以及基于LLaVA OCR的深度JSON缓存，开发者可绕过失效的互联网链接和盲BLIP标题，实现低成本的多模态评估。

盲评估协议与标准化裁判

数据集问题前缀包含[LOCOMO-AUDIT]、[V2_CORRECTION]等分类标签，但在测试时必须从提示中剥离这些标签，以避免对LLM造成偏见。
引入了结构化的judge/目录，提供标准化的LLM裁判协议，解决传统二元判分谬误（Binary Judge Fallacy），确保智能体在提供详尽上下文答案时保持公正评分，并尊重认识论诚实（如对无答案的欺诈问题回答"不知道"而非编造）。

搜集汇总

数据集介绍

构建方式

LoCoMo V2的构建基于对原始LoCoMo数据集的深度修复与系统性重组。针对原始数据中存在的99处标注幻觉错误和87个永久失效的图像链接（占比达10%），研究人员通过程序化合并来自locomo-audit仓库的156项修正，生成了当前最精确的文本版本locomo_v2_base.json。进一步将1986个问题依据证据链严格划分为纯文本集（1251题）、可验证图像集（653题）与死链集（82题），并为死链集利用377张未使用环境图像生成全新替代问题，使基准测试恢复至完整1986题规模。同时建立locomo-visual-ground-truth兄弟仓库，永久存放775张存活图像的低分辨率版本及LLaVA OCR转录缓存，彻底规避未来链接腐烂风险。

特点

该数据集的核心优势在于其数学意义上的完全可解性与多模态评估的纯净性。通过彻底清除原始标注中的查询泄漏与虚构答案，确保忠实提取对话事实的系统不再因缺乏幻觉行为而受到惩罚。创造性地引入视觉翻译缓存机制，用本地持久化存储替代易腐互联网链接，并借助LLaVA的OCR能力填补BLIP字幕缺少文字识别的盲区。数据集设计了三个严格隔离的子集版本（标准版、不可变Web版、本地化版），满足不同部署环境需求。特别引入标准化智能裁判协议（AIM LLM-as-a-Judge），通过解耦提示与参考实现，有效解决二元裁判谬误，公正评价系统在时序推理与认知诚实方面的真实表现。

使用方法

使用LoCoMo V2进行评估时，应首先选择适配的数据集变体：标准在线版locomo_v2_final.json用于常规测试，不可变版locomo_v2_web.json映射至GitHub托管图像，本地版locomo_v2_local.json支持完全断网的企业级环境。在调用评估流程前，务必通过正则表达式或字符串替换去除问题中的[V2_CORRECTION]等分类标签，避免标签内容对语言模型基座权重产生偏见。推荐采用judge/目录中的智能裁判协议，加载AGENTS.md作为裁判语言模型的官方人格设定，并利用ghost_judge.py参考实现执行标准化评估，以准确衡量系统在多模态检索与长对话记忆上的真实能力。

背景与挑战

背景概述

LoCoMo V2诞生于2024年，由社区研究者BrianV1981等人基于Snap Research团队（Maharana等）在ACL 2024提出的原始LoCoMo基准进行修正与重建，旨在构建长时对话记忆评估的黄金标准。该数据集聚焦于评估大语言模型与多模态语言模型在长程多轮对话中的事实记忆与检索能力，其前身因标注错误与链接失效导致无法实现100%准确评测，而V2版本通过系统性修复，为长时对话记忆研究提供了首个无瑕疵的、可复现的评测环境。这一工作对推动对话AI的鲁棒性评估具有里程碑意义，尤其对多模态检索增强生成系统的公平性测试贡献卓著。

当前挑战

原LoCoMo数据集面临双重致命缺陷：其一，标注者人为引入99处答案幻觉，例如将视觉证据中的模糊描述（如“红色跑车”）误记为精确型号（如“法拉利488 GTB”），导致忠实提取事实的模型反而被扣分；其二，10%的图像URL永久失效（共87张），致使82个问题依赖已404的链接无法回答，而原始数据集仅提供缺乏OCR能力的简单描述（如将书描述为“带硬币的书”），造成多模态问答全面瘫痪。构建V2时，需解决标注污染与链接衰亡的连锁问题，通过大规模脚本审计、视觉证据缓存与答案重生成，实现156项修正与82道替换问题的精密工程，同时防止先前系统利用文本泄露或问题篡改绕过多模态评估的投机行为。

常用场景

经典使用场景

LoCoMo V2作为长程对话记忆的黄金基准测试，主要用于评估大型语言模型（LLM）和多模态大语言模型（MLLM）在复杂对话历史中维持、检索与推理信息的能力。该数据集通过精心编排的多轮对话、图文交织的上下文线索，模拟了真实世界中长期交互中记忆系统面临的核心挑战，被广泛用于检验模型能否从长达数十轮、掺杂多模态内容的对话中精准提取事实性知识，并抵御因时间推移和证据链断裂而引发的信息衰减。

实际应用

在实际应用层面，LoCoMo V2为构建具有持久记忆能力的对话式AI系统提供了严苛的测试沙盒。它被用来验证智能助手能否在跨周、跨月的用户交互中维持上下文连贯性，例如在客服场景中准确回忆客户先前的设备型号偏好，或在虚拟伴侣场景中铭记用户提及的书籍标题。数据集中引入的盲评协议和标准化评审代理系统，确保了部署前的模型不会因过度拟合评估指标而牺牲真实的语义理解，从而提升产品级对话系统的鲁棒性和用户信任度。

衍生相关工作

围绕LoCoMo V2已衍生出多项重要工作，其中最引人注目的是对原始基准的深度取证审计，揭示了基于文本绕过视觉推理的欺诈性捷径。研究者受此启发，开发了不可逆的视觉缓存仓库来固化图像证据，并建立了严格的多模态检索-生成流水线。此外，标准化的LLM-as-a-Judge评估框架被独立采纳为长程对话记忆任务的主流验证方法，催生出一系列注重认知诚实度和时间推理能力的新型模型架构，显著提升了该领域的学术严谨性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集