memanto-longmem-results
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/moorcheh/memanto-longmem-results
下载链接
链接失效反馈官方服务:
资源简介:
Memanto LongMemEval Benchmark Results 数据集包含了 Memanto 在 LongMemEval 长期交互记忆基准测试中的完整评估结果,覆盖了渐进式消融研究的五个阶段。该数据集旨在评估代理 AI 在长期记忆任务中的表现,包括信息提取、多会话推理、时间推理、知识更新和弃权等核心能力。数据集包含 500 个手动策划的问题,分为六个类别:单会话用户、单会话助手、单会话偏好、知识更新、时间推理和多会话。每个数据条目包含问题 ID、问题类型、问题文本、预测答案、真实答案、正确性评分(0 或 1)、评分理由和检索上下文大小等字段。数据集分为五个消融阶段,分别对应 Memanto 架构的不同配置,展示了从基线到最终优化版本的性能提升。最终阶段(Stage 5)在 LongMemEval 基准上达到了 89.8% 的准确率,是纯向量架构中的最高性能。该数据集适用于研究长期记忆、检索增强生成、多会话对话系统和时间推理等任务。
创建时间:
2026-04-25
原始信息汇总
数据集概述
Memanto LongMemEval Benchmark Results 数据集包含了 Memanto 在 LongMemEval 长程交互记忆基准测试上的完整逐问题评估结果,涵盖了一项五阶段逐步消融研究的所有阶段。该数据集与论文《Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents》一同发布。
数据集基本信息
- 语言: 英语
- 许可证: MIT
- 任务类别: 问答(开放域问答、抽取式问答)
- 标签: 基准测试、长程记忆、检索增强生成、对话、多会话、时序推理、知识更新、向量搜索等
- 数据规模: n < 1K(少于1000条)
- 来源数据集: 原始数据
- 注释创建者: 机器生成
- 语言创建者: 机器生成
- 多语言性: 单语(英语)
关于 Memanto
Memanto 是一个面向智能体 AI 的通用记忆层,在 LongMemEval 上使用纯向量架构实现了89.8%的最新准确率。其关键架构特征包括:
- 13类别类型化语义记忆模式(事实、偏好、决策、承诺、目标、事件、指令、关系、上下文、学习、观察、错误、人工制品)
- 自动化冲突解决,用于矛盾检测和版本管理
- 每个问题仅使用单一检索查询,无并行或递归策略
- 零摄入成本,无索引延迟,写入时无需 LLM 提取
关于 LongMemEval
LongMemEval 是一个大规模基准测试,包含500个精心设计的问题,分布在六个类别中,旨在评估五项核心记忆能力:
| 类别 | 描述 |
|---|---|
| 单会话用户 | 用户在单个会话中陈述的信息 |
| 单会话助手 | 会话中助手回复中的信息 |
| 单会话偏好 | 单个会话中表达的用户偏好 |
| 知识更新 | 早期信息后被更正或更新的问题 |
| 时序推理 | 需要时序排序和推理的问题 |
| 多会话 | 需要跨多个会话综合信息的问题 |
标准评估设置大约包含115K token,横跨约50个会话。
数据集结构
数据集包含五个子集(split),分别对应消融研究的五个阶段。每一行代表一个被评估的问题,包含以下字段:
| 列名 | 类型 | 描述 |
|---|---|---|
sample_id |
字符串 | 唯一问题标识符 |
question_type |
字符串 | LongMemEval 类别 |
question |
字符串 | 评估问题 |
prediction |
字符串 | Memanto 生成的答案 |
ground_truth |
字符串 | 基准测试的标准答案 |
score |
整数 | 二元正确性评分(1=正确,0=错误) |
reasoning |
字符串 | LLM 评分者的推理过程 |
context_size |
整数 | 该问题检索上下文中的 token 数量 |
消融研究阶段
| 子集 | 阶段 | 配置 | LongMemEval 准确率 |
|---|---|---|---|
ablation_1 |
阶段1 — 朴素基线 | k=10, threshold=0.15, Claude Sonnet 4 | 56.6% |
ablation_2 |
阶段2 — 召回扩展 | k=40, threshold=0.10, Claude Sonnet 4 | 77.0% |
ablation_3 |
阶段3 — 提示优化 | k=40, threshold=0.10, 优化提示 | 79.2% |
ablation_4 |
阶段4 — 最大召回 | k=100, threshold=0.05, 动态预算 | 85.0% |
ablation_5 |
阶段5 — 推理模型升级 | k=100, threshold=0.05, Gemini 3 | 89.8% |
关键发现: 阶段2(召回扩展,k=10→40)带来了最大的单次提升(+20.4个百分点),证实检索召回率(而非架构复杂性)是主要的性能驱动因素。
最终按类别结果(阶段5)
| 类别 | 准确率 |
|---|---|
| 单会话用户 | 95.7% |
| 单会话助手 | 100.0% |
| 单会话偏好 | 93.3% |
| 知识更新 | 93.6% |
| 时序推理 | 88.0% |
| 多会话 | 81.2% |
| 整体 | 89.8% |
与其他系统对比
| 系统 | LongMemEval | 架构 | 查询策略 |
|---|---|---|---|
| Memanto(本工作) | 89.8% | 纯向量 | 单一查询 |
| Hindsight | 91.4% | 混合(反思+向量) | 并行多查询 |
| EmergenceMem | 86.0% | 混合(图+向量) | 并行多查询 |
| Supermemory | 85.2% | 混合(图+向量) | 并行多查询 |
| Memobase | 75.8% | 混合(图+向量) | 并行单一查询 |
| Zep | 71.2% | 混合(图+向量) | 并行单一查询 |
| Full Context | 60.2% | 完整上下文 | 不适用 |
| Mem0 | 66.9% | 纯向量 | 并行单一查询 |
| LangMem | 58.1% | 纯向量RAG | 单一查询 |
Memanto 在所有纯向量系统中取得了最高准确率,超过 Mem0 +22.9个百分点。
评估设置
- 基准测试: LongMemEval 完整 500 问题套件(标准 S 设置,约 115K token,约 50 会话)
- LLM 评分器: Claude Sonnet 4(所有阶段)
- 推理模型: Claude Sonnet 4(阶段1-4),Gemini 3(阶段5)
- Memanto 版本: 2.1.4
- 检索后端: Moorcheh ITS 引擎(单一查询,无多查询或递归策略)
可复现性
所有评估结果均可完全复现,复现代码和相关资源可在 moorcheh-ai/memanto-evaluation 代码仓库中找到,具体位于 memanto-evaluation/longmem 目录下,包含基准测试数据集、问题套件、各消融阶段结果文件和完整评估流水线 Python 脚本。
搜集汇总
数据集介绍

构建方式
该数据集汇集了Memanto在LongMemEval长程交互记忆基准测试上的逐问题评估结果,完整覆盖了一项五阶段渐进消融实验的全部历程。每个阶段对应唯一的配置文件分割,例如从朴素基线到最终优化配置,逐步调整检索数量、阈值、提示策略及推理模型。数据集中每一行代表一个经过标准化评估的问题记录,囊括样本标识、问题类型、模型预测答案、真实参考答案、二值正确性评分、裁判模型推理过程以及检索上下文长度等关键字段。评估过程中引入克劳德·索内4作为裁判模型,对每个答案进行自动判定,确保了评分的一致性与可复现性。
特点
该数据集最显著的特征在于其系统化的消融结构,清晰揭示了影响长程记忆系统性能的核心变量。五阶段消融记录从简单的向量检索基线(准确率56.6%)逐步演进至最终的高精度方案(89.8%),其中第二阶段通过提升检索数量实现了20.4个百分点的最大增益,有力证明了检索召回率而非架构复杂度才是性能的主导因素。此外,数据集按六类问题(如单会话用户、知识更新、跨会话推理等)进行了精细分类,使得研究者能够深入洞察不同类型记忆任务的表现差异。所有结果均源自纯向量架构,无需知识图谱或多查询流程,体现了极简设计下的卓越效能。
使用方法
研究者可通过HuggingFace的datasets库便捷加载该数据集,支持按分割名称访问任意消融阶段的完整结果。使用load_dataset函数并指定split参数(如'ablation_5')即可获取对应阶段的DataFrame,随后可利用pandas进行数据分析、准确率计算及按问题类型聚合统计。尤为便利的是,数据集提供了自动化的跨阶段比较代码示例,使得一次运行即可对比五个阶段的全局准确率变化。对于希望深入探索的用户,数据集还附带Excel工作簿,包含格式化后的所有消融结果表格,便于离线查看与报告制作。评估流程完全可复现,相关代码与资源均已在配套的GitHub仓库中开源。
背景与挑战
背景概述
在大语言模型驱动的智能体架构中,长期记忆管理是支撑多轮交互、跨会话推理与知识更新的核心能力,然而现有系统在检索精度、架构复杂度与实时性之间面临着严峻的权衡。Memanto-longmem-results数据集由Moorcheh AI与EdgeAI Innovations团队于2025年创建,研究成员包括Seyed Moein Abtahi、Rasa Rahnema、Hetkumar Patel等,旨在系统评估Memanto这一基于信息论检索的纯向量记忆层在LongMemEval基准上的表现。该基准包含500个手工标注问题,横跨单会话用户、多会话推理、时间推理、知识更新与弃权五大记忆能力。凭借13类别类型化语义记忆模式与冲突自动消解机制,Memanto在仅靠单次向量检索的条件下达到89.8%的准确率,为纯向量架构树立了新的行业标杆,显著推动了智能体长期记忆系统的实用化进程。
当前挑战
该数据集核心解决的领域挑战在于:如何在无需知识图谱、大模型介入写入或多轮检索的约束下,实现长期记忆的高精度语义检索与逻辑一致性维护。具体挑战包括:1)长上下文多主题查询导致语义信号在嵌入空间中弥散,需平衡召回率与阈值灵敏度;2)多会话场景中用户偏好、承诺与知识的频繁更新,要求系统具备冲突消解与版本管理能力;3)时间推理与知识更新类问题对序列化记忆的精确索引提出更高要求。在数据集构建过程中,研究人员面临以下挑战:1)手工设计500道覆盖六类记忆能力的测试用例,需确保问题既能区分系统能力差异又避免数据泄露;2)针对不同消融阶段(k值、阈值、提示工程与推理模型),需设计渐进式实验以解耦各模块贡献度,其中召回扩展(k=10→40)贡献了最大增益(+20.4个百分点),证实检索召回而非架构复杂度是性能主导因素。
常用场景
经典使用场景
Memanto LongMemEval Benchmark Results 数据集的核心应用在于系统性地评测智能体的长时交互记忆能力。该数据集收录了Memanto模型在LongMemEval基准上五个渐进式消融实验的全部逐问结果,覆盖信息提取、多会话推理、时间推理、知识更新及弃权判断五大核心记忆能力。研究者可借助此数据集,通过比对不同配置下的准确率变化,深入剖析记忆检索架构中召回量、阈值校准与推理模型升级等关键因素对性能的独立贡献。这一经典使用场景为验证向量化记忆系统的有效性提供了标准化评估框架。
解决学术问题
该数据集精准回应了长时程对话智能体研究中记忆机制可解释性与可复现性不足的学术困境。传统记忆系统常将知识图谱、多查询检索与LLM中间处理等复杂模块混杂,导致性能增益来源模糊。Memanto通过消融实验数据清晰揭示了“检索召回量是性能主导驱动力”这一重要结论,而非架构复杂度。其所提供的粒化分类准确率(如单会话用户95.7%、多会话推理81.2%)为解构记忆系统瓶颈提供了定量依据,推动了对话AI从经验性设计向因果可解释性范式的转变。
衍生相关工作
围绕该数据集已衍生出一系列推动长时记忆智能体发展的开创性工作。Memanto本身作为基于信息论检索的纯向量记忆层,其架构启发了后续对语义记忆类型化(13类模式)、冲突自动消解与零延迟注入等方向的研究。同时,LongMemEval基准的500问标准化集成为跨系统比较提供了公分母,促使Hindsight等混合架构(反射+向量)与Supermemory等图-向量混合系统在此平台上展开性能对标。数据集消融实验的方法论更催生了关于检索召回-精度帕累托前沿的系统性探讨,为记忆系统的模块化设计奠定了实验范式。
以上内容由遇见数据集搜集并总结生成



