moorcheh/memanto-longmem-results
收藏Hugging Face2026-04-27 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/moorcheh/memanto-longmem-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Memanto在LongMemEval长期交互式记忆基准测试中的完整每问题评估结果,涵盖了一个渐进式消融研究的五个阶段。数据集用于评估Memanto在信息提取、多会话推理、时间推理、知识更新和弃权等五个核心记忆能力上的表现。数据集结构包括五个消融阶段的分割,每个分割包含评估问题的详细信息,如问题类型、预测答案、真实答案和评分。Memanto是一种用于代理AI的通用记忆层,采用纯向量架构,无需知识图谱或LLM介导的摄入,实现了最先进的准确性。
This dataset contains the full per-question evaluation results of Memanto on the LongMemEval long-term interactive memory benchmark, covering all five stages of a progressive ablation study. It is designed to evaluate five core memory abilities: information extraction, multi-session reasoning, temporal reasoning, knowledge update, and abstention. The dataset structure includes five ablation splits, each containing detailed information on evaluated questions such as question type, prediction, ground truth, and score. Memanto is a universal memory layer for agentic AI that achieves state-of-the-art accuracy using a vector-only architecture, without the need for knowledge graphs or LLM-mediated ingestion.
提供机构:
moorcheh
搜集汇总
数据集介绍

构建方式
Memanto-LongMemEval-Results数据集收录了Memanto在LongMemEval基准测试上的完整逐问题评估结果,涵盖五项渐进式消融实验的各个阶段。该数据集通过系统化调整Memanto记忆层的核心参数(如检索数量k、相似度阈值与提示词策略),并逐步升级推理模型(从Claude Sonnet 4演进至Gemini 3),从而追踪不同配置下的性能演变。每一行记录对应一个独立的评估问题,包含样本标识符、问题类型、模型预测答案、参考标准答案、由Claude Sonnet 4裁决的二值正确性分数及裁决理由,为深入理解检索架构对长程交互记忆的影响提供了结构化数据基础。
使用方法
研究者可通过HuggingFace Datasets库便捷加载该数据集,使用`load_dataset("moorcheh/memanto-longmem-results", split="ablation_5")`命令即可调用特定消融阶段的数据。借助`to_pandas()`方法可将数据转换为DataFrame格式,进而利用`df["score"].mean()`计算准确率或通过`groupby("question_type")["score"].mean()`获得分项性能。数据集支持跨阶段比较以分析消融路径,亦可结合LongMemEval的完整基准套件和Memanto评估仓库中的复现脚本,在统一框架内验证并扩展实验结论。
背景与挑战
背景概述
Memanto-LongMemResults数据集由Moorcheh AI与EdgeAI Innovations的研究团队于2026年创建,核心成员包括Seyed Moein Abtahi、Rasa Rahnema等人,旨在评估其所提出的Memanto记忆系统在长时交互智能体中的表现。该数据集基于LongMemEval基准,包含500道人工精标问题,覆盖六大记忆能力类别,总上下文长度约115K词元,横跨约50轮对话。研究核心在于探索去知识图谱、去大模型中介摄入、去多查询检索的纯向量架构能否在长时记忆任务中达到顶尖准确性。实验数据显示Memanto以89.8%的准确率刷新了纯向量方法的记录,相较于同类系统提升了逾22个百分点,为智能体记忆领域提供了极具参考价值的消融分析基准,推动了类型化语义记忆与信息论检索的交叉发展。
当前挑战
该数据集所解决的领域问题聚焦于长时交互智能体的记忆瓶颈:传统系统在超长多轮对话中面临记忆衰退、信息冲突与时间推理困难,尤以多会话综合查询和知识更新场景表现最弱。具体挑战涵盖:1) 多会话信息合成,要求模型跨数十轮对话提取关联数据;2) 时间序推理,需精确回溯事件先后顺序;3) 知识动态更新,需识别并覆盖之前发生的修正。构建过程中遭遇的主要挑战包括:在无知识图谱与多查询管道支持下,单向量检索须从约115K词元中精准召回极小语义片段;消融实验中单纯扩大召回数量(k=10→40)即可带来20.4个百分点的突跃,暴露出查全率与阈值校准之间的敏感受衡;此外,大语言模型裁判对语义匹配的严格性亦需反复调校以兼顾正确性与灵活性。
常用场景
经典使用场景
在智能体长期记忆系统的研究领域,Memanto-LongMemEval基准测试结果数据集被广泛用于评估和比较各类记忆模型在长程交互场景下的表现。它涵盖五种逐步消融实验配置,从朴素基线到最优设置,系统地展示了向量检索架构中关键参数(如召回阈值和检索数量)对记忆准确率的影响。研究人员利用该数据集的500个精心设计的问题,涵盖单会话和多会话推理、知识更新与时间排序等维度,能够精确度量记忆系统在约115K token规模的复杂对话中提取与整合信息的能力。这一资源为验证新型记忆层架构的有效性提供了标准化测试平台。
解决学术问题
该数据集解决了长期困扰学术界的核心难题:如何在大规模多会话交互中构建可靠、高效的智能体记忆系统。传统方法依赖知识图谱或多查询流水线,却在延迟和成本上付出高昂代价。Memanto借助信息论检索引擎,以纯向量架构达成89.8%的顶尖准确率,同时将检索延迟压缩至90毫秒以下。这一突破性成果表明,向量召回能力的提升——而非架构复杂性——是驱动记忆性能的主导因素,为后续研究指明了优化方向。
实际应用
在实际应用中,该数据集为构建具备持久记忆的对话式AI助手提供了关键支撑。无论是个人知识管理工具、客户服务机器人,还是长期陪伴型虚拟角色,均可借助Memanto的轻量级记忆层实现跨会话的用户偏好追踪、承诺记录与动态知识更新。其零摄入延迟特性使得系统能在毫秒级响应用户新信息,无需等待模型重处理,极大提升了实时交互体验。这一能力在人机协作、教育辅导和医疗随访等场景中展现出广阔前景。
数据集最近研究
最新研究方向
在长期交互式智能体记忆领域,Memanto数据集聚焦于基于信息论检索的纯向量记忆架构,通过其LongMemEval基准测试的五阶段消融研究,深刻揭示了检索召回率而非架构复杂性才是性能提升的核心驱动力。该数据集突破性地实现了89.8%的准确率,在纯向量系统中傲视群雄,且无需知识图谱或多查询流水线,以极低延迟和零摄入成本展现了其效率与精准度的完美平衡。此项研究不仅为长时域智能体记忆树立了新的评测标杆,更通过对单会话推理、知识更新及时序推理等六大能力维度的精细剖析,推动了对话AI在复杂、多会话场景下从‘记忆’迈向‘理解’的范式跃迁,其开源成果为后续研究提供了可复现的实验平台,影响深远。
以上内容由遇见数据集搜集并总结生成



