moorcheh/memanto-locomo-results
收藏Hugging Face2026-04-27 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/moorcheh/memanto-locomo-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Memanto在LoCoMo长期对话记忆基准测试中的完整每问题评估结果,涵盖了一个渐进消融研究的所有五个阶段。数据集用于问答任务,涉及长期对话记忆和信息检索增强生成。Memanto是一种用于代理AI的通用记忆层,采用纯向量架构,在LoCoMo基准测试中达到了87.1%的最先进准确率。数据集结构包括五个消融研究阶段的分割,每个分割对应一个评估问题,包含问题ID、类别、问题、预测答案、真实答案、正确性分数和评分理由等字段。
This dataset contains the full per-question evaluation results of Memanto on the LoCoMo long-term conversational memory benchmark, covering all five stages of a progressive ablation study. It is used for question-answering tasks related to long-term conversational memory and retrieval-augmented generation. Memanto is a universal memory layer for agentic AI that achieves state-of-the-art accuracy on LoCoMo (87.1%) using a vector-only architecture. The dataset structure includes five ablation study splits, each corresponding to an evaluated question with fields such as sample_id, category, question, prediction, ground_truth, score, and reasoning.
提供机构:
moorcheh
搜集汇总
数据集介绍

构建方式
memanto-locomo-results数据集是基于Memanto记忆系统在LoCoMo长时对话记忆基准上的渐进式消融实验结果构建而成。该数据集的生成过程涵盖五个明确的消融阶段,每一阶段对应不同的超参数配置与模型组合,具体包括检索数量(k值从10增至100)、相似度阈值(从0.15降至0.05)、提示优化策略以及推理模型升级(从Claude Sonnet 4切换至Gemini 3)。每个阶段的结果被独立存储为数据子集,共计1540个问题实例,每条记录包含问题标识、推理类别、模型预测、真实答案及二元正确性评分,部分阶段还附带了评分推理过程。
特点
该数据集的核心特点在于系统性地展示了检索召回率而非架构复杂性对长时对话记忆性能的主导作用。数据集的五个消融子集清晰地揭示了从基线模型(76.2%准确率)到最终配置(87.1%准确率)的渐进式提升,其中第二阶段召回扩展带来的6.6%增益最为显著。值得注意的是,Memanto在纯向量架构下超越了所有同类系统,包括向量优先方案中表现最佳的Mem0,领先幅度高达20.2%。数据集还按四大推理类别(单跳、多跳、开放域、时间推理)分别呈现准确率,为深入分析模型在不同认知维度上的能力提供了实证基础。
使用方法
研究人员可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset函数并指定所需消融阶段的分割名称(如ablation_1至ablation_5)即可获取对应子集的pandas DataFrame格式数据。数据集兼容常见的评估与可视化工作流,支持跨阶段对比分析,例如通过循环计算各阶段准确率来追踪模型性能演化轨迹。此外,该项目提供了完整的可复现性资源,包括专用GitHub仓库中的评估脚本、基准测试问题集以及所有阶段的结果文件,使研究者能够独立验证并扩展该研究的结论。
背景与挑战
背景概述
随着大型语言模型在复杂对话系统中的广泛应用,如何实现跨越多个会话的长期记忆管理成为智能体研究的关键瓶颈。2024年,LoCoMo(Long-Form Conversational Memory)基准的提出为评估超长时段对话记忆提供了系统化框架,其包含涵盖单跳、多跳、开放域与时序推理的四类任务,对话平均延伸至35轮、300回合及约9000词元。同年,由Moorcheh AI与EdgeAI Innovations团队(Seyed Moein Abtahi、Rasa Rahnema等)创建的Memanto系统应运而生,该研究发表于arXiv(2604.22085),旨在通过纯粹向量架构突破传统知识图谱与多查询流水线的复杂性瓶颈。Memanto依托信息论检索引擎,以13类细粒度语义记忆模式、自动冲突消解机制及零索引延迟为特征,在LoCoMo基准上以87.1%的准确率成为纯向量方法的最佳表现者,相较于同期Mem0系统提升达20.2个百分点,对智能体记忆领域产生了显著影响。
当前挑战
该数据集所解决的领域核心挑战在于对话智能体在长期交互中面临的信息过载与回忆退化问题——传统全上下文方法(准确率72.9%)受限于上下文窗口,而混合架构虽能提升性能却引入知识图谱维护与多模型调度的计算负担。构建过程中,团队面对的核心挑战包括:第一,需确保检索系统在毫秒级延迟下从海量会话中精准定位相关事实,消融实验证明召回率提升(k从10增至40)贡献了主要性能增益(+6.6个百分点);第二,多类别记忆的冲突检测要求设计自动版本化机制以处理矛盾信息;第三,为消除语义等价但表述差异导致的判分偏差,需采用定制化LLM评估提示模板以提升评价鲁棒性。这些挑战共同构成了从朴素基线到最优配置的五阶段渐进消融研究的基础。
常用场景
经典使用场景
在智能对话系统与长期记忆机制的交叉研究领域,memanto-locomo-results数据集被广泛用于评估代理型人工智能在超长对话历史中的记忆提取能力。该数据集包含LoCoMo基准测试中跨越五个渐进消融实验阶段的1,540个问答样本,每个样本都标注了推理类别(单跳、多跳、开放域、时序推理)。研究者通过加载不同消融阶段的预测结果、真实答案及评分信息,可以系统性地比较检索参数(如召回数量k值、相似度阈值、推理模型选择)对记忆准确率的影响。数据集提供的逐问题详细评估记录,使得对模型在特定语义记忆类型上的表现进行细粒度分析成为可能,尤其适用于验证精简架构下向量检索系统的记忆瓶颈所在。
解决学术问题
该数据集的核心学术贡献在于揭示了长期对话记忆领域中一个长期被忽视的关键问题——检索召回率而非系统架构复杂度才是决定长程记忆准确性的主导因素。通过五阶段消融实验的渐进式对比,数据集证明了仅通过扩展检索深度(k值从10提升至40)即可带来6.6个百分点的准确率跃升,而后续的提示优化与推理模型升级仅带来边际改善。这一发现直接挑战了业界普遍追求的混合架构(图数据库+多查询检索)设计范式,为构建轻量化、低延迟的代理记忆系统提供了理论依据。同时,数据集中每个问题的二元评分与蕴含推理链条的评判理由,为记忆系统的可解释性研究、裁判模型的偏差分析以及语义等价性判定方法的发展开辟了新的学术路径。
衍生相关工作
该数据集的发布催生了多个重要的衍生研究方向。在检索系统优化方面,基于其消融实验结果,研究者开始探索自适应k值调节策略与动态相似度阈值技术,旨在平衡召回率与计算开销。在裁判模型领域,数据集中的推理链条记录促进了针对大语言模型作为评估者时存在判断偏差的矫正方法研究,特别是语义正确但词汇表达差异答案的接受率提升问题。此外,该数据集为信息论驱动的向量搜索引擎(ITS)提供了关键的性能验证基准,推动了确定性语义检索与传统近似最近邻算法(如HNSW)的对比分析工作。更广泛地,它在长期记忆系统中引入的13类别类型化语义记忆模式(事实、偏好、承诺、时间线等)已成为新一代代理记忆调用的标准分类框架,后续工作常以此为基础构建面向特定领域(如医疗问诊、金融合约分析)的垂直记忆模型。
以上内容由遇见数据集搜集并总结生成



