engram-v3

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/matthewschramm/engram-v3

下载链接

链接失效反馈

官方服务：

资源简介：

Engram v3 是一个专注于评估AI代理长期记忆回忆能力的运行时基准测试数据集。它通过在多轮对话历史中植入真实对话，测试代理是否能够从先前的会话中检索具体、基于事实的知识，而不仅仅是最近的上下文信息。数据集包含498个任务，涵盖9种问题类型，平均每个任务有3.0个会话和30.1个对话轮次。问题类型包括时间推理、多会话事实、跨代理记忆、多跳推理等，旨在全面测试代理的记忆能力。数据集以JSON格式提供，每个记录包含问题ID、类型、问题、答案、会话日期、相关会话ID及内容等字段。Engram采用四阶段评估流程（种子、稳定、探测、评判），并使用0-3分的评分标准来评判代理的回答质量。基准测试结果显示，内存增强的代理在正确回忆率上有显著提升。数据集适用于AI代理的长期记忆能力研究和开发。

创建时间：

2026-03-05

原始信息汇总

Engram v3 数据集概述

数据集简介

Engram v3 是一个用于评估AI智能体长期记忆回忆能力的运行时优先基准测试。它测试智能体是否能够从先前的会话中检索到具体的、有依据的知识，而不仅仅是最近上下文中的信息。该基准测试在智能体运行时内部运行：它将真实的多轮对话历史记录植入智能体，等待记忆处理完成，然后在没有上下文历史记录的新会话中探测回忆能力。

关键属性

任务数量：498
问题类型：9种
每个任务的平均“干草堆”会话数：3.0
每个任务的平均“干草堆”对话轮次数：30.1
数据格式：JSON
许可协议：MIT

问题类型分布与测试目标

类型	数量	测试目标
`temporal-reasoning`	78	顺序和时效性——区分当前事实与历史事实
`multi-session`	79	需要来自多个独立对话信息的事实
`cross-agent-memory`	71	在不同智能体实例间共享或被引用的知识
`multi-hop-reasoning`	68	在整个会话语料库中通过中间实体连接事实
`recurring-pattern`	54	在多个会话中反复建立的惯例和模式
`knowledge-update`	53	追踪事实如何演变——决策随时间被推翻或修订
`single-session-user`	45	直接回忆用户在单个会话中陈述的具体信息
`single-session-assistant`	32	回忆智能体在单个会话中陈述的具体信息
`fact-recall`	18	直接检索单个有依据的具体事实

文件说明

文件	任务数	描述
`engram-v3.json`	498	完整的基准测试数据集
`engram-v3-test.json`	50	按比例抽样的测试子集（包含所有9种类型，混合难度）

数据结构

每个记录包含以下字段：

question_id：问题标识符
question_type：问题类型
question：问题内容
answer：答案
question_date：提问日期
haystack_dates：“干草堆”会话日期数组
haystack_session_ids：“干草堆”会话ID数组
haystack_sessions：包含用户和智能体角色的对话轮次数组
answer_session_ids：答案所在的会话ID数组
metadata：包含agents_involved、memory_type、difficulty等信息的元数据

评估协议

采用四阶段流程：植入 → 稳定 → 探测 → 评判。

植入：通过智能体运行时，将“干草堆”会话逐轮回放给智能体。
稳定：等待记忆索引和异步处理完成。
探测：在没有“干草堆”上下文的新会话中提出评估问题。
评判：使用多轮LLM评判器，根据真实答案对响应进行0-3分评分。

评分标准：

3分：有依据的正确回答（引用了“干草堆”中的具体细节）
2分：通用的正确回答（方向正确，但缺少具体细节）
1分：弃权（诚实地回答“我没有该上下文”）
0分：幻觉回答（自信地陈述了错误的细节）

参考结果

基准测试与记忆增强在实时智能体上的运行结果对比：

基线条件（仅原生内存）：总体得分1.10，有依据正确率4%，弃权率64%。
记忆增强条件：总体得分1.95，有依据正确率48%，弃权率12%。
提升：总体得分增加0.85，有依据正确率提升44个百分点，弃权率降低52个百分点。

基准测试工具

完整的评估工具链（包括适配器、LLM评判器和输出写入器）可在以下地址获取： https://github.com/Ubundi/cortex-benchmark

引用信息

bibtex @software{engram2026, title = {Engram: A Runtime Benchmark for Agent Long-Term Memory Recall}, author = {Ubundi}, year = {2026}, url = {https://github.com/Ubundi/cortex-benchmark}, }

搜集汇总

数据集介绍

构建方式

在人工智能代理的长时记忆评估领域，Engram v3数据集采用了一种运行时优先的构建范式。该数据集并非静态的问答集合，而是通过模拟真实的多轮对话历史来构建任务。具体而言，构建过程首先将包含丰富信息的“干草堆”会话按时间顺序植入代理的运行环境中，随后等待代理完成记忆的索引与异步处理，最终在一个全新的、无上下文历史的会话中提出探测性问题。这种设计确保了评估能够直接测量代理内在的记忆架构，而非其短时上下文理解能力。数据集包含498项任务，涵盖九种问题类型，平均每个任务涉及3个会话和30.1轮对话，所有数据均以结构化JSON格式封装。

特点

Engram v3数据集的核心特征在于其专注于评估人工智能代理的长时、跨会话记忆召回能力。与传统的基准测试不同，它强调对具体、有根据的知识的检索，而非近期的上下文信息。数据集通过九种精心设计的问题类型，系统性地检验代理在时序推理、多会话信息整合、跨代理记忆共享、多跳推理、重复模式识别、知识更新追踪等多维度的记忆性能。每种问题类型均针对记忆系统的特定薄弱环节，例如“时序推理”测试代理区分历史与当前事实的能力，而“知识更新”则评估其跟踪事实演变的过程。这种多层次、细粒度的评估框架为深入理解代理记忆机制提供了坚实基础。

使用方法

使用Engram v3数据集进行评估遵循一个严谨的四阶段流程：播种、沉淀、探测与评判。研究者首先需将数据集中提供的“干草堆”会话历史通过代理运行时逐轮回放，完成记忆的初始播种。随后，必须预留足够时间让代理的记忆处理机制充分沉淀与索引。接着，在一个全新的独立会话中，向代理提出评估问题，此时上下文中不包含任何历史对话信息。最后，利用多轮大型语言模型评判机制，依据0至3分的标准对代理的回答进行评分，该标准严格区分了有根据的正确回答、泛化正确回答、主动弃权回答以及自信的幻觉回答。完整的评估工具链已开源，便于集成到不同的代理系统中进行标准化测试。

背景与挑战

背景概述

在人工智能代理领域，长期记忆能力是构建具有持续交互与情境感知智能系统的核心挑战。Engram v3数据集由南非Ubundi工作室于2026年创建，旨在评估AI代理在跨会话环境中对特定知识的长期记忆召回性能。该数据集通过模拟真实多轮对话历史，在代理运行时环境中植入“干草堆”会话，随后在无上下文历史的新会话中探测记忆提取，从而直接测量代理的记忆架构效能。其核心研究问题聚焦于代理能否从先前的交互中检索具体、扎根的知识，而非仅依赖近期上下文信息，为推进代理记忆系统的设计与优化提供了关键基准。

当前挑战

Engram v3数据集所解决的领域问题在于评估AI代理的长期记忆召回能力，其挑战体现在多个维度：首先，代理需处理跨会话的时序推理，区分历史与当前事实；其次，涉及多会话信息融合，要求整合分散在不同对话中的知识；此外，还需应对知识更新与演变，追踪事实随时间的变化。在构建过程中，挑战包括设计真实且复杂的多轮对话历史以模拟实际交互场景，确保“干草堆”会话的多样性与代表性；同时，建立精确的评估协议，通过种子、沉淀、探测与评判四阶段流程，客观衡量记忆召回效果，避免上下文干扰，并采用多通道LLM评判机制以减少评分偏差。

常用场景

经典使用场景

在人工智能代理的长时记忆评估领域，Engram v3数据集被广泛应用于测试代理在多轮对话中检索历史信息的能力。该数据集通过模拟真实的多会话交互环境，要求代理在无上下文提示的新会话中，准确回忆先前会话中的具体事实。这一场景典型地应用于评估代理的记忆架构性能，尤其是在处理时间推理、多会话信息整合等复杂任务时，能够有效衡量代理是否具备长期记忆的稳定性与准确性。

解决学术问题

Engram v3数据集主要解决了人工智能代理在长期记忆召回方面的学术研究难题。传统静态问答基准往往忽略代理在运行时环境中的记忆处理机制，而该数据集通过引入运行时评估框架，填补了代理记忆能力量化评估的空白。它帮助研究者深入探究代理如何在不同会话间保持信息连贯性，以及如何应对知识更新、跨代理记忆共享等挑战，从而推动记忆增强技术在代理系统中的理论发展与实际优化。

衍生相关工作

基于Engram v3数据集，学术界衍生了一系列关于代理长期记忆的经典研究工作。这些研究主要集中在记忆增强架构的设计与优化，例如开发新型的记忆索引机制、异步处理流程以及多会话信息融合算法。此外，该数据集还促进了评估方法的创新，如基于LLM的自动评分系统的完善，以及针对不同记忆类型（如时间记忆、跨代理记忆）的专项基准测试。这些工作共同推动了代理记忆研究领域的标准化与深度发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集