AMB — Agent Memory Benchmark

github2026-04-07 更新2026-03-25 收录

下载链接：

https://github.com/vectorize-io/agent-memory-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了AMB，因为我们希望对Hindsight的表现保持诚实，并且因为现有的基准测试无法提供完整的图景。AMB是完全开放的：数据集、提示、评分逻辑和结果。

We developed AMB to transparently demonstrate the performance of Hindsight, as no existing benchmark can provide a complete picture. AMB is fully open: its dataset, prompts, scoring logic, and evaluation results are all publicly accessible. AMB measures the accuracy, speed, and token cost of memory systems, and provides complete evaluation tools, judge prompts, answer generation prompts, as well as the exact models utilized in the evaluation.

创建时间：

2026-03-12

原始信息汇总

AMB — Agent Memory Benchmark 数据集概述

数据集简介

AMB（Agent Memory Benchmark）是一个用于评估智能体记忆系统的开源基准测试。它旨在解决现有基准测试在评估具有超长上下文窗口的现代模型时的不足，并提供对智能体任务（如跨工具调用的记忆、文档研究构建的知识、多步骤决策中的偏好应用）的专门评估。

核心目标

全面评估记忆系统，不仅关注准确性，还追踪速度和令牌成本。
提供完全可复现的基准测试结果，公开评估工具、评判提示、答案生成提示及所使用的具体模型。
解决现有基准测试（如LoComo和LongMemEval）因针对32k上下文窗口时代设计而无法有效区分现代模型性能的问题。

评估内容

准确性：作为核心且难以伪造的指标。
速度：记录检索时间和生成时间。
成本：追踪令牌使用成本。

评估流程

数据摄取：将数据集中的文档加载到记忆提供者中。
检索：记忆提供者为每个查询检索相关上下文。
生成：使用Gemini模型根据检索到的上下文生成答案。
评判：通过第二次Gemini调用，根据标准答案对生成的答案进行评分。

数据集与使用

包含的数据集示例：personamem。
主要操作命令：
- 列出可用数据集、记忆提供者和模式：uv run amb providers
- 列出数据集的领域：uv run amb domains --dataset personamem
- 运行基准测试：uv run amb run --dataset personamem --domain 32k --memory bm25
- 获取数据集统计信息：uv run amb dataset-stats --dataset personamem
- 在浏览器中浏览结果：uv run amb view
支持模式：包括常规测试模式和“Oracle”模式（仅摄取标准文档，用于隔离测试生成质量）。

结果输出

结果保存路径：outputs/{dataset}/{memory}/{mode}/{domain}.json
可通过 uv run amb view 进行探索。

系统要求

Python ≥ 3.11
需要在.env文件或环境变量中设置GEMINI_API_KEY
对于MemBench：需设置MEMBENCH_DATA_PATH指向本地数据目录

相关资源

实时排行榜：https://agentmemorybenchmark.ai

搜集汇总

数据集介绍

构建方式

在智能体记忆系统评估领域，AMB数据集的构建旨在应对当前大语言模型长上下文窗口带来的评估挑战。该数据集通过设计涵盖智能体任务（如跨工具调用的记忆、基于文档研究的知识构建、多步决策中的偏好应用）的多样化场景，超越了传统以对话为中心的基准。其构建过程遵循严格的四阶段流程：首先将文档数据加载至记忆提供者，随后针对每个查询检索相关上下文，接着利用Gemini模型基于检索内容生成答案，最后通过另一Gemini调用将答案与标准答案进行比对评分。这一流程不仅记录检索与生成时间，还追踪数据摄入耗时，确保了评估维度的全面性。

特点

AMB数据集的核心特点在于其面向智能体记忆系统的多维评估框架。区别于仅关注准确率的传统基准，该数据集创新性地将速度与令牌成本纳入评估体系，从而更真实地反映记忆系统在实际部署中的综合性能。数据集完全开源，提供了包括评估工具链、评判提示词、答案生成提示词及所用模型在内的全部组件，保障了结果的可复现性与透明度。此外，其包含的专门针对智能体任务的数据子集，能够有效区分单纯依赖长上下文窗口与具备高效检索架构的系统，解决了现有基准在百万令牌上下文时代区分度不足的问题。

使用方法

使用AMB数据集进行基准测试，需通过其提供的命令行工具进行操作。用户首先需配置Gemini API密钥，随后可列出可用的数据集、记忆提供者及运行模式。针对特定数据集，可进一步查看其包含的领域。运行基准测试时，通过指定数据集、领域、记忆提供者等参数启动评估流程，并可选择限制查询数量以进行快速测试。数据集还支持‘预言机’模式，该模式下仅摄入标准答案文档，用于在隔离环境中测试生成模型的质量。评估完成后，结果将保存至结构化目录中，用户可通过内置的浏览功能查看详细数据，或直接分析输出的JSON文件以获取各项性能指标。

背景与挑战

背景概述

随着大型语言模型上下文窗口扩展至百万令牌级别，传统记忆评估基准已难以区分先进记忆架构与简单上下文堆叠策略的性能差异。AMB（Agent Memory Benchmark）由研究团队于近期创建，旨在为智能体记忆系统提供全面、开放的评估框架。该数据集聚焦于智能体在跨工具调用、文档研究及多步决策等复杂任务中的记忆能力，通过公开数据集、提示词及评分逻辑，推动记忆系统在准确性、速度与成本等多维度的平衡发展，对增强智能体长期交互与知识构建能力具有重要影响。

当前挑战

在智能体记忆研究领域，核心挑战在于如何准确评估记忆系统在扩展上下文窗口下的真实效能，避免因技术演进导致评估失效。AMB构建过程中面临双重挑战：其一，需设计超越传统对话场景的任务，以涵盖智能体研究、规划与执行等动态记忆需求；其二，必须确保评估的全面性与可复现性，通过公开完整的评估流程与模型细节，克服细微调整对结果产生的显著波动，从而建立可靠且透明的性能衡量标准。

常用场景

经典使用场景

在人工智能代理领域，记忆系统的评估长期受限于传统基准测试的局限性。AMB（Agent Memory Benchmark）的经典使用场景聚焦于评估代理在复杂任务中的记忆能力，例如跨工具调用的信息保持、基于文档研究的知识构建以及多步决策中的偏好应用。该数据集通过模拟真实代理任务，如研究、规划和执行多步骤操作，为研究者提供了一个全面测试记忆架构性能的平台，从而超越了以往仅关注对话历史问答的基准测试。

解决学术问题

AMB解决了当前学术研究中记忆系统评估的关键问题。随着模型上下文窗口扩展至百万令牌，传统基准如LoComo和LongMemEval已无法有效区分不同记忆架构的性能，因为简单的上下文转储策略往往能取得竞争性分数。AMB通过引入注重代理任务的多样化数据集，并同时追踪准确性、速度和令牌成本，为评估记忆系统的综合效能提供了可靠标准。其完全开放的评估框架确保了结果的可复现性，推动了记忆系统研究向更严谨、透明的方向发展。

衍生相关工作

AMB的推出催生了一系列相关经典工作，主要集中在记忆系统优化和代理架构创新领域。例如，基于AMB的评估结果，研究者开发了更高效的检索算法、低成本记忆存储方案以及混合记忆策略，以平衡准确性、速度和资源消耗。同时，该数据集也促进了针对特定代理任务（如文档分析、多工具协调）的记忆模型设计，推动了从单纯上下文管理向主动知识构建的范式转变，为下一代智能代理的发展奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集