MedMemoryBench

github2026-05-13 更新2026-05-14 收录

下载链接：

https://github.com/AQ-MedAI/MedMemoryBench

下载链接

链接失效反馈

官方服务：

资源简介：

MedMemoryBench是一个用于评估代理记忆方法的基准框架，专注于医疗对话场景中的记忆能力评估。它包含20个纵向患者角色，具有背景、生活事件和陷阱事件，约2,020个多会话医患对话会话，以及约1,986个评估查询，涵盖6种临床动机类型，支持双语：中文（约598 MB）和英文（约443 MB）。

MedMemoryBench is a benchmark framework for evaluating agent memory approaches, with a focus on assessing memory capabilities in medical dialogue scenarios. It encompasses 20 longitudinal patient personas, each equipped with background information, life events, and trap events; approximately 2,020 multi-session doctor-patient dialogue sessions, and around 1,986 evaluation queries spanning 6 clinical motivation categories. The benchmark supports two language versions: Chinese (approximately 598 MB) and English (approximately 443 MB).

创建时间：

2026-05-07

原始信息汇总

MedMemoryBench：个性化医疗中的智能体记忆评估基准

数据集概述

MedMemoryBench 是一个专注于医疗对话场景中智能体记忆能力评估的基准框架。该框架提供了统一的评估接口、多种基线方法实现以及灵活的配置管理系统，同时支持其他数据集的导入和评估。

核心特性

综合医疗数据集

20个纵向患者画像：包含背景信息、生活事件和陷阱事件
约2,020次多会话医患对话：覆盖多个会话轮次
约1,986个评估查询：涵盖6种临床驱动的查询类型
双语支持：中文（约598 MB）和英文（约443 MB）

丰富的基线方法覆盖

3个经典基线：长上下文、密集嵌入RAG、BM25稀疏RAG
7个智能体记忆系统：Mem0、Letta、MemOS、A-MEM、MIRIX、MemRL、LightMem
4个基于图的系统：GraphRAG、HippoRAG-v2、ReMem、Zep

统一评估框架

即插即用的方法集成（通过 BaseAgent 抽象类）
多指标评估：字符串匹配 + LLM作为评判者
检查点与恢复功能：支持长时间运行的实验
预运行模式：快速验证流水线

灵活配置

YAML驱动的方法和数据集配置
多供应商LLM支持：OpenAI / BigModel / Azure
本地与远程嵌入模型支持
跨基准评估：MedMemoryBench + LoCoMo

数据集内容

数据集包含以下主要组成部分：

data/MedMemoryBench/：中文数据集（约598 MB）
data/MedMemoryBench_EN/：英文数据集（约443 MB）
data/locomo/：LoCoMo数据集（约18 MB）

每个患者画像包含生成的对话文件（generated_dialogues.json）和查询文件（generated_queries.json）。

评估指标

评估指标包括两类：

字符串匹配指标：如实体精确匹配
LLM作为评判者指标：如时间定位任务

查询类型示例：

entity_exact_match：实体精确匹配，使用字符串包含指标
temporal_localization：时间定位，使用LLM评判指标

技术规格

版本：1.0.0
Python版本要求：≥3.10
许可证：代码使用Apache License 2.0，数据集使用CC BY 4.0
数据集发布平台：HuggingFace
学术论文：Arxiv Preprint

项目结构

项目采用模块化架构，主要目录包括：

configs/：方法和数据集配置文件（YAML格式）
methods/：14种记忆方法实现
benchmarks/：数据集评估实现
metrics/：评估指标实现
src/：核心编排模块
utils/：工具模块（LLM客户端、分词器、提示模板等）
generation/：数据集生成流水线

使用方法

快速开始

克隆仓库（需安装Git LFS）
设置Python虚拟环境并安装依赖
配置环境变量（API密钥）
运行评估命令

运行示例

bash

标准运行

python main.py -m bm25_rag_gpt-5.1 -d medmemorybench

预运行模式

python main.py -m embedding_rag_gpt-5.1 -d medmemorybench --dry-run

从检查点恢复

python main.py -m embedding_rag_gpt-5.1 -d medmemorybench --resume

输出结果

评估结果保存在 outputs/<method>_<model>/ 目录下，包含：

JSON格式的详细结果文件
TXT格式的人类可读报告
JSON格式的记忆构建日志

搜集汇总

数据集介绍

构建方式

MedMemoryBench的构建根植于对个性化医疗场景中智能体记忆能力的系统性评估需求。数据集构建流程首先从构建20个纵向患者档案开始，每个档案均包含详细的背景信息、生活事件以及具有迷惑性的陷阱事件。在此基础上，生成了约2020轮次的多轮医患对话，全面模拟真实临床互动。进一步设计了约1986个覆盖六种临床驱动类型的评估查询，以编织成多维度的记忆能力评估网络。最后，数据集提供了中文（约598 MB）和英文（约443 MB）双语版本，确保了其在多元化研究场景中的适用性。

使用方法

使用MedMemoryBench时，研究者需首先通过Git LFS克隆包含数据集的仓库，并利用推荐的环境管理工具（如uv或conda）安装依赖。随后，通过编辑.env文件配置所需的大型语言模型（如OpenAI或BigModel）API密钥。评估的执行可以通过shell脚本（如run_eval.sh）或直接运行Python主入口（main.py），并指定方法配置、数据集名称及可选参数（如干运行模式或断点续评）。实验结果将自动保存至outputs目录，包含详细指标的JSON文件、人类可读的评估报告以及内存构建日志，便于研究者进行深入分析与后续拓展。

背景与挑战

背景概述

随着大语言模型在医疗领域的深入应用，智能体系统在个性化医疗场景中的记忆能力成为关键瓶颈。MedMemoryBench由Yihao Wang、Haoran Xu等来自多所机构的研究者于2026年创建，旨在系统评估智能体在医疗对话中的记忆表现。该数据集包含20个纵向患者画像、约2020轮多会话医患对话及1986个评估查询，覆盖实体精确匹配、时间定位等六类临床导向的评测类型，支持中英双语。作为首个专注医疗场景的智能体记忆基准框架，MedMemoryBench集成了14种基线记忆方法，填补了医疗AI在患者长期状态跟踪与个性化服务评估方面的空白，对推动智能体系统在实际医疗应用中的可靠性具有重要价值。

当前挑战

MedMemoryBench所解决的领域核心挑战在于，现有智能体记忆评测多聚焦通用领域，缺乏针对个性化医疗场景的专用基准。医疗场景要求智能体在长时间跨度内精确记忆患者的多维信息（如病史、生活方式、突发事件等），并应对信息冲突与时间混淆，这对记忆的准确性、鲁棒性与推理能力构成严峻考验。在构建过程中，研究者面临的关键挑战包括：设计符合临床逻辑的患者画像与扰动事件，以模拟真实诊疗中的记忆陷阱；生成高质量的多轮对话及评估查询，确保覆盖不同的记忆负载类型；统一集成14种差异化的记忆方法，并建立可复现的评测流水线，以应对不同API、模型配置与环境依赖带来的工程复杂性。

常用场景

经典使用场景

MedMemoryBench作为一个面向医疗对话场景的智能体记忆能力评估基准，其最经典的使用场景是对各类记忆方法在动态、多轮医患交互中的表现进行系统化测评。该数据集精心构建了20个纵向患者画像，涵盖个人背景、生活事件及陷阱事件，并生成了约2020轮医患对话会话与1986个评估查询，覆盖实体精确匹配、时间定位等六类临床驱动的查询类型。研究者可基于统一的评估框架，便捷地接入长上下文、嵌入检索、图记忆等主流基线方法，通过字符串匹配与LLM评判双重指标，客观量化不同记忆方法在医疗个性化场景下的记忆准确性、检索效率与上下文理解能力。

解决学术问题

MedMemoryBench有效解决了现有智能体记忆评估研究中缺乏高质量医疗领域基准的学术困境。在以往的研究中，通用记忆基准难以捕捉医疗场景对信息精确性、患者隐私保护和时序推理的特殊要求，导致记忆方法的性能评估存在领域偏差。该数据集通过构建包含完整患者病史与长期随访的医疗对话环境，并引入陷阱事件来测试智能体对误导信息的抵御能力，为学术研究提供了首个兼顾专业性与挑战性的医疗记忆评估平台。其开源统一框架更促使不同记忆方法在公平条件下纵向对比，显著推动了医疗对话系统中记忆机制设计的理论进展。

实际应用

在实际应用中，MedMemoryBench评估框架可直接服务于医疗智能助手的记忆能力优化与选型，具有显著的临床转化价值。例如，基于该数据集的表现，开发者能够为慢性病管理、用药提醒、术后随访等长期照护场景选择最合适的记忆增强方案，确保AI助手准确记忆患者的过敏史、既往诊断结果与治疗偏好。同时，该基准所评估的记忆方法可被部署至电子健康记录系统的交互界面、远程医疗平台或患者数字孪生系统，从而提升医疗服务的连续性、个性化程度与患者安全，切实缓解临床医师的信息负载压力。

数据集最近研究