EverMemBench

github2025-11-13 更新2025-11-17 收录

下载链接：

https://github.com/EverMind-AI/EverMemBench

下载链接

链接失效反馈

官方服务：

资源简介：

EverMemBench是一个基于真实工作场所通信场景构建的长时程、多参与方群聊数据集，采用多角色-多群组-跨上下文的通信设置，明确建模了时间维度的人物角色漂移和社区切换效应。该数据集支持在长对话、并发主题和频繁上下文切换条件下对模型内存系统进行细粒度和诊断性评估，包含事实回忆、应用记忆和个性化泛化三个核心评估维度。

EverMemBench is a long-duration, multi-participant group chat dataset built upon real workplace communication scenarios. It adopts a multi-role, multi-group, cross-context communication setup, and explicitly models temporal role drift and community switching effects over time. This dataset supports fine-grained and diagnostic evaluations of model memory systems under conditions of long dialogues, concurrent topics, and frequent context switches, covering three core evaluation dimensions: factual recall, applied memory, and personalized generalization.

创建时间：

2025-10-29

原始信息汇总

EverMemBench 数据集概述

项目简介

EverMemBench 是一个用于量化和诊断大型语言模型记忆系统的基准测试。首次引入包含三个层次的内存系统评估框架：事实回忆、应用记忆和个性化泛化。

核心贡献

渐进式内存评估框架

将内存系统能力划分为三个层次：事实回忆、应用记忆和个性化泛化
建立从纯检索到上下文整合再到角色一致生成的清晰进展路径
便于精确定位性能瓶颈

真实诊断性长程多方聊天数据集

基于真实职场沟通场景构建
采用多角色、多群组、跨上下文的长程语料库设置
明确建模时间角色漂移和社区切换效应
支持在并发主题和频繁上下文切换下评估内存鲁棒性

统一量化与标准化评估协议

在三个核心维度提供一致的任务制定和测量接口
支持可重现和可比较的跨模型评估
减少跨系统和模型比较中的实验偏差

系统性跨模型实证分析

全面评估主流内存系统（MemOS、MemoryOS、Mem0、A-Mem）
评估先进大型语言模型（GPT-4.5、GPT-4.1、Gemini-2.5-Pro）
在统一框架内进行并行比较
揭示当前先进模型在记忆能力方面的显著缺陷

基准测试描述

基于真实职场沟通构建长程、多方群聊数据集，采用"多角色—多群组—跨上下文"通信设置，明确建模个人档案的动态性和上下文依赖性。

核心评估维度

细粒度详细回忆：测试检索能力，要求模型准确重建先前上下文中的具体事实
记忆意识：评估伴随理解的检索，模型必须回忆过去事件并整合以产生上下文适当的答案
用户档案理解：专注于个性化和自适应生成，模型应基于历史交互形成对个人偏好、角色和语气的稳定理解，并相应调整内容和表达

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在大型语言模型记忆系统评估领域，EverMemBench采用基于真实职场沟通场景的长程多轮对话构建策略。该数据集通过模拟多角色、多群组、跨情境的交互环境，将时间维度的人物特征漂移和社群切换效应显式建模至数据结构中。构建过程特别注重还原企业环境中个体在不同权力结构下的动态行为模式，例如部门主管在直属团队与跨部门战略组中展现的差异化沟通风格，从而形成具有时序演变和社群适应特性的对话语料。

特点

该数据集的核心特征体现在其分层评估框架的设计理念上。通过将记忆能力解构为事实回溯、应用记忆与个性化泛化三个递进维度，实现了从基础信息提取到上下文推理再到风格适配的全方位诊断。数据集特有的长对话跨度与并发话题设置，能够有效检验模型在频繁语境切换下的记忆鲁棒性。这种多层级评估机制不仅揭示了当前先进模型在深度个性化方面的显著缺陷，更为记忆系统的定向优化提供了明确指引。

使用方法

研究人员可通过标准化的评估协议使用该数据集，其统一的量化接口支持跨模型的可复现比较。使用流程涵盖三个核心维度的一致性任务构建：在事实回溯层面测试具体细节的准确重构能力，在应用记忆维度评估历史事件与当前语境的整合水平，在个性化理解方面检验模型基于交互历史生成角色一致性回复的适配度。这种系统化的评估方案显著降低了不同记忆系统间比较的实验偏差，为模型内存能力的精准定位提供了可靠基准。

背景与挑战

背景概述

EverMemBench作为大型语言模型内存系统评估的重要基准，由前沿研究团队于2024年推出，致力于构建三层递进式评估框架。该框架涵盖事实召回、应用记忆与个性化泛化能力，通过模拟真实职场多角色跨群组对话场景，精准捕捉时间维度的人物特性漂移与社群切换效应。其创新性在于突破了传统检索式评估的局限，为理解模型在长程对话中的记忆机制提供了标准化诊断工具，显著推动了个性化人工智能系统的发展进程。

当前挑战

在解决领域问题层面，该数据集直面当前大语言模型在深层个性化交互中的核心难题：如何平衡精确事实检索与动态语境理解，以及如何维持跨场景人物画像的一致性。构建过程中，研究团队需攻克多轮对话中时间漂移效应的建模挑战，同时确保多群组交互数据的生态效度，这些技术难点使得数据标注与质量验证成为制约基准可靠性的关键因素。

常用场景

经典使用场景

在大型语言模型研究领域，EverMemBench通过构建基于真实职场场景的多角色、多群组、跨上下文的长程对话数据集，为评估模型记忆系统提供了经典实验平台。该数据集模拟了时间维度上的人物形象漂移和社区切换效应，使研究者能够在并发话题与频繁语境转换条件下，系统检验模型对历史信息的提取、整合与个性化适应能力。

实际应用

在企业级智能助手开发中，EverMemBench为构建具有持续学习能力的对话系统提供了关键验证标准。其模拟的跨团队动态交互场景，能够指导开发人员优化模型对用户角色偏好、沟通风格的长期记忆保持，显著提升在人力资源培训、跨部门协作平台等实际场景中对话系统的上下文连贯性与个性化服务品质。

衍生相关工作

基于该基准测试框架，研究社区已衍生出对MemOS、MemoryOS等主流记忆系统的横向对比研究，并促使GPT-4.5、Gemini-2.5-Pro等大型语言模型展开记忆能力的迭代优化。这些工作通过统一量化指标揭示了现有模型在长程依赖建模中的共性缺陷，为后续开发具有时序感知能力的增强记忆架构奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集