five

STALE

收藏
github2026-05-19 更新2026-05-20 收录
下载链接:
https://github.com/icedreamc/STALE
下载链接
链接失效反馈
官方服务:
资源简介:
STALE是一个用于评估大型语言模型(LLM)代理在记忆失效场景下性能的基准数据集,专注于测试模型在记忆不再有效时的知识更新和冲突处理能力。数据集包含两种隐式冲突类型和三个探测维度:状态解析(SR)、前提抵抗(PR)和隐式策略适应(IPA),通过生成和评估脚本来支持数据生成和模型性能分析。
创建时间:
2026-05-07
原始信息汇总

根据您提供的数据集详情页面内容,以下是关于 STALE 基准数据集CUP-Mem 记忆管线 的关键信息总结:

一、数据集概述

二、数据集结构与内容

STALE 基准测试包含两类隐式冲突(Type I / Type II)和三个探测维度:

  • 冲突类型
    • Type I:隐式冲突类型一
    • Type II:隐式冲突类型二
  • 探测维度
    • State Resolution (SR):状态消解能力
    • Premise Resistance (PR):前提抵抗能力
    • Implicit Policy Adaptation (IPA):隐式策略适应能力
  • 数据生成方式:基于本体-种子(ontology-seed)的数据生成
  • 附加功能:时间戳组装、干草堆(haystack)组装、目标模型响应生成、自动响应评判与性能汇总

三、CUP-Mem 记忆管线

  • 功能
    • 结构化记忆写入与失效逻辑
    • 检索与前提验证(premise verification)
    • 对依赖记忆的查询进行冲突感知读取(conflict-aware readout)
    • 兼容 OpenAI 与 Responses API 的客户端封装
    • 可消费 STALE/outputs/*_MAIN.json 格式的样本数据
  • 运行模式:以会话为单位进行逐轮(session-by-session)配置文件更新

四、主要实验结果(准确率 %)

模型 Type I SR Type I PR Type I IPA Type II SR Type II PR Type II IPA 总体
GPT-4o-mini* 30.0 0.0 11.0 9.5 0.0 1.5 8.7
GPT-5.4-nano 20.5 1.5 21.5 9.0 0.0 6.5 9.8
GPT-5.4 35.0 2.0 29.0 9.0 2.0 17.0 15.7
Gemini-3.1-flash-lite 41.0 1.5 42.0 25.0 1.5 23.5 22.4
Gemini-3.1-pro 92.0 30.0 71.0 69.0 14.0 55.0 55.2
Claude-Opus-4.6 50.5 10.0 42.5 21.0 9.0 36.5 28.3
Llama-3.3-70B-Instruct* 6.5 0.0 3.0 6.0 0.0 0.0 2.6
Qwen3.5-9B 36.0 1.0 21.5 21.5 0.0 7.5 14.6
Qwen3.5-27B 76.0 4.0 39.0 42.0 3.5 23.0 31.3
MiniMax-M2.5 10.5 1.5 8.0 5.5 5.0 2.5 5.5
LightMem 52.5 1.0 23.5 21.5 0.5 7.5 17.8
Zep 10.0 0.0 19.0 3.0 1.0 3.0 6.0
LiCoMemory 15.5 0.5 22.5 1.5 1.5 4.0 7.6
A-mem 13.5 0.0 7.5 8.0 0.0 1.5 5.1
mem-0 17.0 1.0 22.0 3.5 0.0 6.5 8.3
CUPMem (Ours) 91.0 78.0 32.0 89.0 75.0 43.0 68.0
  • * 表示因上下文超出模型窗口长度而使用了证据保留截断
  • 评估覆盖全部六种设置(2 冲突类型 × 3 探测维度)

五、环境与使用

  • Python 版本:≥ 3.10
  • 组件独立环境:STALE 与 cup_mem 需分别创建 conda 环境(stale / cupmem)
  • 配置要求:在 STALE/.env 中填入 API 密钥与本地路径
  • 详细文档STALE/README.md(命令与格式说明),cup_mem/README.md(最小使用说明)

六、文件结构

  • STALE/:基准数据生成与评估脚本
  • cup_mem/:CUP-Mem 记忆管线的实现代码
搜集汇总
数据集介绍
main_image_url
构建方式
STALE数据集专为评估大语言模型智能体在记忆失效场景下的动态适应能力而设计。其构建基于本体论种子(ontology-seed)驱动的数据生成范式,首先定义隐式冲突类型(Type I与Type II)及三种探测维度(状态解析、前提抵抗与隐式策略适应),进而通过时间戳与干扰信息(haystack)的有机装配,模拟智能体在长期对话中遭遇记忆与当前信息矛盾的真实情境。每条样本均包含预设的冲突触发条件与正确响应标签,最终生成覆盖多种复杂交互场景的系统化评测基准。
特点
该数据集的核心特色在于其双维冲突结构与多维探测机制。隐式冲突类型区分了智能体主动遗忘已有事实(Type I)与外界信息发生不可预测变化(Type II)两种截然不同的记忆失效模式,从而全面考察模型对记忆动态性的理解。同时,状态解析、前提抵抗与隐式策略适应三个探测维度从认知层面拆解了智能体在矛盾信息面前的推理路径,使评测不再停留于表层准确性,而是深入模型的内在决策逻辑。此外,数据集覆盖了从GPT-4o-mini到Claude-Opus-4.6等十余种代表性模型的基线表现,为横向对比提供了丰富参考。
使用方法
使用STALE数据集时,需先配置Python 3.10运行环境并安装`STALE/`目录下的依赖项,在`.env`文件中填入模型API密钥与本地路径。运行数据生成脚本可产出包含冲突样本的JSON格式评测文件,随后调用目标模型对每条样本进行响应生成。评测阶段通过自动评判脚本(automatic response judging)比对模型输出与标准答案,自动计算各冲突类型及探测维度的准确率。用户也可将生成的`*_MAIN.json`文件直接输入至配套的CUP-Mem记忆管线中进行冲突感知查询,以评估不同记忆管理策略的效果。
背景与挑战
背景概述
随着大语言模型(LLM)在长期交互场景(如个人助理、智能体系统)中的广泛应用,其记忆管理能力成为决定任务成败的关键。STALE(Stale Temporal Awareness and Long-term Evaluation)基准测试由研究团队于2025年提出,旨在评估LLM智能体在面对记忆信息随时间推移而过时或冲突时的感知与适应能力。该数据集的核心研究问题聚焦于模型能否识别记忆中的隐式冲突(Type I与Type II),并在状态解析、前提抵抗及隐式策略适应等维度上体现鲁棒性。基于本体种子的数据生成与时间戳堆叠方法,STALE为记忆模块的设计与评估提供了系统性框架,其对记忆陈旧性检测的深入探讨,推动了LLM从短期感知向长效记忆推理的范式演进。
当前挑战
STALE所解决的领域挑战在于,现有LLM普遍缺乏对记忆有效期与冲突的主动检测能力,尤其在会话分段后,模型常无意识采信过时信息,导致上下文连贯性与决策正确性受损。具体而言,构建过程中面临双重困难:一是如何设计细粒度的隐式冲突类型,使基准既能反映现实世界的信息更新规律(如用户偏好变化),又避免显式线索对模型的提示性影响;二是如何通过时间戳与干扰文本的精心编排,生成足以混淆模型但符合逻辑的测试样本,从而避免数据污染或评估偏差。此外,跨模型、跨记忆系统的评价标准化也是一大难点,需平衡上下文窗口限制与证据保留的完整性。
常用场景
经典使用场景
STALE数据集专为评估和增强大语言模型智能体在动态环境中的记忆时效性而设计。在对话代理、个性化推荐和持续学习等场景中,智能体需要精准识别先前存储的记忆何时因环境变化而失效。该数据集通过构造包含隐性冲突的会话序列,模拟了现实世界中信息更新与记忆过时的典型情形,成为检验模型能否在复杂交互中维持状态一致性、抵抗前提干扰并隐式适应策略变迁的标杆性基准。研究者通过STALE可系统量化不同模型及记忆模块的脆弱性,从而推动更鲁棒的动态记忆机制设计。
解决学术问题
STALE数据集直指大语言模型在长期交互中面临的记忆持久性与准确性矛盾这一核心学术问题。现有研究多聚焦于静态知识库的存储与检索,却忽视了信息动态演变时模型对过时记忆的无意识依赖。该数据集开创性地引入两类隐性冲突类型——状态变更与前提翻转,并定义了状态解析、前提抵抗和隐式策略适应三个探测维度,从认知层面解构了记忆失效的机理。其标准化评估框架为比较不同记忆管线在动态场景下的稳健性提供了统一标尺,填补了该领域系统性评测工具的空白,对理解模型认知稳定性具有深远的理论意义。
衍生相关工作
基于STALE数据集,研究者提出了CUP-Mem这一开创性记忆管线,通过结构化写入、前提验证与冲突感知读取机制,显著提升了模型在动态场景下的性能,尤其在前置抵抗维度上相较于基线模型取得了大幅领先。该工作启发了后续围绕记忆失效检测的诸多研究方向,例如将注意力图分析用于定位过时记忆的溯源方法,以及基于强化学习的自适应记忆淘汰策略。此外,STALE的评测范式已被多个团队采纳为智能体长期记忆系统的标准化压力测试工具,衍生出诸如时间推理增强和上下文遗忘窗口优化等系列工作,构成了记忆研究的新生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作