Hawky-ai/longmemeval-results

Name: Hawky-ai/longmemeval-results
Creator: Hawky-ai
Published: 2026-05-01 11:46:59
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Hawky-ai/longmemeval-results

下载链接

链接失效反馈

官方服务：

资源简介：

LongMemEval是一个用于评估聊天助手长期记忆能力的基准测试数据集，发布于ICLR 2025。它设计用于测试信息提取、多会话推理、时间推理和知识更新等多个维度，以衡量AI助手在长时间对话中的记忆和推理性能。

LongMemEval is a benchmark dataset for evaluating long-term memory capabilities in chat assistants, presented at ICLR 2025. It is designed to test multiple dimensions such as information extraction, multi-session reasoning, temporal reasoning, and knowledge update, assessing the memory and reasoning performance of AI assistants over extended conversations.

提供机构：

Hawky-ai

搜集汇总

数据集介绍

构建方式

该数据集基于LongMemEval基准测试（ICLR 2025）构建，旨在评估聊天助手的长期记忆能力。Feather DB v0.8.0作为检索增强生成引擎，采用混合检索策略（BM25与稠密检索结合，通过倒数秩融合机制将k值设为60），并集成Azure text-embedding-3-small（1536维）作为嵌入器。系统引入自适应衰减机制，设定半衰期为14天，时间权重为0.4，以模拟记忆随时间消退的自然过程。通过提取10个top-k候选结果，最终由GPT-4o或Gemini-2.5-Flash语言模型生成回答，完成对多轮对话中信息提取、多会话推理、时间推理和知识更新四个维度的系统性评估。

使用方法

使用者可通过GitHub克隆Feather DB仓库进行本地复现，执行`pip install feather-db`安装依赖后，以`python bench/run_longmemeval.py`命令运行基准测试。需指定嵌入器（如`--embedder azure-3-small`）、回答模型（如`--answerer gemini-2.5-flash`）以及衰减参数（如`--decay half_life=14 time_weight=0.4`）。原始审计结果以JSON格式存储在`bench/results/`目录下，便于后续分析。数据集本身托管在HuggingFace（xiaowu0162/longmemeval），采用MIT许可协议，支持学术和非商业用途的自由访问与复用。

背景与挑战

背景概述

LongMemEval是2025年国际学习表征会议（ICLR）上提出的一项基准测试，由相关研究团队开发，旨在评估对话助手在长期记忆任务上的表现。该数据集聚焦于信息提取、多会话推理、时间推理和知识更新等核心能力，为衡量检索增强生成（RAG）系统在复杂对话历史中的记忆检索与利用效率提供了标准化测试平台。其发布对AI智能体与向量数据库领域产生了深远影响，推动了高效记忆管理机制的创新，如Feather DB等系统在该基准上验证了混合检索与自适应衰减策略的优越性。

当前挑战

LongMemEval所解决的领域挑战在于，现有对话助手往往仅关注单轮交互记忆，而难以应对跨越多次会话的长期依赖与动态知识更新，导致多会话推理分数仅0.606、时间推理分数低至0.477。构建过程中面临的挑战包括：设计涵盖多维度记忆能力的复杂任务集，确保评估的全面性与公平性；以及平衡检索效率与成本，如Feather DB虽以约8美元成本实现0.693分，但在高维嵌入与混合检索的优化上仍需克服计算资源与延迟瓶颈。

常用场景

经典使用场景

LongMemEval评测数据集专为评估聊天助手的长期记忆能力而设计，其经典使用场景在于检验大语言模型在多轮对话中维持、提取和更新长程上下文信息的能力。研究者通过该数据集系统性地测试模型在信息抽取、多会话推理、时间推理和知识更新四个核心维度上的表现，从而全面衡量其长期记忆机制的稳健性与准确性。该经典使用场景已成为衡量聊天助手记忆能力的标志性基准。

解决学术问题

该数据集有效解决了学术界长期存在的聊天助手长期记忆评测缺失问题。过往研究多聚焦于短时对话或单轮推理，难以反映模型在持久交互中的记忆衰减、知识冲突与时间顺序推理等核心挑战。LongMemEval通过结构化多维度测试，揭示了当前模型在时间推理与跨会话连贯性方面的明显短板，为认知架构与记忆机制的理论突破提供了量化依据，推动了长上下文建模与检索增强生成等方向的发展。

实际应用

实际应用中，LongMemEval为构建具备持续记忆能力的智能体系统提供了关键的验证工具。例如，在Feather DB等向量数据库评测中，开发团队利用该数据集优化混合检索与自适应衰减策略，使聊天助手能够在低成本下实现超越全上下文模型的记忆表现。该基准直接服务于个性化辅助、长期客户支持、智能教育导师等场景，确保AI系统在漫长的交互中保持连贯记忆与精准响应。

数据集最近研究