HaluMem-Medium, HaluMem-Long

Name: HaluMem-Medium, HaluMem-Long
Creator: 中国电信研究院, MemTensor (上海) 科技, 哈尔滨工程大学
Published: 2025-11-05 22:37:34
License: 暂无描述

arXiv2025-11-05 更新2025-11-07 收录

下载链接：

https://huggingface.co/datasets/IAAR-Shanghai/HaluMem

下载链接

链接失效反馈

官方服务：

资源简介：

HaluMem数据集旨在评估记忆系统中存在的幻觉现象。该数据集由MemTensor (上海) 科技和哈尔滨工程大学联合构建，包含约15,000个记忆点，以及超过3,400个评估查询。每个用户的平均对话轮数为1,000轮以上，最长对话长度可达百万级Tokens，能够全面评估不同上下文规模和任务复杂度下的幻觉行为。

The HaluMem dataset is designed to evaluate hallucination phenomena in memory systems. Jointly constructed by MemTensor (Shanghai) Technology and Harbin Engineering University, this dataset comprises approximately 15,000 memory points and over 3,400 evaluation queries. The average number of dialogue turns per user exceeds 1,000, while the maximum dialogue length can reach up to millions of Tokens. This allows for comprehensive evaluation of hallucination behaviors across different context scales and task complexities.

提供机构：

中国电信研究院, MemTensor (上海) 科技, 哈尔滨工程大学

创建时间：

2025-11-05

原始信息汇总

HaluMem 数据集概述

数据集基本信息

名称: HaluMem
许可证: CC-BY-NC-ND-4.0
任务类别: 问答
语言: 英语
标签: 记忆、记忆系统、幻觉、基准、评估、LLM、长期记忆
规模: 1K<n<10K
数据来源: 原始

数据集目的

解决现有评估框架将记忆系统视为黑盒模型的问题
提供专门针对记忆系统特性的幻觉评估
检查记忆处理的核心操作步骤

数据集构成

版本对比

数据集版本	用户数	对话数	平均会话数/用户	平均上下文长度	记忆点数	QA对数
Halu-Medium	20	30,073	70	~160k tokens	14,948	3,467
Halu-Long	20	53,516	120	~1M tokens	14,948	3,467

版本特性

Halu-Medium: 提供多轮人机对话会话，用于评估标准长度上下文中的记忆幻觉
Halu-Long: 将每个用户的上下文长度扩展到1M tokens，引入大规模干扰和干扰内容

数据结构

用户数据结构

uuid: 唯一用户标识符
persona_info: 人物角色配置文件
sessions: 多轮对话会话列表

会话结构

start_time, end_time: 会话时间戳
dialogue_turn_num: 对话总轮数
dialogue: 用户和助手之间的对话序列
memory_points: 从会话中提取的记忆元素列表
questions: 用于记忆推理和评估的问答对
dialogue_token_length: 完整对话的标记化长度

记忆点结构

index: 会话内的记忆ID
memory_content: 记忆的文本描述
memory_type: 记忆类型
memory_source: 来源类型
is_update: 是否更新现有记忆
original_memories: 先前相关记忆
importance: 相对显著性分数
timestamp: 创建或更新时间

问答结构

question: 问题内容
answer: 答案
evidence: 支持证据
difficulty: 难度级别
question_type: 问题类型

评估任务

三大核心操作

记忆提取: 评估系统准确识别和存储事实信息的能力
记忆更新: 评估系统修改或覆盖现有记忆的能力
记忆问答: 评估系统整合多个记忆过程的能力

数据质量

准确性: 95.70%
相关性: 9.58/10
一致性: 9.45/10

引用信息

bibtex @misc{chen2025halumemevaluatinghallucinationsmemory, title={HaluMem: Evaluating Hallucinations in Memory Systems of Agents}, author={Ding Chen and Simin Niu and Kehang Li and Peng Liu and Xiangping Zheng and Bo Tang and Xinchi Li and Feiyu Xiong and Zhiyu Li}, year={2025}, eprint={2511.03506}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.03506}, }

搜集汇总

数据集介绍

构建方式

在人工智能系统日益依赖记忆模块实现长期个性化交互的背景下，HaluMem数据集通过六阶段渐进式构建流程精心设计。该方法首先创建包含核心档案、动态状态与偏好信息的虚拟用户画像，继而构建以职业事件为骨架的生命轨迹，并通过事件流将抽象演化指令转化为结构化叙事。每个对话场景均基于用户动机生成，结合对抗性内容注入与记忆自验证机制，确保数据在逻辑一致性与挑战性之间的平衡。最终生成的对话序列平均长度达千轮以上，上下文规模突破百万词元，为记忆系统的操作级评估提供了高保真基础。

特点

HaluMem数据集的核心特征体现在其多维度评估框架与大规模交互数据上。该数据集涵盖记忆提取、记忆更新与记忆问答三大任务类型，能够精准定位幻觉产生的操作阶段。其包含约1.5万个记忆点与3400余个多类型问题，每个用户的平均对话轮次达到1500至2600轮，并通过对无关对话的智能插入实现了从中等规模到超长上下文的场景覆盖。记忆点按类型划分为身份档案、事件记录与关系网络，问题集则囊括基础事实回溯、多跳推理、动态更新等六类认知层次，形成了对记忆系统幻觉行为的立体化探测网络。

使用方法

该数据集通过序列化对话会话输入与阶段化评估机制实现系统性能诊断。评估流程要求记忆系统依次处理时序对话流，并在包含参考记忆点或问答任务的会话处触发即时评估。系统需提供三大API接口：添加对话接口实现自动记忆提取，获取对话记忆接口提取指定会话的记忆点，检索记忆接口根据查询返回最相关记忆内容。基于接口输出与标注真值的比对，系统可分别计算记忆完整性、记忆准确率、虚假记忆抵抗率等指标，最终通过任务维度与记忆类型的交叉分析，揭示幻觉在提取、更新与生成阶段的传播路径与累积效应。

背景与挑战

背景概述

HaluMem数据集由MemTensor团队于2025年11月提出，旨在解决人工智能系统中长期存在的记忆幻觉问题。该数据集聚焦于评估LLM和AI代理在记忆存储与检索过程中产生的虚构、错误、冲突及遗漏等幻觉现象。通过定义记忆提取、记忆更新和记忆问答三大任务，HaluMem首次实现了对记忆系统操作层级的细粒度评估，填补了传统端到端评估方法在幻觉溯源能力上的空白。其构建基于用户中心的多轮人机对话场景，平均对话轮次达千级以上，上下文长度突破百万令牌量级，为研究记忆系统的可靠性与长期学习能力提供了关键基础设施。

当前挑战

在解决记忆系统幻觉问题的过程中，HaluMem面临双重挑战：领域层面需应对记忆操作链中幻觉的传播与累积效应，包括提取阶段的信息失真、更新阶段的版本冲突以及问答阶段的错误扩散；构建层面则需克服超长对话语境下记忆点标注的复杂性，既要保证多轮对话语义连贯性，又需精确追踪动态演变的用户画像、事件流与关系网络。此外，数据生成过程中还需平衡对抗性干扰注入与真实性维护，确保评估场景既贴近现实交互又具备可解释的幻觉检测维度。

常用场景

实际应用

在实际应用层面，HaluMem为开发高可靠性AI助手提供了关键测试工具。基于该数据集的评估结果可指导记忆系统的优化方向，特别是在医疗咨询、个性化教育等需要长期记忆保持的领域。通过识别记忆提取阶段的错误积累和更新阶段的信息遗漏，工程师能够针对性改进记忆管理算法，降低系统在关键应用场景中的幻觉风险，提升AI系统在持续交互中的表现一致性。

衍生相关工作

该数据集的发布催生了多项记忆系统优化研究。基于HaluMem的实证分析揭示了现有系统在长上下文处理中的共性缺陷，促使研究者开发了新型记忆提取策略和更新机制。相关衍生工作包括改进的记忆图神经网络架构、基于注意力权重的幻觉检测方法，以及融合时序建模的记忆一致性保持算法。这些研究共同推动了记忆系统从粗放式存储向精细化管理的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集