HaluMem
收藏github2025-10-27 更新2025-10-30 收录
下载链接:
https://github.com/MemTensor/HaluMem
下载链接
链接失效反馈官方服务:
资源简介:
HaluMem是第一个专门为记忆系统定制的操作级幻觉评估基准。它将记忆工作流程分解为三个基本操作:记忆提取(评估系统准确识别和存储对话会话中事实信息的能力)、记忆更新(评估系统在提供新信息时正确修改现有记忆的能力)和记忆问答(评估系统整合多个记忆过程生成无幻觉答案的端到端能力)。每个操作都包含精心设计的评估任务,以揭示记忆处理不同阶段的幻觉行为。
HaluMem is the first operational-level hallucination evaluation benchmark tailored specifically for memory systems. It decomposes the memory workflow into three core operations: Memory Retrieval (evaluating the system's ability to accurately identify and store factual information from conversational sessions), Memory Update (evaluating the system's ability to correctly modify existing memories when provided with new information), and Memory QA (evaluating the system's end-to-end ability to integrate multiple memory processes to generate hallucination-free answers). Each operation features carefully crafted evaluation tasks to reveal hallucinatory behaviors across different stages of memory processing.
创建时间:
2025-10-25
原始信息汇总
HaluMem 数据集概述
数据集简介
HaluMem 是首个专门为记忆系统设计的操作级幻觉评估基准,用于评估记忆系统中的幻觉现象。该基准将记忆工作流分解为三个基本操作:记忆提取、记忆更新和记忆问答。
数据集版本
版本规格
| 数据集版本 | 用户数量 | 对话数量 | 平均会话/用户 | 平均上下文长度 | 记忆点数量 | 问答对数量 |
|---|---|---|---|---|---|---|
| Halu-Medium | 20 | 30,073 | 70 | ~16万词元 | 14,948 | 3,714 |
| Halu-Long | 20 | 53,516 | 120 | ~100万词元 | 14,948 | 3,714 |
版本特点
- Halu-Medium:提供标准长度上下文中的多轮人机对话会话
- Halu-Long:将上下文长度扩展至每用户100万词元,引入大规模干扰和干扰内容
数据结构
用户数据结构
每个用户数据存储为JSON对象,包含以下字段:
uuid:唯一用户标识符persona_info:人物档案信息sessions:多轮对话会话列表
会话结构
每个会话包含:
start_time、end_time:会话时间戳dialogue_turn_num:对话总轮数dialogue:用户和助手之间的对话序列memory_points:从会话中提取的记忆元素列表questions:用于记忆推理和评估的问答对dialogue_token_length:完整对话的词元化长度
记忆点结构
每个记忆点包含:
index:会话内记忆IDmemory_content:记忆文本描述memory_type:记忆类型memory_source:来源类型is_update:是否更新现有记忆original_memories:先前相关记忆importance:相对显著度分数timestamp:创建或更新时间
问答对结构
每个问答对包含:
question:问题内容answer:答案内容evidence:支持证据difficulty:难度级别question_type:问题类型
评估任务
核心操作评估
- 记忆提取:评估系统准确识别和存储事实信息的能力
- 记忆更新:评估系统正确修改现有记忆的能力
- 记忆问答:评估系统端到端整合多个记忆过程的能力
数据质量
经过人工标注验证,数据质量指标如下:
- 准确率:95.70%
- 相关性:9.58/10
- 一致性:9.45/10
获取方式
完整数据集可通过Hugging Face获取: https://huggingface.co/datasets/IAAR-Shanghai/HaluMem
搜集汇总
数据集介绍

构建方式
在记忆系统研究领域,构建高质量数据集是评估模型性能的基础。HaluMem数据集通过六阶段流水线精心构建:首先基于Persona Hub的十亿级人格模板生成虚拟人物档案,结合GPT-4o优化确保逻辑连贯性;随后通过概率机制规划动态生命骨架,将抽象人格转化为时序事件流;继而生成包含对抗性干扰记忆的多轮对话,并自动提取三类结构化记忆点;最后通过人工验证确保95.7%的准确率,形成兼具真实性与挑战性的评估基准。
特点
该数据集在记忆系统评估领域具有显著特色:其创新性地将记忆工作流解构为提取、更新与问答三大核心操作,实现操作级幻觉评估。数据集提供Halu-Medium和Halu-Long双版本,分别包含约16万词和百万词级别的上下文长度,通过植入干扰性问答与数学问题模拟真实场景噪声。每个记忆点均标注来源类型与重要性权重,3.7万组问答对涵盖六类推理题型,为系统化研究记忆幻觉提供多维度的评估框架。
使用方法
研究人员可通过Hugging Face平台获取数据集后,遵循标准化流程开展评估:首先配置eval目录下的环境参数与API密钥,根据目标记忆系统选择对应脚本(如Mem0系统使用eval_memzero.py)。执行分步评估流程包括记忆提取、问答检索与三大核心任务的指标计算,最终结果将自动保存至results目录。该评估套件支持多系统横向对比,为改进记忆系统的抗幻觉能力提供量化依据。
背景与挑战
背景概述
随着大语言模型在对话系统中的应用日益广泛,记忆系统作为支撑长期上下文交互的核心组件,其可靠性面临严峻考验。HaluMem基准由IAAR-Shanghai研究团队于2024年提出,首次针对记忆系统的工作流程设计了操作级幻觉评估框架。该数据集通过解构记忆提取、更新与问答三大核心操作,系统性地揭示了记忆系统在长上下文交互中产生的虚构内容问题,填补了现有黑盒评估方法在记忆操作粒度上的空白,为构建可信赖的长期对话系统提供了关键理论基础。
当前挑战
记忆系统面临的核心挑战在于处理动态上下文时保持事实一致性,具体表现为:在记忆提取阶段需精准区分事实与干扰信息,避免将虚构内容纳入记忆库;记忆更新过程中需维持时序逻辑,正确处理新旧记忆的覆盖与冲突;端到端问答任务则需协调多步骤记忆操作,抵抗长上下文中的干扰项引发的幻觉。构建阶段的挑战集中于生成高质量对抗样本,需通过六阶段流水线平衡生成效率与语义真实性,并利用人工标注确保14,948个记忆点与3,714组问答对的时间一致性与逻辑连贯性。
常用场景
经典使用场景
在人工智能对话系统领域,HaluMem数据集被广泛应用于评估记忆架构的幻觉抵抗能力。该数据集通过模拟多轮人机对话场景,系统性地考察记忆提取、更新和问答三个核心操作环节的可靠性。研究者在标准实验环境下使用Halu-Medium和Halu-Long两个版本,分别针对常规语境和百万令牌级长文本语境下的记忆系统表现进行验证,为记忆模型的优化提供关键性能指标。
解决学术问题
该数据集有效解决了记忆系统研究中缺乏细粒度评估框架的学术难题。传统端到端评估方法无法揭示记忆操作过程中的幻觉产生机制,而HaluMem通过解构记忆工作流程,首次实现了操作层面的幻觉检测。其创新性在于能够精确识别记忆提取中的信息失真、更新环节的时序矛盾以及问答过程中的事实偏离,为理解记忆系统的内在缺陷提供了理论依据和研究范式。
衍生相关工作
该基准已催生多项记忆系统研究的重要进展。Mem0系统率先采用HaluMem进行全流程评估,其图记忆变体进一步优化了长期记忆的存储结构。MemOS等后续工作则基于该数据集的干扰记忆设计,开发出更鲁棒的记忆更新机制。这些衍生研究共同推动了记忆系统在可解释性、抗干扰性和时序一致性等方面的理论创新与技术突破。
以上内容由遇见数据集搜集并总结生成



