HaluMem
收藏Hugging Face2025-10-25 更新2025-10-26 收录
下载链接:
https://huggingface.co/datasets/IAAR-Shanghai/HaluMem
下载链接
链接失效反馈官方服务:
资源简介:
HaluMem是一个英文的问题回答数据集,它专注于记忆系统和长时记忆的评估,特别是对于LLM(大型语言模型)在记忆方面的hallucination(虚构现象)的评估。数据集大小在1K到10K之间,是一个用于研究和评价的benchmark。
创建时间:
2025-10-24
原始信息汇总
HaluMem 数据集概述
数据集基本信息
- 名称: HaluMem
- 许可证: CC-BY-NC-ND-4.0
- 任务类别: 问答
- 语言: 英语
- 标签: 记忆、记忆系统、幻觉、基准、评估、LLM、长期记忆
- 规模: 1K<n<10K
- 数据来源: 原始
数据集目的与意义
- 主要目标: 评估记忆系统中的幻觉现象
- 创新点: 首个为记忆系统设计的操作级幻觉基准
- 解决痛点:
- 现有框架缺乏针对记忆系统特性的幻觉评估
- 无法检查记忆处理的核心操作步骤
核心评估任务
记忆提取
- 评估系统从对话会话中准确识别和存储事实信息的能力
- 避免幻觉或无关记忆
- 测量记忆完整性和准确性
记忆更新
- 评估系统在收到新信息时正确修改现有记忆的能力
- 确保记忆库的内部一致性和时间连贯性
记忆问答
- 评估系统集成多个记忆过程的端到端能力
- 包括提取、更新、检索和响应生成
- 生成事实性、上下文感知和无幻觉的答案
数据集版本
| 版本 | 用户数 | 对话数 | 平均会话/用户 | 平均上下文长度 | 记忆点数 | QA对数 |
|---|---|---|---|---|---|---|
| Halu-Medium | 20 | 30,073 | 70 | ~160k tokens | 14,948 | 3,714 |
| Halu-Long | 20 | 53,516 | 120 | ~1M tokens | 14,948 | 3,714 |
数据结构
用户数据字段
uuid: 唯一用户标识符persona_info: 人物档案信息sessions: 多轮对话会话列表
会话结构
start_time,end_time: 会话时间戳dialogue_turn_num: 对话总轮数dialogue: 用户和助手之间的对话序列memory_points: 从会话中提取的记忆元素列表questions: 用于记忆推理和评估的QA对dialogue_token_length: 完整对话的标记化长度
记忆点结构
index: 会话内记忆IDmemory_content: 记忆内容文本描述memory_type: 记忆类型memory_source: 记忆来源is_update: 是否更新现有记忆original_memories: 先前相关记忆importance: 相对显著性分数timestamp: 创建或更新时间
数据构建流程
- 人物构建: 基于Persona Hub生成虚拟人物档案
- 生活骨架规划: 定义用户演进时间线
- 事件流生成: 转换为时间顺序事件流
- 会话摘要和记忆点: 提取结构化记忆点
- 多轮会话生成: 扩展为完整对话
- 问题生成: 自动生成六类评估问题
- 人工标注和质量验证: 人工审查确保数据质量
数据质量指标
- 准确性: 95.0%
- 相关性: 9.56/10
- 一致性: 9.42/10
搜集汇总
数据集介绍

构建方式
在记忆系统研究领域,HaluMem数据集的构建采用了六阶段精细流程,融合了程序化生成与人工智能辅助优化技术。初始阶段通过规则模板和GPT-4o模型生成具有三层结构的虚拟人物画像,确保人物背景的逻辑自洽性。随后通过概率控制机制规划人生骨架,将抽象事件转化为包含职业发展与日常活动的时序记忆流。对话阶段通过植入对抗性干扰记忆与无关问答对,有效模拟现实场景中的记忆干扰现象,最终经由人工团队对半数数据完成准确性、相关性与一致性三重验证,达成95%的准确率指标。
特点
该数据集作为首个操作级记忆幻觉基准,其显著特征体现在三维度评估框架的设计。通过将记忆工作流解构为提取、更新与问答三大核心操作,系统化揭示不同处理阶段的幻觉行为模式。数据集提供中等长度与长文本双版本配置,后者扩展至百万token量级语境并引入大规模干扰内容,有效评估记忆系统的抗干扰能力。其结构化数据涵盖14,948个记忆点与3,714组问答对,每个记忆点均标注类型来源与时间戳,形成可追溯的完整记忆演化链条。
使用方法
针对记忆系统的评估需求,该数据集支持基于JSON结构的标准化调用流程。研究人员可通过解析用户会话数据中的记忆点序列与问答对,分别验证系统在记忆提取完整性、更新准确性与问答一致性方面的表现。评估时需重点关注三类任务:通过记忆源类型区分识别幻觉内容,追踪带有时序标记的更新记忆链,以及结合证据链接验证问答推理过程。数据集提供的难度分级与问题类型标注,为不同复杂度的记忆系统性能对比提供了量化依据。
背景与挑战
背景概述
随着大语言模型在长期记忆系统领域的快速发展,评估框架的滞后性逐渐凸显。2024年诞生的HaluMem基准由MemTensor团队主导开发,聚焦于记忆系统中幻觉现象的系统性评测。该数据集通过解构记忆工作流为提取、更新与问答三大核心操作,首次实现了操作层级的幻觉评估范式,为记忆系统的可信度研究提供了标准化度量体系。其创新性在于突破传统黑盒评估模式,通过细粒度任务设计揭示了记忆处理过程中的潜在缺陷,对推动可信人工智能发展具有里程碑意义。
当前挑战
在解决记忆系统幻觉检测的领域挑战方面,HaluMem需应对多维度难题:记忆提取环节的完整性要求与准确性保障存在固有张力,记忆更新过程中的时序一致性与冲突消解机制亟待优化,端到端问答任务中检索精度与生成质量的平衡亦构成核心难点。数据集构建阶段面临三大挑战:虚拟人物画像的语义连贯性与生命周期演化的真实性难以兼顾,百万级上下文长度带来的干扰信息注入需要精密控制,而多轮对话中对抗性记忆的植入既要保持自然性又需确保可检测性,这些因素共同构成了数据合成的复杂性壁垒。
常用场景
经典使用场景
在大型语言模型记忆系统研究领域,HaluMem作为首个操作级幻觉评估基准,通过解构记忆工作流程为提取、更新和问答三个核心操作,系统性地评估模型在长对话场景中的记忆处理能力。该数据集通过精心设计的对抗性干扰记忆和百万级上下文长度,为研究者提供了检验记忆系统在复杂信息环境中保持准确性与一致性的标准化测试平台。
解决学术问题
该基准有效解决了传统端到端评估框架将记忆系统视为黑箱的局限性,首次实现了对记忆提取完整性、更新时序一致性及问答推理可靠性的细粒度量化。其通过构建带有人工验证的虚拟人格时间线,为研究记忆系统中的幻觉产生机制、长期知识维护难题提供了可解释的数据支撑,推动了记忆架构可解释性研究的发展。
衍生相关工作
基于HaluMem的评估范式,研究社区衍生出MemTensor等新型记忆架构,其通过分层记忆机制与动态更新策略显著提升了幻觉抑制能力。该基准还催生了面向长文本处理的记忆增强型预训练方法,以及结合因果推理的时序一致性验证技术,为构建下一代可信记忆系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



