CloneMem
收藏github2026-01-13 更新2026-01-14 收录
下载链接:
https://github.com/AvatarMemory/CloneMemBench
下载链接
链接失效反馈官方服务:
资源简介:
CloneMem是一个全面的基准测试,用于评估AI克隆的长期记忆能力。与现有的主要依赖用户-代理对话历史的记忆基准不同,CloneMem测试AI克隆是否能整合来自日常生活的非对话数字痕迹,并利用它们来持续跟踪个体的经历、情感变化和随时间演变的观点。
CloneMem is a comprehensive benchmark designed to evaluate the long-term memory capabilities of AI clones. Unlike existing memory benchmarks that primarily rely on user-agent conversation history, CloneMem tests whether AI clones can integrate non-conversational digital traces from daily life and use them to consistently track an individual's experiences, emotional changes, and evolving perspectives over time.
创建时间:
2026-01-11
原始信息汇总
CloneMem 数据集概述
数据集简介
CloneMem 是一个用于评估 AI 克隆体长期记忆能力的综合性基准测试。与主要依赖用户-智能体会话历史的现有记忆基准不同,CloneMem 测试 AI 克隆体是否能整合来自日常生活的非会话数字轨迹,并利用这些信息持续追踪个体随时间变化的经历、情感变化和观点演变。
核心特性
- 数据基础:基于日记、社交媒体帖子、直接消息和电子邮件等非会话数字轨迹,时间跨度达 1-3 年。
- 数据构建方法:采用自上而下的分层生成框架,确保从人物设定到微观事件层面的纵向连贯性。
- 评估维度:评估对经历、情感和观点随时间的追踪能力。
- 任务多样性:包含 8 种推理类别,包括事实回忆、时序推理、因果/反事实推理以及不可回答问题检测。
- 语言支持:提供英语和中文双语数据集。
数据集统计
| 统计项 | 数值 |
|---|---|
| 人物设定数量 | 10 |
| 问题数量 | 1,183 |
| 语言 | 英语、中文 |
| 上下文长度 | 3 个短上下文(约 10 万词元),7 个长上下文(> 50 万词元) |
| 问题类型 | 8 种任务类别 |
| 时间跨度 | 每个人物设定 1-3 年 |
评估任务
| 层级 | 任务类型 | 描述 |
|---|---|---|
| 事实回忆 | 单点事实 | 在给定时间点检索明确的事实信息 |
| 时序推理 | 对比分析 | 对比两个时间点之间的经历/情感/观点 |
| 轨迹分析 | 描述特定方面在长时期内的演变过程 | |
| 模式识别 | 识别不同生活事件中重复出现的行为模式 | |
| 高级推理 | 因果推理 | 追溯解释变化发生原因的事件链 |
| 反事实推理 | 考虑不同的决策如何导致不同的结果 | |
| 推断推理 | 从分散的信息中形成更高层次的判断 | |
| 不可回答问题 | 识别证据不足以回答问题的情况 |
主要实验结果
实验表明,当前的记忆系统在 AI 克隆场景下面临显著挑战:
- 简单的扁平检索器通常优于复杂的抽象记忆系统(A-Mem, Mem0)。
- 抽象化有助于搜索但不利于克隆:摘要和事实提取相当于有损压缩。
- 当证据不明确时,模型会退回到叙事先验。
- 事件日志无法表示“尚未决策”:活动 ≠ 状态。
| 方法 | Recall@10 | QA 一致性 | 选择准确率 |
|---|---|---|---|
| Oracle | - | 0.83 | 89.65 |
| 扁平检索器 | 0.22 | 0.72 | 88.50 |
| A-Mem | 0.21 | 0.70 | 87.48 |
| Mem0 | 0.13 | 0.65 | 85.28 |
使用 GPT-4o-mini 主干网络在 k=10 下的结果
引用信息
如需在研究中引用 CloneMem,请使用以下 BibTeX 条目: bibtex @misc{hu2026clonemembenchmarkinglongtermmemory, title={CloneMem: Benchmarking Long-Term Memory for AI Clones}, author={Sen Hu and Zhiyu Zhang and Yuxiang Wei and Xueran Han and Zhenheng Tang and Huacan Wang and Ronghao Chen}, year={2026}, eprint={2601.07023}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.07023}, }
许可证
本项目采用 Apache License 2.0 许可证。
搜集汇总
数据集介绍

构建方式
在人工智能克隆体长期记忆评估领域,CloneMem数据集采用了一种自上而下的分层生成框架进行构建。该框架首先为每位虚拟人物设定稳定的人格特质与背景,随后依据时间线生成跨越一到三年的非对话式数字痕迹,如日记、社交媒体帖文和私人通信。这一过程通过大型语言模型驱动的工作流确保微观事件与宏观人物形象在纵向时间维度上保持连贯性,最终形成包含丰富生活细节、情感波动与观点演变的时序数据。
特点
CloneMem数据集的核心特点在于其专注于非对话式数字痕迹,模拟真实个体的长期生活轨迹。数据集涵盖十位虚拟人物,提供超过一千个双语问题,并设计了八种复杂的推理任务类型,包括事实回忆、轨迹分析和因果推理等。其上下文长度具有显著差异,既包含简短的片段,也囊括超过五十万标记的冗长叙述,从而全面考验模型在不同信息密度下的记忆整合与推理能力。
使用方法
研究者可通过克隆项目仓库并安装依赖环境快速获取数据集。数据集以结构化格式存放,支持对AI克隆体的长期记忆能力进行系统评估。使用方法主要包括加载特定人物的数字痕迹上下文,并针对预设的各类推理问题测试模型的回答性能。评估框架提供了多种基线模型对比脚本,便于量化模型在事实准确性、时序一致性与高层推理等多个维度的表现。
背景与挑战
背景概述
在人工智能迈向个性化代理的时代,AI克隆体作为模拟人类个体记忆与行为的数字实体,其长期记忆能力成为核心研究焦点。CloneMem数据集于2026年由相关研究团队构建,旨在系统评估AI克隆体整合非对话式数字轨迹的能力。该数据集基于日记、社交媒体帖子、私信和电子邮件等跨度为1至3年的真实生活痕迹,通过自上而下的分层生成框架,确保从人物设定到微观事件的时间连贯性。CloneMem不仅推动了记忆建模从简单对话历史向多维生活经验的转变,还为情感变化、观点演进等动态追踪任务提供了标准化评测基准,对个性化AI、数字孪生及认知计算领域具有深远影响。
当前挑战
CloneMem所针对的领域问题在于如何使AI克隆体具备人类般的长期记忆,以一致地追踪个体经验、情感与观点的演变。这一目标面临多重挑战:在记忆建模层面,系统需从海量、稀疏的非结构化数字痕迹中提取连贯叙事,并区分活动记录与内在状态;在推理能力上,模型必须完成事实回忆、时序推理、因果分析及反事实推断等复杂任务,同时识别证据不足的不可回答问题。数据构建过程中,确保长达数年的数字轨迹在时间、逻辑与情感维度上的纵向一致性尤为困难,且需平衡抽象概括与细节保留,以避免信息损失导致记忆失真。现有系统常依赖叙事先验或简化检索,凸显了深层记忆整合与动态推理的不足。
常用场景
经典使用场景
在人工智能代理体(AI Clone)研究领域,CloneMem数据集为评估智能体长期记忆能力提供了标准化测试平台。该数据集通过模拟个体在1至3年内的非对话数字轨迹,如日记、社交媒体帖文和电子邮件,构建了涵盖经验、情感与观点演变的连贯叙事。研究者利用其多维度任务设计,系统检验模型在事实回忆、时序推理及因果推断等复杂场景下的记忆保持与整合效能,从而推动具身智能在个性化记忆建模方面的理论探索。
实际应用
在实际应用层面,CloneMem所构建的长期记忆评估框架为开发个性化数字助手奠定了技术基础。基于该数据集的训练与测试,能够提升AI代理在委托通信、情感陪伴及决策支持等场景中的表现。例如,智能体可依据用户历史行为模式提供前瞻性建议,或在跨时段交互中保持认知一致性,从而增强人机协作的深度与自然度,为教育、医疗及客户服务领域的智能化应用提供核心能力支撑。
衍生相关工作
围绕CloneMem数据集,学术界衍生出多项聚焦长期记忆机制的创新研究。部分工作基于其揭示的抽象记忆损耗现象,提出了增强检索一致性的混合架构;另有研究借鉴其多层次任务设计,开发了针对时序推理的专用评估指标。这些衍生成果不仅深化了对记忆压缩与保存权衡关系的理解,还促进了如Mem0、A-Mem等记忆系统的迭代优化,推动了整个AI克隆领域在认知建模与评估方法上的协同演进。
以上内容由遇见数据集搜集并总结生成



