CIMemories
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/facebook/CIMemories
下载链接
链接失效反馈官方服务:
资源简介:
CIMemories是一个用于评估大型语言模型在处理持久记忆信息时上下文完整性的合成基准数据集。它包含具有超过100个属性的用户配置文件,并与多样化的任务上下文配对,用于检测模型在信息流控制方面的性能。
提供机构:
AI at Meta
创建时间:
2025-11-20
原始信息汇总
CIMemories数据集概述
数据集基本信息
- 名称:CIMemories
- 语言:英语
- 许可证:CC BY-NC 4.0
- 数据规模:10K-100K样本
数据集描述
CIMemories是一个用于评估大型语言模型中持久记忆上下文完整性的组合基准。该数据集专注于评估LLMs在基于任务上下文适当控制记忆信息流方面的能力。
核心特征
- 使用包含每个用户100多个属性的合成用户配置文件
- 包含多样化的任务上下文
- 评估属性级别的信息泄露违规情况
- 分析违规行为在任务和运行中的累积效应
评估发现
- 前沿模型的属性级别违规率高达69%
- 违规率随任务数量增加而上升(从1个任务的0.1%到40个任务的9.6%)
- 相同提示执行5次时违规率达到25.1%
- 隐私意识提示无法解决根本问题
研究意义
揭示LLMs在上下文感知推理能力方面的基本限制,表明需要不仅仅是更好的提示或规模扩展,而是真正的情境感知能力。
引用信息
bibtex @misc{mireshghallah2025cimemoriescompositionalbenchmarkcontextual, title={CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs}, author={Niloofar Mireshghallah and Neal Mangaokar and Narine Kokhlikyan and Arman Zharmagambetov and Manzil Zaheer and Saeed Mahloujifar and Kamalika Chaudhuri}, year={2025}, eprint={2511.14937}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2511.14937}, }
搜集汇总
数据集介绍

构建方式
在构建大语言模型持久记忆评估框架的背景下,CIMemories基准通过合成用户档案的方式系统构建,每个档案包含超过100项属性,涵盖广泛的人口统计与行为特征。这些属性被精心设计为在不同任务情境下具有动态敏感性,即同一属性在特定任务中可能至关重要,而在其他情境下则属于不当披露范围。数据集通过组合多样化的任务上下文与用户属性配对,形成多轮交互场景,从而模拟真实应用中记忆信息的流动模式。
使用方法
研究人员可借助该基准开展大语言模型隐私保护能力的系统性评估,通过加载预设的用户档案与任务上下文组合,观察模型在持续对话中记忆信息的调用模式。使用时应按照标准流程初始化用户档案,依次执行不同敏感度的任务指令,并记录模型响应中属性披露的合规情况。评估过程需特别注意多轮对话中记忆累积效应的影响,同时对比分析不同提示策略对上下文完整性的作用效果,为开发具有情境感知能力的记忆管理系统提供实证依据。
背景与挑战
背景概述
随着大语言模型在个性化服务领域的深入应用,持久化记忆机制成为提升任务性能的核心技术。2025年由Mireshghallah等学者提出的CIMemories基准数据集,聚焦于解决模型记忆信息在复杂场景中的上下文完整性难题。该研究通过构建包含百余项属性的合成用户档案,系统评估模型在不同任务语境下对敏感信息的控制能力,为人工智能伦理与安全领域建立了重要的评估范式。
当前挑战
该数据集揭示了前沿模型存在高达69%的属性级信息泄露风险,且违规行为随任务数量增加呈指数增长。构建过程中面临合成数据真实性与复杂度的平衡挑战,需要精确设计属性与语境的映射关系。核心难题在于模型缺乏情境感知推理能力,现有提示工程难以实现细粒度的上下文决策,导致模型在信息共享时出现全盘输出或完全封锁的极端行为。
常用场景
经典使用场景
在大型语言模型持续记忆能力的研究中,CIMemories作为评估基准,主要用于测试模型在不同任务情境下对记忆信息的合理控制能力。该数据集通过构建包含百余项属性的合成用户档案,模拟多样化任务场景,系统检验模型是否能在特定上下文中恰当地筛选记忆信息,避免敏感属性的不当泄露。
解决学术问题
该数据集有效揭示了当前大语言模型在情境完整性推理方面的根本缺陷,解决了记忆信息流控制这一关键学术难题。通过量化分析属性级违规现象,研究表明前沿模型的违规率最高可达69%,且违规行为随任务数量和执行次数显著累积。这一发现突破了传统隐私保护研究的局限,为构建具有上下文感知能力的记忆管理系统提供了理论依据。
实际应用
在智能助手、个性化推荐系统等实际应用场景中,CIMemories为评估模型隐私保护能力提供了标准化测试框架。其合成的多属性用户档案可模拟真实场景中的信息交互过程,帮助开发者识别模型在医疗咨询、金融服务等敏感领域可能存在的隐私泄露风险,推动建立更可靠的AI系统。
数据集最近研究
最新研究方向
随着大语言模型在个性化服务中广泛应用持久记忆机制,信息泄露风险成为隐私安全领域的前沿议题。CIMemories基准测试通过构建包含百余项属性的合成用户档案,揭示了模型在任务语境中控制信息流的系统性缺陷:前沿模型存在高达69%的属性级违规泄露,且违规率随任务数量增长呈指数上升。当前研究聚焦于语境完整性理论框架下的动态权限控制,试图突破传统提示工程的局限,推动模型发展基于情境感知的推理能力。这一发现不仅暴露了现有技术对敏感信息处理的脆弱性,更为构建可信人工智能系统提供了关键评估范式。
以上内容由遇见数据集搜集并总结生成



