agent-memory-graph
收藏Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/Ev3lynx727/agent-memory-graph
下载链接
链接失效反馈官方服务:
资源简介:
Agent Memory Graph 是一个统一的知识图谱数据集,它整合了来自 mcp-agents-ark 的结构化实体数据和来自 mempalace(基于 ChromaDB 的向量存储)的语义内容。该数据集经过清理(包括预过滤、秘密信息编辑、正则表达式扫描和实体编辑四个阶段),以确保适合公开发布。数据集提供三种配置:unified(601 行,27 列)包含 ark 和 mempalace 的完整联合数据,并带有 memory_type 字段;ark_memory(159 行,12 列)仅包含来自 mcp-agents-ark 的结构化实体图谱,包括实体类型、观察、关系等信息;mempalace_memory(442 行,16 列)仅包含来自 mempalace 的语义抽屉内容,包括翼、房间、类别等字段。每个配置都有详细的列结构,适用于智能体记忆、知识图谱相关的训练任务和应用场景。
Agent Memory Graph is a unified knowledge graph dataset that integrates structured entity data from mcp-agents-ark and semantic content from mempalace (based on ChromaDB vector storage). The dataset has been cleaned (including four stages: pre-filtering, secret information editing, regular expression scanning, and entity editing) to ensure suitability for public release. It offers three configurations: unified (601 rows, 27 columns) contains the complete union data from ark and mempalace, with a memory_type field; ark_memory (159 rows, 12 columns) includes only the structured entity graph from mcp-agents-ark, with information such as entity types, observations, and relationships; mempalace_memory (442 rows, 16 columns) includes only the semantic drawer content from mempalace, with fields like wing, room, and category. Each configuration has detailed column structures and is suitable for training tasks and application scenarios related to agent memory and knowledge graphs.
创建时间:
2026-06-29
原始信息汇总
数据集概述:Agent Memory Graph
该数据集是一个统一的智能体记忆知识图谱,融合了来自 mcp-agents-ark 的结构化实体数据和来自 mempalace(ChromaDB 向量存储)的语义内容,并经过脱敏处理以供公开使用。
数据集配置
数据集提供三种配置,可通过 load_dataset 加载:
- unified:默认配置,包含 27 列,共 601 行。是 ark 和 mempalace 数据的完整联合,并带有记忆类型标记,适用于大多数训练任务。
- ark_memory:包含 12 列,共 159 行。仅包含来自 mcp-agents-ark 的结构化实体数据,涵盖类型、观测和关系。
- mempalace_memory:包含 16 列,共 442 行。仅包含来自 mempalace 的语义内容,涵盖区域、房间和类别。
数据文件
数据集以 Parquet 格式存储,包含三个文件:
| 文件 | 行数 | 列数 | 来源 | 描述 |
|---|---|---|---|---|
| data/sample_agent_memory_graph.parquet | 601 | 27 | unified | ark 与 mempalace 的完整联合,含 memory_type |
| data/ark_memory.parquet | 159 | 12 | mcp-agents-ark | 结构化实体,含类型、观测、关系 |
| data/mempalace_memory.parquet | 442 | 16 | mempalace | 语义内容,含 wing/room/category |
各配置模式
| 配置 | 列(字段) |
|---|---|
| unified(27列) | wing, room, content, filed_at, entities, source_file, topic, type_label, hall, date, agent, added_by, chunk_index, drawer_id, name, entityType, observations, agentType, createdAt, updatedAt, type, relationType, from, to, source_memory, memory_type |
| ark_memory(12列) | name, entityType, observations, agentType, createdAt, updatedAt, type, relationType, from, to, source_memory, memory_type |
| mempalace_memory(16列) | wing, room, content, filed_at, entities, source_file, topic, type_label, hall, date, agent, added_by, chunk_index, drawer_id, source_memory, memory_type |
数据处理流程
数据经过以下脱敏处理流程(4 阶段):
- 预过滤
- 秘密信息删除
- 正则扫描
- 实体删除
许可与标签
- 许可证:cc-by-4.0
- 语言:英语
- 标签:agent-memory, knowledge-graph, mempalace, ark
搜集汇总
数据集介绍

构建方式
Agent Memory Graph 数据集通过整合来自 mcp-agents-ark 的结构化实体数据与来自 mempalace 的语义内容构建而成,前者提供实体类型、观测结果和关系等结构化信息,后者则贡献了基于 ChromaDB 向量存储的语义抽屉内容。数据经 skeleton-cli 导出后,通过一个四阶段清洗流程处理,包括预过滤、秘密信息编辑、正则扫描和实体编辑,以确保数据的安全性并适合公开发布。最终合并产生包含 27 个字段的统一配置,同时保留了分别聚焦于 Ark 实体和 MemPalace 语义的两个子配置,便于不同场景下的使用。
特点
该数据集的最大特色在于其统一的异构记忆表示,将结构化知识图谱与语义内容无缝融合,为智能体记忆研究提供了全面视角。统一配置包含 27 个字段,涵盖空间位置(如 wing、room、hall)、时间信息(date、filed_at)、实体属性(name、entityType、observations)以及关系描述(relationType、from、to)等多维度数据。此外,Ark 子集专注于包含实体及关系的结构化图谱,而 MemPalace 子集则强调语义内容的分层组织,两者互补,使得数据集同时具备结构严谨性与语义丰富性。
使用方法
用户可通过 HuggingFace Datasets 库便捷加载数据集,对于大多数训练任务,推荐使用统一配置(unified),它以 DataFrame 形式提供完整字段。若需专注于结构化实体关系,可选择 ark_memory 配置;若需深入分析语义内容,则可选用 mempalace_memory 配置。加载时仅需指定配置名称和数据集名称,即可获得包含 601 条记录的统一数据、159 条 Ark 实体记录或 442 条 MemPalace 记录,满足从模型训练到记忆图谱研究等多样化需求。
背景与挑战
背景概述
Agent Memory Graph数据集诞生于智能体记忆与知识图谱交叉研究的前沿,由研究团队基于mcp-agents-ark的结构化实体数据和mempalace的语义内容整合而成,发布于2025年。其核心研究问题在于如何统一表征智能体在复杂环境中的结构化知识与语义记忆,为多模态记忆推理提供标准化基准。该数据集整合了27个字段,涵盖实体类型、关系、观测信息及语义抽屉内容,显著推动了智能体记忆建模与知识图谱融合领域的发展,成为评估记忆检索与推理任务的关键资源。
当前挑战
该数据集致力于解决智能体记忆碎片化与语义鸿沟的领域挑战,即如何将离散的结构化实体与连续的语义记忆有效桥接,形成可推理的统一记忆图。在构建过程中,面临了多源数据格式异构、实体关系一致性冲突及隐私信息脱敏等难题,特别是跨模态数据对齐、向量存储与图结构的联合索引,以及观测噪声过滤对数据质量的严峻考验。通过四阶段清洗管线实现预过滤与隐私红化,方确保了数据集在公共研究中的安全性与可用性。
常用场景
经典使用场景
在智能体记忆与知识图谱的交叉研究领域,agent-memory-graph数据集为探究智能体如何组织、存储与检索长期记忆提供了标准化的实验平台。其经典使用场景涵盖多模态记忆融合——将结构化实体数据(如Ark记忆中的实体类型、观察与关系)与语义内容(如MemPalace中的段落、主题与日期)统一为知识图谱,用于训练具备时序与语义感知能力的记忆检索模型。此外,研究人员可利用其多配置版本(unified、ark_memory、mempalace_memory)分别进行全息记忆分析、结构关系推理或语义上下文建模,从而解耦不同记忆组件的贡献,推动智能体在开放域对话、任务规划与个性化服务中的记忆持久化研究。
实际应用
在实际产业应用中,agent-memory-graph数据集赋能了面向智能客服、虚拟伴侣与教育辅导等场景的记忆增强系统。例如,通过加载unified配置对历史对话中的用户偏好、实体关系与情感倾向进行图结构编码,智能体可在后续交互中实现长程上下文关联,避免重复询问或遗忘关键信息。该数据集同样支撑了企业级知识管理工具的开发——企业可使用其格式规范,将内部文档、会议纪要与人际网络转化为可查询的记忆图谱,辅助决策分析与新手培训。此外,在游戏AI与元宇宙虚拟角色领域,该数据集为构建具有连贯“人生经历”的非玩家角色提供了记忆组织模板,提升了交互沉浸感。
衍生相关工作
基于agent-memory-graph的开放特性,学术界已衍生出多项典型工作。一方面,研究者将其作为“记忆蒸馏与稀疏化”任务的测试床,开发了基于图注意力机制的冗余观察剪枝算法,显著降低了智能体记忆的存储开销。另一方面,该数据集催生了对“跨模态记忆冲突检测”的探索——利用其统一Schema中memory_type与entityType字段的共现模式,设计出自动识别语义不一致性的核验框架。此外,在知识图谱补全领域,该数据集被用于训练预测智能体之间隐藏关系的链接预测模型,进一步扩展了原始图谱的推理边界。这些工作共同指向一个趋势:以结构语义联合优化为核心的新一代记忆管理范式。
以上内容由遇见数据集搜集并总结生成



