Governed Memory Experiment Datasets

github2026-03-18 更新2026-03-23 收录

下载链接：

https://github.com/personizeai/governed-memory

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于测试治理记忆能力的合成数据集，每个数据集都配有真实文件以进行客观评估。数据集包括多种业务内容类型，如转录、电子邮件、聊天、文档和通话记录等，以及治理路由对、多源数据、召回查询等特定实验数据。所有数据集均为合成数据，不包含真实客户数据、个人身份信息或专有信息。

This repository contains synthetic datasets designed for testing governance memory capabilities. Each dataset is accompanied by authentic reference files for objective evaluation. The datasets cover various business content types including transcripts, emails, chat conversations, documents, call logs, and more, along with specific experimental data such as governance routing pairs, multi-source data, recall queries, and more. All datasets are synthetic and do not contain any real customer data, personally identifiable information (PII), or proprietary information.

创建时间：

2026-03-10

原始信息汇总

Governed Memory 实验数据集概述

数据集基本信息

数据集名称：Governed Memory: Experiment Datasets
数据集用途：为论文《Governed Memory: A Shared Layer for Accuracy and Compliance Across Agentic Workflows》提供合成数据集和实验方案，用于压力测试治理记忆能力。
数据性质：完全合成数据，不包含任何真实客户数据、个人身份信息或专有信息。

数据集内容构成

1. 合成数据集

主要数据集：包含250个带标签的内容样本，用于实验E01。
内容类型与样本分布：
- 会议记录：50个样本，平均约2500词。
- 邮件线程：50个样本，平均约1600词。
- 聊天记录：50个样本，平均约1000词。
- 账户文档：50个样本，平均约2000词。
- 通话笔记：50个样本，平均约500词。
多源实体数据集：位于 synthetic datasets/multi_source/，包含关于同一实体（Sarah Chen, TechFlow Inc）的5个来源数据，用于实验E06和E10。
冲突对数据集：位于 synthetic datasets/conflict_pairs/，包含30对陈旧/新鲜事实对，用于实验E14。
对抗性治理场景数据集：位于 synthetic datasets/adversarial_governance/，包含50个场景，用于实验E15。
其他专项数据集：包括 governance_pairs、entity_isolation、recall_queries 等。

2. 实验方案

包含15项实验（E01至E15）的可复现测量流程，详细说明见 experiments.md。

3. 模式集合

文件 experiment-collections-import.json 包含实验使用的三个模式集合：
- 集合A：销售联系人（14个属性，定义清晰），用于多项实验。
- 集合B：销售联系人（相同14个属性，其中6个描述故意模糊），用于实验E05的“之前”状态。
- 集合C：支持工单（8个属性），用于实验E01以增加内容多样性。

4. API参考

位于 api/ 目录下，包含认证和端点文档，用于通过Governed Memory API复现实验。

数据结构与标注

基本结构：每个内容样本（.txt文件）均附带一个 .ground_truth.json 标注文件。
标注内容：
- 样本ID、公司、行业、词数。
- 预期事实列表（包含显式和隐含类型）。
- 预期属性键值对。
- 植入的问题数量（未解析代词、相对时间引用、近似重复事实）。
多源实体数据特点：包含36个独特事实，其中10个出现在2个以上来源中（去重目标），4个相似但语义不同（不应去重）。

实验覆盖的能力维度

提取质量：跨内容类型的事实与属性提取准确性（E01）。
记忆密度：记忆密度与输出质量的关系（E02）。
治理路由：治理路由精度（E03, E13）。
渐进交付：令牌节省（E04）。
模式生命周期：模式优化前后的效果（E05）。
去重效果：大规模去重有效性（E06）。
回忆性能：回忆速度、相关性和阶段细分（E07, E10）。
端到端工作流：四条件消融实验（E08）。
质量门控：质量门控对输出的影响（E09）。
实体隔离：跨实体泄漏检测（E11）。
双重记忆互补性：开放集、仅模式与组合模式对比（E12）。
时间冲突解决：时间冲突解决准确性（E14）。
对抗性约束执行：在对抗性输入下的治理约束执行（E15）。

数据生成与使用

生成方法：遵循 experiment-data-guide.md 中的方法生成，确保每个样本具有已知的基准事实以实现客观评估。
内容场景：模拟8个行业（SaaS、金融科技、医疗保健、电子商务、制造、物流、媒体、教育）的B2B商业对话。
复现要求：需要访问Governed Memory API及具有工作区读写权限的API密钥。
基础工作流示例：提供了使用SDK复现实验E01（提取质量）的完整代码示例。

文件目录结构

experiments datasets/ ├── README.md ├── experiments.md ├── experiment-data-guide.md ├── experiment-collections-import.json ├── api/ │ ├── authentication.md │ └── endpoints/ ├── results/ (包含E01-E15各实验的结果目录) └── synthetic datasets/ (包含所有合成数据集的目录)

许可证与引用

合成数据集（内容及基准事实文件）供研究使用。
实验方案和API文档版权归作者所有。
论文正式发表后将添加引用信息。

搜集汇总

数据集介绍

构建方式

在智能体工作流与治理记忆研究领域，数据集的构建质量直接决定了实验结论的可靠性与普适性。Governed Memory Experiment Datasets 的构建采用了全合成生成方法论，其核心在于为每一项能力声明创建可客观评估的基准。数据集依据严谨的实验设计指南生成，涵盖了会议记录、邮件线程、聊天日志等多种企业内容类型，并为每个样本配备了详尽的真实值文件。这些真实值文件不仅标注了预期提取的事实与属性，还植入了诸如未解析代词、相对时间指代等特定缺陷，从而构建了一个具备已知事实基础、可用于精确测量信息提取召回率与治理规则遵从性的评估环境。

特点

该数据集的核心特征在于其系统性、可度量性与场景多样性。它并非单一的数据集合，而是一个围绕15项具体实验设计的综合评估套件，每项实验均对应一个特定的治理记忆能力维度。数据集通过精心设计的冲突对、多源实体数据以及对抗性治理场景，模拟了真实业务环境中信息过时、来源交叉与策略规避等复杂挑战。其多模态内容覆盖了从非结构化对话到半结构化文档的广泛谱系，确保了评估的全面性。尤为关键的是，所有数据均附带结构化的真实值标注，使得模型性能的评估能够脱离主观判断，实现完全客观的量化分析。

使用方法

为复现论文中的实验，使用者需首先获取 Governed Memory API 的访问权限与相应的工作区密钥。数据集的使用紧密围绕其提供的软件开发工具包与详细的实验协议展开。以基础的提取质量实验为例，用户可通过调用 `memorize` 接口处理合成文本，并将输出结果与同名的真实值文件进行自动化比对，从而计算事实与属性的召回率等关键指标。对于更复杂的实验，如去重有效性或时序冲突消解，则需要按照协议组合调用 `smartRecall`、`smartDigest` 或 `evaluate` 等接口。整个工作流程强调可重复性，所有实验步骤、评分方法及结果解读均在配套文档中予以明确规范，确保了研究过程的一致与透明。

背景与挑战

背景概述

在智能体工作流与知识管理领域，如何确保信息提取的准确性同时满足复杂的合规性约束，一直是核心研究难题。Governed Memory Experiment Datasets 作为配套论文《Governed Memory: A Shared Layer for Accuracy and Compliance Across Agentic Workflows》的合成数据集，由相关研究团队于近期创建，旨在系统性地评估“治理记忆”这一共享层的性能。该数据集通过精心设计的商业内容模拟真实场景，覆盖会议记录、邮件线程、聊天日志等多种格式，并附带详尽的事实与属性标注真值，为衡量信息提取质量、去重效果、治理路由精度及对抗性约束执行等关键能力提供了标准化基准。其构建体现了对智能体工作流中准确性、合规性与效率协同优化的深入探索，对推进可靠人工智能系统的开发具有显著影响力。

当前挑战

该数据集致力于解决智能体工作流中信息提取与治理的综合性挑战，其核心在于如何从多源、异构的商业内容中高精度地抽取结构化事实与属性，并确保整个过程严格遵守预设的治理策略。具体挑战包括：在信息提取层面，需处理文本中隐含的事实、未解析的指代、相对时间表述以及近重复事实的甄别；在构建过程中，挑战体现为如何生成既逼真又完全合成的数据以避免隐私泄露，同时为每种内容类型植入已知缺陷并建立可量化的评估真值，从而实现对提取召回率、路由精度、冲突解决效能等指标的客观、可重复测量。

常用场景

经典使用场景

在智能体工作流与记忆系统研究中，Governed Memory Experiment Datasets 为评估治理记忆能力提供了标准化的实验基准。该数据集通过精心设计的合成业务内容，如会议记录、电子邮件和聊天日志，模拟了真实的企业交互场景。研究人员利用其配套的真实标签和实验协议，系统地测试信息提取质量、记忆密度与输出质量的关系，以及治理路由的精确性，从而验证记忆系统在复杂工作流中的性能表现。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于增强型记忆架构与评估方法学。其催生的研究包括对“双记忆互补性”的探索，即结合开放集记忆与模式化记忆以提升信息覆盖；以及针对“渐进式交付”策略的优化，旨在减少计算开销。同时，数据集支撑的消融实验（如质量门控、反思轮次的影响分析）为理解记忆系统中各组件的作用提供了实证依据，推动了后续在动态模式精炼、时序冲突解决等方向上的算法改进与系统设计。

数据集最近研究