WRIT

github2026-04-09 更新2026-04-14 收录

下载链接：

https://github.com/markmhendrickson/writ

下载链接

链接失效反馈

官方服务：

资源简介：

WRIT (Write Integrity Test) 评估AI系统在多会话交互中是否能够保持正确、可用和演化的状态。它通过持久性、更新正确性、约束应用以及在噪声和时间间隔下的可靠性来衡量内存。WRIT测试检索基准遗漏的故障模式：静默漂移、丢失历史、损坏的来源和不可检测的损坏。

WRIT (Write Integrity Test) evaluates whether AI systems can maintain correct, usable, and evolving states during multi-session interactions. It measures system memory through persistence, update correctness, constraint enforcement, and reliability under noise and across time intervals. The WRIT test identifies failure modes overlooked by existing benchmarks: silent drift, lost history, corrupted provenance, and undetectable corruption.

创建时间：

2026-04-09

原始信息汇总

WRIT 数据集概述

数据集简介

WRIT（Write Integrity Test）是一个用于评估AI系统在多轮会话交互中，随时间推移维持正确、可用且不断演化的状态能力的基准测试。它衡量记忆的持久性、更新正确性、约束应用以及在噪声和时间间隔下的可靠性。

核心目标

测试现有检索基准所忽略的故障模式：静默漂移、历史丢失、来源链断裂和不可检测的损坏。

数据集范围

包含内容：

多会话对话记忆（每个场景5-20个会话）
结构化和非结构化状态
将智能体与记忆系统作为一个整体进行测试
随时间推移的写入完整性
时间状态重建

排除内容：

单轮问答
静态语料库上的纯检索准确性
静态长上下文窗口测试

核心概念

记忆类型

显性事实：用户明确陈述的信息。
可变事实：随时间变化的事实。
潜在约束：隐含的偏好和目标。
工作状态：持续的计划、任务或工作流。
实体与关系：人员、地点和关联对象。
非记忆：不应持久化的信息。

故障模式

幻觉：模型层面的问题，LLM生成的内容没有输入依据。
记忆损坏：基础设施层面的问题，存储的数据是错误的。

场景结构

每个场景包含：

对话时间线
记忆事件
干扰
探测任务
评估

数据模式

数据采用JSON格式，主要字段包括：scenario_id、version、category、sessions、memory_events、probe、ground_truth、failure_modes。

能力类别

测试的能力包括：检索、更新处理、历史保存、时间回放、来源追溯、约束推断、多跳推理、选择性遗忘、弃答。

故障模式

定义的故障模式包括：陈旧记忆、记忆缺失、错误泛化、记忆幻觉、约束违反、检索未命中、过度保留、错误置信、静默漂移、来源丢失。

评估指标

核心指标

召回准确率
更新保真度
漂移率
可检测性
约束一致性
应用正确性
弃答质量

诊断指标

陈旧使用率
幻觉率
干扰项敏感性
时间准确性
来源完整性
过度保留率

评估模式

每个场景在三种模式下运行以隔离故障归因：

无记忆模式：系统仅接收探测问题，无先前上下文。
原生记忆模式：系统在处理所有会话后使用自身记忆。
先知记忆模式：系统接收完美的真实记忆状态。

数据集构成

70% 合成场景（程序生成，确定性真实值）
30% 人工编写场景（真实的对话模式，边缘情况）

使用案例

评估记忆系统
内存基础设施的测试驱动开发
智能体指令调优
行业透明度

与现有基准的比较

WRIT专注于测试写入完整性（存储的事实在被写入后是否仍然正确），而现有主流基准（如LoCoMo、LongMemEval、BEAM、AMB）主要测试检索能力（能否找到存储的事实）。WRIT旨在捕捉检索基准在结构上无法检测的故障。

设计原则

真实性优于简单性
故障分析优于排名
多会话优于单轮
写入完整性优于读取速度
状态性优于无状态评估

运行方式

通过命令行工具运行基准测试，支持指定适配器和场景类别。

适配器

WRIT通过适配器测试记忆系统。内置适配器包括用于测试Neotoma的neotoma和用于对比的基线baseline。

局限性

比传统基准测试成本更高
部分依赖人工评估进行模糊探测
约束推断的评分更难标准化

许可证

MIT 许可证

搜集汇总

数据集介绍

构建方式

在人工智能记忆系统评估领域，WRIT数据集的构建遵循了严谨的设计原则，以模拟真实多会话交互中的状态持久性与完整性。该数据集通过程序化生成与人工撰写相结合的方式，精心设计了包含5至20个会话的场景，每个场景均融入了时间间隔、记忆事件更新、干扰因素及探测任务。数据生成过程强调状态层、检索层与代理策略层的可分离性，确保能够精准诊断系统在写入操作后可能出现的静默漂移、历史丢失或来源追溯失效等故障模式。

特点

WRIT数据集的核心特点在于其专注于评估记忆系统的写入完整性，而非传统的静态检索能力。该数据集涵盖了显性事实、可变事实、潜在约束、工作状态及实体关系等多种记忆类型，并系统性地引入了近重复干扰项、间接线索及冲突更新等抗作弊设计。通过多维度的度量体系，如回忆准确率、更新保真度、漂移率及可检测性等，WRIT能够全面揭示系统在持久化状态管理、时序重建与来源追溯方面的实际表现，从而填补了现有基准测试在动态记忆腐蚀检测方面的空白。

使用方法

使用WRIT数据集进行评估时，需通过适配器接口将待测记忆系统集成至测试框架中。评估过程包含无记忆、原生记忆及完美记忆三种模式，以分离记忆系统故障与模型自身缺陷。用户可通过命令行工具运行特定类别的场景，并生成包含核心度量与诊断度量的详细报告。该数据集适用于记忆系统架构比较、基础设施回归测试及代理指令调优等场景，为研究和工业界提供了透明、可比较的写入完整性评估标准。

背景与挑战

背景概述

随着人工智能系统在多轮交互中日益依赖持久化记忆能力，传统基准测试主要聚焦于静态信息的检索准确性，而忽视了记忆在动态写入过程中的完整性维护。WRIT（Write Integrity Test）数据集由Mark M. Hendrickson等人于2026年提出，旨在填补这一空白，其核心研究问题是评估AI系统在多会话交互中能否保持记忆状态的正确性、可用性与演化一致性。该数据集通过模拟真实场景中的记忆事件——如事实更新、约束推断与时间间隔干扰，系统性地检验记忆的持久性、更新保真度与溯源能力，为记忆系统的设计与评估提供了关键的理论与实践框架，推动了AI记忆研究从静态检索向动态完整性验证的范式转变。

当前挑战

WRIT数据集所针对的核心挑战在于现有记忆基准测试普遍无法检测记忆写入后的完整性失效问题，例如静默漂移、历史丢失与溯源断裂等故障模式。这些挑战源于传统测试基于静态语料库的假设，忽略了智能体在多次会话中主动写入记忆时可能引发的状态腐蚀。在数据集构建过程中，挑战体现为如何设计既具现实复杂性又保持评估可复现性的多会话场景，包括生成可变事实的时间线、植入潜在约束干扰，以及确保合成数据与人工编写场景之间的平衡，从而精准分离模型层与基础设施层的故障归因。

常用场景

经典使用场景

在人工智能记忆系统评估领域，WRIT数据集被广泛应用于测试多会话交互中记忆的写入完整性。其经典使用场景涉及模拟真实世界的工作流程，例如在5至20个会话的时间跨度内，系统需要处理用户信息的动态更新、隐性约束的推断以及历史状态的追溯。通过设计包含时间间隔、干扰项和冲突更新的对话时间线，WRIT能够全面评估记忆系统在持久性、更新正确性、约束应用及抗噪能力等方面的表现，从而为研究者提供一个贴近实际应用的测试环境。

解决学术问题

WRIT数据集主要解决了人工智能记忆研究中长期被忽视的写入完整性问题。传统记忆基准测试如LoCoMo和LongMemEval侧重于静态语料库的检索准确性，却无法检测记忆在多次写入后可能发生的静默漂移、历史丢失或来源断裂等现象。WRIT通过引入可变事实、隐性约束和时序查询等元素，填补了这一学术空白，使研究者能够系统性地分析记忆腐败、过时记忆使用及错误泛化等失败模式，从而推动记忆系统在状态层和检索层的架构优化。

衍生相关工作

WRIT数据集的推出催生了一系列关注记忆写入完整性的衍生研究。例如，基于WRIT的评估框架，研究者开发了适配器接口以测试不同记忆架构（如Neotoma的不可变记忆系统），并探索了多代理场景下的并发写入冲突解决机制。同时，WRIT的设计理念也影响了后续基准测试的开发，促使学术界更重视记忆系统的状态层评估，而非仅仅关注检索性能。这些工作共同推动了人工智能记忆研究从静态检索向动态、可验证状态管理的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集