five

ATANT v1.0 Narrative Test Corpus

收藏
github2026-04-14 更新2026-04-17 收录
下载链接:
https://github.com/Kenotic-Labs/ATANT
下载链接
链接失效反馈
官方服务:
资源简介:
ATANT v1.0叙事测试语料库是一个用于评估AI连续性的开放框架,包含250个故事和1,835个验证问题,覆盖6个生活领域。它定义了连续性的7个必要属性,10个检查点,4个合规级别,以及一个叙事测试语料库。

ATANT v1.0 Narrative Test Corpus is an open framework for evaluating AI continuity, which contains 250 stories and 1,835 validation questions covering 6 daily life domains. It defines 7 essential attributes of continuity, 10 checkpoints, 4 compliance levels, and a narrative test corpus.
创建时间:
2026-04-02
原始信息汇总

ATANT v1.0 数据集概述

数据集基本信息

  • 数据集名称:ATANT v1.0 (Automated Test for Acceptance of Narrative Truth)
  • 发布机构:Kenotic Labs
  • 数据集目的:一个用于评估AI连续性(AI continuity)的开放评估框架。连续性是指AI系统跨时间保持、更新、消歧和重建有意义上下文的能力。
  • 官方论文:https://arxiv.org/abs/2604.06710
  • 数据集存储库:https://github.com/Kenotic-Labs/ATANT

数据集内容与结构

  • 核心内容:ATANT是一个评估框架,包含一个叙事测试语料库(Narrative Test Corpus)。
  • 语料库规模:涵盖6个生活领域,包含250个故事和1,835个验证问题。
  • 语料库获取地址:https://huggingface.co/datasets/Kenotic-Labs/ATANTV1.0-corpus
  • 加载方式: python from datasets import load_dataset ds = load_dataset("Kenotic-Labs/ATANTV1.0-corpus")

评估框架核心定义

  • 连续性(Continuity)的7个属性
    1. 跨会话持久性:连续性在关闭、重启和时间流逝后依然存在。
    2. 更新处理:系统修订已知信息而不破坏一致性。
    3. 时间排序:不仅知道发生了什么,还知道何时、以何种顺序、处于何种状态发生。
    4. 消歧:尽管词汇重叠,不同的叙事保持分离。
    5. 重建:系统回答情境层面的问题,而不仅仅是事实查找。
    6. 模型独立性:连续性存在于智能层之下,而非其中。
    7. 操作实用性:连续性在个人、临床、机构等多个领域都有效。
  • 检查点:定义了10个检查点,用于验证连续性过程每个阶段的正确性。
  • 合规级别:定义了4个合规级别,从核心正确性到规模化。
    1. ATANT-Core:50个故事,隔离模式,100%通过CP8检查点。
    2. ATANT-Stress:250个故事,隔离模式,100%通过CP8检查点。
    3. ATANT-Cumulative:50个故事,累积模式,100%通过CP8检查点。
    4. ATANT-Scale:250个故事,累积模式,100%通过CP8检查点。
  • 评分等级:金级(100%)、银级(95-99%)、铜级(90-94%)。

参考实现结果

首次使用ATANT评估的系统是Kenotic Labs的NURA Memory Pipeline。

  • 隔离模式(250个故事):故事 250/250,问题 1,835/1,835,CP8通过率 100%
  • 累积模式(50个故事):故事 50/50,问题 304/304,CP8通过率 100%
  • 累积模式(250个故事):故事 ~210/250,问题 1,761/1,835,CP8通过率 96%

相关文档与引用

  • 完整标准文档:位于存储库的 docs/ATANT_Standard_v1.0.md
  • 故事格式规范:位于存储库的 docs/Story_Format_Spec.md
  • 测试图表:位于存储库的 docs/Testing_Figures.md
  • 引用格式: bibtex @article{tanguturi2026atant, title={ATANT: An Evaluation Framework for AI Continuity}, author={Tanguturi, Samuel Sameer}, journal={arXiv preprint arXiv:2604.06710}, year={2026} }

许可证

版权归2026年Kenotic Labs所有。详见存储库中的 LICENSE 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
ATANT v1.0叙事测试语料库的构建植根于对人工智能连续性能力的系统性评估需求,其设计遵循严谨的叙事驱动原则。该数据集通过精心编排涵盖个人、临床、制度等六大生活领域的250个故事,生成了总计1,835个验证性问题。每个故事均模拟真实的多轮对话场景,旨在构建随时间演进的连贯叙事流,而非孤立的静态事实对。数据集的构建过程严格定义了连续性的七项核心属性,并设置了十个检查点以验证各阶段叙事的逻辑一致性,从而确保评估框架能够系统性地度量AI在跨会话情境中维持、更新和重构上下文的能力。
特点
该数据集的核心特点在于其首创的叙事基础评估范式,摒弃了传统基于合成事实对的测试方法,转而采用贴近现实生活的多轮对话故事作为评估载体。其系统无关性与模型独立性确保了评估框架的普适性,不依赖于特定AI模型或系统架构。数据集结构呈现出清晰的递进式逻辑,从孤立故事的正确性验证逐步扩展到大规模叙事混淆情境下的消歧能力测试。此外,数据集明确定义了从核心到规模化的四个合规等级,并辅以金、银、铜三级评分体系,为连续性能力的量化评估提供了精细化的度量标准。
使用方法
使用ATANT v1.0数据集进行AI连续性评估时,研究者可通过Hugging Face平台直接加载语料库,并依据标准中定义的四种合规模式灵活配置测试场景。评估过程需严格遵循数据集内嵌的十个检查点,逐项验证系统在叙事持久性、更新处理、时序排序、消歧与重构等方面的表现。用户可首先在孤立模式下运行50或250个故事,以测试基础连续性;随后切换至累积模式,评估系统在叙事交织情境下的上下文维持与消歧能力。最终,通过计算检查点八的通过率,并对照预设的评分等级,即可对AI系统的连续性性能进行客观、可复现的量化评定。
背景与挑战
背景概述
在人工智能系统日益普及的背景下,会话智能体虽能处理即时查询,却普遍缺乏跨时间维度的情境连贯性。ATANT v1.0叙事测试语料库由Kenotic Labs于2026年发布,旨在构建一个系统无关的评估框架,以量化AI连续性能力。该数据集聚焦于叙事连续性这一核心研究问题,涵盖持久性、更新处理、时序排序等七项关键属性,通过包含250个故事和1835个验证问题的语料,推动AI从单会话智能向跨时间连贯系统的演进,为构建AI连续性层奠定了可衡量的基础。
当前挑战
ATANT数据集致力于解决AI连续性评估的挑战,其核心在于如何准确衡量系统在跨时间叙事中保持、更新和重建情境的能力。构建过程中的挑战包括设计真实且复杂的多轮对话叙事,以确保测试的生态效度;同时,需在系统无关的前提下,建立一套能普遍适用且避免模型依赖的评估指标,并实现从孤立正确性到大规模消歧的渐进式验证方法,从而确保评估框架的严谨性与可扩展性。
常用场景
经典使用场景
在人工智能系统评估领域,ATANT v1.0叙事测试语料库被广泛用于衡量AI连续性能力,即系统在跨时间会话中保持、更新和重构情境一致性的性能。该数据集通过涵盖个人、临床、机构等六大生活领域的250个叙事故事和1835个验证问题,构建了多轮对话测试环境,使研究者能够系统检验模型在持久性、更新处理、时序排序等七个连续性属性上的表现,为AI连贯性研究提供了标准化评估框架。
衍生相关工作
基于ATANT框架衍生的经典工作包括Kenotic Labs开发的NURA记忆管道系统,该系统在孤立模式下实现了100%的检查点通过率。同时该数据集激发了后续研究对跨领域连续性层架构的探索,促进了将时序逻辑嵌入AI底层技术栈的创新实践,为构建具备真正长期关系维持能力的人工智能系统奠定了方法论基础。
数据集最近研究
最新研究方向
在人工智能系统日益追求长期交互与情境理解的背景下,ATANT v1.0叙事测试语料库作为首个专注于连续性评估的框架,正推动该领域的前沿探索。其核心研究方向聚焦于构建跨会话的叙事一致性能力,通过涵盖持久性、更新处理、时序排序等七项连续性属性,系统化衡量AI在复杂多轮对话中保持情境连贯的效能。这一框架与当前智能助手、临床护理及企业工作流等热点应用紧密关联,旨在解决AI在时间维度上丢失关键情境信息的普遍挑战。其影响在于为AI系统的连续性层提供了可量化的标准,促进了从单次交互智能向长期关系智能的范式转变,为构建可靠、可扩展的人工智能基础设施奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作