CogEval-Bench

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/OpenNorve/CogEval-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CogEval-Bench是一个结构诊断基准，旨在评估智能体在连续事件流下是否形成认知结构，而不仅仅是检索事实的能力。该数据集源自论文《CogniFold: Always-On Proactive Memory via Cognitive Folding》的结构评估部分，包含6个场景（学术研究、客户支持、健康历程、新闻流、软件工程师、团队项目），每个场景提供小规模（约50个事件）和中规模（约90个事件）数据。数据生成采用自上而下方法：先人工定义黄金概念图（包括概念、关系、层次结构、预期意图和多跳推理链），然后生成第一人称事件流，注入约12%的干扰事件并进行时间打乱。数据集文件包括gold_graphs/目录（存储参考认知结构JSON文件，详细描述概念、关系、植入链、意图和状态跟踪）和generated/目录（存储生成事件流与问答捆绑包JSON文件，包含事件流和从黄金图衍生的问答对）。评估方向涵盖概念质量（语义对齐）、拓扑结构（图与层次恢复、多跳链遍历）以及压缩与主动性（冗余事件压缩和意图结晶）。该数据集适用于评估和开发展现结构化记忆和认知推理能力的智能体系统。

CogEval-Bench is a structural diagnostic benchmark designed to evaluate whether agents form cognitive structures under continuous event streams, rather than merely measuring their fact retrieval capabilities. This dataset is the structural evaluation component from the paper CogniFold: Always-On Proactive Memory via Cognitive Folding. It includes 6 scenarios (academic research, customer support, health journey, news stream, software engineer, team project), each providing data at two scales (small scale with about 50 events, medium scale with about 90 events). Data generation follows a top-down approach: first, a gold concept graph is manually specified to define concepts, relationships, hierarchical structures, expected emergent intents, and embedded multi-hop reasoning chains; then, first-person event streams are generated from this gold graph, injecting approximately 12% of noise events and temporally shuffling the event stream. The dataset files are divided into two categories: the `gold_graphs/` directory contains JSON files for reference cognitive structures, detailing concepts, relationships, embedded chains, expected intents, state tracking, etc.; the `generated/` directory contains JSON files for generated event streams and question-answer bundles for each scenario and scale, which embed the corresponding gold graph and include event streams (each with fields such as ID, timestamp, source, type, title, description) and various QA pairs derived from the gold graph. The benchmark scores memory systems across three evaluation dimensions: Dimension A assesses concept quality (semantic alignment of concepts); Dimension B evaluates topological structure (recovery of inter-concept graphs and hierarchical structures, as well as multi-hop chain traversal capabilities); Dimension C assesses compression and proactivity (ability to compress redundant events into stable concepts and crystallize intents from converging evidence). The dataset is suitable for evaluating and developing agent systems with structured memory and cognitive reasoning capabilities.

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

CogEval-Bench的构建过程始终遵循“金标准优先”的设计哲学。研究人员首先为每个场景手工定义一份包含概念节点、关系边、层级结构及预期意图的金标准概念图（Gold Concept Graph）。随后，基于该图生成第一人称事件流，并注入约12%的干扰事件，最后对事件序列进行时序洗牌，从而模拟现实中错综复杂的信息输入环境。这一自顶向下的生成策略确保了事件流底层的认知结构是可验证、可度量的，为诊断记忆基板是否真正形成了认知图谱提供了可靠标准。

特点

该基准测试的核心特色在于其面向拓扑结构的深度评估体系，而非传统的检索准确率。CogEval-Bench从三个独立维度量化记忆基板的认知质量：概念质量（语义校准度）、拓扑结构（关系与层级还原力）以及压缩与主动性（冗余压缩效率与意图结晶速率）。每个维度对应专门的评估指标与脚本，能够精准定位一个智能体在应对连续事件流时，其记忆系统是在机械匹配关键词，还是已经构建起具备抽象层次的动态认知架构。

使用方法

使用者可通过HuggingFace Datasets库快速加载CogEval-Bench的生成事件流与金标准图谱。推荐的工作流是：首先下载特定场景的事件流JSON文件，将其输入待评估的智能体记忆系统；随后在系统处理完整个流后，利用提供的Python评估器（concept_evaluator与compression_evaluator）将系统形成的内部结构对金标准图谱进行多指标评分。完整的评估管道已集成在CogniFold仓库中，通过bash脚本即可一键复现整个基准测试，极大降低了认知架构研究者的评估门槛。

背景与挑战

背景概述

在大型语言模型与自主智能体持续演进的时代，记忆系统已从简单的信息存储转变为支持复杂推理与自适应行为的核心组件。由Wang等人于2026年提出的CogEval-Bench，是CogniFold主动记忆框架的结构性诊断基准，旨在超越传统事实检索评估，深入探测智能体在连续事件流中是否形成真正的认知结构。该基准由OpenNorve团队研发，其核心研究问题聚焦于如何从拓扑与语义维度量化记忆基质的认知完整性，涵盖概念质量、层级关系恢复、压缩效率与主动意图涌现等层面。通过引入人工标注的黄金概念图作为参照，将为评估下一代智能体记忆系统提供严格的科学度量标准，对认知架构与自主智能体领域产生深远影响。

当前挑战

CogEval-Bench所面对的领域问题挑战在于，现有评估基准如LoCoMo或LongMemEval仅衡量端到端检索准确率，无法区分记忆系统是真正形成了认知结构还是仅依赖关键词匹配，导致对智能体深层能力的高估。在构建过程中，团队面临多项挑战：首先需要为六种现实场景（如学术研究、客户支持）手工设计完整的黄金概念图，包含概念、关系、层级、期望意图及多跳链，确保图结构兼具领域真实性与逻辑一致性。其次，从黄金图自顶向下生成事件流时，需要精确控制约12%的干扰事件注入与时间序列洗牌，以模拟真实世界中的噪声与无序性，同时维持评估的可复现性。此外，评估轨道的设计需在概念纯度、拓扑F1分数与压缩比率等多维指标间取得平衡，全面捕捉记忆系统的结构品质。

常用场景

经典使用场景

在认知科学与人工智能的交叉领域中，CogEval-Bench被广泛用于评估智能体记忆系统在连续事件流中构建认知结构的能力。不同于传统基准测试仅关注事实检索的准确性，该数据集通过精心设计的六类场景（如学术研究、客户支持、健康旅程等），要求记忆系统在注入干扰事件和时间乱序的事件流中，形成符合预设概念图的概念质量、拓扑结构以及压缩与主动性指标，从而系统性地诊断其是否具备真正的认知结构。

实际应用

在工业级智能体系统的开发中，CogEval-Bench为构建具备长效记忆能力的对话助手、客服系统及团队协作工具提供了关键验证平台。例如，在客户支持场景下，该数据集能够评估系统是否能在多轮交互中动态形成关于用户需求的概念图谱，从而准确预测服务意图并主动提供解决方案。同样，在软件工程场景中，它帮助验证智能体能否追踪项目状态变迁，在纷杂的代码提交和讨论中识别潜在问题，实现高效的有状态自动化辅助。

衍生相关工作

作为CogniFold框架的结构评估核心，CogEval-Bench衍生了一系列关于前瞻性记忆与认知折叠的经典工作。最具有代表性的是其提出的概念图拓扑评分与压缩率指标，这激发了后续研究中关于记忆系统如何通过认知折叠技术实现事件流的高效压缩与意图涌现的探讨。此外，基于该数据集中的多跳推理链设计，研究者开发了新型的记忆回放与轨迹规划方法，使得智能体能够在复杂环境中进行长程推理。该数据集的评估范式也被扩展至多模态事件流及开放式对话记忆等前沿领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集