CogniLoad

Name: CogniLoad
Creator: Integreat -Norwegian Centre for knowledge-driven machine learning, UiT -The Arctic University of Norway, University of Oslo
Published: 2025-09-23 06:28:33
License: 暂无描述

arXiv2025-09-23 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/cogniloadteam/cogniload

下载链接

链接失效反馈

官方服务：

资源简介：

CogniLoad是一个基于认知负荷理论（CLT）的合成自然语言推理基准，它生成具有独立可调参数的自然语言逻辑谜题，这些参数反映了CLT的核心维度：内在难度（d）控制内在负荷；干扰信号比（ρ）调节额外负荷；任务长度（N）作为对相关负荷条件的操作代理。CogniLoad通过提供对这些认知负荷维度的系统、因素控制，为剖析LLM推理局限性和指导未来模型发展提供了一个可重复、可扩展且诊断丰富的工具。

CogniLoad is a synthetic natural language inference benchmark grounded in Cognitive Load Theory (CLT). It generates natural language logical puzzles with independently tunable parameters that correspond to the core dimensions of CLT: Intrinsic Difficulty (d) which controls intrinsic cognitive load; Distraction-to-Signal Ratio (ρ) which modulates extraneous cognitive load; and Task Length (N) which serves as an operational proxy for relevant cognitive load conditions. CogniLoad provides a repeatable, scalable, and diagnostically rich tool for dissecting the reasoning limitations of large language models (LLMs) and guiding the development of future models through systematic, factorial control over these cognitive load dimensions.

提供机构：

Integreat -Norwegian Centre for knowledge-driven machine learning, UiT -The Arctic University of Norway, University of Oslo

创建时间：

2025-09-23

搜集汇总

数据集介绍

构建方式

在认知负荷理论框架指导下，CogniLoad通过算法生成可控的自然语言逻辑谜题，系统化构建评估数据集。该数据集采用参数化生成机制，通过三个独立可调维度——内在难度（d）控制实体交互复杂度，任务长度（N）调节序列推理步数，干扰密度（ρ）调整无关信息比例，形成具有明确认知负荷特征的逻辑网格谜题。每个谜题通过随机初始化人物属性状态，并依序生成条件更新语句，最终针对特定人物属性生成查询问题，确保生成过程的严谨性与可复现性。

使用方法

该数据集适用于系统评估大型语言模型在长上下文推理任务中的表现，用户可通过调整三个核心参数生成不同认知负荷配置的谜题实例。评估时需将完整谜题文本输入模型，要求其严格按顺序处理更新语句并输出最终答案，通过精确匹配模型输出与标准答案计算准确率。数据集支持大规模可复现实验，研究者可基于不同参数组合探究模型对内在复杂度、干扰信息与序列长度的敏感度，进而识别模型在认知负荷各维度上的具体缺陷，为改进模型架构与训练策略提供实证依据。

背景与挑战

背景概述

CogniLoad数据集由挪威机器学习中心Integreat与奥斯陆大学、北极大学等机构的研究团队于2025年联合创建，旨在解决大语言模型长上下文推理评估中关键维度混淆的问题。该数据集基于认知负荷理论框架，通过可独立调控的参数系统构建自然语言逻辑谜题，核心研究聚焦于分解内在认知负荷、外在认知负荷与相关认知负荷对模型推理能力的影响。其创新性设计填补了现有基准测试在多维度控制上的空白，为精准诊断模型推理机制提供了理论支撑与实践工具。

当前挑战

在解决复杂逻辑推理任务时，CogniLoad面临领域问题与构建过程的双重挑战。领域层面需应对模型在长序列任务中维持相关认知负荷的稳定性，以及在高干扰密度下保持选择性注意力的能力；构建过程中需确保参数独立性调控的精确性，包括内在难度与任务长度的解耦设计、干扰语句与核心语句的语义一致性维护，同时需通过自动化生成算法保障数万条谜题实例的逻辑严谨性与评估可复现性。

常用场景

经典使用场景

在认知科学与大语言模型研究领域，CogniLoad数据集通过合成自然语言逻辑谜题，系统评估模型在长上下文推理中的表现。该数据集最经典的应用场景在于精确控制认知负荷的三个维度：内在难度、外在干扰和任务长度，为研究者提供可复现的基准测试环境。通过生成具有严格顺序依赖的多步推理任务，它能够有效检验模型在复杂逻辑链条中的状态追踪能力与推理一致性。

解决学术问题

CogniLoad解决了现有基准测试中认知负荷维度混淆的核心问题。通过独立调控内在认知负荷（通过实体交互复杂度）、外在认知负荷（通过干扰信息密度）和任务长度（作为生成认知负荷的代理变量），该数据集能够精确诊断大语言模型在长上下文推理中的失效模式。其因子化设计揭示了任务长度对模型性能的主导影响，并首次系统量化了模型对干扰信息的U形响应曲线，为改进模型架构提供了理论依据。

实际应用

该数据集的实际价值体现在大语言模型的开发优化与能力评估中。研发团队可利用CogniLoad生成的诊断性测试用例，针对性提升模型在长文档理解、多步逻辑推理等场景下的表现。教育科技领域可借鉴其认知负荷调控机制，设计更符合人类认知规律的教学系统。在人工智能安全领域，该数据集提供的失效模式分析有助于构建更可靠的推理系统，防止关键场景下的逻辑链断裂。

数据集最近研究