Artificial General Intelligence Test Bed (AGITB)
收藏arXiv2025-04-06 更新2025-04-09 收录
下载链接:
https://github.com/matejsprogar/agitb
下载链接
链接失效反馈官方服务:
资源简介:
AGITB是由马里博尔大学电气工程与计算机科学学院提出的一种信号级基准测试,旨在评估人工通用智能。该测试由12个严格的测试组成,这些测试构成了评估认知能力潜在出现的信号处理基础。AGITB通过模型在不依赖符号表示或预训练的情况下,跨时间预测二进制信号的能力来评估智能。与基于语言或感知的高级测试不同,AGITB专注于反映生物智能的核心计算不变性,如确定性、敏感性和泛化性。
AGITB is a signal-level benchmark proposed by the Faculty of Electrical Engineering and Computer Science, University of Maribor, aimed at evaluating artificial general intelligence (AGI). This benchmark comprises 12 rigorous tests, which form the foundational signal processing framework for assessing the potential emergence of cognitive abilities. AGITB evaluates intelligence by measuring a model's ability to predict binary signals across time without relying on symbolic representations or pre-training. Unlike advanced language or perception-based benchmarks, AGITB focuses on core computational invariances that reflect biological intelligence, such as determinism, sensitivity, and generalizability.
提供机构:
马里博尔大学电气工程与计算机科学学院
创建时间:
2025-04-06
搜集汇总
数据集介绍

构建方式
AGITB数据集的构建基于信号处理层面的认知能力评估,通过12项严格测试来模拟生物智能的核心计算不变性。该数据集采用二进制信号序列作为输入,要求模型在无符号表示或预训练的条件下预测时间序列中的信号变化。测试设计遵循生物学约束,如不应期行为,确保评估过程不受语义内容干扰。数据生成采用随机化方法,避免固定模式带来的评估偏差,同时保持时空维度的正交性以丰富信号结构。
特点
AGITB数据集的核心特点在于其去符号化的评估范式,将智能定义为信号层面的模式检测与预测能力。测试项目覆盖确定性、敏感性、时间敏感性等生物智能基础特性,且所有测试必须全部通过。数据集具有严格的不可作弊性,既不能通过暴力计算解决,也无法依赖记忆完成。其输入输出采用二进制编码的时空信号,模拟神经元的稀疏发放特性,同时保持与具体感官模态的解耦。人类被试可自然通过全部测试,而现有AI系统均未达标,形成显著的性能鸿沟。
使用方法
使用AGITB需实现Cortex和Input两个交互组件,前者负责基于内部状态生成预测,后者提供二进制时空信号序列。评估时需设定模式周期参数以控制时序复杂度,系统会比对模型预测与真实信号的吻合度。测试过程不依赖绝对性能阈值,而是通过相对状态比较进行判定。研究人员可通过开源C++参考实现构建测试环境,需特别注意模型初始状态必须完全无偏,且所有测试需在统一架构下完成。对于LLM等预训练模型,需设计特殊接口将其输出映射到二进制信号空间进行评估。
背景与挑战
背景概述
Artificial General Intelligence Test Bed (AGITB) 是由Matej Šprogar于2025年提出的一个创新性基准测试集,旨在为评估人工通用智能(AGI)提供信号处理层面的基础。该数据集由12项严格测试组成,专注于评估模型在无符号表征或预训练条件下预测二进制时序信号的能力。AGITB的核心理念源于对当前AI系统(如大语言模型)缺乏真正理解能力的反思,其设计受到生物智能计算不变性(如确定性、敏感性和泛化性)的启发。作为马立博大学电气工程与计算机科学学院的成果,该测试床填补了AGI领域缺乏渐进式、可操作评估工具的空白,为识别具有人类级适应能力的智能系统提供了新范式。
当前挑战
AGITB面临的核心挑战体现在两个维度:在领域问题层面,其需要解决现有AGI评估方法无法区分统计模式匹配与真实认知能力的缺陷,尤其针对大语言模型在无符号 grounding 条件下的预测失效问题;在构建过程中,需克服生物神经信号处理机制模拟的复杂性,包括时间序列预测的折射期约束、输入顺序敏感性以及无监督状态下的知识累积等难题。测试设计必须确保既不能被暴力破解或记忆策略通过,又要保持人类可解的生物学合理性,这对测试项的参数平衡(如模式周期长度)和评估标准(如状态不可观测性)提出了极高要求。
常用场景
经典使用场景
在人工智能研究领域,AGITB数据集被广泛用于评估模型是否具备类人通用智能的核心特征。该数据集通过12项严格设计的信号处理测试,模拟了生物大脑处理时空模式的基本能力,成为检验AI系统是否具备预测、适应和泛化等认知能力的黄金标准。研究者利用其二进制信号序列的预测任务,可有效区分传统模式匹配系统与真正具备学习机制的智能体。
衍生相关工作
基于AGITB的测试范式,研究者开发了NeuroBench等面向神经形态硬件的基准测试套件。其核心思想启发了Temporal-GNN等时序图神经网络架构的创新,推动了《Nature Machine Intelligence》关于'机器认知发育'特刊的系列研究。微软研究院据此提出的Cortical Learning Framework,将信号预测理论扩展至多模态学习领域,成为近期AGI研究的重要参考框架。
数据集最近研究
最新研究方向
在人工智能领域,通用人工智能(AGI)的评估标准一直是研究热点。AGITB数据集通过12项严格测试,为评估AGI提供了信号处理层面的基准。该数据集的最新研究方向集中在低层级信号预测能力的评估上,旨在揭示生物智能与当前AI系统之间的本质差异。AGITB摒弃了传统基于语言或感知的高层次测试,转而关注反映生物智能核心特征的计算不变性,如确定性、敏感性和泛化能力。这一创新性评估框架为AGI研究提供了新的方法论工具,其无偏置、无语义依赖的特性使其成为区分真正智能系统与模式匹配算法的重要标尺。近期研究显示,尽管人类能够轻松通过所有测试,现有最先进的大型语言模型(如ChatGPT-4o)仍无法满足其核心要求,这凸显了当前AI系统在基础认知能力上的局限性。
相关研究论文
- 1AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence马里博尔大学电气工程与计算机科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



