FINAL Bench

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/final-bench/leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

FINAL Bench（前沿智能网络用于AGI级验证）是第一个用于评估大型语言模型（LLMs）功能元认知的综合基准。与现有基准（如MMLU、HumanEval、GPQA）仅测量最终答案准确性不同，FINAL Bench评估了错误检测、确认和纠正的整个流程——这是专家级智能的标志，也是实现AGI的先决条件。

FINAL Bench (Frontier Intelligent Network for AGI-level Validation) is the first comprehensive benchmark for evaluating the functional metacognition of large language models (LLMs). Unlike existing benchmarks such as MMLU, HumanEval, and GPQA, which only measure the accuracy of final answers, FINAL Bench evaluates the entire workflow of error detection, validation, and correction, which is a hallmark of expert-level intelligence and a prerequisite for achieving AGI.

创建时间：

2026-02-26

原始信息汇总

FINAL Bench 数据集概述

数据集基本信息

数据集名称：FINAL Bench (Frontier Intelligence Nexus for AGI-Level Verification)
核心定位：首个用于评估大型语言模型（LLMs）功能性元认知的综合基准。
核心评估目标：评估错误检测、承认和纠正的完整流程，而非仅最终答案准确性。
版本：3.0
任务数量：100
涵盖领域：15个（数学、医学、伦理学、哲学、经济学等）
元认知类型：8种TICOS类型
难度等级：A（前沿）/ B（专家）/ C（高级）
评估维度：5个（PQ, MA, ER, ID, FC）
语言：英语
许可证：Apache 2.0

数据集结构

任务字段

字段	类型	描述
`task_id`	string	唯一标识符（例如 FINAL-A01, FINAL-B15）
`domain`	string	15个领域之一
`grade`	string	难度等级：A / B / C
`ticos_type`	string	8种元认知类型之一
`difficulty`	string	frontier / expert
`lens`	string	评估视角（理论 / 定量 / 辩论）
`title`	string	任务标题
`prompt`	string	呈现给模型的完整提示
`expected_behavior`	string	理想元认知行为描述
`hidden_trap`	string	嵌入的认知陷阱描述
`ticos_required`	string	必需的TICOS元素（逗号分隔）
`ticos_optional`	string	可选的TICOS元素（逗号分隔）

等级分布

等级	任务数	权重	特征
A (前沿)	50	×1.5	开放问题，多阶段陷阱
B (专家)	33	×1.0	专家级，包含嵌入式反转
C (高级)	17	×0.7	高级本科水平

领域分布（15个领域）

领域	任务数	领域	任务数
医学	11	艺术	6
数学与逻辑	9	语言与写作	6
伦理学	9	人工智能与技术	6
战争与安全	8	历史	6
哲学	7	空间与物理	6
经济学	7	宗教与神话	3
化学与生物学	7	文学	3
科学	6

TICOS元认知类型分布（8种类型）

TICOS 类型	核心能力	任务数	陈述性 / 程序性
F_ExpertPanel	多视角综合	16	混合
H_DecisionUnderUncertainty	不完全信息下的决策	15	陈述性主导
E_SelfCorrecting	显式错误检测与纠正	14	纯程序性
G_PivotDetection	关键假设变更检测	14	程序性主导
A_TrapEscape	陷阱识别与逃脱	13	程序性主导
C_ProgressiveDiscovery	基于新证据的判断修正	11	程序性主导
D_MultiConstraint	冲突约束下的优化	10	程序性主导
B_ContradictionResolution	矛盾检测与解决	7	混合

五维评估标准

每个任务在五个维度上独立评分：

维度	符号	权重	测量目标	元认知层级
过程质量	PQ	15%	结构化推理质量	—
元认知准确性	MA	20%	置信度校准，极限意识	L1（陈述性）
错误恢复	ER	25%	错误检测与纠正行为	L3（程序性）
整合深度	ID	20%	多视角整合	—
最终正确性	FC	20%	最终答案准确性	—

FINAL 总分 = Σ(加权分数 × 等级权重) / Σ(等级权重)

MA–ER 分离：核心创新

MA（元认知准确性） = 说出“我可能错了”的能力（陈述性元认知）
ER（错误恢复） = 在识别错误后实际修复它的能力（程序性元认知）
MA–ER 差距 = “知道”与“行动”之间可测量的分离

关键评估发现（基于9个SOTA模型）

ER 主导：94.8% 的元认知增益仅来源于错误恢复维度。
陈述性-程序性差距：所有9个模型都能口头表达不确定性，但无法据此行动 — MA–ER 平均差距为 0.392。
难度效应：更困难的任务产生显著更大的自我纠正增益（皮尔逊相关系数 r = –0.777, p < 0.001）。

基准结果摘要

基线排行榜（前3名）

排名	模型	FINAL 总分
1	Kimi K2.5	68.71
2	GPT-5.2	62.76
3	GLM-5	62.50

元认知排行榜（前3名）

排名	模型	FINAL 总分	ER 分数	元认知增益 (Δ_MC)
1	Kimi K2.5	78.54	0.908	+9.83
2	Gemini 3 Pro	77.08	0.875	+17.58
3	GPT-5.2	76.50	0.792	+13.74

设计原则

陷阱嵌入设计：所有100个任务都包含基于已知认知偏差的隐藏认知陷阱。
陈述性-程序性分离：MA和ER作为独立标准评分，以量化“说我不知道”和“实际修复它”之间的差距。
比较条件设计：基线（单次调用）和元认知（自我纠正支架）条件用于隔离功能性元认知的因果效应。
抗污染设计：所有任务均为FINAL Bench原创设计，非现有基准问题的变体，无法在搜索引擎或训练数据中找到。

相关资源

论文：FINAL Bench: Measuring Functional Metacognitive Reasoning in Large Language Models（正在评审中）
论文链接：https://github.com/final-bench/leaderboard/FINAL_Bench_paper.pdf
DOI：https://doi.org/10.57967/hf/7873
引用格式：提供BibTeX引用格式。
许可证：Apache License 2.0（允许学术和商业使用、修改和再分发，需署名）。
联系方式：通讯作者 Taebong Kim (arxivgpt@gmail.com)，所属机构 VIDRAFT / Ginigen AI, Seoul, South Korea。

搜集汇总

数据集介绍

构建方式

在人工智能迈向通用智能的进程中，元认知能力被视为关键瓶颈。FINAL Bench的构建旨在填补这一空白，其设计遵循严格的认知科学原理。数据集包含100个任务，覆盖数学、医学、伦理学等15个领域，并依据前沿、专家、高级三个难度等级进行分层。每个任务均精心嵌入了基于认知偏见的隐藏陷阱，例如可得性启发式或确认偏误，以此模拟真实场景中专家可能面临的认知挑战。任务构建还引入了TICOS元认知类型框架，将透明度、内省、校准等元素作为评估维度，确保任务能够系统性地触发模型的自我监测与修正行为。

特点

该数据集的核心特征在于其开创性的五轴评估体系，特别是对陈述性元认知与程序性元认知的分离测量。通过独立评估元认知准确性和错误恢复能力，数据集能够精确量化模型“知”与“行”之间的鸿沟，这一设计直接映射了认知心理学中的监测-控制模型。此外，数据集采用了对比实验设计，设置了基线条件与元认知支架条件，从而能够清晰分离出自我修正行为带来的因果效应。其任务均为原创设计，有效避免了数据污染问题，确保了评估结果的纯净性与可靠性。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷加载该数据集，并利用其提供的评估框架进行分析。典型的使用流程包括：首先在基线条件下获取模型的初始响应，随后在元认知条件下引导模型进行自我检测与修正。评估时需依据五轴评分标准，对过程质量、元认知准确性、错误恢复、整合深度及最终正确性进行独立打分。数据集附带了详细的评判提示词模板，支持自动化或人工评估。这种使用方法不仅能够全面衡量模型的元认知功能，还能深入揭示不同模型在认知陷阱中的行为模式与恢复潜力。

背景与挑战

背景概述

在人工智能迈向通用智能（AGI）的进程中，元认知能力——即系统能够监测、评估并修正自身认知过程的能力——被视为实现专家级智能的关键瓶颈。FINAL Bench（前沿智能验证基准）由Taebong Kim等研究人员于2026年创建，作为首个专门评估大语言模型功能性元认知的综合基准。该基准旨在超越传统仅关注最终答案准确性的评测范式，通过模拟人类专家的错误检测、承认与纠正的完整认知循环，为核心研究问题——即模型是否具备“知其不知并能修正”的智能行为——提供了系统化的测量工具。其创新性的五轴评估框架与TICOS元认知类型分类，为AGI研究领域引入了新的评估维度，推动了智能系统从知识存储向自我完善的能力演进。

当前挑战

FINAL Bench所针对的领域挑战在于，现有评测体系普遍无法有效衡量智能体的功能性元认知。传统基准如MMLU或GPQA仅评估静态知识或推理结果，忽略了智能体在动态认知过程中识别陷阱、校准信心并执行自我修正的关键能力，这阻碍了对模型是否具备接近人类专家反思与纠错能力的深入理解。在数据集构建过程中，研究团队面临的主要挑战包括：如何设计蕴含复杂认知陷阱且能有效触发模型错误的任务，确保其既具挑战性又避免污染训练数据；如何精确分离并量化元认知的陈述性成分（如表达不确定性）与程序性成分（如实际纠错行为），以捕捉“知”与“行”之间的鸿沟；以及如何构建一个涵盖多领域、多难度等级且评估维度相互正交的严谨评测框架，以保障结果的可靠性与解释性。

常用场景

经典使用场景

在人工智能研究领域，FINAL Bench 作为首个专注于功能性元认知评估的基准测试，其经典应用场景在于系统性地衡量大型语言模型在复杂任务中的自我监控与修正能力。该数据集通过精心设计的认知陷阱任务，覆盖数学、医学、伦理等十五个学科领域，要求模型不仅生成最终答案，更需展现从错误检测到自我纠正的完整行为链条。研究者通常利用其五轴评估框架，对比模型在基线条件与元认知支架下的表现，从而量化模型在声明性元认知与程序性元认知之间的差距，为前沿模型的智能水平提供深度诊断。

衍生相关工作

围绕 FINAL Bench 所倡导的功能性元认知评估理念，已衍生出一系列相关的研究工作与基准拓展。其理论基础直接继承了认知心理学中弗拉维尔、纳尔逊等人的元认知理论，并在技术上与近期如DeepSeek-R1、Self-Correction Bench 等专注于LLM自我纠正的研究形成对话。该数据集提出的TICOS框架与五轴评估方法，为后续研究提供了可操作的评估范式，预计将激励更多工作探索模型不确定性校准、多阶段推理中的陷阱规避，以及声明性与程序性元认知能力的协同提升机制，共同推动下一代可信AI的发展。

数据集最近研究