Meta-HCH-Bench

github2026-04-17 更新2026-05-10 收录

下载链接：

https://github.com/voicetreelab/meta-hch-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Meta-HCH-Bench是一个非饱和的元认知基准数据集，用于评估前沿大型语言模型。它通过构建隔离元认知与能力的方法，揭示了模型家族在元认知上的不同定性专业化。数据集包含210个程序生成的实例，涵盖7个类别×2个难度×种子，每个实例都有已知的CP-SAT/ILP/tree-DP黄金求解器。

Meta-HCH-Bench is a non-saturated metacognitive benchmark dataset for evaluating state-of-the-art large language models. By establishing a methodology that isolates metacognition from task capability, it reveals distinct qualitative specializations in metacognition across model families. The dataset contains 210 programmatically generated instances, covering 7 categories × 2 difficulty levels × seed settings, with each instance paired with a known gold standard solver based on CP-SAT, ILP, or tree-DP.

创建时间：

2026-04-16

原始信息汇总

数据集概述：Meta-HCH-Bench (Capability-Controlled Metacognition Benchmark)

基本信息

数据集名称: Meta-HCH-Bench
团队: Voicetree (Manu Masson, Lochlan Hill)
赛道: 元认知 (Metacognition)
数据集地址: https://github.com/voicetreelab/meta-hch-bench
DOI: https://doi.org/10.5281/zenodo.19619282

问题背景

现有元认知基准测试将自我认知与能力混为一谈，无法单独解释原始置信度分数。该基准测试通过构造方式将元认知与能力分离，揭示不同模型家族发展出质性不同的元认知专长——元认知不是标量，而是分解为正交轴（监测 vs. 控制）。

核心创新

连续值优化问题：由OR-Tools/ILP求解器验证，无需LLM作为裁判
墙钟时间惩罚：每次停止都是可证伪的经济承诺
反事实分叉 (Counterfactual Forking)：每次干净停止时强制多执行一轮，为每次停止提供有价判决
能力控制指标 (M5, M6)：通过测量模型自身观察到的天花板差距来消除平面悲观主义

任务构造

会话设定: 每轮30分钟墙钟预算，经济目标为 score = max(0, 100 − gap_pct) − 0.01 × wall_seconds
执行流程: 第一轮为计划，后续轮次执行并输出最佳猜测、质量预测、继续预测和决策
解析方式: 模型输出原始文本，由后处理的Gemini-Flash提取器解析结构化字段，实时循环永不解析，避免了解析器脆弱性问题

六项元认知技能 (M1–M6)

指标	描述
M1	子任务可解性预测的Brier分数 (p_solve)
M2	输出质量预测的Brier分数 (p_gap_le_X)
M3	反事实分叉的净收益分布
M4	预期增量与真实增量的平均绝对误差
M5	能力控制下的AUC比率 (AUC_model / AUC_own_ceiling)
M6	最优组合与观察到的组合分数之差

Brier分数通过Murphy (1973)分解为可靠性/分辨率/不确定性，并报告Brier技能分数 (BSS)。

数据集构成

实例数量: 210个程序化生成的实例
类别与难度: 7个类别 × 2个难度级别 × 多个种子
问题类型: 耦合作业车间调度、Steiner × 着色、图着色、旅行商问题、树宽最大加权独立集、贝叶斯变量消除、掩码块作业车间调度
附加实例: 投资组合分配实例 (3-of-6 和 4-of-6，两个难度段)
过滤条件: 基线-金标准差距 ≥ 15%，金标准求解时间 < 60秒
可复现性: 每个实例由 (class, difficulty, seed) 确定性可复现
验证方式: 纯Python验证器模块，从提交工件重新计算目标值，无需LLM作为裁判

技术细节

实现协议: harness/protocol.py (原始字符串循环)
后处理提取器: 已在所有目标输出形状上验证
验证器: verifiers/{class}.py
日志格式: 完整转录，评审者可独立重新运行提取和验证
输出格式: JSONL输入 → JSONL输出，包含 {run_id, transcript, final_score, metacog_fields}

评估结果与洞察

6模型扫描结果 (每家族2个模型 × 3个家族)

指标	Anthropic (Sonnet / Opus)	Google (Flash / G-3-Pro)	OpenAI (mini / GPT-5.4)
M1 BSS ↑	+0.19 / −0.01	−0.79 / —	−0.35 / +0.14
M2 BSS ↑	+0.53 / +0.18	−0.44 / +0.50	−2.14 / −3.17
M2 分辨率 ↑	0.12 / 0.07	0.03 / 0.11	0.00 / 0.01
M4 MAE ↓	1.85 / 1.82	5.94 / 0.35	2.08 / 7.99
可行性 ↑	33% / 82%	49% / 100%	54% / 86%

家族一致性结论

Anthropic — 监测轴确认: Sonnet和Opus均取得正向M2 BSS (+0.53 / +0.18)和低M4 MAE (~1.8)；Opus修复了Sonnet的执行崩溃问题
OpenAI — 尖锐且错误的M2确认: GPT-5.4-mini和GPT-5.4均在M2 BSS上表现灾难性 (−2.14 / −3.17)，分辨率接近零，且前沿模型表现更差
Google — 平面预测者在前沿被拒绝: Gemini 3 Pro (56/56完整，100%可行性) 逆转了Flash的表现模式

干预实验证据

在HLE试点 (n=100) 中，三级递归反思指导将准确率从18%提升至24%，Brier分数从0.305降至0.271，表明元认知技能是可训练的。

隶属机构

Voicetree — AI智能体编排平台，研究独立进行。

参考文献

完整参考文献列表见: https://github.com/voicetree-ai/metabench-evals/blob/main/references.md

搜集汇总

数据集介绍

构建方式

在大语言模型元认知评估领域，现有基准往往因能力与自我认知的混淆而失准。Meta-HCH-Bench 通过构造性设计隔离了元认知与基础能力，其核心在于每轮会话设定为30分钟的固定预算，模型需在计划与执行回合中输出质量预测与终止决策，并引入反事实分叉机制——对于每一次模型自主终止，强制其额外执行一次并计算净分数变化，以此客观判定终止的正确性。210个程序化生成的实例覆盖七类组合优化问题，每种实例均有确知的最优求解器验证，并通过预置滤波器确保基线差距，无需使用LLM作为裁判。

使用方法

使用Meta-HCH-Bench时，研究者需通过给定实例ID与模型参数在标准化协议环境下运行评估。协议以纯文本循环驱动，后处理阶段由Gemini-Flash解析器提取结构化字段，所有原始对话日志被完整记录以供复现。输出的JSONL文件包含运行标识、完整转录、最终分数及预设的元认知指标字段。模型需在30分钟时间预算内完成计划、执行与终止决策，并通过反事实分叉获得经济化信号。所有验证器均为纯Python模块，确保评估过程完全透明且可复现。

背景与挑战

背景概述

元认知（Metacognition）作为人工智能自我认知能力的核心维度，长期受限于其与任务执行能力的混杂评估。2025年，Voicetree团队的Manu Masson与Lochlan Hill构建了Meta-HCH-Bench基准数据集，旨在将元认知从能力度量中解耦出来。该数据集通过210个程序化生成的连续优化问题实例，覆盖耦合调度、图着色、旅行商等七类经典NP-hard问题，并引入反事实分支与基于经济约束的停止决策机制，开创性地实现了对模型自我知识不同轴线的独立量化评估。研究揭示了前沿模型家族在元认知监测与控制维度上存在质性特化差异，例如Anthropic模型在监测精度上表现突出，而OpenAI模型则呈现独特的‘精准但错误’模式，这一发现颠覆了传统‘元认知强弱’的单一标量认知范式。

当前挑战

Meta-HCH-Bench面临的核心挑战在于领域问题的固有复杂性：元认知评估长期与任务执行能力相混杂，传统置信度指标因与准确率高度相关而丧失独立性。基准构建过程中，研究者需克服多重技术困难：设计可验证的连续优化问题而非依赖LLM作为评判者，确保解的客观性；通过反事实分支强制模型承担额外执行代价，以经济约束量化停止决策的理性程度；开发能力控制指标M5与M6，通过对比模型自身观测天花板消除悲观偏差。此外，模型对定价策略的系统性偏差（如信心膨胀）需通过审计程序区分算术缺陷与元认知失真，而元认知技能可训练性的验证则要求构建递归反思干预实验，以证明该基准测量的维度具有实际指导意义。

常用场景

经典使用场景

Meta-HCH-Bench的核心设计初衷在于解析大语言模型在复杂优化任务中的元认知行为，其经典使用场景聚焦于评估模型在“监测”与“控制”两大元认知轴向上的表现。该基准将元认知从能力中剥离，通过构建连续值优化问题（如耦合作业车间调度、旅行商问题等），并引入墙钟时间惩罚与反事实分叉机制，迫使模型在每步决策中做出可验证的经济承诺。研究者可以利用该基准精确量化模型对自身求解质量的预测精度（如M2 Brier技能评分）、停止时机的经济理性（如M3的净收益分布）以及基于自身能力上限的校准程度（如M5、M6指标），从而获得对模型元认知能力的细粒度认知轮廓。

解决学术问题

该数据集系统性地解决了元认知评估中长期存在的“能力-元认知混淆”这一学术难题。传统元认知基准（如Kadavath的P(Ture)）因与模型准确率高度相关，使得原始置信度得分不具备可解释性。Meta-HCH-Bench通过构造性隔离策略，证明了元认知并非单一标量，而是可分解为监测与控制等正交轴，且不同模型家族（如Anthropic、Google、OpenAI）在元认知轴向上展现出质性的专业化分工。这一发现挑战了“更多即更好”的元认知简化观点，揭示了模型在自我认知上的非对称性与家族特异性，为认知科学、人工智能安全及人机协作领域提供了全新的理论框架与实验范式。

实际应用

在实际应用中，Meta-HCH-Bench为构建更可信的人工智能代理系统提供了关键评估工具。例如，在需要模型自主分配计算资源、决定何时停止思考或请求人类干预的自动化任务中（如代码纠错、数学推理、自动化规划），该基准能够筛选出具有可靠元认知能力的模型，确保其在复杂问题求解中做出经济合理的决策。此外，基于该基准衍生的干预实验证明，元认知技能具有可训练性——通过递归反思式引导，模型可将优度提升18%、平均校准误差降低11%。这为开发具有自我审视能力的智能体、优化人机协作中的置信度传递提供了可量化的实践路径与优化目标。

数据集最近研究