HLE-Verified

github2026-02-20 更新2026-02-26 收录

下载链接：

https://github.com/SKYLENAGE-AI/HLE-Verified

下载链接

链接失效反馈

官方服务：

资源简介：

HLE-Verified是对Humanity’s Last Exam (HLE)基准测试的系统性审核和可靠性增强版本，包含2,500个项目，每个项目都经过结构化审核和必要的保守修订。数据集分为三个子集：Gold（641个完全验证的项目）、Revision（1,170个在保留评估目标下修正并重新验证的项目）和Uncertain（689个在当前证据下无法确定有效性的项目）。

HLE-Verified is a systematic audit and reliability-enhanced version of the Humanity’s Last Exam (HLE) benchmark, containing 2,500 items, each of which has undergone structured review and necessary conservative revisions. The dataset is divided into three subsets: Gold (641 fully validated items), Revision (1,170 items that were corrected and re-validated while retaining their evaluation objectives), and Uncertain (689 items whose validity cannot be determined based on current available evidence).

创建时间：

2026-02-13

原始信息汇总

HLE-Verified 数据集概述

数据集简介

HLE-Verified 是 Humanity’s Last Exam (HLE) 基准测试的系统性审计和可靠性增强版本。该数据集旨在解决原始 HLE 基准中可能存在的最终答案错误、理由不完整或不一致、问题陈述模糊或未充分说明以及格式引起的语义扭曲等问题，以提高评估的可靠性。

数据集构成

数据集包含 2,500 个条目，并划分为三个互斥的子集：

子集	数量	描述
Gold	668	完全验证，无需修改。
Revision	1,143	在保留原始评估目标的前提下进行了修正并重新验证。
Uncertain	689	在当前证据下无法最终确定其有效性。

数据模式与字段说明

每个数据记录包含核心内容字段和结构化的验证元数据。

核心内容字段

id: 唯一项目标识符。
question: 用于评估的最终问题陈述（原始或修订后）。
original_question: （可选）仅在问题陈述被修订时存在，存储原始 HLE 问题。
image: （可选）图像引用（URL/路径/ID）。如不适用则为空字符串。
image_preview: （可选）图像的预览引用，可能为 null。
rationale_image: （可选）理由中使用的图像引用，可能为 null。
answer: 用于评估的最终答案（原始或修订后）。
answer_type: 答案的评估类型（例如 exactMatch、multipleChoice）。
original_answer: （可选）仅在答案被修订时存在，存储原始 HLE 答案。
rationale: 最终参考理由/解决方案（原始或修订后）。
original_rationale: （可选）仅在理由被修订时存在，存储原始 HLE 理由。
author_name: （可选）作者或贡献者标识符。
raw_subject: （可选）来源基准中的原始学科标签。
category: （可选）本次发布中使用的规范化类别标签。
canary: （可选）指示该基准数据不应出现在训练语料库中的标识字符串。
Verified_Classes: 数据集级别的子集标签，取值为 Gold subset、Revision subset 或 Uncertain subset。

验证元数据 (`verify_meta_info`)

验证针对三个组件进行记录：

verify_meta_info.problem_verify
verify_meta_info.answer_verify
verify_meta_info.rationale_verify

每个验证对象包含：

is_valid: 1 表示有效，0 表示无效。
error_type: （仅在无效时存在，否则为 0）缺陷类别标识符（问题级：Q1–Q5；答案级：A1–A4；理由级：S1–S10）。
error_description: （可选）缺陷类型的人类可读描述。
error_type_verify_reason: （可选）判断组件无效（或如何验证）的简短理由。

验证协议

HLE-Verified 遵循两阶段结构化流程：

第一阶段 — 模型复制与诊断分析：包括标准化求解器提示、结构化答案提取、数学等价性检查以及 pass@k 复制统计。模型输出作为诊断信号，而非标准答案。
第二阶段 — 结构化修复与保守裁定：包括历史解决方案提取、多模型协作修复、最终裁定以及修复后的交叉审计验证。决策原则是：如果无法以合理的置信度确认正确性，则项目被标记为 Uncertain。

统计观察

结构化验证揭示了系统性模式：

答案相关缺陷主要是最终答案错误。
理由问题主要涉及前提缺失和结构不完整。
格式引起的语义扭曲在计算机科学和化学领域更为常见。
完全理论无效性相对罕见。这些模式表明 HLE 的问题具有结构性而非随机性。

使用建议

使用 Gold 子集进行排行榜级别或稳定性敏感度高的评估。
使用 Revision 子集进行鲁棒性测试和敏感性分析。
使用 Uncertain 子集进行模糊性研究和验证方法学研究。报告结果时，请明确说明使用了哪个子集以及采用的是原始答案还是已验证答案。

研究应用

HLE-Verified 支持以下领域的研究：

基准审计与可靠性分析
思维链验证
LLM-as-Judge 评估
基于多模型共识的修复
结构化缺陷分析
保守决策机制

局限性

模型复制统计是诊断信号，而非标准答案。
专家裁定反映了发布时可用的领域专业知识。
Uncertain 子集仍有待未来完善。
修复保留了原始的评估目标，但可能未穷尽所有可能的解释。

引用

如果使用 HLE-Verified，请引用以下文献： bibtex @misc{zhai2026hleverifiedsystematicverificationstructured, title={HLE-Verified: A Systematic Verification and Structured Revision of Humanitys Last Exam}, author={Weiqi Zhai and Zhihai Wang and Jinghang Wang and Boyu Yang and Xiaogang Li and Xiang Xu and Bohan Wang and Peng Wang and Xingzhe Wu and Anfeng Li and Qiyuan Feng and Yuhao Zhou and Shoulin Han and Wenjie Luo and Yiyuan Li and Yaxuan Wang and Ruixian Luo and Guojie Lin and Peiyao Xiao and Chengliang Xu and Ben Wang and Zeyu Wang and Zichao Chen and Jianan Ye and Yijie Hu and Jialong Chen and Zongwen Shen and Yuliang Xu and An Yang and Bowen Yu and Dayiheng Liu and Junyang Lin and Hu Wei and Que Shen and Bing Zhao}, year={2026}, eprint={2602.13964}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.13964}, }

bibtex @article{phan2025humanitysexam, title = {A benchmark of expert-level academic questions to assess {AI} capabilities}, author = {{Center for AI Safety} and {Scale AI} and {HLE Contributors Consortium}}, journal = {Nature}, volume = {649}, pages = {1139--1146}, year = {2026}, doi = {10.1038/s41586-025-09962-4} }

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，高难度基准测试的构建常面临可靠性与一致性的挑战。HLE-Verified数据集的构建采用了一种严谨的两阶段结构化流程。第一阶段通过标准化求解提示、结构化答案提取和数学等价性检查进行模型复制与诊断分析，将模型输出作为缺陷检测的信号。第二阶段则执行结构化修复与保守裁决，结合历史解决方案提取与多模型协作修复，最终通过交叉审计验证确保修订的保守性。若无法合理确认项目的正确性，则将其标记为“不确定”子集，这一方法显著提升了基准测试的测量信度。

特点

该数据集的核心特征体现在其系统性的验证元数据与清晰的子集划分。数据集包含2500个项目，并依据验证结果划分为“黄金”、“修订”和“不确定”三个互斥子集，分别对应完全有效、经修正后有效以及有效性存疑的项目。每个数据记录不仅包含问题、答案与推理链等核心内容，还附带了针对问题陈述、参考答案和最终答案的详细验证元数据，明确标注有效性状态与缺陷类型。这种结构化设计使得数据集的可靠性分析具有高度的透明性与可复现性，揭示了错误模式具有结构性而非随机性的特点。

使用方法

针对不同的研究目标，该数据集提供了明确的使用建议。对于排行榜级别或稳定性要求高的评估，推荐使用完全有效的“黄金”子集。若需进行模型鲁棒性测试或敏感性分析，则“修订”子集更为合适。而“不确定”子集则为研究基准模糊性及验证方法论提供了宝贵资源。在使用时，研究者需明确报告所采用的子集以及答案来源（原始或已验证版本），以确保结果的可比性与解释的清晰性。该数据集支持基准审计、思维链验证及多模型共识修复等一系列前沿研究方向。

背景与挑战

背景概述

在人工智能评估领域，高难度、跨学科的基准测试对于衡量模型的高级推理能力至关重要。HLE-Verified数据集源于对原始Humanity's Last Exam（HLE）基准的系统性验证与修订，由研究团队于2026年提出，旨在应对开放社区对HLE项目可靠性的关切。该数据集覆盖数学、物理、化学、生物医学、计算机科学、工程学及人文社科等多个领域，包含2500个经过结构化审计的项目，划分为黄金、修订和不确定三个子集。其核心研究问题聚焦于提升高难度基准测试的测量信度，通过引入明确的验证元数据，为模型评估提供透明、可复现的分析框架，从而减少评估偏差，增强结果的可解释性，对推动可靠人工智能基准的发展具有显著影响力。

当前挑战

HLE-Verified数据集致力于解决高难度跨学科基准测试中固有的可靠性挑战，其核心在于确保项目陈述、参考答案及推理过程的准确性。所应对的领域问题挑战包括：项目陈述模糊或内部不一致可能导致语义扭曲；错误答案会扭曲模型排名比较；非可验证的推理降低结果可解释性；模棱两可的项目可能破坏校准与不确定性分析。在构建过程中，团队面临结构化风险，如诊断信号依赖模型输出而非地面真值、保守裁决下部分项目有效性无法最终确认，以及修订需在保留原始评估目标与纠正缺陷之间取得平衡，这些因素共同构成了数据集可靠性与完备性的持续挑战。

常用场景

经典使用场景

在人工智能评估领域，高难度基准测试的构建常面临数据可靠性的挑战。HLE-Verified数据集通过系统化验证与结构化修订，为评估大型语言模型在数学、物理、化学等多学科复杂推理任务上的性能提供了经典场景。研究者利用其Gold子集进行稳定且可复现的模型排名比较，而Revision子集则用于测试模型对问题修正的鲁棒性，Uncertain子集则为模糊性研究提供了宝贵资源。

实际应用

在实际应用中，HLE-Verified为AI系统在学术辅助、科研咨询及专业教育等场景的部署提供了关键评估工具。教育科技公司可依据其验证结果优化智能辅导系统的推理模块；研究机构则能借助该数据集校准模型在跨学科复杂问题上的不确定性估计。其结构化缺陷分类体系还为自动化测试工具的开发提供了标准化参考。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在基准测试可靠性研究领域。例如基于其验证协议发展的链式思维验证方法，以及利用多模型协同修复机制改进标注质量的框架。这些工作进一步拓展了LLM-as-Judge评估范式在高质量数据生成中的应用，并为保守决策机制在数据审计中的理论完善提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集