HLE-Verified
收藏HLE-Verified 数据集概述
数据集简介
HLE-Verified 是 Humanity’s Last Exam (HLE) 基准测试的系统性审计和可靠性增强版本。该数据集旨在解决原始 HLE 基准中可能存在的最终答案错误、理由不完整或不一致、问题陈述模糊或未充分说明以及格式引起的语义扭曲等问题,以提高评估的可靠性。
数据集构成
数据集包含 2,500 个条目,并划分为三个互斥的子集:
| 子集 | 数量 | 描述 |
|---|---|---|
| Gold | 668 | 完全验证,无需修改。 |
| Revision | 1,143 | 在保留原始评估目标的前提下进行了修正并重新验证。 |
| Uncertain | 689 | 在当前证据下无法最终确定其有效性。 |
数据模式与字段说明
每个数据记录包含核心内容字段和结构化的验证元数据。
核心内容字段
id: 唯一项目标识符。question: 用于评估的最终问题陈述(原始或修订后)。original_question: (可选)仅在问题陈述被修订时存在,存储原始 HLE 问题。image: (可选)图像引用(URL/路径/ID)。如不适用则为空字符串。image_preview: (可选)图像的预览引用,可能为null。rationale_image: (可选)理由中使用的图像引用,可能为null。answer: 用于评估的最终答案(原始或修订后)。answer_type: 答案的评估类型(例如exactMatch、multipleChoice)。original_answer: (可选)仅在答案被修订时存在,存储原始 HLE 答案。rationale: 最终参考理由/解决方案(原始或修订后)。original_rationale: (可选)仅在理由被修订时存在,存储原始 HLE 理由。author_name: (可选)作者或贡献者标识符。raw_subject: (可选)来源基准中的原始学科标签。category: (可选)本次发布中使用的规范化类别标签。canary: (可选)指示该基准数据不应出现在训练语料库中的标识字符串。Verified_Classes: 数据集级别的子集标签,取值为Gold subset、Revision subset或Uncertain subset。
验证元数据 (verify_meta_info)
验证针对三个组件进行记录:
verify_meta_info.problem_verifyverify_meta_info.answer_verifyverify_meta_info.rationale_verify
每个验证对象包含:
is_valid:1表示有效,0表示无效。error_type: (仅在无效时存在,否则为0)缺陷类别标识符(问题级:Q1–Q5;答案级:A1–A4;理由级:S1–S10)。error_description: (可选)缺陷类型的人类可读描述。error_type_verify_reason: (可选)判断组件无效(或如何验证)的简短理由。
验证协议
HLE-Verified 遵循两阶段结构化流程:
- 第一阶段 — 模型复制与诊断分析:包括标准化求解器提示、结构化答案提取、数学等价性检查以及 pass@k 复制统计。模型输出作为诊断信号,而非标准答案。
- 第二阶段 — 结构化修复与保守裁定:包括历史解决方案提取、多模型协作修复、最终裁定以及修复后的交叉审计验证。决策原则是:如果无法以合理的置信度确认正确性,则项目被标记为 Uncertain。
统计观察
结构化验证揭示了系统性模式:
- 答案相关缺陷主要是最终答案错误。
- 理由问题主要涉及前提缺失和结构不完整。
- 格式引起的语义扭曲在计算机科学和化学领域更为常见。
- 完全理论无效性相对罕见。 这些模式表明 HLE 的问题具有结构性而非随机性。
使用建议
- 使用 Gold 子集进行排行榜级别或稳定性敏感度高的评估。
- 使用 Revision 子集进行鲁棒性测试和敏感性分析。
- 使用 Uncertain 子集进行模糊性研究和验证方法学研究。 报告结果时,请明确说明使用了哪个子集以及采用的是原始答案还是已验证答案。
研究应用
HLE-Verified 支持以下领域的研究:
- 基准审计与可靠性分析
- 思维链验证
- LLM-as-Judge 评估
- 基于多模型共识的修复
- 结构化缺陷分析
- 保守决策机制
局限性
- 模型复制统计是诊断信号,而非标准答案。
- 专家裁定反映了发布时可用的领域专业知识。
- Uncertain 子集仍有待未来完善。
- 修复保留了原始的评估目标,但可能未穷尽所有可能的解释。
引用
如果使用 HLE-Verified,请引用以下文献: bibtex @misc{zhai2026hleverifiedsystematicverificationstructured, title={HLE-Verified: A Systematic Verification and Structured Revision of Humanitys Last Exam}, author={Weiqi Zhai and Zhihai Wang and Jinghang Wang and Boyu Yang and Xiaogang Li and Xiang Xu and Bohan Wang and Peng Wang and Xingzhe Wu and Anfeng Li and Qiyuan Feng and Yuhao Zhou and Shoulin Han and Wenjie Luo and Yiyuan Li and Yaxuan Wang and Ruixian Luo and Guojie Lin and Peiyao Xiao and Chengliang Xu and Ben Wang and Zeyu Wang and Zichao Chen and Jianan Ye and Yijie Hu and Jialong Chen and Zongwen Shen and Yuliang Xu and An Yang and Bowen Yu and Dayiheng Liu and Junyang Lin and Hu Wei and Que Shen and Bing Zhao}, year={2026}, eprint={2602.13964}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.13964}, }
bibtex @article{phan2025humanitysexam, title = {A benchmark of expert-level academic questions to assess {AI} capabilities}, author = {{Center for AI Safety} and {Scale AI} and {HLE Contributors Consortium}}, journal = {Nature}, volume = {649}, pages = {1139--1146}, year = {2026}, doi = {10.1038/s41586-025-09962-4} }



