HLE-Verified

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/skylenage/HLE-Verified

下载链接

链接失效反馈

官方服务：

资源简介：

HLE-Verified 是一个经过系统审核和可靠性增强的 Humanity’s Last Exam (HLE) 基准测试版本。该数据集包含 2,500 个项目，每个项目都通过结构化审核和必要的保守修订进行了验证。数据集分为三个互斥的子集：Gold（641 项，完全验证且无需修改）、Revision（1,170 项，在保留评估目标的前提下进行了修正并重新验证）和 Uncertain（689 项，在当前证据下无法确定其有效性）。HLE-Verified 旨在解决高难度基准测试中可能存在的结构性问题，如错误的问题陈述、错误的答案键、不可验证的推理和模糊的项目等。数据集适用于基准测试审计和可靠性分析、链式思维验证、LLM-as-Judge 评估、多模型共识修复、结构化缺陷分析和保守决策机制等研究。使用建议包括：使用 Gold 子集进行排行榜级或稳定性敏感评估，使用 Revision 子集进行鲁棒性测试和敏感性分析，使用 Uncertain 子集进行模糊性研究和验证方法学研究。

HLE-Verified is a systematically audited and reliability-enhanced version of the Humanity’s Last Exam (HLE) benchmark. This dataset contains 2,500 items, each validated via structured auditing and necessary conservative revisions. The dataset is divided into three mutually exclusive subsets: Gold (641 items, fully verified with no modifications required), Revision (1,170 items, corrected and re-validated while retaining the evaluation objectives), and Uncertain (689 items, whose validity cannot be determined under current evidence). HLE-Verified aims to address structural issues commonly found in high-difficulty benchmarks, such as erroneous problem statements, incorrect answer keys, unverifiable reasoning and ambiguous items. This dataset is applicable to research including benchmark auditing and reliability analysis, chain-of-thought verification, LLM-as-Judge evaluation, multi-model consensus correction, structured defect analysis and conservative decision-making mechanisms. Usage recommendations include: using the Gold subset for leaderboard-level or stability-sensitive evaluations, using the Revision subset for robustness testing and sensitivity analysis, and using the Uncertain subset for ambiguity research and validation methodology research.

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在构建高难度跨学科基准测试的背景下，HLE-Verified数据集采用了一套严谨的两阶段验证与修订流程。第一阶段通过标准化求解提示和结构化答案提取进行模型复制与诊断分析，将模型输出作为识别潜在缺陷的信号。第二阶段则实施结构化修复与保守裁决，结合历史解决方案提取与多模型协作修复，对问题、答案和推理链进行审慎修订。整个构建过程遵循保守原则，对于无法以合理置信度确认正确性的条目，均被标记为“不确定”子集，从而系统性地提升了原始基准的测量可靠性。

使用方法

针对不同的研究目标，建议对数据集的三个子集进行差异化使用。对于追求稳定性和权威性的排行榜级评估，应优先采用“黄金”子集。若旨在测试模型对错误或修订的鲁棒性，则“修订”子集更为合适，它包含了经过校正并重新验证的条目。而“不确定”子集则适用于研究评估中的模糊性问题或验证方法学本身。在使用时，研究者需明确报告所采用的子集以及答案标准（原始或已验证），以确保结果的可比性与可复现性。

背景与挑战

背景概述

在人工智能评估领域，高难度、跨学科的基准测试对于衡量模型的高级推理能力至关重要。Humanity’s Last Exam (HLE) 作为一个涵盖数学、物理、化学、生物医学、计算机科学、工程学及人文社科等多领域的高难度基准，旨在全面评估模型在复杂科学和技术问题上的解决能力。该数据集由Center for AI Safety、Scale AI及HLE贡献者联盟等机构于2026年创建，其核心研究问题聚焦于如何准确测量模型在专家级学术问题上的表现，以推动人工智能向更高层次的认知能力发展。HLE的发布不仅为模型性能排名提供了重要依据，还促进了跨领域推理研究的深入，对人工智能评估方法论产生了深远影响。

当前挑战

HLE-Verified数据集面临的挑战主要源于高难度基准构建的固有复杂性。在解决领域问题方面，该数据集旨在提升模型在跨学科专家级问题上的评估可靠性，但原始HLE基准中存在答案错误、推理不完整、问题表述模糊及格式诱导的语义扭曲等缺陷，这些可能导致评估偏差、模型排名失真或可解释性降低。在构建过程中，挑战包括如何通过系统化审计协议（如模型复制诊断和结构化修复）来验证2500个项目的正确性，同时保持原始评估目标不变；此外，保守裁决原则要求对无法确认正确性的项目标记为“不确定”，这反映了在有限领域知识和验证资源下确保数据完整性的困难。这些挑战凸显了高难度基准数据质量保障的严峻性。

常用场景

经典使用场景

在人工智能评估领域，高难度多领域基准测试的构建常面临数据可靠性的挑战。HLE-Verified数据集通过系统化的验证与修订流程，为研究者提供了一个经过严格审计的评估工具。其经典使用场景在于对大型语言模型进行跨学科高级推理能力的精准测评，特别是在数学、物理、化学、生物医学及计算机科学等专业领域，通过其划分的Gold、Revision与Uncertain子集，支持从稳定性测试到模糊性研究的多样化评估需求。

解决学术问题

该数据集有效解决了高难度基准测试中普遍存在的结构性缺陷问题，如错误答案、不完整论证及模糊问题表述所引入的系统性评估偏差。通过提供明确的验证元数据，HLE-Verified提升了模型排名比较的公正性与结果的可解释性，为基准测试的可靠性分析、思维链验证以及基于多模型共识的修复方法研究奠定了坚实基础，推动了评估方法论向更严谨、透明方向发展。

实际应用

在实际应用中，HLE-Verified可作为人工智能系统在专业领域能力认证的关键参考。教育科技公司可借助其评估智能辅导系统的学科解答能力；研究机构则能利用其进行模型鲁棒性与校准度的分析。此外，该数据集的结构化缺陷分类为质量保障团队提供了识别与修正评估材料中常见错误的范本，助力构建更可靠的自动化评估管线。

数据集最近研究