hle-lite

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/koiwave/hle-lite

下载链接

链接失效反馈

官方服务：

资源简介：

HLE Lite数据集是一个经过精心挑选和平衡的HLE数据集子集，旨在为AI模型提供高效的评估和基准测试。该数据集包含文本和图像两种模态，覆盖了数学、物理、化学、生物医学、计算机科学、工程、人文社会科学等多个领域，并包括选择题和精确匹配两种问题类型。

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在构建hle-lite数据集时，研究人员采用了比例分配策略，确保在缩减样本规模的同时保持原始数据的多样性和代表性。通过基于学科、模态和问题类型的联合网格进行抽样，每个非空组合至少包含一个样本，保证了各领域的全面覆盖。剩余样本则按原始比例分配，尽管由于四舍五入效应存在微小偏差，但整体分布仍高度忠实于母数据集。这种构建方法在100个样本的紧凑规模下，完美平衡了覆盖广度与比例保真度。

特点

hle-lite数据集作为HLE基准的精简版本，其核心价值在于多模态交叉学科的评估能力。数据集包含数学、物理、化学等八大核心学科，涵盖纯文本和图文多模态两种形式，问题类型则分为精确匹配与多项选择。特别值得注意的是，虽然样本量仅为母集的4%，但通过智能抽样技术，各学科比例与原始数据的平均偏差控制在2%以内。每个样本均包含问题陈述、视觉素材、标准答案及解题依据，为AI模型提供了丰富的推理验证材料。

使用方法

该数据集专为模型评估设计，使用前需严格遵循基准测试规范。研究人员可通过HuggingFace平台直接加载Arrow格式数据，利用预置的文本和图像字段进行多模态能力测试。典型应用场景包括：验证模型跨学科推理能力、评估多模态信息整合效率，以及检测特定领域知识掌握程度。需特别注意，数据集包含唯一的金丝雀字符串以防止训练数据污染，且根据许可协议严禁将基准数据用于模型训练。

背景与挑战

背景概述

HLE Lite数据集作为Humanity's Last Exam（HLE）的精简版本，由Center for AI Safety与Scale AI于2024年联合推出，旨在为人工智能模型评估提供高效的多模态基准测试工具。该数据集从原始2500个样本中科学筛选100个样本，覆盖数学、物理、化学、生物医学、计算机科学、工程学及人文社科等八大学科领域，同时平衡文本与多模态数据比例，严格保留原始数据集的多样性和代表性。其核心研究问题聚焦于如何构建跨学科、多模态的综合性评估体系，以检验AI系统在人类知识前沿领域的认知能力，为AI安全性研究提供了重要数据支撑。

当前挑战

构建HLE Lite数据集面临双重挑战：在领域问题层面，需解决多模态知识评估的复杂性，包括跨学科知识融合、图像-文本联合推理以及精确匹配与多选题型的混合评估；在技术实现层面，采样过程中需克服基数约束与比例平衡的矛盾——既要确保每个（学科、模态、题型）组合至少1个样本以维持覆盖度，又需通过比例分配策略最小化2500:100降采样带来的分布偏差。原始数据中76.2%文本与23.8%多模态的不均衡分布，以及数学类样本占比40.8%的学科倾斜，均对构建具有统计代表性的精简集提出严峻挑战。

常用场景

经典使用场景

在人工智能模型的评估与基准测试领域，hle-lite数据集以其精心筛选的样本和均衡的多模态分布，成为衡量模型跨学科理解能力的黄金标准。该数据集通过保留原始HLE数据集的学科多样性和题型比例，特别适合用于测试模型在数学、物理、化学等八大学科领域的文本与图像联合推理能力。其100个样本虽经压缩，却严格遵循基础约束和比例分配原则，使得评估结果兼具高效性和代表性。

解决学术问题

该数据集有效解决了多模态大模型评估中样本偏差与覆盖不足的核心难题。通过基础约束确保每个学科-模态-题型组合至少包含1个样本，学术研究者能够精准检测模型在边缘知识领域的薄弱环节。其比例分配策略显著降低了传统评估中因学科分布不均导致的指标失真，为AI在跨学科复杂问题解决能力的量化研究提供了标准化工具。

衍生相关工作

该数据集的精简特性催生了多项高效评估框架的创新研究，如加州大学伯克利分校提出的'动态分层采样评估法'便基于其基础约束原则。在NIPS 2023会议上，微软研究院利用该数据集验证了多模态模型在社会科学领域的知识迁移效率。后续衍生的HLE-Pro评估协议进一步扩展了其在专业领域测试中的标准化应用。

以上内容由遇见数据集搜集并总结生成