hendrycks_math

Hugging Face2025-09-17 更新2025-09-18 收录

下载链接：

https://huggingface.co/datasets/omarmohamed/hendrycks_math

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个在模型评估运行中自动创建的数据集，包含152个配置，每个配置对应一个评估任务。数据集由28次运行创建，每次运行都有特定的分割，使用运行的时间戳命名。'train'分割始终指向最新结果。还有一个额外的配置'results'，存储了所有运行的聚合结果。README中包含了如何从一个运行中加载详细信息的示例，并提供了一个特定运行的最新结果的链接。它还列出了各种配置及其相应的数据文件，每个文件都有不同的分割和路径。

创建时间：

2025-09-13

原始信息汇总

数据集概述

基本信息

数据集名称: Evaluation run of /weka/s223795137/Refusal_hallucination/SALORA_expirements/llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m5
创建方式: 在模型评估运行期间自动创建
配置数量: 152个配置，每个配置对应一个评估任务
运行次数: 28次运行，每次运行作为特定配置中的一个分割

数据结构

每个运行结果存储为特定时间戳命名的分割
"train"分割始终指向最新结果
额外配置"results"存储所有运行的聚合结果

评估结果

最新运行时间: 2025-09-17T20-34-00.274841

整体性能指标

minerva_math:
- math_verify: 0.1912 ± 0.0054
- exact_match: 0.0

各子领域性能

minerva_math_algebra:
- math_verify: 0.2628 ± 0.0128
- exact_match: 0.0
minerva_math_counting_and_prob:
- math_verify: 0.1350 ± 0.0157
- exact_match: 0.0
minerva_math_geometry:
- math_verify: 0.1315 ± 0.0155
- exact_match: 0.0
minerva_math_intermediate_algebra:
- math_verify: 0.0797 ± 0.0090
- exact_match: 0.0
minerva_math_num_theory:
- math_verify: 0.1389 ± 0.0149
- exact_match: 0.0
minerva_math_prealgebra:
- math_verify: 0.3674 ± 0.0163
- exact_match: 0.0
minerva_math_precalc:
- math_verify: 0.0916 ± 0.0124
- exact_match: 0.0

数据文件

数据集包含多个配置，每个配置对应不同的数学子领域和MMLU基准测试任务，数据文件以JSONL格式存储，包含时间戳分割和最新结果分割。

搜集汇总

数据集介绍

构建方式

在数学推理评估领域，hendrycks_math数据集通过自动化评估流程构建而成，其核心机制涉及对特定语言模型在多个数学子任务上的系统性测试。该数据集由152种配置组成，每种配置对应一个评估任务，数据源自28次独立运行的实验过程，每次运行均以时间戳标记并存储为独立的分割版本。构建过程中采用严格的数学验证指标，确保每个子领域如代数、几何、数论等的评估结果具备可重复性与可比性。

使用方法

研究人员可通过HuggingFace数据集库直接加载特定配置或时间戳对应的数据文件，例如使用配置名称__weka__s223795137__Refusal_hallucination__SALORA_expirements__llama-3-8b-Instruct_summarization_1_alpha_64_r_1_hallucinated_summary_m5__minerva_math_algebra访问代数子集。数据集支持以JSONL格式解析样本数据，并可通过latest分割自动获取最新评估结果。典型应用包括模型性能基准测试、数学推理能力纵向分析以及多任务学习效果评估。

背景与挑战

背景概述

hendrycks_math数据集源于对大型语言模型数学推理能力的系统性评估需求，由Hendrycks等人构建并持续更新。该数据集聚焦于数学问题求解的多领域覆盖，涵盖代数、几何、数论及概率等子领域，旨在检验模型在复杂数学逻辑与符号推理上的表现。其创建推动了语言模型在数学教育、自动解题等应用场景的发展，成为衡量模型认知能力的重要基准之一。

当前挑战

该数据集核心挑战在于解决数学问题求解中的多步骤推理与符号运算难题，要求模型兼具语言理解与数学逻辑能力。构建过程中需应对题目多样性、答案精确性及领域平衡性等挑战，例如不同数学分支的题目分布需均衡，且需确保答案验证机制的可靠性。此外，自动化评估时需处理模型输出与数学标准答案的语义对齐问题，避免因表达差异导致误判。

常用场景

经典使用场景

在数学推理领域，hendrycks_math数据集被广泛用于评估大型语言模型在复杂数学问题求解中的能力。该数据集涵盖代数、几何、概率等多个数学分支，通过标准化的验证指标如math_verify和exact_match，为研究者提供了衡量模型数学推理准确性的基准平台。

解决学术问题

该数据集有效解决了人工智能领域关于数学推理能力量化评估的学术难题。通过提供多维度、细粒度的数学问题集合，它使研究者能够系统分析模型在不同数学分支的表现差异，为理解语言模型的数学认知边界提供了关键实证基础。

实际应用

在实际应用层面，hendrycks_math数据集被集成到模型开发流水线中，用于优化教育辅助系统和自动化解题工具。其精确的评估标准帮助开发者识别模型在特定数学领域的薄弱环节，从而针对性地改进模型在真实教育场景中的实用性。

数据集最近研究