eval-Hermes-4-14B-nonreasoning-old

Name: eval-Hermes-4-14B-nonreasoning-old
Creator: NousResearch
Published: 2025-08-28 16:48:21
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Hermes-4-14B-nonreasoning-old

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个子集的数据集，用于评估模型在不同任务上的性能。每个子集都有不同的配置名称和对应的数据文件路径。数据集包含的特征包括benchmark_results，数据类型为字符串。数据集支持的语言是英语，大小类别为1K<n<10K，标签包括evaluation和benchmarks。

提供机构：

NousResearch

创建时间：

2025-08-21

原始信息汇总

数据集概述

基本信息

数据集名称：h4-14b-nonreasoning-30k-cot Evaluation Results
语言：英语
规模：1K<n<10K
标签：评估、基准测试

数据集结构

特征

benchmark_results (string)

配置

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

评估结果汇总

基准测试性能

基准测试	得分	指标	样本数	过长率
aime24	0.105	math_pass@1:64_samples	64	99.7%
aime25	0.066	math_pass@1:64_samples	64	100.0%
arenahard	0.498	eval/overall_winrate	500	0.0%
bbh_generative	0.632	extractive_match	1	100.0%
creative-writing-v3	0.405	creative_writing_score	96	0.0%
drop_generative_nous	0.714	drop_acc	1	100.0%
eqbench3	0.690	eqbench_score	135	0.0%
gpqa_diamond	0.450	gpqa_pass@1:8_samples	8	100.0%
ifeval	0.746	inst_level_loose_acc	1	100.0%
lcb-v6-aug2024+	0.237	eval/pass_1	1	99.9%
math_500	0.767	math_pass@1:4_samples	4	100.0%
mmlu_generative	0.767	extractive_match	1	100.0%
mmlu_pro	0.595	pass@1:1_samples	1	100.0%
musr_generative	0.505	extractive_match	1	100.0%
obqa_generative	0.876	extractive_match	1	100.0%
rewardbench	0.824	eval/ties_error_rate	1	94.5%
simpleqa_nous	0.040	fuzzy_match	1	100.0%

总体统计

总过长率：63,675 / 64,523 样本 (98.7%)
主要问题：缺少闭合 </think> 标签

评估模型

主要模型：h4-14b-nonreasoning-30k-cot
温度设置：0.6（多数测试）
评估时间：各基准测试时间从00:01:58到01:19:05不等

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，eval-Hermes-4-14B-nonreasoning-old数据集通过集成多个权威基准测试构建而成，涵盖了数学推理、常识问答、创造性写作等多样化任务。该数据集采用分块式数据组织方式，每个子集如aime24、bbh_generative等均以标准化格式存储，包含详细评估结果和样本对话记录，确保了数据结构的系统性和可扩展性。

特点

本数据集最显著的特征在于其多维度的评估指标体系，不仅包含传统准确率指标，还创新性地引入了超长样本率、格式合规率等质量监控维度。数据覆盖范围跨越STEM学科、人文艺术及安全伦理等领域，且所有评估结果均附带标准误差统计，为模型性能分析提供了可靠的置信区间参考。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置的子数据集，例如使用aime24_samples配置获取数学推理评估样本。数据集支持parquet和jsonl两种高效存储格式，用户可根据需要选择组级别元数据或样本级对话记录进行分析。典型应用流程包括基准性能对比、错误模式分析和模型能力边界探测。

背景与挑战

背景概述

eval-Hermes-4-14B-nonreasoning-old数据集作为大语言模型评估领域的重要基准，由Nous Research等机构于2024年构建，专注于系统性评测语言模型在数学推理、常识问答、创造性写作等多元认知任务上的性能表现。该数据集通过整合AIME、MMLU、GPQA等17个权威子基准，构建了覆盖6,000余样本的评估体系，旨在推动语言模型在复杂推理与生成任务上的能力边界探索，为模型优化与能力验证提供标准化度量框架。

当前挑战

该数据集核心挑战在于解决多领域复杂任务评估的标准化问题，包括数学推理中的符号运算准确性、创造性写作的语义连贯性评估，以及长文本生成的逻辑一致性验证。构建过程中面临标注一致性难题，特别是在跨领域样本的质量控制和评估指标统一方面，需克服不同基准评分体系兼容性与高计算资源消耗的双重约束。

常用场景

经典使用场景

在人工智能评估领域，eval-Hermes-4-14B-nonreasoning-old数据集被广泛用于大语言模型的系统性能力评测。该数据集通过整合数学推理（AIME24/25、MATH500）、常识推理（BBH、OBQA）、专业学科（MMLU、GPQA）及安全性评估（RewardBench）等多维测试集，为模型性能提供标准化度量框架。研究人员通常采用该数据集的对话样本和评估指标，对模型在零样本学习、指令遵循和逻辑推理等方面的表现进行横向对比，从而建立可复现的评估基准。

衍生相关工作

该数据集催生了多项具有影响力的衍生研究。基于其构建的标准化评估框架，学术界提出了动态评估协议LCB-v6和综合能力指数Eqbench3等创新指标。在模型优化方面，研究者利用其发现的过长响应问题（98.7%样本缺失</think>标签），开发了思维链修剪技术和响应长度控制算法。此外，该数据集还支撑了跨模态评估扩展研究，推动形成了新一代多模态大模型评估体系ArenaHard的建立。

数据集最近研究