eval-Hermes-4-70B-nonreasoning

Name: eval-Hermes-4-70B-nonreasoning
Creator: NousResearch
Published: 2025-08-28 16:39:54
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Hermes-4-70B-nonreasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个用于评估NLP模型的基准测试结果和详细的评估指标。它提供了不同数据分割的配置，数据文件的路径，以及名为 'hermes-70b-nonreasoning' 的模型在各种基准测试中的性能。数据集旨在评估和基准化，涵盖了包括数学、创意写作和问答在内的多种NLP任务。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称：hermes-70b-nonreasoning Evaluation Results
语言：英语
规模：1K<n<10K
标签：评估、基准测试

数据集结构

配置与文件

配置数量：25个
数据格式：parquet、jsonl
主要配置：
- aime24_groups、aime24_samples
- aime25_groups、aime25_samples
- arenahard_samples
- bbh_generative_groups、bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups、drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups、gpqa_diamond_samples
- ifeval_groups、ifeval_samples
- lcb-v6-aug2024+_samples、lcb-v6-aug2024+_groups
- math_500_groups、math_500_samples
- mmlu_generative_groups、mmlu_generative_samples
- mmlu_pro_groups、mmlu_pro_samples
- musr_generative_groups、musr_generative_samples
- obqa_generative_groups、obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups、simpleqa_nous_samples

评估结果摘要

基准测试性能

基准测试	得分	指标	样本数	过长率
aime24	0.095	math_pass@1:64_samples	64	99.4%
aime25	0.073	math_pass@1:64_samples	64	98.2%
arenahard	0.568	eval/overall_winrate	500	0.0%
bbh_generative	0.805	extractive_match	1	100.0%
creative-writing-v3	0.491	creative_writing_score	96	0.0%
drop_generative_nous	0.784	drop_acc	1	100.0%
eqbench3	0.739	eqbench_score	135	0.0%
gpqa_diamond	0.333	gpqa_pass@1:8_samples	8	100.0%
ifeval	0.823	inst_level_loose_acc	1	99.8%
lcb-v6-aug2024+	0.255	eval/pass_1	1	99.4%
math_500	0.710	math_pass@1:4_samples	4	100.0%
mmlu_generative	0.767	extractive_match	1	100.0%
mmlu_pro	0.549	pass@1:1_samples	1	100.0%
musr_generative	0.563	extractive_match	1	100.0%
obqa_generative	0.900	extractive_match	1	100.0%
rewardbench	0.448	eval/percent_correct	1	94.3%
simpleqa_nous	0.133	fuzzy_match	1	100.0%

总体统计

总样本数：64,523
过长样本比例：98.6%（63,597个样本）
主要问题：缺失闭合</think>标签

详细评估指标

数学推理能力

aime24：math_pass@1得分0.095（64样本）
aime25：math_pass@1得分0.073（64样本）
math_500：math_pass@1得分0.710（4样本）

通用能力评估

bbh_generative：extractive_match得分0.805
mmlu_generative：extractive_match得分0.767
mmlu_pro：pass@1得分0.549

专业领域评估

gpqa_diamond：gpqa_pass@1得分0.333（8样本）
drop_generative_nous：drop_acc得分0.784
musr_generative：extractive_match得分0.563
obqa_generative：extractive_match得分0.900

创造性写作

creative-writing-v3：creative_writing_score得分0.491（96样本）

指令遵循

ifeval：inst_level_loose_acc得分0.823

代码能力

lcb-v6-aug2024+：eval/pass_1得分0.255

综合评估

arenahard：eval/overall_winrate得分0.568（500样本）
eqbench3：eqbench_score得分0.739（135样本）
rewardbench：eval/percent_correct得分0.448

问答能力

simpleqa_nous：fuzzy_match得分0.133

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Hermes-4-70B-nonreasoning数据集通过系统化集成多个权威基准测试构建而成。该数据集涵盖了数学推理、常识问答、创造性写作等多样化任务，数据来源包括AIME、MMLU、GPQA等知名评估集。构建过程中采用标准化数据格式转换，将原始问题转化为对话形式的样本，并保留详细的评估元数据，确保数据的一致性和可追溯性。

特点

本数据集的核心特征体现在其多维度评估体系，覆盖17个专项测试领域共计超过6万个样本。数据采用分层结构组织，包含详细评估结果和对话样本两个视角，每个基准测试均提供标准化度量指标和统计误差。特别值得注意的是数据集中普遍存在的高过载率现象，这为研究语言模型输出控制提供了独特视角。数据集语言为英语，规模属于1K到10K样本量级，专注于评估任务设计。

使用方法

研究人员可通过HuggingFace平台获取该数据集，按照不同基准测试配置选择相应数据文件。使用时应首先加载特定config_name对应的parquet或jsonl格式文件，其中details文件包含评估元数据，conversations文件保存实际对话样本。数据分析可基于提供的标准化度量指标进行模型性能比较，特别关注不同温度设置下的表现差异以及过载样本的分布特征。

背景与挑战

背景概述

eval-Hermes-4-70B-nonreasoning数据集诞生于大型语言模型评估需求日益增长的时代，由HuggingFace社区的研究团队于2024年构建。该数据集专注于多维度评估语言模型在非推理任务中的性能表现，涵盖数学推理、常识问答、创造性写作等十余个核心领域。通过整合AIME、MMLU、GPQA等权威基准测试数据，该数据集为研究社区提供了标准化评估框架，显著推动了语言模型能力评估的精细化与系统化发展。

当前挑战

该数据集致力于解决语言模型在非推理任务中性能评估的标准化难题，面临模型输出长度控制与评估指标一致性的双重挑战。构建过程中需协调多个异构子数据集的结构整合，处理高达98.6%的样本缺失闭合标签的技术问题，同时确保不同评估指标间的可比性与权重平衡。数据清洗阶段需克服标注不一致性与跨领域评估标准差异带来的复杂性，这对数据质量的统一性提出了极高要求。

常用场景

经典使用场景

在大型语言模型评估领域，eval-Hermes-4-70B-nonreasoning数据集通过多维度基准测试展现了其核心价值。该数据集整合了数学推理、常识问答、创造性写作等16个专项评估模块，例如在AIME数学竞赛题和MMLU专业学科测试中，模型需展现非推理场景下的精准应答能力。其经典应用体现在通过标准化测试框架，量化模型在零样本学习、指令遵循及多轮对话中的性能表现，为模型能力边界划定提供实证依据。

解决学术问题

该数据集有效解决了大语言模型评估中标准化缺失与维度单一化的学术困境。通过融合GPQA钻石级科学问答、DROP阅读理解等权威基准，它突破了传统评估仅关注准确率的局限，引入创造性写作评分、安全伦理判断等多维指标。这种综合化评估体系为模型对齐研究、能力泛化分析提供了可靠的数据支撑，显著推进了人工智能可解释性与可靠性研究的深度发展。

衍生相关工作

该数据集的发布催生了系列创新研究，例如基于ArenaHard对比测试机制开发的模型竞技场评估平台，以及受EQBench情感智能测试启发的多模态情绪识别框架。在MMLU-Pro衍生的专业领域评估中，研究者构建了医疗法律交叉学科测试集，而IFeval指令遵循数据则推动了链式思维验证技术的演进，这些工作共同构成了大模型评估生态的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集