eval-Hermes-4-70B-nonreasoning
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Hermes-4-70B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个用于评估NLP模型的基准测试结果和详细的评估指标。它提供了不同数据分割的配置,数据文件的路径,以及名为 'hermes-70b-nonreasoning' 的模型在各种基准测试中的性能。数据集旨在评估和基准化,涵盖了包括数学、创意写作和问答在内的多种NLP任务。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称:hermes-70b-nonreasoning Evaluation Results
- 语言:英语
- 规模:1K<n<10K
- 标签:评估、基准测试
数据集结构
配置与文件
- 配置数量:25个
- 数据格式:parquet、jsonl
- 主要配置:
- aime24_groups、aime24_samples
- aime25_groups、aime25_samples
- arenahard_samples
- bbh_generative_groups、bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups、drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups、gpqa_diamond_samples
- ifeval_groups、ifeval_samples
- lcb-v6-aug2024+_samples、lcb-v6-aug2024+_groups
- math_500_groups、math_500_samples
- mmlu_generative_groups、mmlu_generative_samples
- mmlu_pro_groups、mmlu_pro_samples
- musr_generative_groups、musr_generative_samples
- obqa_generative_groups、obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups、simpleqa_nous_samples
评估结果摘要
基准测试性能
| 基准测试 | 得分 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.095 | math_pass@1:64_samples | 64 | 99.4% |
| aime25 | 0.073 | math_pass@1:64_samples | 64 | 98.2% |
| arenahard | 0.568 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.805 | extractive_match | 1 | 100.0% |
| creative-writing-v3 | 0.491 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.784 | drop_acc | 1 | 100.0% |
| eqbench3 | 0.739 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.333 | gpqa_pass@1:8_samples | 8 | 100.0% |
| ifeval | 0.823 | inst_level_loose_acc | 1 | 99.8% |
| lcb-v6-aug2024+ | 0.255 | eval/pass_1 | 1 | 99.4% |
| math_500 | 0.710 | math_pass@1:4_samples | 4 | 100.0% |
| mmlu_generative | 0.767 | extractive_match | 1 | 100.0% |
| mmlu_pro | 0.549 | pass@1:1_samples | 1 | 100.0% |
| musr_generative | 0.563 | extractive_match | 1 | 100.0% |
| obqa_generative | 0.900 | extractive_match | 1 | 100.0% |
| rewardbench | 0.448 | eval/percent_correct | 1 | 94.3% |
| simpleqa_nous | 0.133 | fuzzy_match | 1 | 100.0% |
总体统计
- 总样本数:64,523
- 过长样本比例:98.6%(63,597个样本)
- 主要问题:缺失闭合
</think>标签
详细评估指标
数学推理能力
- aime24:math_pass@1得分0.095(64样本)
- aime25:math_pass@1得分0.073(64样本)
- math_500:math_pass@1得分0.710(4样本)
通用能力评估
- bbh_generative:extractive_match得分0.805
- mmlu_generative:extractive_match得分0.767
- mmlu_pro:pass@1得分0.549
专业领域评估
- gpqa_diamond:gpqa_pass@1得分0.333(8样本)
- drop_generative_nous:drop_acc得分0.784
- musr_generative:extractive_match得分0.563
- obqa_generative:extractive_match得分0.900
创造性写作
- creative-writing-v3:creative_writing_score得分0.491(96样本)
指令遵循
- ifeval:inst_level_loose_acc得分0.823
代码能力
- lcb-v6-aug2024+:eval/pass_1得分0.255
综合评估
- arenahard:eval/overall_winrate得分0.568(500样本)
- eqbench3:eqbench_score得分0.739(135样本)
- rewardbench:eval/percent_correct得分0.448
问答能力
- simpleqa_nous:fuzzy_match得分0.133
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Hermes-4-70B-nonreasoning数据集通过系统化集成多个权威基准测试构建而成。该数据集涵盖了数学推理、常识问答、创造性写作等多样化任务,数据来源包括AIME、MMLU、GPQA等知名评估集。构建过程中采用标准化数据格式转换,将原始问题转化为对话形式的样本,并保留详细的评估元数据,确保数据的一致性和可追溯性。
特点
本数据集的核心特征体现在其多维度评估体系,覆盖17个专项测试领域共计超过6万个样本。数据采用分层结构组织,包含详细评估结果和对话样本两个视角,每个基准测试均提供标准化度量指标和统计误差。特别值得注意的是数据集中普遍存在的高过载率现象,这为研究语言模型输出控制提供了独特视角。数据集语言为英语,规模属于1K到10K样本量级,专注于评估任务设计。
使用方法
研究人员可通过HuggingFace平台获取该数据集,按照不同基准测试配置选择相应数据文件。使用时应首先加载特定config_name对应的parquet或jsonl格式文件,其中details文件包含评估元数据,conversations文件保存实际对话样本。数据分析可基于提供的标准化度量指标进行模型性能比较,特别关注不同温度设置下的表现差异以及过载样本的分布特征。
背景与挑战
背景概述
eval-Hermes-4-70B-nonreasoning数据集诞生于大型语言模型评估需求日益增长的时代,由HuggingFace社区的研究团队于2024年构建。该数据集专注于多维度评估语言模型在非推理任务中的性能表现,涵盖数学推理、常识问答、创造性写作等十余个核心领域。通过整合AIME、MMLU、GPQA等权威基准测试数据,该数据集为研究社区提供了标准化评估框架,显著推动了语言模型能力评估的精细化与系统化发展。
当前挑战
该数据集致力于解决语言模型在非推理任务中性能评估的标准化难题,面临模型输出长度控制与评估指标一致性的双重挑战。构建过程中需协调多个异构子数据集的结构整合,处理高达98.6%的样本缺失闭合标签的技术问题,同时确保不同评估指标间的可比性与权重平衡。数据清洗阶段需克服标注不一致性与跨领域评估标准差异带来的复杂性,这对数据质量的统一性提出了极高要求。
常用场景
经典使用场景
在大型语言模型评估领域,eval-Hermes-4-70B-nonreasoning数据集通过多维度基准测试展现了其核心价值。该数据集整合了数学推理、常识问答、创造性写作等16个专项评估模块,例如在AIME数学竞赛题和MMLU专业学科测试中,模型需展现非推理场景下的精准应答能力。其经典应用体现在通过标准化测试框架,量化模型在零样本学习、指令遵循及多轮对话中的性能表现,为模型能力边界划定提供实证依据。
解决学术问题
该数据集有效解决了大语言模型评估中标准化缺失与维度单一化的学术困境。通过融合GPQA钻石级科学问答、DROP阅读理解等权威基准,它突破了传统评估仅关注准确率的局限,引入创造性写作评分、安全伦理判断等多维指标。这种综合化评估体系为模型对齐研究、能力泛化分析提供了可靠的数据支撑,显著推进了人工智能可解释性与可靠性研究的深度发展。
衍生相关工作
该数据集的发布催生了系列创新研究,例如基于ArenaHard对比测试机制开发的模型竞技场评估平台,以及受EQBench情感智能测试启发的多模态情绪识别框架。在MMLU-Pro衍生的专业领域评估中,研究者构建了医疗法律交叉学科测试集,而IFeval指令遵循数据则推动了链式思维验证技术的演进,这些工作共同构成了大模型评估生态的方法论体系。
以上内容由遇见数据集搜集并总结生成



