eval-Hermes-4-14B-nonreasoning-old
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Hermes-4-14B-nonreasoning-old
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个子集的数据集,用于评估模型在不同任务上的性能。每个子集都有不同的配置名称和对应的数据文件路径。数据集包含的特征包括benchmark_results,数据类型为字符串。数据集支持的语言是英语,大小类别为1K<n<10K,标签包括evaluation和benchmarks。
提供机构:
NousResearch
创建时间:
2025-08-21
原始信息汇总
数据集概述
基本信息
- 数据集名称:h4-14b-nonreasoning-30k-cot Evaluation Results
- 语言:英语
- 规模:1K<n<10K
- 标签:评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果汇总
基准测试性能
| 基准测试 | 得分 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.105 | math_pass@1:64_samples | 64 | 99.7% |
| aime25 | 0.066 | math_pass@1:64_samples | 64 | 100.0% |
| arenahard | 0.498 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.632 | extractive_match | 1 | 100.0% |
| creative-writing-v3 | 0.405 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.714 | drop_acc | 1 | 100.0% |
| eqbench3 | 0.690 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.450 | gpqa_pass@1:8_samples | 8 | 100.0% |
| ifeval | 0.746 | inst_level_loose_acc | 1 | 100.0% |
| lcb-v6-aug2024+ | 0.237 | eval/pass_1 | 1 | 99.9% |
| math_500 | 0.767 | math_pass@1:4_samples | 4 | 100.0% |
| mmlu_generative | 0.767 | extractive_match | 1 | 100.0% |
| mmlu_pro | 0.595 | pass@1:1_samples | 1 | 100.0% |
| musr_generative | 0.505 | extractive_match | 1 | 100.0% |
| obqa_generative | 0.876 | extractive_match | 1 | 100.0% |
| rewardbench | 0.824 | eval/ties_error_rate | 1 | 94.5% |
| simpleqa_nous | 0.040 | fuzzy_match | 1 | 100.0% |
总体统计
- 总过长率:63,675 / 64,523 样本 (98.7%)
- 主要问题:缺少闭合
</think>标签
评估模型
- 主要模型:h4-14b-nonreasoning-30k-cot
- 温度设置:0.6(多数测试)
- 评估时间:各基准测试时间从00:01:58到01:19:05不等
搜集汇总
数据集介绍

构建方式
在人工智能模型评估领域,eval-Hermes-4-14B-nonreasoning-old数据集通过集成多个权威基准测试构建而成,涵盖了数学推理、常识问答、创造性写作等多样化任务。该数据集采用分块式数据组织方式,每个子集如aime24、bbh_generative等均以标准化格式存储,包含详细评估结果和样本对话记录,确保了数据结构的系统性和可扩展性。
特点
本数据集最显著的特征在于其多维度的评估指标体系,不仅包含传统准确率指标,还创新性地引入了超长样本率、格式合规率等质量监控维度。数据覆盖范围跨越STEM学科、人文艺术及安全伦理等领域,且所有评估结果均附带标准误差统计,为模型性能分析提供了可靠的置信区间参考。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置的子数据集,例如使用aime24_samples配置获取数学推理评估样本。数据集支持parquet和jsonl两种高效存储格式,用户可根据需要选择组级别元数据或样本级对话记录进行分析。典型应用流程包括基准性能对比、错误模式分析和模型能力边界探测。
背景与挑战
背景概述
eval-Hermes-4-14B-nonreasoning-old数据集作为大语言模型评估领域的重要基准,由Nous Research等机构于2024年构建,专注于系统性评测语言模型在数学推理、常识问答、创造性写作等多元认知任务上的性能表现。该数据集通过整合AIME、MMLU、GPQA等17个权威子基准,构建了覆盖6,000余样本的评估体系,旨在推动语言模型在复杂推理与生成任务上的能力边界探索,为模型优化与能力验证提供标准化度量框架。
当前挑战
该数据集核心挑战在于解决多领域复杂任务评估的标准化问题,包括数学推理中的符号运算准确性、创造性写作的语义连贯性评估,以及长文本生成的逻辑一致性验证。构建过程中面临标注一致性难题,特别是在跨领域样本的质量控制和评估指标统一方面,需克服不同基准评分体系兼容性与高计算资源消耗的双重约束。
常用场景
经典使用场景
在人工智能评估领域,eval-Hermes-4-14B-nonreasoning-old数据集被广泛用于大语言模型的系统性能力评测。该数据集通过整合数学推理(AIME24/25、MATH500)、常识推理(BBH、OBQA)、专业学科(MMLU、GPQA)及安全性评估(RewardBench)等多维测试集,为模型性能提供标准化度量框架。研究人员通常采用该数据集的对话样本和评估指标,对模型在零样本学习、指令遵循和逻辑推理等方面的表现进行横向对比,从而建立可复现的评估基准。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究。基于其构建的标准化评估框架,学术界提出了动态评估协议LCB-v6和综合能力指数Eqbench3等创新指标。在模型优化方面,研究者利用其发现的过长响应问题(98.7%样本缺失</think>标签),开发了思维链修剪技术和响应长度控制算法。此外,该数据集还支撑了跨模态评估扩展研究,推动形成了新一代多模态大模型评估体系ArenaHard的建立。
数据集最近研究
最新研究方向
在大型语言模型评估领域,eval-Hermes-4-14B-nonreasoning-old数据集正推动多维度能力评测体系的发展。该数据集整合了数学推理(AIME、MATH-500)、常识问答(MMLU、BBH)、创造性写作(creative-writing-v3)及安全对齐(rewardbench)等17个前沿基准,反映了当前学界对模型综合性能的精细化评估需求。特别是其98.7%的过长生成长文本现象,为研究链式推理中的标记效率与截断机制提供了关键数据。随着 ArenaHard、LCB-v6 等对抗性评测的引入,该数据集已成为探索模型在复杂推理、指令遵循及安全性方面性能边界的重要工具,直接影响着下一代语言模型的优化方向与部署标准。
以上内容由遇见数据集搜集并总结生成



