five

eval-Hermes-4-14B-nonreasoning-old

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Hermes-4-14B-nonreasoning-old
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多个子集的数据集,用于评估模型在不同任务上的性能。每个子集都有不同的配置名称和对应的数据文件路径。数据集包含的特征包括benchmark_results,数据类型为字符串。数据集支持的语言是英语,大小类别为1K<n<10K,标签包括evaluation和benchmarks。
提供机构:
NousResearch
创建时间:
2025-08-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称:h4-14b-nonreasoning-30k-cot Evaluation Results
  • 语言:英语
  • 规模:1K<n<10K
  • 标签:评估、基准测试

数据集结构

特征

  • benchmark_results (string)

配置

  • aime24_groups
  • aime24_samples
  • aime25_groups
  • aime25_samples
  • arenahard_samples
  • bbh_generative_groups
  • bbh_generative_samples
  • creative-writing-v3_samples
  • drop_generative_nous_groups
  • drop_generative_nous_samples
  • eqbench3_samples
  • gpqa_diamond_groups
  • gpqa_diamond_samples
  • ifeval_groups
  • ifeval_samples
  • lcb-v6-aug2024+_samples
  • lcb-v6-aug2024+_groups
  • math_500_groups
  • math_500_samples
  • mmlu_generative_groups
  • mmlu_generative_samples
  • mmlu_pro_groups
  • mmlu_pro_samples
  • musr_generative_groups
  • musr_generative_samples
  • obqa_generative_groups
  • obqa_generative_samples
  • rewardbench_samples
  • simpleqa_nous_groups
  • simpleqa_nous_samples

评估结果汇总

基准测试性能

基准测试 得分 指标 样本数 过长率
aime24 0.105 math_pass@1:64_samples 64 99.7%
aime25 0.066 math_pass@1:64_samples 64 100.0%
arenahard 0.498 eval/overall_winrate 500 0.0%
bbh_generative 0.632 extractive_match 1 100.0%
creative-writing-v3 0.405 creative_writing_score 96 0.0%
drop_generative_nous 0.714 drop_acc 1 100.0%
eqbench3 0.690 eqbench_score 135 0.0%
gpqa_diamond 0.450 gpqa_pass@1:8_samples 8 100.0%
ifeval 0.746 inst_level_loose_acc 1 100.0%
lcb-v6-aug2024+ 0.237 eval/pass_1 1 99.9%
math_500 0.767 math_pass@1:4_samples 4 100.0%
mmlu_generative 0.767 extractive_match 1 100.0%
mmlu_pro 0.595 pass@1:1_samples 1 100.0%
musr_generative 0.505 extractive_match 1 100.0%
obqa_generative 0.876 extractive_match 1 100.0%
rewardbench 0.824 eval/ties_error_rate 1 94.5%
simpleqa_nous 0.040 fuzzy_match 1 100.0%

总体统计

  • 总过长率:63,675 / 64,523 样本 (98.7%)
  • 主要问题:缺少闭合 </think> 标签

评估模型

  • 主要模型:h4-14b-nonreasoning-30k-cot
  • 温度设置:0.6(多数测试)
  • 评估时间:各基准测试时间从00:01:58到01:19:05不等
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能模型评估领域,eval-Hermes-4-14B-nonreasoning-old数据集通过集成多个权威基准测试构建而成,涵盖了数学推理、常识问答、创造性写作等多样化任务。该数据集采用分块式数据组织方式,每个子集如aime24、bbh_generative等均以标准化格式存储,包含详细评估结果和样本对话记录,确保了数据结构的系统性和可扩展性。
特点
本数据集最显著的特征在于其多维度的评估指标体系,不仅包含传统准确率指标,还创新性地引入了超长样本率、格式合规率等质量监控维度。数据覆盖范围跨越STEM学科、人文艺术及安全伦理等领域,且所有评估结果均附带标准误差统计,为模型性能分析提供了可靠的置信区间参考。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置的子数据集,例如使用aime24_samples配置获取数学推理评估样本。数据集支持parquet和jsonl两种高效存储格式,用户可根据需要选择组级别元数据或样本级对话记录进行分析。典型应用流程包括基准性能对比、错误模式分析和模型能力边界探测。
背景与挑战
背景概述
eval-Hermes-4-14B-nonreasoning-old数据集作为大语言模型评估领域的重要基准,由Nous Research等机构于2024年构建,专注于系统性评测语言模型在数学推理、常识问答、创造性写作等多元认知任务上的性能表现。该数据集通过整合AIME、MMLU、GPQA等17个权威子基准,构建了覆盖6,000余样本的评估体系,旨在推动语言模型在复杂推理与生成任务上的能力边界探索,为模型优化与能力验证提供标准化度量框架。
当前挑战
该数据集核心挑战在于解决多领域复杂任务评估的标准化问题,包括数学推理中的符号运算准确性、创造性写作的语义连贯性评估,以及长文本生成的逻辑一致性验证。构建过程中面临标注一致性难题,特别是在跨领域样本的质量控制和评估指标统一方面,需克服不同基准评分体系兼容性与高计算资源消耗的双重约束。
常用场景
经典使用场景
在人工智能评估领域,eval-Hermes-4-14B-nonreasoning-old数据集被广泛用于大语言模型的系统性能力评测。该数据集通过整合数学推理(AIME24/25、MATH500)、常识推理(BBH、OBQA)、专业学科(MMLU、GPQA)及安全性评估(RewardBench)等多维测试集,为模型性能提供标准化度量框架。研究人员通常采用该数据集的对话样本和评估指标,对模型在零样本学习、指令遵循和逻辑推理等方面的表现进行横向对比,从而建立可复现的评估基准。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究。基于其构建的标准化评估框架,学术界提出了动态评估协议LCB-v6和综合能力指数Eqbench3等创新指标。在模型优化方面,研究者利用其发现的过长响应问题(98.7%样本缺失</think>标签),开发了思维链修剪技术和响应长度控制算法。此外,该数据集还支撑了跨模态评估扩展研究,推动形成了新一代多模态大模型评估体系ArenaHard的建立。
数据集最近研究
最新研究方向
在大型语言模型评估领域,eval-Hermes-4-14B-nonreasoning-old数据集正推动多维度能力评测体系的发展。该数据集整合了数学推理(AIME、MATH-500)、常识问答(MMLU、BBH)、创造性写作(creative-writing-v3)及安全对齐(rewardbench)等17个前沿基准,反映了当前学界对模型综合性能的精细化评估需求。特别是其98.7%的过长生成长文本现象,为研究链式推理中的标记效率与截断机制提供了关键数据。随着 ArenaHard、LCB-v6 等对抗性评测的引入,该数据集已成为探索模型在复杂推理、指令遵循及安全性方面性能边界的重要工具,直接影响着下一代语言模型的优化方向与部署标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作