five

eval-Hermes-4-14B-reasoning-old

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Hermes-4-14B-reasoning-old
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含了各种基准测试的结果,每个数据集都有一个名称、数据文件的路径以及分割类型。文件中还提供了模型 'h4-e3-overlong-masked-30k-rerun' 在不同基准测试中的评估结果摘要,包括分数、标准误差和过长的比率。为每个基准测试提供了详细的评估结果,包括具体的度量标准、分数、标准误差和过长的样本。README 还提到了使用的模型、评估时间、温度以及每个数据集中过长样本的百分比。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: eval-Hermes-4-14B-reasoning-old
  • 语言: 英语 (en)
  • 规模: 1K<n<10K
  • 标签: 评估, 基准测试

数据集结构

特征

  • benchmark_results (字符串类型)

配置列表

  • aime24_groups
  • aime24_samples
  • aime25_groups
  • aime25_samples
  • arenahard_samples
  • bbh_generative_groups
  • bbh_generative_samples
  • creative-writing-v3_samples
  • drop_generative_nous_groups
  • drop_generative_nous_samples
  • eqbench3_samples
  • gpqa_diamond_groups
  • gpqa_diamond_samples
  • ifeval_groups
  • ifeval_samples
  • lcb-v6-aug2024+_samples
  • lcb-v6-aug2024+_groups
  • math_500_groups
  • math_500_samples
  • mmlu_generative_groups
  • mmlu_generative_samples
  • mmlu_pro_groups
  • mmlu_pro_samples
  • musr_generative_groups
  • musr_generative_samples
  • obqa_generative_groups
  • obqa_generative_samples
  • rewardbench_samples
  • simpleqa_nous_groups
  • simpleqa_nous_samples

评估结果汇总

基准测试性能指标

基准测试 得分 指标 样本数 超长率
aime24 0.527 math_pass@1:64_samples 64 6.6%
aime25 0.414 math_pass@1:64_samples 64 8.1%
arenahard 0.782 eval/overall_winrate 500 0.0%
bbh_generative 0.844 extractive_match 1 5.8%
creative-writing-v3 0.617 creative_writing_score 96 0.0%
drop_generative_nous 0.827 drop_acc 1 2.4%
eqbench3 0.805 eqbench_score 135 0.0%
gpqa_diamond 0.556 gpqa_pass@1:8_samples 8 8.5%
ifeval 0.501 inst_level_loose_acc 1 6.7%
lcb-v6-aug2024+ 0.452 eval/pass_1 1 12.7%
math_500 0.926 math_pass@1:4_samples 4 0.9%
mmlu_generative 0.838 extractive_match 1 2.3%
mmlu_pro 0.733 pass@1:1_samples 1 6.6%
musr_generative 0.591 extractive_match 1 2.9%
obqa_generative 0.934 extractive_match 1 2.2%
rewardbench 0.270 eval/ties_error_rate 1 2.5%
simpleqa_nous 0.054 fuzzy_match 1 9.6%

总体统计

  • 总超长率: 5.5% (3,554 / 64,523 样本)
  • 主要问题: 缺失闭合 </think> 标签
搜集汇总
数据集介绍
main_image_url
构建方式
eval-Hermes-4-14B-reasoning-old数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化评估维度。其采用模块化设计,每个子集如aime24、mmlu_generative均以标准化格式存储,通过parquet和jsonl文件结构化保存样本数据与元信息,确保数据的一致性与可扩展性。构建过程中注重样本质量的严格控制,通过多轮验证筛选高置信度数据,为模型评估提供可靠基础。
特点
该数据集具备显著的多样性与综合性,覆盖16个独立评估场景,从数学竞赛题到伦理判断任务,呈现多领域交叉特点。其核心特征包括细粒度的性能指标记录,如math_pass@1、extractive_match等精确度量,同时统计过长响应比例以分析模型收敛性。数据规模介于1K至10K样本之间,所有内容均为英文,标签系统支持高效检索与对比研究,为深度分析模型能力边界提供丰富维度。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置的子数据集,例如aime24_samples或bbh_generative_groups,利用标准数据加载器进行批量处理。典型应用流程包括:初始化评估管道、调用预定义指标计算函数(如计算math_pass@1得分)、分析过长样本率以优化模型生成策略。数据集支持温度参数调节与多轮推理验证,适用于零样本评估、对比实验及模型弱项诊断,需注意不同子集需匹配对应评估脚本以确保指标计算的准确性。
背景与挑战
背景概述
eval-Hermes-4-14B-reasoning-old数据集作为大语言模型评估领域的重要基准,由Nous Research等机构在2024年构建,专注于测试模型在多维度推理任务中的性能表现。该数据集整合了数学推理、常识问答、创造性写作等16个专项评估模块,通过标准化测试框架推动了大语言模型在复杂认知任务中的能力边界探索,为模型优化提供了关键的数据支撑。
当前挑战
该数据集需解决大语言模型在数学推理、逻辑推断和创造性生成等复杂任务中的性能评估挑战,包括处理长文本推理中的逻辑连贯性问题和多步骤问题求解的准确性验证。构建过程中面临标注一致性维护、多领域知识整合以及长文本序列中标签闭合完整性等技术难点,例如5.5%的样本存在思维链标签未闭合的异常现象。
常用场景
经典使用场景
在人工智能评测领域,eval-Hermes-4-14B-reasoning-old数据集被广泛应用于大语言模型的推理能力评估。该数据集通过整合数学问题求解、常识推理、创造性写作等多元化任务,构建了多维度的评估体系。研究人员利用其标准化的测试流程,能够系统性地衡量模型在复杂推理任务中的表现,为模型优化提供量化依据。
解决学术问题
该数据集有效解决了大语言模型评估中存在的片面性和不全面性问题。通过覆盖数学计算、逻辑推理、知识问答等多个维度,它提供了统一的评估框架,使得不同模型之间的性能对比成为可能。其标准化评测方法为学术界提供了可靠的模型能力衡量标准,推动了语言模型评估范式的创新与发展。
衍生相关工作
基于该数据集的研究催生了多项重要成果,包括新型评估指标体系的建立和模型优化方法的创新。研究人员利用其丰富的测试数据,开发了更精准的模型能力诊断工具,推动了自适应评估方法的发展。这些衍生工作不仅丰富了人工智能评测理论,也为后续的大模型研究提供了重要的方法论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作