five

Hermes-4-14B-nonreasoning

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/NousResearch/Hermes-4-14B-nonreasoning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置和文件路径,涉及不同的数据集配置。数据集的'benchmark_results'特征的数据类型为字符串。数据集的语言为英文,大小类别为1K<n<10K。数据集的标签包括'评估'和'基准测试'。README文件中还包含了名为'h4-14b-nonreasoning-30k-cot'的模型的评估结果,包括多个基准测试的指标、分数和样本详细信息。但文件中没有明确的数据集描述。
提供机构:
NousResearch
创建时间:
2025-08-21
原始信息汇总

Hermes-4-14B-nonreasoning 数据集概述

数据集基本信息

  • 语言: 英语
  • 规模: 1K<n<10K
  • 标签: 评估、基准测试

数据集结构

数据集包含多个配置,每个配置对应不同的基准测试数据文件:

配置列表

  • aime24_groups: aime24/details.parquet
  • aime24_samples: aime24/conversations.parquet
  • aime25_groups: aime25/details.parquet
  • aime25_samples: aime25/conversations.parquet
  • arenahard_samples: arenahard/samples.jsonl
  • bbh_generative_groups: bbh_generative/details.parquet
  • bbh_generative_samples: bbh_generative/conversations.parquet
  • creative-writing-v3_samples: creative-writing-v3/samples.jsonl
  • drop_generative_nous_groups: drop_generative_nous/details.parquet
  • drop_generative_nous_samples: drop_generative_nous/conversations.parquet
  • eqbench3_samples: eqbench3/samples.jsonl
  • gpqa_diamond_groups: gpqa_diamond/details.parquet
  • gpqa_diamond_samples: gpqa_diamond/conversations.parquet
  • ifeval_groups: ifeval/details.parquet
  • ifeval_samples: ifeval/conversations.parquet
  • lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
  • lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
  • math_500_groups: math_500/details.parquet
  • math_500_samples: math_500/conversations.parquet
  • mmlu_generative_groups: mmlu_generative/details.parquet
  • mmlu_generative_samples: mmlu_generative/conversations.parquet
  • mmlu_pro_groups: mmlu_pro/details.parquet
  • mmlu_pro_samples: mmlu_pro/conversations.parquet
  • musr_generative_groups: musr_generative/details.parquet
  • musr_generative_samples: musr_generative/conversations.parquet
  • obqa_generative_groups: obqa_generative/details.parquet
  • obqa_generative_samples: obqa_generative/conversations.parquet
  • rewardbench_samples: rewardbench/samples.jsonl
  • simpleqa_nous_groups: simpleqa_nous/details.parquet
  • simpleqa_nous_samples: simpleqa_nous/conversations.parquet

评估结果摘要

基准测试 得分 指标 样本数 超长率
aime24 0.105 math_pass@1:64_samples 64 99.7%
aime25 0.066 math_pass@1:64_samples 64 100.0%
arenahard 0.498 eval/overall_winrate 500 0.0%
bbh_generative 0.632 extractive_match 1 100.0%
creative-writing-v3 0.405 creative_writing_score 96 0.0%
drop_generative_nous 0.714 drop_acc 1 100.0%
eqbench3 0.690 eqbench_score 135 0.0%
gpqa_diamond 0.450 gpqa_pass@1:8_samples 8 100.0%
ifeval 0.746 inst_level_loose_acc 1 100.0%
lcb-v6-aug2024+ 0.237 eval/pass_1 1 99.9%
math_500 0.767 math_pass@1:4_samples 4 100.0%
mmlu_generative 0.767 extractive_match 1 100.0%
mmlu_pro 0.595 pass@1:1_samples 1 100.0%
musr_generative 0.505 extractive_match 1 100.0%
obqa_generative 0.876 extractive_match 1 100.0%
rewardbench 0.824 eval/ties_error_rate 1 94.5%
simpleqa_nous 0.040 fuzzy_match 1 100.0%

总体统计

  • 总超长率: 98.7% (63,675 / 64,523 样本)
  • 主要问题: 缺少闭合 </think> 标签
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评测领域,Hermes-4-14B-nonreasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等知名评测集,采用标准化格式统一处理,确保数据的一致性与可比性。每个子集均经过精细筛选与标注,形成了结构化的评测体系,为模型能力评估提供全面且可靠的基准。
特点
该数据集具备高度的多样性与专业性,覆盖17个独立评测维度,包括数学问题求解、逻辑推理、语言生成等复杂任务。评测指标设计科学,既有精确匹配率等客观度量,也包含创造性评分等主观评估,能够全方位反映模型性能。数据规模适中,样本量在数千至数万之间,既保证统计显著性,又兼顾计算效率,适用于不同规模的模型评测需求。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,利用其预定义的评测配置进行模型测试。使用时应根据具体任务选择相应子集,如数学能力评估可调用aime或math相关配置,语言生成任务则使用creative-writing等模块。评测过程支持温度参数调整,并可获取详细指标输出与误差分析,为模型优化提供明确方向。
背景与挑战
背景概述
人工智能领域对大语言模型评估的需求催生了Hermes-4-14B-nonreasoning数据集的诞生,该数据集由Nous Research等机构于2024年构建,专注于系统化评估语言模型在数学推理、创造性写作、常识问答等多维度的零样本性能。其核心研究问题在于建立标准化评估框架以衡量模型在非推理任务中的实际表现,通过整合AIME、MMLU、GPQA等16个权威子数据集,为模型能力评估提供了全面基准,显著推动了语言模型评估方法论的发展。
当前挑战
该数据集解决的领域挑战包括模型在数学问题求解中的低通过率(AIME24仅10.5%)和创造性写作中的表现不稳定(40.5%得分),同时面临高比例思维链标记缺失(98.7%)导致的结构化输出困难。构建过程中的技术挑战主要体现在多源数据整合时面临的格式标准化问题,以及长文本生成任务中存在的过采样现象(多个子集达100%),需通过复杂的预处理流程确保评估结果的可靠性与一致性。
常用场景
经典使用场景
在人工智能模型评估领域,Hermes-4-14B-nonreasoning数据集通过多维度基准测试为大型语言模型的性能分析提供标准化框架。该数据集整合了数学推理、常识问答、创造性写作等二十余项专项评估任务,典型应用场景包括模型在AIME数学竞赛题上的解题能力测试(aime24得分0.105)以及在MMLU通用知识测评中的表现验证(mmlu_generative得分0.767),为研究人员提供跨领域的系统性评估方案。
实际应用
实际应用中,该数据集支撑着工业界模型选型与优化工作,企业可依据其在RewardBench安全评估中82.4%的合规率判断模型部署可行性。教育科技领域利用其数学500题库0.767的通过率开发智能辅导系统,创意产业则参考creative-writing-v3模块0.405的创作评分优化内容生成工具,为人工智能技术落地提供关键性能指标支撑。
衍生相关工作
该数据集催生了多项前沿研究,包括基于ArenaHard对比评估框架的模型对战系统(winrate 0.498),以及融合IFEval指令遵循度检测(inst_level_loose_acc 0.746)的强化学习方案。其衍生的EqBench3情感智能评估体系(得分0.690)和LCB-v6代码生成基准测试(pass_1 0.237)持续推动着对话系统、代码生成等领域的算法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作