five

Hermes-4-14B-reasoning

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/NousResearch/Hermes-4-14B-reasoning
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多个基准测试的数据集,用于评估模型在不同任务上的性能。数据集包括多个配置,每个配置都有其对应的数据文件。数据集的特点包括字符串类型的数据,以及各种评估指标。数据集被标记为用于评估和基准测试。数据集的语言为英语,大小在1K到10K样本之间。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总

Hermes-4-14B-reasoning 数据集概述

数据集基本信息

  • 语言: 英文
  • 数据规模: 1K<n<10K
  • 标签: 评估、基准测试

数据集结构

特征

  • benchmark_results (string类型)

配置组

数据集包含多个配置组,每个配置组对应不同的基准测试数据集:

数学推理类:

  • aime24 (details.parquet, conversations.parquet)
  • aime25 (details.parquet, conversations.parquet)
  • math_500 (details.parquet, conversations.parquet)

通用推理类:

  • bbh_generative (details.parquet, conversations.parquet)
  • gpqa_diamond (details.parquet, conversations.parquet)
  • mmlu_generative (details.parquet, conversations.parquet)
  • mmlu_pro (details.parquet, conversations.parquet)
  • obqa_generative (details.parquet, conversations.parquet)

阅读理解类:

  • drop_generative_nous (details.parquet, conversations.parquet)
  • simpleqa_nous (details.parquet, conversations.parquet)

其他专项测试:

  • arenahard (samples.jsonl)
  • creative-writing-v3 (samples.jsonl)
  • eqbench3 (samples.jsonl)
  • ifeval (details.parquet, conversations.parquet)
  • lcb-v6-aug2024+ (samples.jsonl, group.jsonl)
  • musr_generative (details.parquet, conversations.parquet)
  • rewardbench (samples.jsonl)

评估结果摘要

主要基准测试表现

测试集 得分 评估指标 样本数 过长率
aime24 0.527 math_pass@1:64_samples 64 6.6%
aime25 0.414 math_pass@1:64_samples 64 8.1%
arenahard 0.782 eval/overall_winrate 500 0.0%
bbh_generative 0.844 extractive_match 1 5.8%
creative-writing-v3 0.617 creative_writing_score 96 0.0%
drop_generative_nous 0.827 drop_acc 1 2.4%
eqbench3 0.805 eqbench_score 135 0.0%
gpqa_diamond 0.556 gpqa_pass@1:8_samples 8 8.5%
ifeval 0.501 inst_level_loose_acc 1 6.7%
lcb-v6-aug2024+ 0.452 eval/pass_1 1 12.7%
math_500 0.926 math_pass@1:4_samples 4 0.9%
mmlu_generative 0.838 extractive_match 1 2.3%
mmlu_pro 0.733 pass@1:1_samples 1 6.6%
musr_generative 0.591 extractive_match 1 2.9%
obqa_generative 0.934 extractive_match 1 2.2%
rewardbench 0.270 eval/ties_error_rate 1 2.5%
simpleqa_nous 0.054 fuzzy_match 1 9.6%

总体统计

  • 总过长率: 5.5% (3,554 / 64,523个样本)
  • 主要问题: 缺失闭合</think>标签

技术细节

  • 评估模型: h4-e3-overlong-masked-30k-rerun 和 h4-14b-think
  • 温度设置: 主要使用0.6
  • 评估时间: 各测试集评估时间从几分钟到数小时不等
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评测领域,Hermes-4-14B-reasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等知名评测集,采用标准化流程进行清洗与标注,确保样本质量和一致性。数据集以parquet和jsonl格式存储,包含对话样本和元数据组,支持高效读取与处理,为模型评估提供全面且可靠的数据基础。
特点
该数据集显著特点在于其多维度评测框架,覆盖16项独立基准测试,总计超过6万样本量。评测指标兼具传统准确率与新兴思维链评估,如math_pass@1和overlong率统计,能够深入揭示模型推理缺陷。数据分布呈现高度异构性,从数学问题到伦理判断,充分考验模型的跨领域泛化能力。其英语单语特性确保了评测的一致性,而严格的质量控制使过长生成功率控制在5.5%以内。
使用方法
研究人员可通过HuggingFace数据集库直接加载特定配置,如aime24_samples或bbh_generative_groups,获取标准化对话格式样本。评估时需注意温度参数设置为0.6以获得最佳效果,并可参照提供的标准误差指标进行统计分析。数据集支持批量处理与流式读取,兼容主流机器学习框架,特别适用于大语言模型的零样本推理能力评测与对比研究。
背景与挑战
背景概述
人工智能领域的推理能力评估一直是自然语言处理研究的核心议题。Hermes-4-14B-reasoning数据集由Nous Research等机构于2024年构建,专注于大规模语言模型的复杂推理能力测评。该数据集整合了数学推理、常识问答、逻辑分析等多个维度的评估任务,通过标准化测试框架推动语言模型在认知智能方面的发展,为模型性能的横向比较提供了重要基准。
当前挑战
该数据集面临多维度挑战:在领域问题层面,需要解决数学推理中的符号运算与逻辑推导难题、常识问答中的上下文理解偏差以及创造性写作中的语义连贯性评估;在构建过程中,需协调不同评估标准的数据整合、保证标注一致性与质量控制,同时处理大规模推理数据中存在的标签缺失和长文本序列的结构化问题。
常用场景
经典使用场景
在人工智能推理能力评估领域,Hermes-4-14B-reasoning数据集通过整合数学问题求解、常识推理和创造性写作等多维度任务,为大型语言模型的系统性评估提供了标准化基准。该数据集典型应用于模型推理链验证、多步问题解决能力测试以及思维过程可视化分析,特别是在链式思考(chain-of-thought)推理范式的性能评估中展现显著价值。其结构化对话样本和详细标注体系使研究者能够精确追踪模型在复杂推理任务中的逻辑路径与错误模式。
实际应用
在实际应用层面,该数据集支撑了智能教育系统的推理能力优化,为自适应学习平台提供了认知能力评估标准。在专业领域如医疗诊断辅助、法律条文解析和工程技术咨询中,其评估结果指导了行业专用大模型的可靠性验证。金融风险分析系统亦借鉴其推理评估框架来提升模型在复杂决策场景中的可解释性与合规性,显著增强了AI系统在高风险领域的应用安全性。
衍生相关工作
基于该数据集衍生的经典研究包括思维链蒸馏技术、推理过程可视化工具链以及多智能体协作推理框架。众多研究团队利用其评估结果开发了新型推理优化算法,如递归验证机制和动态推理路径修剪技术。在学术界催生了关于神经网络符号推理能力的一系列突破性研究,并为构建下一代认知智能系统提供了关键理论基础与实验范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作