eval-Hermes-4-70B-reasoning

Name: eval-Hermes-4-70B-reasoning
Creator: NousResearch
Published: 2025-08-28 16:40:41
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Hermes-4-70B-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了各种配置和数据文件，用于不同的基准测试。每个配置指定了数据文件的分割和路径，语言为英语。数据集的大小类别在1K到10K之间。数据集的标签包括评估和基准测试。此外，README还包含了不同基准测试的评估结果，包括分数、指标、样本和超长率。每个基准测试的详细结果也包括指标、分数、标准误差和超长样本。

This dataset contains various configuration and data files for different benchmark tests. Each configuration specifies the splits and paths of the data files, using English as its language. The dataset has a size range of 1K to 10K. The dataset's labels cover evaluation and benchmark-related categories. Additionally, the README document includes evaluation results for various benchmark tests, covering scores, metrics, sample quantities, and out-of-length rates. Detailed results for each benchmark test also include metrics, scores, standard errors, and out-of-length samples.

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

Hermes-4-70B-Reasoning 数据集评估结果

数据集概述

数据集名称: eval-Hermes-4-70B-reasoning
语言: 英语
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string)

配置列表

aime24_groups: aime24/details.parquet
aime24_samples: aime24/conversations.parquet
aime25_groups: aime25/details.parquet
aime25_samples: aime25/conversations.parquet
arenahard_samples: arenahard/samples.jsonl
bbh_generative_groups: bbh_generative/details.parquet
bbh_generative_samples: bbh_generative/conversations.parquet
creative-writing-v3_samples: creative-writing-v3/samples.jsonl
drop_generative_nous_groups: drop_generative_nous/details.parquet
drop_generative_nous_samples: drop_generative_nous/conversations.parquet
eqbench3_samples: eqbench3/samples.jsonl
gpqa_diamond_groups: gpqa_diamond/details.parquet
gpqa_diamond_samples: gpqa_diamond/conversations.parquet
ifeval_groups: ifeval/details.parquet
ifeval_samples: ifeval/conversations.parquet
lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
math_500_groups: math_500/details.parquet
math_500_samples: math_500/conversations.parquet
mmlu_generative_groups: mmlu_generative/details.parquet
mmlu_generative_samples: mmlu_generative/conversations.parquet
mmlu_pro_groups: mmlu_pro/details.parquet
mmlu_pro_samples: mmlu_pro/conversations.parquet
musr_generative_groups: musr_generative/details.parquet
musr_generative_samples: musr_generative/conversations.parquet
obqa_generative_groups: obqa_generative/details.parquet
obqa_generative_samples: obqa_generative/conversations.parquet
rewardbench_samples: rewardbench/samples.jsonl
simpleqa_nous_groups: simpleqa_nous/details.parquet
simpleqa_nous_samples: simpleqa_nous/conversations.parquet

评估结果摘要

基准测试	得分	指标	样本数	过长率
aime24	0.735	math_pass@1:64_samples	64	8.4%
aime25	0.674	math_pass@1:64_samples	64	9.6%
arenahard	0.901	eval/overall_winrate	500	0.0%
bbh_generative	0.878	extractive_match	1	4.8%
creative-writing-v3	0.775	creative_writing_score	96	0.0%
drop_generative_nous	0.850	drop_acc	1	1.4%
eqbench3	0.847	eqbench_score	135	0.0%
gpqa_diamond	0.661	gpqa_pass@1:8_samples	8	3.0%
ifeval	0.787	inst_level_loose_acc	1	6.5%
lcb-v6-aug2024+	0.505	eval/pass_1	1	16.6%
math_500	0.956	math_pass@1:4_samples	4	0.9%
mmlu_generative	0.884	extractive_match	1	0.3%
mmlu_pro	0.807	pass@1:1_samples	1	0.7%
musr_generative	0.704	extractive_match	1	0.5%
obqa_generative	0.948	extractive_match	1	1.6%
rewardbench	0.649	eval/percent_correct	1	0.4%
simpleqa_nous	0.179	fuzzy_match	1	2.5%

总体过长率: 2,311 / 64,523 样本 (3.6%) 缺少闭合 </think> 标签

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Hermes-4-70B-reasoning数据集通过整合多个权威基准测试构建而成，涵盖数学推理、常识问答、创造性写作等多样化任务。其构建过程采用标准化数据采集流程，从AIME、MMLU、GPQA等知名数据源提取高质量样本，并通过parquet和jsonl格式进行结构化存储，确保数据的一致性与可追溯性。每个子集均经过严格的样本筛选和标注验证，最终形成覆盖1K至10K规模的多维度评估体系。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置的子数据集，例如aime24_samples或mmlu_generative_groups，利用标准化的评估管道进行模型测试。使用时应根据任务类型选择相应温度参数（通常设为0.6）并关注过度生成长度指标以避免评估偏差。数据集支持端到端的性能对比分析，用户可通过组合不同子集的评估结果，生成综合性能雷达图或进行特定能力维度的深度剖析。

背景与挑战

背景概述

eval-Hermes-4-70B-reasoning数据集作为大型语言模型评估领域的重要基准，由Nous Research等机构在2024年构建，专注于多维度能力评测。该数据集整合了数学推理、常识问答、创造性写作等17个专项测试模块，涵盖超6万条样本数据，旨在系统评估70B参数规模语言模型的综合认知能力。其创新性地采用思维链推理评估机制，通过标准化测试框架推动语言模型向更高层次的逻辑推理与人类对齐能力发展，成为大模型能力评估体系中的重要里程碑。

当前挑战

该数据集核心挑战在于解决大模型多维度能力评估的标准化问题，特别是在数学推理领域需突破复杂问题分解与符号推理的精度瓶颈，同时在创造性写作评估中需建立主观性与客观指标的统一框架。构建过程中面临标注一致性挑战，尤其在思维链标注中出现3.6%的标签闭合缺失问题；多源数据整合时存在评估指标异构性，需设计跨基准的统一度量体系；此外还需平衡生成质量与评估效率，处理高达16.6%的长文本溢出样本对计算资源的压力。

常用场景

经典使用场景

在人工智能大模型评估领域，eval-Hermes-4-70B-reasoning数据集被广泛用于测试模型在数学推理、常识问答和创造性写作等多维能力。该数据集通过整合AIME数学竞赛、MMLU专业学科测试以及创造性写作评估等多样化任务，为研究者提供了全面衡量模型推理性能的标准框架。其经典应用场景包括模型在链式思维推理中的表现分析，以及对复杂问题解决能力的系统性评估。

解决学术问题

该数据集有效解决了大语言模型在复杂推理任务中评估标准不统一的问题，为学术研究提供了可量化的性能指标。通过涵盖数学证明、逻辑推理和创造性思维等多个维度，它帮助研究者识别模型在知识应用和推理链条构建中的薄弱环节。其标准化评估框架显著推进了模型泛化能力和推理可解释性的研究，为人工智能推理机制的理论探索提供了重要数据支撑。

实际应用

在实际应用层面，该数据集为教育科技领域的智能辅导系统开发提供了关键评估工具，特别是在数学问题求解和科学知识问答场景中。企业研发团队利用其评估模型在专业领域问答的准确性，确保智能助手在医疗、法律等高风险领域的可靠部署。同时，创意产业借助其写作评估模块优化内容生成模型，提升人工智能在文学创作和营销文案生成中的实用价值。

数据集最近研究