Hermes-4-70B-nonreasoning
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/NousResearch/Hermes-4-70B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多种基准测试和样本,用于不同的任务,如数学、创意写作和问答。数据以不同的文件格式存储,如Parquet和JSONL,并支持英语。评估结果以表格形式呈现,显示了每个基准测试的得分和指标。数据集的大小在1K到10K之间,并被标记为评估和基准数据集。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
Hermes-4-70B-nonreasoning 数据集概述
数据集基本信息
- 语言: 英文
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
数据集包含17个基准测试配置,每个配置分为组(groups)和样本(samples)两个版本:
配置列表
- aime24(数学评估)
- aime25(数学评估)
- arenahard(竞技场评估)
- bbh_generative(Big-Bench Hard生成任务)
- creative-writing-v3(创意写作)
- drop_generative_nous(DROP阅读理解)
- eqbench3(EQ基准测试)
- gpqa_diamond(GPQA钻石级问题)
- ifeval(指令遵循评估)
- lcb-v6-aug2024+(代码基准测试)
- math_500(数学问题)
- mmlu_generative(MMLU生成任务)
- mmlu_pro(MMLU专业版)
- musr_generative(多句子推理)
- obqa_generative(开放书本问答)
- rewardbench(奖励模型基准)
- simpleqa_nous(简单问答)
数据格式
- 主要使用parquet格式存储组详细信息
- 使用jsonl格式存储样本对话数据
- 包含基准测试结果字符串特征
性能指标汇总
| 基准测试 | 得分 | 评估指标 | 样本数 | 超长率 |
|---|---|---|---|---|
| aime24 | 0.095 | math_pass@1:64_samples | 64 | 99.4% |
| aime25 | 0.073 | math_pass@1:64_samples | 64 | 98.2% |
| arenahard | 0.568 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.805 | extractive_match | 1 | 100.0% |
| creative-writing-v3 | 0.491 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.784 | drop_acc | 1 | 100.0% |
| eqbench3 | 0.739 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.333 | gpqa_pass@1:8_samples | 8 | 100.0% |
| ifeval | 0.823 | inst_level_loose_acc | 1 | 99.8% |
| lcb-v6-aug2024+ | 0.255 | eval/pass_1 | 1 | 99.4% |
| math_500 | 0.710 | math_pass@1:4_samples | 4 | 100.0% |
| mmlu_generative | 0.767 | extractive_match | 1 | 100.0% |
| mmlu_pro | 0.549 | pass@1:1_samples | 1 | 100.0% |
| musr_generative | 0.563 | extractive_match | 1 | 100.0% |
| obqa_generative | 0.900 | extractive_match | 1 | 100.0% |
| rewardbench | 0.448 | eval/percent_correct | 1 | 94.3% |
| simpleqa_nous | 0.133 | fuzzy_match | 1 | 100.0% |
总体统计
- 总超长率: 98.6%(63,597 / 64,523样本)
- 主要问题: 缺失闭合
</think>标签 - 评估温度: 多数测试使用0.6的温度设置
- 评估模型: 主要使用hermes-70b-nonreasoning模型进行评估
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,Hermes-4-70B-nonreasoning数据集的构建采用了多基准整合策略,通过系统化采集来自17个权威测试集的样本数据,涵盖数学推理、常识问答、创造性写作等多元任务。数据以标准化格式存储,包括parquet和jsonl两种结构,确保评估结果的可追溯性与一致性。每个子集均经过严格的质量控制,保留了原始评估环境中的对话上下文与评分细节,为模型性能分析提供了坚实基础。
特点
该数据集的核心特征体现在其广泛的评估维度和精细的指标设计上,不仅覆盖AIME、MMLU、GPQA等经典基准,还纳入ArenaHard、RewardBench等新兴测试平台。每个子集均配备完整的元数据记录,包括温度参数、采样数量及异常样本比例,特别是98.6%的过长生样本率为推理链分析提供了独特视角。数据集支持多粒度评估,从单一指标对比到综合性能分析,满足不同研究需求。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置的子数据集,例如aime24_samples或mmlu_generative_groups,利用内置的评估指标进行模型性能验证。使用时应关注各子集的温度设置(普遍为0.6)和过长生样本标记,建议结合标准化的评估管道进行批量测试。对于创造性写作等特殊任务,可调用creative-writing-v3_samples的专用评分体系,而数学推理任务则推荐采用math_500的多采样评估策略。
背景与挑战
背景概述
Hermes-4-70B-nonreasoning数据集由Nous Research等机构于2024年构建,专注于评估大型语言模型在非推理任务中的综合性能。该数据集整合了数学推理、常识问答、创造性写作等17个异构评测基准,旨在系统衡量模型在知识应用、指令遵循及安全对齐等多维度的表现。其构建反映了当前人工智能领域对模型能力评估标准化与全面性的迫切需求,为模型优化与部署提供了关键基准支撑。
当前挑战
该数据集核心挑战在于解决多领域异构任务评估的统一框架构建问题,需协调数学推理与创造性写作等截然不同的评估标准。构建过程中面临标注一致性维护的难题,特别是在处理高复杂度数学问题与主观性写作任务时需保证评分准则的客观性。此外,数据整合时存在格式异构性挑战,需将parquet与JSONL等多种数据结构标准化,同时控制高达98.6%的过长生成长度现象以确保评估有效性。
常用场景
经典使用场景
在人工智能评估领域,Hermes-4-70B-nonreasoning数据集被广泛用于大语言模型的系统性性能评测。该数据集整合了数学推理、常识问答、创造性写作等多元任务,通过标准化测试框架衡量模型在复杂场景下的综合表现。其经典应用体现在对模型生成质量、逻辑一致性和任务适应性的多维度量化分析,为模型迭代提供精准的参照基准。
解决学术问题
该数据集有效解决了大语言模型评估中缺乏统一标准与全面覆盖的学术难题。通过集成MMLU、BBH、DROP等权威子集,它提供了可复现的评估范式,显著提升了模型对比研究的科学性与可靠性。其意义在于构建了跨领域的评估体系,为模型能力边界探索与性能优化提供了关键数据支撑,推动了评估方法论的发展。
衍生相关工作
基于该数据集衍生了多项经典研究工作,包括对思维链推理机制的优化探索、多任务学习框架的改进以及模型泛化能力的深度分析。这些工作常引用其评估结果验证新方法的有效性,例如针对Overlong率问题的标签闭合优化方案,以及基于RewardBench的奖励模型训练策略,显著丰富了语言模型研究的技术路线。
以上内容由遇见数据集搜集并总结生成



