eval-Qwen3-14B-nonreasoning
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Qwen3-14B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个子数据集的评估和基准数据集,每个子数据集都有不同的配置和文件路径。数据集的语言为英语,规模在1K到10K之间,标签包括评估和基准。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: eval-Qwen3-14B-nonreasoning
- 语言: 英文
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果摘要
| 基准测试 | 分数 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.285 | math_pass@1:64_samples | 64 | 0.0% |
| aime25 | 0.222 | math_pass@1:64_samples | 64 | 0.0% |
| arenahard | 0.796 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.825 | extractive_match | 1 | 0.0% |
| creative-writing-v3 | 0.516 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.750 | drop_acc | 1 | 0.0% |
| eqbench3 | 0.697 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.535 | gpqa_pass@1:8_samples | 8 | 0.0% |
| ifeval | 0.921 | inst_level_loose_acc | 1 | 0.0% |
| lcb-v6-aug2024+ | 0.292 | eval/pass_1 | 1 | 0.0% |
| math_500 | 0.885 | math_pass@1:4_samples | 4 | 0.0% |
| mmlu_generative | 0.815 | extractive_match | 1 | 0.0% |
| mmlu_pro | 0.701 | pass@1:1_samples | 1 | 0.0% |
| musr_generative | 0.564 | extractive_match | 1 | 0.0% |
| obqa_generative | 0.940 | extractive_match | 1 | 0.0% |
| rewardbench | 0.667 | eval/percent_correct | 1 | 0.0% |
| simpleqa_nous | 0.047 | fuzzy_match | 1 | 0.0% |
总体过长率: 0 / 64,523 样本 (0.0%) 缺失闭合 </think> 标签
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Qwen3-14B-nonreasoning数据集通过系统化集成多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多元任务。其数据来源包括AIME24/25、MMLU、GPQA等17个专项评估集,采用标准化流程对Qwen3-14B模型在不同温度参数下的输出进行采集,确保评估结果的全面性与可比性。数据以parquet和jsonl格式存储,包含对话样本和详细元数据,构建过程注重样本质量和格式规范。
特点
该数据集显著特征体现在多维度评估体系的构建,包含64523个高质量样本,覆盖从基础认知到复杂推理的16项核心能力指标。其特色在于采用双轨评估机制:既有针对数学问题的pass@k采样评估,也有面向对话质量的winrate竞争性评估。数据标注精度突出,所有样本均保持完整的思维链标签闭合,零过载率的设计确保了评估结果的可靠性。不同基准测试采用定制化评估指标,如creative_writing_score针对创造性写作,eqbench_score衡量情感智能,体现评估体系的专业细分。
使用方法
研究人员可通过HuggingFace平台按需加载特定评估配置,如aime24_samples关注数学推理,creative-writing-v3_samples分析创作能力。使用时应根据评估目标选择相应config_name,利用内置的标准化指标进行模型性能对比。数据集支持分模块加载,允许研究者针对特定能力维度进行深入分析。评估时需注意温度参数设置(通常为0.6)对生成结果的影响,并可参照提供的标准误差值进行统计学显著性检验。输出结果包含原始对话记录和标准化评分,便于进行细粒度错误分析和模型改进。
背景与挑战
背景概述
eval-Qwen3-14B-nonreasoning数据集由前沿人工智能研究机构于2024年构建,专注于大规模语言模型的多维度能力评估。该数据集整合了AIME、MMLU、GPQA等17个权威基准测试,涵盖数学推理、常识问答、创造性写作等核心认知任务,旨在系统化衡量模型在非推理场景下的综合性能。其构建体现了当前AI评估范式从单一指标向多维能力验证的演进,为模型性能的横向对比提供了标准化框架,对推动语言模型的实用化发展具有重要参考价值。
当前挑战
该数据集需解决多领域能力评估的挑战,包括不同任务间难度差异导致的评分标准化问题,以及非推理任务中创造性输出与事实准确性之间的平衡难题。构建过程中面临多源基准测试的数据格式统一、评估指标异构性处理,以及保证大规模生成内容质量一致性的技术挑战,同时需确保各子数据集采样偏差最小化以实现公平评估。
常用场景
经典使用场景
在人工智能评估领域,eval-Qwen3-14B-nonreasoning数据集被广泛应用于大语言模型的系统性性能评测。该数据集通过整合多个权威基准测试,如MMLU、BBH和MATH等,为模型提供了跨领域的综合能力检验平台。研究人员借助该数据集对模型的知识理解、逻辑推理和创造性写作等核心能力进行量化分析,从而客观比较不同模型的优劣。
解决学术问题
该数据集有效解决了大语言模型评估中标准化不足和覆盖面狭窄的学术难题。通过统一评估框架和多样化任务设计,它能够系统性地衡量模型在数学推理、常识问答、指令遵循等多维度的表现。这不仅为模型优化提供了明确方向,还推动了评估方法论的发展,对构建可信赖的人工智能系统具有重要理论意义。
衍生相关工作
围绕该数据集已衍生出多项重要研究工作,包括基于评估结果的模型微调策略、多模态能力扩展评估框架以及领域适应性改进方法。这些工作不仅深化了对大语言模型性能的理解,还推动了评估标准向更精细化、场景化的方向发展,为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



