Qwen3-14B-nonreasoning
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/NousResearch/Qwen3-14B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估qwen3-14b-reasoning模型在各个任务上的性能。数据集包含了不同配置的详细信息,包括特征、数据文件和基准测试结果。每个任务都有其特定的指标和得分。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
Qwen3-14B-nonreasoning 数据集概述
数据集基本信息
- 语言: 英文
- 数据规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置列表
- aime24_groups: aime24/details.parquet
- aime24_samples: aime24/conversations.parquet
- aime25_groups: aime25/details.parquet
- aime25_samples: aime25/conversations.parquet
- arenahard_samples: arenahard/samples.jsonl
- bbh_generative_groups: bbh_generative/details.parquet
- bbh_generative_samples: bbh_generative/conversations.parquet
- creative-writing-v3_samples: creative-writing-v3/samples.jsonl
- drop_generative_nous_groups: drop_generative_nous/details.parquet
- drop_generative_nous_samples: drop_generative_nous/conversations.parquet
- eqbench3_samples: eqbench3/samples.jsonl
- gpqa_diamond_groups: gpqa_diamond/details.parquet
- gpqa_diamond_samples: gpqa_diamond/conversations.parquet
- ifeval_groups: ifeval/details.parquet
- ifeval_samples: ifeval/conversations.parquet
- lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
- lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
- math_500_groups: math_500/details.parquet
- math_500_samples: math_500/conversations.parquet
- mmlu_generative_groups: mmlu_generative/details.parquet
- mmlu_generative_samples: mmlu_generative/conversations.parquet
- mmlu_pro_groups: mmlu_pro/details.parquet
- mmlu_pro_samples: mmlu_pro/conversations.parquet
- musr_generative_groups: musr_generative/details.parquet
- musr_generative_samples: musr_generative/conversations.parquet
- obqa_generative_groups: obqa_generative/details.parquet
- obqa_generative_samples: obqa_generative/conversations.parquet
- rewardbench_samples: rewardbench/samples.jsonl
- simpleqa_nous_groups: simpleqa_nous/details.parquet
- simpleqa_nous_samples: simpleqa_nous/conversations.parquet
评估结果汇总
基准测试性能
| 基准测试 | 得分 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.285 | math_pass@1:64_samples | 64 | 0.0% |
| aime25 | 0.222 | math_pass@1:64_samples | 64 | 0.0% |
| arenahard | 0.796 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.825 | extractive_match | 1 | 0.0% |
| creative-writing-v3 | 0.516 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.750 | drop_acc | 1 | 0.0% |
| eqbench3 | 0.697 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.535 | gpqa_pass@1:8_samples | 8 | 0.0% |
| ifeval | 0.921 | inst_level_loose_acc | 1 | 0.0% |
| lcb-v6-aug2024+ | 0.292 | eval/pass_1 | 1 | 0.0% |
| math_500 | 0.885 | math_pass@1:4_samples | 4 | 0.0% |
| mmlu_generative | 0.815 | extractive_match | 1 | 0.0% |
| mmlu_pro | 0.701 | pass@1:1_samples | 1 | 0.0% |
| musr_generative | 0.564 | extractive_match | 1 | 0.0% |
| obqa_generative | 0.940 | extractive_match | 1 | 0.0% |
| rewardbench | 0.667 | eval/percent_correct | 1 | 0.0% |
| simpleqa_nous | 0.047 | fuzzy_match | 1 | 0.0% |
总体统计
- 总样本数: 64,523
- 过长样本率: 0.0% (0个样本缺少闭合
</think>标签)
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,Qwen3-14B-nonreasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。数据来源包括AIME、MMLU、GPQA等标准化评估集,采用parquet和jsonl格式存储,确保数据结构的高效性与一致性。每个子集均经过严格的质量筛选和标准化处理,形成了覆盖1万至10万样本规模的高质量评估资源。
特点
该数据集具备多维度评估特性,包含17个专项测试模块,从数学能力到伦理判断全面覆盖模型性能评估需求。其显著特点在于零过载率设计,所有样本均完美闭合思维标签,保障了评估过程的严谨性。不同模块采用差异化评估指标,如math_pass@1、extractive_match等,为模型能力提供精细化度量。数据集完全采用英文构建,适用于国际化的模型评估场景。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置模块,如aime24_samples或mmlu_generative_groups,利用标准化的评估流程进行模型测试。使用时应根据任务类型选择相应子集,通过温度参数0.6的推理设置获得最优评估效果。数据集支持批量处理与单个样本分析,配套的详细指标说明为结果解读提供全面依据,适用于学术研究和工业界模型优化。
背景与挑战
背景概述
在人工智能领域快速发展背景下,大规模语言模型评估成为关键研究方向。Qwen3-14B-nonreasoning数据集由阿里巴巴团队于2024年构建,专注于非推理能力评估,涵盖数学解题、创造性写作、指令遵循等多元任务。该数据集通过整合AIME、MMLU、GPQA等17个权威基准,构建了超过6万条样本的评估体系,为语言模型在非逻辑推理场景下的性能提供了标准化度量框架,显著推进了模型能力评估的精细化与全面性。
当前挑战
该数据集致力于解决多维度非推理任务评估的挑战,包括数学计算准确性、创造性文本生成质量、指令理解忠实度等复杂能力的统一量化。构建过程中面临多源基准整合的复杂性,需协调不同评估标准的指标对齐与数据规范化;同时需确保样本质量与标注一致性,避免评估偏差;另外还需处理大规模推理链数据的存储效率与计算资源优化问题,以支持高效可靠的模型评估。
常用场景
经典使用场景
在人工智能评估领域,Qwen3-14B-nonreasoning数据集被广泛用于大语言模型的基准测试,特别是在多领域知识推理和生成能力的系统性评估中。该数据集整合了数学问题求解、常识推理、创造性写作等多个维度的测试样本,为研究者提供了全面衡量模型性能的统一平台。通过标准化的评估流程,能够客观比较不同模型在复杂任务上的表现差异。
实际应用
在实际应用层面,该数据集为工业界提供了模型选型的重要参考依据。企业可依据其在数学推理(AIME)、编程能力(LCB)和安全性(RewardBench)等维度的测试结果,选择最适合特定场景的大语言模型。同时,该评估体系也有助于发现模型在实际部署中可能存在的缺陷,为产品优化提供数据支撑。
衍生相关工作
基于该数据集衍生了多项重要研究工作,特别是在模型能力诊断和评估方法论创新方面。研究者利用其多维度的评估结果开发了模型能力图谱构建技术,并创建了针对特定领域的能力评估子基准。这些工作不仅深化了对大语言模型能力边界的理解,还推动了自适应评估框架和动态测试集生成技术的发展。
以上内容由遇见数据集搜集并总结生成



