Qwen3-14B-nonreasoning

Name: Qwen3-14B-nonreasoning
Creator: NousResearch
Published: 2025-08-27 01:10:48
License: 暂无描述

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/NousResearch/Qwen3-14B-nonreasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估qwen3-14b-reasoning模型在各个任务上的性能。数据集包含了不同配置的详细信息，包括特征、数据文件和基准测试结果。每个任务都有其特定的指标和得分。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

Qwen3-14B-nonreasoning 数据集概述

数据集基本信息

语言: 英文
数据规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string)

配置列表

aime24_groups: aime24/details.parquet
aime24_samples: aime24/conversations.parquet
aime25_groups: aime25/details.parquet
aime25_samples: aime25/conversations.parquet
arenahard_samples: arenahard/samples.jsonl
bbh_generative_groups: bbh_generative/details.parquet
bbh_generative_samples: bbh_generative/conversations.parquet
creative-writing-v3_samples: creative-writing-v3/samples.jsonl
drop_generative_nous_groups: drop_generative_nous/details.parquet
drop_generative_nous_samples: drop_generative_nous/conversations.parquet
eqbench3_samples: eqbench3/samples.jsonl
gpqa_diamond_groups: gpqa_diamond/details.parquet
gpqa_diamond_samples: gpqa_diamond/conversations.parquet
ifeval_groups: ifeval/details.parquet
ifeval_samples: ifeval/conversations.parquet
lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
math_500_groups: math_500/details.parquet
math_500_samples: math_500/conversations.parquet
mmlu_generative_groups: mmlu_generative/details.parquet
mmlu_generative_samples: mmlu_generative/conversations.parquet
mmlu_pro_groups: mmlu_pro/details.parquet
mmlu_pro_samples: mmlu_pro/conversations.parquet
musr_generative_groups: musr_generative/details.parquet
musr_generative_samples: musr_generative/conversations.parquet
obqa_generative_groups: obqa_generative/details.parquet
obqa_generative_samples: obqa_generative/conversations.parquet
rewardbench_samples: rewardbench/samples.jsonl
simpleqa_nous_groups: simpleqa_nous/details.parquet
simpleqa_nous_samples: simpleqa_nous/conversations.parquet

评估结果汇总

基准测试性能

基准测试	得分	指标	样本数	过长率
aime24	0.285	math_pass@1:64_samples	64	0.0%
aime25	0.222	math_pass@1:64_samples	64	0.0%
arenahard	0.796	eval/overall_winrate	500	0.0%
bbh_generative	0.825	extractive_match	1	0.0%
creative-writing-v3	0.516	creative_writing_score	96	0.0%
drop_generative_nous	0.750	drop_acc	1	0.0%
eqbench3	0.697	eqbench_score	135	0.0%
gpqa_diamond	0.535	gpqa_pass@1:8_samples	8	0.0%
ifeval	0.921	inst_level_loose_acc	1	0.0%
lcb-v6-aug2024+	0.292	eval/pass_1	1	0.0%
math_500	0.885	math_pass@1:4_samples	4	0.0%
mmlu_generative	0.815	extractive_match	1	0.0%
mmlu_pro	0.701	pass@1:1_samples	1	0.0%
musr_generative	0.564	extractive_match	1	0.0%
obqa_generative	0.940	extractive_match	1	0.0%
rewardbench	0.667	eval/percent_correct	1	0.0%
simpleqa_nous	0.047	fuzzy_match	1	0.0%

总体统计

总样本数: 64,523
过长样本率: 0.0% (0个样本缺少闭合</think>标签)

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，Qwen3-14B-nonreasoning数据集通过整合多个权威基准测试构建而成，涵盖数学推理、常识问答、创造性写作等多样化任务。数据来源包括AIME、MMLU、GPQA等标准化评估集，采用parquet和jsonl格式存储，确保数据结构的高效性与一致性。每个子集均经过严格的质量筛选和标准化处理，形成了覆盖1万至10万样本规模的高质量评估资源。

特点

该数据集具备多维度评估特性，包含17个专项测试模块，从数学能力到伦理判断全面覆盖模型性能评估需求。其显著特点在于零过载率设计，所有样本均完美闭合思维标签，保障了评估过程的严谨性。不同模块采用差异化评估指标，如math_pass@1、extractive_match等，为模型能力提供精细化度量。数据集完全采用英文构建，适用于国际化的模型评估场景。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置模块，如aime24_samples或mmlu_generative_groups，利用标准化的评估流程进行模型测试。使用时应根据任务类型选择相应子集，通过温度参数0.6的推理设置获得最优评估效果。数据集支持批量处理与单个样本分析，配套的详细指标说明为结果解读提供全面依据，适用于学术研究和工业界模型优化。

背景与挑战

背景概述

在人工智能领域快速发展背景下，大规模语言模型评估成为关键研究方向。Qwen3-14B-nonreasoning数据集由阿里巴巴团队于2024年构建，专注于非推理能力评估，涵盖数学解题、创造性写作、指令遵循等多元任务。该数据集通过整合AIME、MMLU、GPQA等17个权威基准，构建了超过6万条样本的评估体系，为语言模型在非逻辑推理场景下的性能提供了标准化度量框架，显著推进了模型能力评估的精细化与全面性。

当前挑战

该数据集致力于解决多维度非推理任务评估的挑战，包括数学计算准确性、创造性文本生成质量、指令理解忠实度等复杂能力的统一量化。构建过程中面临多源基准整合的复杂性，需协调不同评估标准的指标对齐与数据规范化；同时需确保样本质量与标注一致性，避免评估偏差；另外还需处理大规模推理链数据的存储效率与计算资源优化问题，以支持高效可靠的模型评估。

常用场景

经典使用场景

在人工智能评估领域，Qwen3-14B-nonreasoning数据集被广泛用于大语言模型的基准测试，特别是在多领域知识推理和生成能力的系统性评估中。该数据集整合了数学问题求解、常识推理、创造性写作等多个维度的测试样本，为研究者提供了全面衡量模型性能的统一平台。通过标准化的评估流程，能够客观比较不同模型在复杂任务上的表现差异。

实际应用

在实际应用层面，该数据集为工业界提供了模型选型的重要参考依据。企业可依据其在数学推理（AIME）、编程能力（LCB）和安全性（RewardBench）等维度的测试结果，选择最适合特定场景的大语言模型。同时，该评估体系也有助于发现模型在实际部署中可能存在的缺陷，为产品优化提供数据支撑。

衍生相关工作

基于该数据集衍生了多项重要研究工作，特别是在模型能力诊断和评估方法论创新方面。研究者利用其多维度的评估结果开发了模型能力图谱构建技术，并创建了针对特定领域的能力评估子基准。这些工作不仅深化了对大语言模型能力边界的理解，还推动了自适应评估框架和动态测试集生成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集