Qwen3-235B-A22B-nonreasoning

Name: Qwen3-235B-A22B-nonreasoning
Creator: NousResearch
Published: 2025-08-27 00:37:12
License: 暂无描述

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/NousResearch/Qwen3-235B-A22B-nonreasoning

下载链接

链接失效反馈

官方服务：

资源简介：

README文件提供了名为qwen-235b-22a-nonreasoning模型的各项基准测试结果信息。它包括对不同的基准测试的详细说明，如aime24、aime25、arenahard、bbh_generative、creative-writing-v3、drop_generative_nous、eqbench3、gpqa_diamond、ifeval、lcb-v6-aug2024+、math_500、mmlu_generative、mmlu_pro、musr_generative、obqa_generative、rewardbench和simpleqa_nous。对于每个基准测试，它提供了分数、指标、样本数量和过长的比例。文件还为每个基准测试提供了详细结果，显示了各种指标的分数和标准误差。还为每个基准测试提供了评估时间、温度和过长的样本。README文件没有明确提供数据集描述，但提到了语言（英语）和大小类别（1K<n<10K）。它还包括了评估和基准测试等标签。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

Qwen3-235B-A22B-nonreasoning 数据集概述

数据集基本信息

语言: 英文
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

特征

benchmark_results: string类型

评估结果摘要

基准测试	得分	指标	样本数	超长率
aime24	0.341	math_pass@1:64_samples	64	0.0%
aime25	0.251	math_pass@1:64_samples	64	0.0%
arenahard	0.917	eval/overall_winrate	500	0.0%
bbh_generative	0.860	extractive_match	1	0.0%
creative-writing-v3	0.741	creative_writing_score	96	0.0%
drop_generative_nous	0.794	drop_acc	1	0.0%
eqbench3	0.811	eqbench_score	135	0.0%
gpqa_diamond	0.577	gpqa_pass@1:8_samples	8	0.0%
ifeval	0.912	inst_level_loose_acc	1	0.0%
lcb-v6-aug2024+	0.346	eval/pass_1	1	0.0%
math_500	0.903	math_pass@1:4_samples	4	0.0%
mmlu_generative	0.865	extractive_match	1	0.0%
mmlu_pro	0.755	pass@1:1_samples	1	0.0%
musr_generative	0.648	extractive_match	1	0.0%
obqa_generative	0.964	extractive_match	1	0.0%
rewardbench	0.692	eval/percent_correct	1	0.0%
simpleqa_nous	0.078	fuzzy_match	1	0.0%

总体统计

总样本数: 64,523
超长率: 0.0% (0个样本缺失闭合</think>标签)

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，Qwen3-235B-A22B-nonreasoning数据集通过整合多个权威基准测试构建而成，覆盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等知名评估集的生成式对话样本，采用标准化流程进行数据清洗与格式统一，确保评估结果的可比性与一致性。数据集以parquet和jsonl格式存储，包含详细样本记录与对话内容，为模型性能提供多维度验证基础。

特点

该数据集显著特点在于其广泛的评估覆盖范围与高精度度量指标，涵盖17个专项测试集共计超过6万个样本。每个基准均采用经过验证的评估指标，如数学题目的pass@k准确率、创造性写作的评分体系以及指令遵循的松散严格双标准。所有样本均保持零过载率，模型输出严格遵循格式规范，确保了评估结果的可靠性与可复现性。数据集语言为英语，规模介于1K到10K之间，专为大型语言模型的综合能力评估而设计。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置的评估数据，例如aime24_samples配置包含数学竞赛题目的对话记录，而creative-writing-v3_samples提供创造性写作评估样本。使用时应根据目标能力选择对应基准，通过标准化的评估脚本计算模型在各领域的性能指标。数据集支持批量处理与结果对比分析，适用于模型迭代优化、能力短板诊断以及跨模型性能基准测试等研究场景。

背景与挑战

背景概述

Qwen3-235B-A22B-nonreasoning数据集由阿里巴巴集团的研究团队于2024年构建，专注于大规模语言模型在非推理任务上的系统性评估。该数据集整合了包括数学计算、常识推理、创造性写作等在内的17个多维评测基准，旨在为超大规模参数模型提供标准化性能度量框架。其创新性在于首次将非推理能力作为独立评估维度，为人工智能自然语言处理领域的模型能力边界探索提供了重要数据支撑，对推动通用人工智能的发展具有里程碑意义。

当前挑战

该数据集面临的核心挑战在于如何准确界定非推理任务的评估边界，特别是在处理数学问题（GPQA Diamond准确率57.7%）和复杂指令遵循（IFEval严格准确率82.6%）时存在显著性能波动。构建过程中需协调多模态评估标准的一致性，如创造性写作（74.1分）与事实性问答（96.4%）的评分体系融合，同时要解决超过64,523条样本的标注质量控制问题，确保不同基准间数据分布的科学性与可比性。

常用场景

经典使用场景

在人工智能评估领域，Qwen3-235B-A22B-nonreasoning数据集被广泛用于大语言模型的系统性能力评测。该数据集通过整合数学推理、常识问答、创造性写作等多元化任务，构建了标准化的评估框架。研究人员利用其结构化数据对模型进行多维度性能测试，特别是在零样本和少样本学习场景下验证模型的泛化能力。

解决学术问题

该数据集有效解决了大语言模型评估中缺乏统一标准的问题，为模型性能的客观比较提供科学依据。通过涵盖AIME数学竞赛、MMLU专业学科测试等权威基准，它帮助学术界量化模型在复杂推理、知识应用等核心能力上的表现。其标准化评估方法显著提升了模型对比研究的可靠性和可重复性。

衍生相关工作

基于该数据集衍生了多项重要研究，包括新型评估指标的提出和模型优化方法的改进。研究人员利用其丰富的测试数据开发了更精细的能力诊断工具，如思维链推理评估框架和安全性检测系统。这些工作推动了大语言模型评估范式的演进，为后续更全面的模型评测体系建立奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集