eval-Qwen3-235B-A22B-nonreasoning

Name: eval-Qwen3-235B-A22B-nonreasoning
Creator: NousResearch
Published: 2025-08-28 16:43:15
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Qwen3-235B-A22B-nonreasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置和基准测试结果，用于评估qwen-235b-22a-nonreasoning模型。它涵盖了多个基准测试，如aime24、aime25、arenahard、bbh_generative、creative-writing-v3、drop_generative_nous、eqbench3、gpqa_diamond、ifeval、lcb-v6-aug2024+、math_500、mmlu_generative、mmlu_pro、musr_generative、obqa_generative、rewardbench和simpleqa_nous。每个基准测试都有其分数、指标和样本大小。数据集按语言（英语）和大小类别（1K<n<10K）分类，标签包括评估和基准。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称: qwen-235b-22a-nonreasoning 评估结果
语言: 英语
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string)

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

评估结果摘要

基准测试性能

基准测试	得分	指标	样本数	超长率
aime24	0.341	math_pass@1:64_samples	64	0.0%
aime25	0.251	math_pass@1:64_samples	64	0.0%
arenahard	0.917	eval/overall_winrate	500	0.0%
bbh_generative	0.860	extractive_match	1	0.0%
creative-writing-v3	0.741	creative_writing_score	96	0.0%
drop_generative_nous	0.794	drop_acc	1	0.0%
eqbench3	0.811	eqbench_score	135	0.0%
gpqa_diamond	0.577	gpqa_pass@1:8_samples	8	0.0%
ifeval	0.912	inst_level_loose_acc	1	0.0%
lcb-v6-aug2024+	0.346	eval/pass_1	1	0.0%
math_500	0.903	math_pass@1:4_samples	4	0.0%
mmlu_generative	0.865	extractive_match	1	0.0%
mmlu_pro	0.755	pass@1:1_samples	1	0.0%
musr_generative	0.648	extractive_match	1	0.0%
obqa_generative	0.964	extractive_match	1	0.0%
rewardbench	0.692	eval/percent_correct	1	0.0%
simpleqa_nous	0.078	fuzzy_match	1	0.0%

总体统计

总样本数: 64,523
超长样本率: 0.0% (0 / 64,523)
缺失闭合标签: 无

数据文件格式

Parquet 格式 (.parquet)
JSON Lines 格式 (.jsonl)

评估模型

qwen-235b-22a-nonreasoning
qwen3-235b-nothink-arena
qwen3-235b-a22b-nonthinking-eq
qwen-235ba22-reasoning
qwen3-235b-reward-redo-nothink

评估参数

温度: 主要使用 0.6
评估时间: 各基准测试评估时间从 2分钟到 70分钟不等

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Qwen3-235B-A22B-nonreasoning数据集通过系统化集成多个权威基准测试构建而成。其数据来源于十七个差异化子集，涵盖数学推理、常识问答、创造性写作及安全性评估等多维度任务。每个子集均采用标准化数据采集流程，以parquet和jsonl格式存储对话样本与元数据，确保数据结构的一致性与可扩展性。数据集构建过程中严格遵循评估协议，所有样本均经过完整性校验，未出现标记缺失或格式错误。

特点

该数据集的核心特征体现在其多模态评估框架与高精度度量体系。其覆盖范围从数学竞赛试题（如AIME24/25）到伦理对齐任务（如RewardBench），共计超过六万四千个样本，且所有样本均保持零过载率。每个子集配备专属评估指标，例如math_pass@k、extractive_match和creative_writing_score等，并附带标准误差统计。数据集语言为英语，规模介于1K至10K样本量级，兼具广度与深度，为模型能力剖面分析提供立体化视角。

使用方法

研究人员可通过HuggingFace平台按需加载特定配置（config），例如aime24_groups或rewardbench_samples，分别获取分组元数据或原始对话样本。使用时应依据目标评估维度选择对应子集，通过标准数据加载接口读取parquet或jsonl文件。评估过程中需注意各子集采用的温度参数（多为0.6）和推理约束条件（nonreasoning模式），结果解读需结合标准误差指标进行统计显著性验证。该数据集适用于大语言模型的多维度能力比对、基准测试迭代及评估方法论研究。

背景与挑战

背景概述

eval-Qwen3-235B-A22B-nonreasoning数据集作为大语言模型评估领域的重要基准，由前沿研究机构于2024年构建，专注于多维度能力评测。该数据集整合了数学推理、常识问答、创造性写作等17个异构子集，旨在系统评估模型在复杂任务中的泛化性能与稳定性。其设计体现了当前人工智能研究对模型综合能力验证的迫切需求，为学术界和工业界提供了可靠的性能度量标准，推动了通用人工智能系统的标准化发展。

当前挑战

该数据集需解决多领域综合评估的挑战，包括数学问题求解的符号推理难度、创造性写作的主观性度量，以及跨领域知识融合的复杂性。构建过程中面临标注一致性维护、异构数据格式统一、评估指标标准化等难题，特别是在处理非确定性输出时需平衡自动化评估与人工验证的精度，同时确保大规模样本评估的可复现性与计算效率。

常用场景

经典使用场景

在人工智能大模型评估领域，eval-Qwen3-235B-A22B-nonreasoning数据集被广泛应用于多维度性能基准测试。该数据集通过整合数学推理、常识问答、创造性写作等17个专项评估模块，构建了全面的模型能力评估体系。研究人员通常利用该数据集对大规模语言模型进行标准化测试，特别是在零样本和少样本学习场景下评估模型的泛化能力与知识覆盖范围。

衍生相关工作

基于该数据集衍生的经典研究包括多模态推理评估框架的优化、少样本学习性能预测模型构建等创新工作。研究人员利用其丰富的评估维度，开发了新型的模型能力对比分析方法，推动了评估指标标准化进程。这些工作显著提升了大规模语言模型评估的科学性与可重复性，为后续更精细化的模型评估体系建立奠定了坚实基础。

数据集最近研究