eval-Qwen3-235B-A22B-nonreasoning
收藏Hugging Face2025-08-28 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Qwen3-235B-A22B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置和基准测试结果,用于评估qwen-235b-22a-nonreasoning模型。它涵盖了多个基准测试,如aime24、aime25、arenahard、bbh_generative、creative-writing-v3、drop_generative_nous、eqbench3、gpqa_diamond、ifeval、lcb-v6-aug2024+、math_500、mmlu_generative、mmlu_pro、musr_generative、obqa_generative、rewardbench和simpleqa_nous。每个基准测试都有其分数、指标和样本大小。数据集按语言(英语)和大小类别(1K<n<10K)分类,标签包括评估和基准。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: qwen-235b-22a-nonreasoning 评估结果
- 语言: 英语
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果摘要
基准测试性能
| 基准测试 | 得分 | 指标 | 样本数 | 超长率 |
|---|---|---|---|---|
| aime24 | 0.341 | math_pass@1:64_samples | 64 | 0.0% |
| aime25 | 0.251 | math_pass@1:64_samples | 64 | 0.0% |
| arenahard | 0.917 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.860 | extractive_match | 1 | 0.0% |
| creative-writing-v3 | 0.741 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.794 | drop_acc | 1 | 0.0% |
| eqbench3 | 0.811 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.577 | gpqa_pass@1:8_samples | 8 | 0.0% |
| ifeval | 0.912 | inst_level_loose_acc | 1 | 0.0% |
| lcb-v6-aug2024+ | 0.346 | eval/pass_1 | 1 | 0.0% |
| math_500 | 0.903 | math_pass@1:4_samples | 4 | 0.0% |
| mmlu_generative | 0.865 | extractive_match | 1 | 0.0% |
| mmlu_pro | 0.755 | pass@1:1_samples | 1 | 0.0% |
| musr_generative | 0.648 | extractive_match | 1 | 0.0% |
| obqa_generative | 0.964 | extractive_match | 1 | 0.0% |
| rewardbench | 0.692 | eval/percent_correct | 1 | 0.0% |
| simpleqa_nous | 0.078 | fuzzy_match | 1 | 0.0% |
总体统计
- 总样本数: 64,523
- 超长样本率: 0.0% (0 / 64,523)
- 缺失闭合标签: 无
数据文件格式
- Parquet 格式 (.parquet)
- JSON Lines 格式 (.jsonl)
评估模型
- qwen-235b-22a-nonreasoning
- qwen3-235b-nothink-arena
- qwen3-235b-a22b-nonthinking-eq
- qwen-235ba22-reasoning
- qwen3-235b-reward-redo-nothink
评估参数
- 温度: 主要使用 0.6
- 评估时间: 各基准测试评估时间从 2分钟 到 70分钟不等
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Qwen3-235B-A22B-nonreasoning数据集通过系统化集成多个权威基准测试构建而成。其数据来源于十七个差异化子集,涵盖数学推理、常识问答、创造性写作及安全性评估等多维度任务。每个子集均采用标准化数据采集流程,以parquet和jsonl格式存储对话样本与元数据,确保数据结构的一致性与可扩展性。数据集构建过程中严格遵循评估协议,所有样本均经过完整性校验,未出现标记缺失或格式错误。
特点
该数据集的核心特征体现在其多模态评估框架与高精度度量体系。其覆盖范围从数学竞赛试题(如AIME24/25)到伦理对齐任务(如RewardBench),共计超过六万四千个样本,且所有样本均保持零过载率。每个子集配备专属评估指标,例如math_pass@k、extractive_match和creative_writing_score等,并附带标准误差统计。数据集语言为英语,规模介于1K至10K样本量级,兼具广度与深度,为模型能力剖面分析提供立体化视角。
使用方法
研究人员可通过HuggingFace平台按需加载特定配置(config),例如aime24_groups或rewardbench_samples,分别获取分组元数据或原始对话样本。使用时应依据目标评估维度选择对应子集,通过标准数据加载接口读取parquet或jsonl文件。评估过程中需注意各子集采用的温度参数(多为0.6)和推理约束条件(nonreasoning模式),结果解读需结合标准误差指标进行统计显著性验证。该数据集适用于大语言模型的多维度能力比对、基准测试迭代及评估方法论研究。
背景与挑战
背景概述
eval-Qwen3-235B-A22B-nonreasoning数据集作为大语言模型评估领域的重要基准,由前沿研究机构于2024年构建,专注于多维度能力评测。该数据集整合了数学推理、常识问答、创造性写作等17个异构子集,旨在系统评估模型在复杂任务中的泛化性能与稳定性。其设计体现了当前人工智能研究对模型综合能力验证的迫切需求,为学术界和工业界提供了可靠的性能度量标准,推动了通用人工智能系统的标准化发展。
当前挑战
该数据集需解决多领域综合评估的挑战,包括数学问题求解的符号推理难度、创造性写作的主观性度量,以及跨领域知识融合的复杂性。构建过程中面临标注一致性维护、异构数据格式统一、评估指标标准化等难题,特别是在处理非确定性输出时需平衡自动化评估与人工验证的精度,同时确保大规模样本评估的可复现性与计算效率。
常用场景
经典使用场景
在人工智能大模型评估领域,eval-Qwen3-235B-A22B-nonreasoning数据集被广泛应用于多维度性能基准测试。该数据集通过整合数学推理、常识问答、创造性写作等17个专项评估模块,构建了全面的模型能力评估体系。研究人员通常利用该数据集对大规模语言模型进行标准化测试,特别是在零样本和少样本学习场景下评估模型的泛化能力与知识覆盖范围。
衍生相关工作
基于该数据集衍生的经典研究包括多模态推理评估框架的优化、少样本学习性能预测模型构建等创新工作。研究人员利用其丰富的评估维度,开发了新型的模型能力对比分析方法,推动了评估指标标准化进程。这些工作显著提升了大规模语言模型评估的科学性与可重复性,为后续更精细化的模型评估体系建立奠定了坚实基础。
数据集最近研究
最新研究方向
在人工智能大模型评估领域,eval-Qwen3-235B-A22B-nonreasoning数据集正推动多维度能力评测范式的革新。该数据集整合了数学推理(AIME24/25、MATH500)、常识推理(BBH、OBQA)、专业学科(MMLU、GPQA)及创造性写作等17项前沿基准,全面覆盖大模型的核心能力维度。当前研究聚焦于非推理模式下的模型性能边界探索,特别是在零样本泛化、指令遵循精度(IFEval达91.2%)和复杂决策(ArenaHard胜率91.7%)等热点方向。这类标准化评估体系为超大规模参数模型的能力对齐提供了关键验证框架,显著加速了负责任AI的发展进程。
以上内容由遇见数据集搜集并总结生成



