eval-Qwen3-235B-A22B-reasoning
收藏Hugging Face2025-08-28 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Qwen3-235B-A22B-reasoning
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估自然语言处理模型的基准数据集,包含多个子数据集,每个子数据集都有对应的配置文件和样本文件。数据集支持英文,数据规模在1K到10K之间。数据集包含多个标签,如评估和基准。README文件还提供了对模型在不同基准上的详细评估结果,包括得分、指标、样本数量和过长的样本率。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: qwen-235b-a22-thinking Evaluation Results
- 语言: 英语
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果摘要
| 基准测试 | 得分 | 指标 | 样本数 | 超长率 |
|---|---|---|---|---|
| aime24 | 0.782 | math_pass@1:64_samples | 64 | 0.5% |
| aime25 | 0.718 | math_pass@1:64_samples | 64 | 0.1% |
| arenahard | 0.939 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.884 | extractive_match | 1 | 0.0% |
| creative-writing-v3 | 0.775 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.903 | drop_acc | 1 | 0.0% |
| eqbench3 | 0.800 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.697 | gpqa_pass@1:8_samples | 8 | 0.1% |
| ifeval | 0.914 | inst_level_loose_acc | 1 | 0.0% |
| lcb-v6-aug2024+ | 0.651 | eval/pass_1 | 1 | 0.2% |
| math_500 | 0.975 | math_pass@1:4_samples | 4 | 0.1% |
| mmlu_generative | 0.893 | extractive_match | 1 | 0.0% |
| mmlu_pro | 0.831 | pass@1:1_samples | 1 | 0.0% |
| musr_generative | 0.672 | extractive_match | 1 | 0.0% |
| obqa_generative | 0.960 | extractive_match | 1 | 0.0% |
| rewardbench | 0.742 | eval/percent_correct | 1 | 0.0% |
| simpleqa_nous | 0.104 | fuzzy_match | 1 | 0.0% |
总体超长率: 41 / 64,523 样本 (0.1%) 缺失闭合 </think> 标签
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Qwen3-235B-A22B-reasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等17个标准化评估集,采用严格的采样策略确保样本代表性与平衡性,并通过parquet和jsonl格式高效存储对话记录与详细元数据,总样本量控制在1万以内以实现精确评估。
特点
该数据集显著特点在于其多维度评估体系,覆盖从数学解题到伦理判断的12类能力指标,且每个基准均提供标准误差统计以确保结果可靠性。数据规模虽精炼但代表性极强,如AIME24的64个样本即可达到0.782的数学通过率,同时保持仅0.1%的标签异常率。所有评估均采用温度参数0.6的生成配置,保证模型输出的一致性与可比性。
使用方法
研究人员可通过HuggingFace平台按需加载特定评估配置,如aime24_samples或rewardbench_samples,直接调用预处理的对话数据与标准答案进行对比验证。评估时需注意模型响应中的思维链标签完整性,建议优先检查</think>闭合标签以避免0.1%的解析误差。结果分析可参照提供的标准误差指标进行统计显著性检验,支持跨任务性能对比与模型能力图谱构建。
背景与挑战
背景概述
eval-Qwen3-235B-A22B-reasoning数据集作为大语言模型推理能力评估的综合性基准,由前沿人工智能研究机构于2024年构建。该数据集整合了数学推理(AIME、MATH)、常识推理(BBH、OBQA)、专业领域知识(MMLU、GPQA)及创造性写作等多维度评估任务,旨在系统化衡量模型在复杂推理场景中的表现。其创新性地采用链式思维(chain-of-thought)评估框架,通过解析模型推理过程而非仅关注结果准确性,为理解大模型认知机制提供了关键数据支撑,推动了可解释人工智能研究的发展。
当前挑战
该数据集需解决大语言模型在跨领域推理中存在的逻辑一致性、知识准确性和泛化能力等核心挑战,具体体现在模型对数学符号推理、多跳逻辑推断和长上下文理解的薄弱环节。构建过程中面临多源数据融合的复杂性,包括17个子基准的标准化对齐、推理步骤标注的一致性维护,以及思维链标签(如</think>闭合检测)的质量控制。此外还需平衡评估效率与深度,处理超过6万样本的推理轨迹验证,确保评估结果既全面可靠又具备可复现性。
常用场景
经典使用场景
在人工智能评估领域,eval-Qwen3-235B-A22B-reasoning数据集被广泛用于测试大型语言模型的多维度推理能力。该数据集通过整合数学问题求解、常识推理、创造性写作等多样化任务,为研究者提供了系统化的模型性能评估框架。其经典应用场景包括模型在AIME数学竞赛题、MMLU专业学科测试以及GPQA高难度推理任务中的表现分析,为对比不同模型的认知能力建立了标准化基准。
解决学术问题
该数据集有效解决了大语言模型评估中存在的片面性和不全面性问题。通过融合17个专业评估子集,它覆盖了从数学推理到伦理判断的多元认知维度,为学术界提供了可量化的模型能力分析工具。其核心意义在于建立了跨领域的统一评估标准,使得研究者能够科学地衡量模型在复杂推理、知识应用和创造性思维等方面的真实水平,推动了评估方法论的系统化发展。
衍生相关工作
该数据集催生了多项重要研究工作,包括基于思维链的推理增强技术、多模态评估框架的扩展,以及自适应温度调节策略的开发。研究者们借鉴其分层评估理念,构建了更精细的认知能力诊断体系,并衍生出针对特定领域如医疗推理、法律分析的专项评估基准。这些工作共同推动了评估科学向更精细化、场景化的方向发展。
以上内容由遇见数据集搜集并总结生成



