Qwen3-4B-Rollout64-32k-AIME2024-AIME2025-GPQA

Hugging Face2025-06-13 更新2025-06-14 收录

下载链接：

https://huggingface.co/datasets/Xuerui2312/Qwen3-4B-Rollout64-32k-AIME2024-AIME2025-GPQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对Qwen3系列模型在AIME2024、AIME2025和GPQA Diamond基准上的评估结果。这些评估使用了4XA100-80GB GPUs，每个提示滚动64次，最大响应长度为32k tokens。数据集的具体组成和结构在README中未详细说明。

This dataset contains evaluation results of the Qwen3 series models on the AIME 2024, AIME 2025, and GPQA Diamond benchmarks. These evaluations were conducted using 4xA100-80GB GPUs, with each prompt being executed 64 times and the maximum response length capped at 32k tokens. The specific composition and structure of the dataset are not detailed in the README.

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

在人工智能领域，大规模语言模型的评估日益受到重视。该数据集通过严谨的实验设计构建，采用4块A100-80GB GPU进行推理实验，每项提示重复展开64次以捕捉模型响应变异性，最大响应长度设置为32k tokens。实验过程历时两周，覆盖AIME2024、AIME2025和GPQA Diamond三个权威基准测试，确保了评估结果的全面性和可靠性。

特点

作为Qwen3系列模型性能评估的重要成果，该数据集展现出多维度特征。其核心价值在于完整记录了4B参数规模模型在三大挑战性基准上的64次重复实验数据，为研究模型稳定性提供丰富样本。数据集特别注重长文本生成能力验证，32k tokens的响应长度设置充分测试了模型的记忆和连贯性表现，配套的提示模板设计也为后续研究提供可复现基础。

使用方法

针对语言模型评估研究的实际需求，该数据集提供了标准化使用路径。研究者可直接获取原始推理结果进行统计分析，通过对比64次展开的响应差异探究模型稳定性。配套的提示模板允许进行控制变量实验，而32k tokens的响应长度设置为长文本生成研究提供基准。相关领域学者还可将该数据集与8B参数版本的实验结果进行横向对比，系统分析模型规模对性能的影响规律。

背景与挑战

背景概述

Qwen3-4B-Rollout64-32k-AIME2024-AIME2025-GPQA数据集是近年来随着Qwen3系列模型性能显著提升而构建的重要评估资源。该数据集由研究人员Su Xuerui和Wang Zun于2025年发布，旨在全面评估Qwen3模型在AIME2024、AIME2025和GPQA Diamond等代表性基准上的表现。通过采用4XA100-80GB GPU进行实验，并在32k令牌的最大响应长度下进行64次推演，该数据集为社区提供了详尽的推理结果，推动了大规模语言模型在复杂推理任务中的性能研究。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在解决领域问题上，如何准确评估模型在AIME和GPQA等高难度推理任务中的表现，尤其是在处理长文本和多轮推演时的稳定性和一致性；其二，在构建过程中，需要克服大规模计算资源的消耗，每次实验需耗时约两周，且需确保推演结果的多样性和可靠性，避免冗余计算。这些挑战对数据集的构建效率和评估方法的科学性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，Qwen3-4B-Rollout64-32k-AIME2024-AIME2025-GPQA数据集被广泛用于评估大规模语言模型在复杂推理任务中的表现。该数据集通过AIME2024、AIME2025和GPQA Diamond等代表性基准测试，为研究者提供了模型在长文本生成、多轮对话和高级逻辑推理方面的性能指标。其独特的64次推演设计和32k令牌的最大响应长度，使得评估结果更具统计显著性和可靠性。

衍生相关工作

围绕该数据集已产生多项重要研究，包括DeepSeek团队开发的评估框架和Xuerui2312等人提出的多轮推演优化算法。这些工作不仅扩展了原始数据集的应用范围，还衍生出新的评估指标和方法论。后续研究者在处理类似GPQA等复杂推理任务时，普遍参考该数据集建立的实验范式和分析维度。

数据集最近研究