Qwen3评测数据集合
收藏魔搭社区2026-05-16 更新2025-08-30 收录
下载链接:
https://modelscope.cn/datasets/evalscope/Qwen3-Test-Collection
下载链接
链接失效反馈官方服务:
资源简介:
> [!NOTE]
> 该数据集兼容 v1.0.0版本 EvalScope,若使用旧版本 EvalScope v0.xx 等,请使用旧版[数据集](https://modelscope.cn/datasets/modelscope/EvalScope-Qwen3-Test)
# Qwen3 评测数据集合
该数据集由EvalScope工具生成,覆盖了主流的benchmark,评测了模型的代码能力(LiveCodeBench)、数学能力(AIME2024, AIME2025)、知识能力(MMLU-Pro, CEVAL)、指令遵循(IFEval)等。
具体使用方法参考[Qwen3 模型评测最佳实践](https://evalscope.readthedocs.io/zh-cn/latest/best_practice/qwen3.html)
#### 下载方法
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
> [!NOTE]
> 本数据集兼容v1.0.0版本的EvalScope工具,若使用旧版本EvalScope v0.xx及更早版本,请使用旧版[数据集](https://modelscope.cn/datasets/modelscope/EvalScope-Qwen3-Test)
# Qwen3评测数据集
本数据集由EvalScope工具生成,覆盖了当前主流的基准测试集,可对模型的代码能力(LiveCodeBench)、数学能力(AIME2024、AIME2025)、知识能力(MMLU-Pro、CEVAL)以及指令遵循能力(IFEval)等维度进行评测。
具体使用方法请参考[Qwen3模型评测最佳实践](https://evalscope.readthedocs.io/zh-cn/latest/best_practice/qwen3.html)
#### 下载方式
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2025-08-28
搜集汇总
数据集介绍

背景与挑战
背景概述
Qwen3评测数据集合是由EvalScope工具生成的评估数据集,涵盖代码能力、数学能力、知识和指令跟随等多个方面的评测任务,适用于Qwen3模型的性能评估。数据集采用Apache License 2.0许可,提供SDK和GIT两种下载方式。
以上内容由遇见数据集搜集并总结生成



