five

Qwen3评测数据集合

收藏
魔搭社区2026-05-16 更新2025-08-30 收录
下载链接:
https://modelscope.cn/datasets/evalscope/Qwen3-Test-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
> [!NOTE] > 该数据集兼容 v1.0.0版本 EvalScope,若使用旧版本 EvalScope v0.xx 等,请使用旧版[数据集](https://modelscope.cn/datasets/modelscope/EvalScope-Qwen3-Test) # Qwen3 评测数据集合 该数据集由EvalScope工具生成,覆盖了主流的benchmark,评测了模型的代码能力(LiveCodeBench)、数学能力(AIME2024, AIME2025)、知识能力(MMLU-Pro, CEVAL)、指令遵循(IFEval)等。 具体使用方法参考[Qwen3 模型评测最佳实践](https://evalscope.readthedocs.io/zh-cn/latest/best_practice/qwen3.html) #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

> [!NOTE] > 本数据集兼容v1.0.0版本的EvalScope工具,若使用旧版本EvalScope v0.xx及更早版本,请使用旧版[数据集](https://modelscope.cn/datasets/modelscope/EvalScope-Qwen3-Test) # Qwen3评测数据集 本数据集由EvalScope工具生成,覆盖了当前主流的基准测试集,可对模型的代码能力(LiveCodeBench)、数学能力(AIME2024、AIME2025)、知识能力(MMLU-Pro、CEVAL)以及指令遵循能力(IFEval)等维度进行评测。 具体使用方法请参考[Qwen3模型评测最佳实践](https://evalscope.readthedocs.io/zh-cn/latest/best_practice/qwen3.html) #### 下载方式 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2025-08-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Qwen3评测数据集合是由EvalScope工具生成的评估数据集,涵盖代码能力、数学能力、知识和指令跟随等多个方面的评测任务,适用于Qwen3模型的性能评估。数据集采用Apache License 2.0许可,提供SDK和GIT两种下载方式。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务