five

Judgement-baseline

收藏
魔搭社区2025-12-05 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/sleeping-ai/Judgement-baseline
下载链接
链接失效反馈
官方服务:
资源简介:
| Model Name | # Params | MMLU-Pro-Plus Baseline | Drop | MMLU-Pro Baseline | Drop | Added Exp | MMLU Pro Plus Added | MMLU-redux 2.0 Baseline | Drop | AQUA-RAT Baseline | Drop | |-----------------------------------|----------|-----------------------------|----------|-----------------------------|----------|-----------|---------------------|--------------------------|------|--------------------|------| | CohereLabs/c4ai-command-a-03-2025 | 111B | ✅ (single inference) | ✅ done | ✅ (HF naive batch) | ✅ done | ✅ done | ✅ | - | - | - | - | | google/gemma-3-12b-it | 12B | ✅ (HF naive batch) | ✅ done | ✅ (HF naive batch) | ✅ done | ✅ done | ✅ | - | - | - | - | | meta-llama/Llama-4-Scout-17B-16E | 17B | ✅ (HF naive batch) | ✅ done | ✅ (HF naive batch) | ✅ done | ✅ done | ✅ | - | - | - | - | | Qwen/Qwen3-4B | 4B | ✅ (HF naive batch) | ✅ done | ✅ (HF naive batch) | ✅ done | ✅ done | ✅ | - | - | - | - |

| 模型名称 | 参数规模 | MMLU-Pro-Plus 基准测试 | 优化完成情况 | MMLU-Pro 基准测试 | 优化完成情况 | 新增实验项 | MMLU-Pro-Plus 新增评测结果 | MMLU-redux 2.0 基准测试 | 优化完成情况 | AQUA-RAT 基准测试 | 优化完成情况 | |-----------------------------------|----------|-----------------------------|--------------|-----------------------------|--------------|-----------|-----------------------|--------------------------|--------------|--------------------|--------------| | CohereLabs/c4ai-command-a-03-2025 | 1110亿参数 | ✅(单次推理模式) | ✅ 已完成 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅ 已完成 | ✅ | - | - | - | - | | google/gemma-3-12b-it | 120亿参数 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅ 已完成 | ✅ | - | - | - | - | | meta-llama/Llama-4-Scout-17B-16E | 170亿参数 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅ 已完成 | ✅ | - | - | - | - | | Qwen/Qwen3-4B | 40亿参数 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅(Hugging Face (HF) 原生批量推理模式) | ✅ 已完成 | ✅ 已完成 | ✅ | - | - | - | - |
提供机构:
maas
创建时间:
2025-07-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作