ALL Bench Leaderboard 2026
收藏ALL Bench Leaderboard 2026 数据集概述
基本信息
- 数据集名称:ALL Bench Leaderboard 2026
- 创建者:专家生成
- 语言:英语
- 许可证:Apache-2.0
- 多语言性:单语
- 规模类别:n<1K
- 来源数据集:原始
- 任务类别:文本生成、视觉问答、文生图、文生视频、文生音频
- 标签:基准测试、排行榜、大语言模型、视觉语言模型、AI评估、GPT-5、Claude、Gemini、FINAL Bench、元认知、多模态、AI智能体、图像生成、视频生成、音乐生成
数据集摘要
ALL Bench Leaderboard 数据集汇总并交叉验证了91个AI模型在6种模态下的基准测试分数。每个数值分数都标有置信度级别(交叉验证、单一来源或自我报告)及其原始来源。该数据集专为需要可信、统一AI模型全景视图的研究人员、开发人员和决策者设计。
数据内容与结构
数据集涵盖以下6个类别,共91个模型:
- 大语言模型:42个模型,31个评估字段。
- 旗舰视觉语言模型:11个模型,10个评估字段。
- 轻量级视觉语言模型:5个模型,34个评估字段。
- 智能体模型:10个模型,8个评估字段。
- 图像生成模型:10个模型,7个评估字段。
- 视频生成模型:10个模型,7个评估字段。
- 音乐生成模型:8个模型,6个评估字段。
核心评估基准
- 大语言模型:MMLU-Pro, GPQA, AIME, HLE, ARC-AGI-2, Metacog, SWE-Pro, IFEval, LCB等。
- 视觉语言模型:MMMU, MMMU-Pro, MathVista, AI2D, OCRBench, MMStar, HallusionBench等。
- 智能体模型:OSWorld, τ²-bench, BrowseComp, Terminal-Bench 2.0, GDPval-AA, SWE-Pro。
- 生成模型:图像、视频、音乐生成模型在真实性、文本渲染、指令遵循、风格、美学、运动、一致性、人声、乐器、歌词等方面进行S/A/B/C评级。
数据结构
主数据文件为 all_bench_leaderboard_v2.1.json,结构如下:
all_bench_leaderboard_v2.1.json ├── metadata # 版本、公式、链接、模型数量 ├── llm[42] # 42个大语言模型 × 31个字段 ├── vlm │ ├── flagship[11] # 11个旗舰视觉语言模型 × 10个基准 │ └── lightweight[5]# 5个边缘模型 × 34个基准(3个子表) ├── agent[10] # 10个智能体模型 × 8个基准 ├── image[10] # 10个图像生成模型 × S/A/B/C评级 ├── video[10] # 10个视频生成模型 × S/A/B/C评级 ├── music[8] # 8个音乐生成模型 × S/A/B/C评级 └── confidence{42} # 每个模型、每个基准的来源和信任级别
大语言模型字段模式
关键字段包括:name(模型名称)、provider(组织)、type(open或closed)、group(分组)、released(发布日期)、mmluPro、gpqa、aime、hle、arcAgi2、metacog、swePro、bfcl、ifeval、lcb、priceIn/priceOut(价格)、elo(Elo评分)、license(许可证)等。
关键特性
1. 置信度系统
每个基准分数在confidence对象中标记置信度级别:
- 交叉验证:由2个以上独立来源确认。
- 单一来源:一个官方或第三方来源。
- 自我报告:提供者自己的声明,未经核实。
2. 综合分数
综合分数基于五轴智能框架(知识、专家推理、抽象推理、元认知、执行)中的10个核心基准计算,公式为:Score = Avg(confirmed benchmarks) × √(N/10)。
3. 实时排行榜
- 访问地址:https://huggingface.co/spaces/FINAL-Bench/all-bench-leaderboard
- 交互功能:综合排名、深色模式、高级搜索(如
GPQA > 90 open,price < 1)、模型查找器、头对头比较、信任地图热力图、条形竞赛动画、可下载的智能报告(PDF/DOCX)。
相关资源
- FINAL Bench — 元认知基准:测量AI自我纠正能力。
- 数据集:https://huggingface.co/datasets/FINAL-Bench/Metacognitive
- 排行榜:https://huggingface.co/spaces/FINAL-Bench/Leaderboard
引用
bibtex @misc{allbench2026, title={ALL Bench Leaderboard 2026: Unified Multi-Modal AI Evaluation}, author={ALL Bench Team}, year={2026}, url={https://huggingface.co/spaces/FINAL-Bench/all-bench-leaderboard} }



