open-llm-leaderboard-eda

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/razsarusi/open-llm-leaderboard-eda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自HuggingFace的Open LLM Leaderboard，包含4,575条大型语言模型（LLM）评估记录，涵盖模型大小、训练类型、架构以及在6个标准化基准测试中的得分。数据集共35列，关键字段包括平均得分（`Average`）、参数数量（`#Params (B)`）、模型类型（`Type`）、架构（`Architecture`）、碳足迹（`CO2 cost (kg)`）和HuggingFace Hub点赞数（`Hub likes`）。基准测试包括IFEval（指令跟随能力）、BBH（复杂推理）、MMLU-PRO（专业知识）、MATH Lvl 5（高等数学）、MUSR（多步推理）和GPQA（研究生级科学问题）。数据集经过清洗，去除了重复项和无效值，适用于分析LLM性能影响因素、基准测试难度比较以及模型效率研究。

This dataset is sourced from the HuggingFace Open LLM Leaderboard, containing 4,575 large language model (LLM) evaluation records covering model size, training type, architecture, and scores across six standardized benchmark tests. The dataset consists of 35 columns, with key fields including `Average`, `#Params (B)`, `Type`, `Architecture`, `CO2 cost (kg)`, and `Hub likes`. The covered benchmark tests are IFEval (instruction-following capability), BBH (complex reasoning), MMLU-PRO (professional knowledge), MATH Lvl 5 (advanced mathematics), MUSR (multi-step reasoning), and GPQA (graduate-level scientific questions). The dataset has been cleaned to remove duplicates and invalid values, making it suitable for analyzing factors affecting LLM performance, comparing benchmark difficulty, and researching model efficiency.

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，open-llm-leaderboard-eda数据集源于对HuggingFace开放LLM排行榜原始数据的系统性整理与分析。该数据集构建过程遵循严谨的数据清洗流程，从原始4,576条记录中移除了被标记的模型，并处理了参数值为负的异常条目，同时将缺失的许可证信息统一标注为“未知”。通过清理模型类型列中的冗余符号并转换布尔变量为数值格式，最终形成了包含4,575个样本、35个特征列的规范化数据集，为后续探索性分析奠定了可靠基础。

使用方法

研究人员可利用该数据集进行多层次的实证分析。通过描述性统计可快速把握各基准测试的难度分布与模型性能概况；相关性分析有助于揭示参数规模、训练类型与评估得分之间的内在联系；双峰分布特征则为模型分类研究提供了自然划分依据。数据集特别适用于探究训练策略对性能的影响，验证模型效率与碳足迹的权衡关系，并为开发轻量化高性能模型提供数据驱动的决策支持。

背景与挑战

背景概述

在人工智能领域，大型语言模型的评估与比较一直是推动技术进步的核心议题。Open LLM Leaderboard数据集由HuggingFace平台于近年创建，旨在系统性地追踪和评估开源大型语言模型在多个标准化基准测试中的表现。该数据集汇集了全球研究机构与开发者提交的模型评估结果，核心研究问题聚焦于探究影响模型综合性能的关键因素，例如模型规模、训练类型与架构设计。通过对超过4500条评估记录的分析，该数据集为理解模型性能的驱动机制提供了实证基础，显著促进了开源模型社区的透明化发展与性能优化。

当前挑战

该数据集致力于解决大型语言模型综合性能评估的复杂挑战，其核心在于如何准确量化模型在多样化任务上的能力，并识别超越单纯参数规模的有效性能预测因子。构建过程中的挑战包括数据源的异构性整合，例如处理不同模型提交的原始HTML格式元数据、统一缺失的许可证信息，以及合理保留真实但极端的异常值（如高碳排放或超高参数模型）。此外，基准测试本身难度差异显著，例如GPQA涉及研究生级科学问题，平均得分仅6.7，这要求评估体系能精准区分模型在高级认知任务上的细微能力差距。

常用场景

解决学术问题

该数据集有效解决了大型语言模型评估中关于性能预测因子的学术争议。通过严谨的数据分析，它证实了模型规模并非性能的唯一决定因素，而训练类型和专业化程度更具预测力。这一发现挑战了单纯追求参数扩张的研究范式，推动了学术界对模型效率、训练质量与多任务泛化能力的深入探讨，为模型设计与评估提供了新的理论框架。

实际应用

在实际应用中，该数据集为模型开发者与机构提供了关键的基准参考。企业可依据其分析结果优化资源分配，优先投资于高效的精调策略而非盲目扩大模型规模。教育机构则能利用其洞察设计更均衡的评估课程，同时政策制定者可参考其碳排放数据推动绿色AI发展，促进人工智能领域的环境可持续性。

数据集最近研究