leaderboard-dataset

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/lmarena-ai/leaderboard-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Arena Leaderboard Dataset 是一个包含 Arena 排行榜历史快照的数据集。该数据集旨在记录和跟踪不同模型在多个竞技场（如文本、视觉、搜索等）中的表现。数据集包含多个子集，每个子集对应一个特定的竞技场，部分竞技场还提供风格控制的版本。每个子集分为两个部分：'full' 包含所有历史发布的排行榜数据，'latest' 仅包含最近发布的排行榜数据。数据集中的每条记录包含模型名称、组织、许可证、评分、排名、类别等信息。该数据集适用于模型性能评估、排行榜跟踪和竞技场分析等任务。

创建时间：

2026-04-03

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，Arena Leaderboard Dataset通过系统化采集历史快照的方式构建而成。该数据集依托于Arena平台的公开排行榜，定期记录不同竞技场中模型的评分与排名数据。其构建过程遵循严谨的时间序列原则，涵盖了文本、视觉、搜索、文档、网页开发以及多模态生成等多个子集，并针对部分竞技场提供了风格控制版本。数据采集机制确保了从模型名称、评分、置信区间到发布日期等关键字段的完整性，为追踪模型性能演变提供了可靠的历史基准。

特点

该数据集的核心特征在于其多维度的竞技场划分与时间序列结构。每个子集对应特定的任务领域，例如文本生成、视觉理解或代码开发，且多数领域均包含基础版本与风格控制版本，以评估模型在不同指令遵循能力下的表现。数据集提供完整历史记录与最新快照两种分割方式，便于用户进行纵向趋势分析或横向性能比较。此外，数据集中记录了评分系统的关键变更，如从Elo模型转向Bradley-Terry模型，并标注了风格控制引入及频率加权等方法论调整，确保了评估结果的可解释性与一致性。

使用方法

利用该数据集时，用户可通过Hugging Face的datasets库灵活加载特定子集与分割。例如，加载完整的文本风格控制历史数据以分析模型评分的长期演变，或仅获取最新排行榜进行即时性能对比。数据集支持基于类别、模型名称等字段的过滤操作，并可选择性地提取关键列，如跟踪某一模型在时间维度上的评分与排名变化。对于研究方法，用户可结合不同竞技场的数据，探究模型在多任务场景下的能力差异，或通过对比风格控制与非风格控制版本，深入分析模型对指令风格的敏感性。

背景与挑战

背景概述

在人工智能模型评估领域，公开、动态的基准测试平台对于追踪模型性能演进至关重要。Leaderboard-dataset由LM Arena AI团队创建并维护，作为一个持续更新的历史快照数据集，它系统性地收录了Arena竞技场平台上多个任务领域的模型排行榜数据。该数据集的核心研究问题在于如何通过大规模、众包式的人类偏好投票，对各类大语言模型及多模态模型在不同应用场景下的能力进行量化评估与排名。其影响力深远，为学术界和工业界提供了模型性能横向对比与纵向追踪的标准化依据，推动了模型评估从静态基准向动态、人类中心化评测的范式转变。

当前挑战

该数据集旨在解决大模型能力评估中人类偏好对齐这一核心领域问题的挑战，具体包括如何设计公平、无偏的众包投票机制以准确反映模型真实能力，以及如何处理不同模型在不同任务和风格控制下的评分可比性问题。在构建过程中，数据集面临多重挑战：其一，评分方法论的迭代更新，如从Elo系统转向Bradley-Terry模型，并引入频率加权，需确保历史数据的一致性与可解释性；其二，多模态与多任务数据的整合，涵盖文本、视觉、搜索、代码生成乃至图像与视频编辑等十余个子集，其数据格式、评估维度的统一与标准化工程浩大；其三，数据的时效性与连续性维护，需持续捕获模型更新、新模型涌现以及排行榜发布策略变化带来的动态影响。

常用场景

经典使用场景

在人工智能模型评估领域，leaderboard-dataset作为Arena平台的历史快照数据集，其经典使用场景集中于模型性能的动态追踪与比较分析。研究者通过加载文本、视觉、搜索等不同竞技场子集，能够系统性地监测各类大语言模型在风格控制或原始任务中的评分演变，从而揭示模型在时间维度上的竞争力波动。这种基于历史评分的纵向分析为模型迭代优化提供了关键基准，尤其在风格控制成为默认设置的背景下，数据集成为评估模型适应性与稳定性的核心工具。

解决学术问题

该数据集有效解决了大语言模型评估中缺乏长期、标准化历史记录的核心学术问题。传统评估往往依赖静态基准，难以捕捉模型在真实用户交互中的动态表现。通过整合多竞技场、多时间点的评分数据，并采用Bradley-Terry模型等先进评级方法，数据集使得研究者能够量化模型竞争力的变迁，分析算法更新、风格控制策略等因素对模型排名的实际影响。这为理解模型生态系统的演进规律提供了实证基础，推动了评估方法论从截面分析向时序研究的范式转变。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于模型评估方法论与生态系统分析。一方面，研究者利用其时序特性开发了模型竞争力预测算法，通过融合评分、方差及投票数量等特征，构建模型性能衰减或跃升的预警模型。另一方面，基于多竞技场数据，出现了针对模型能力泛化性的跨领域比较研究，探讨模型在文本、视觉、搜索等不同模态任务中的表现相关性。这些工作深化了对大模型评估动态性的理解，并催生了更精细的评级调整与偏差校正技术。

以上内容由遇见数据集搜集并总结生成