open-llm-leaderboard-old/details_Sharathhebbar24__Instruct_GPT

Name: open-llm-leaderboard-old/details_Sharathhebbar24__Instruct_GPT
Creator: open-llm-leaderboard-old
Published: 2024-01-26 07:28:35
License: 暂无描述

Hugging Face2024-01-26 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Sharathhebbar24__Instruct_GPT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型Sharathhebbar24/Instruct_GPT评估运行期间自动创建的，用于Open LLM排行榜上的评估。数据集包含63个配置，每个配置对应一个评估任务。数据集来自1次运行，每次运行都以运行时间的特定分割表示。train分割始终指向最新结果，而额外的results配置存储了所有聚合结果，用于计算和显示排行榜上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 Sharathhebbar24/Instruct_GPT 在 Open LLM Leaderboard 上的自动创建的。数据集包含 63 个配置，每个配置对应一个评估任务。

数据集结构

数据集由 1 次运行创建，每个运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储了所有运行的聚合结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Sharathhebbar24__Instruct_GPT", "harness_winogrande_5", split="train")

}

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard评测框架下，针对Sharathhebbar24/Instruct_GPT模型自动生成的评估记录。数据集涵盖63个配置项，每个配置对应一项被评测的任务，例如ARC挑战赛、HellaSwag、GSM8K及涵盖多学科知识的MMLU基准测试等。数据来源于单次运行，每次运行的时间戳被用作特定分割的名称，而“train”分割始终指向最新一次的评测结果。此外，一个名为“results”的额外配置存储了所有聚合后的评测指标，用于在排行榜上计算并展示模型的综合性能。

特点

数据集结构精巧，以Parquet格式存储，每个配置项包含对应任务在特定时间戳下的详细评测数据。其核心特色在于将模型在数十项不同难度和领域（从基础科学到人文社科）的任务上的表现统一归档，便于横向对比。数据集不仅提供了原始准确率（acc）及其标准误差（acc_stderr），还针对部分任务提供了归一化准确率（acc_norm），从而更全面地反映模型能力。时间戳分割的设计使得研究者可以追溯模型性能的历史变化，而“latest”分割则保证了始终能获取最新进展。

使用方法

研究者可通过HuggingFace的datasets库便捷地加载该数据集。例如，使用`load_dataset("open-llm-leaderboard/details_Sharathhebbar24__Instruct_GPT", "harness_winogrande_5", split="train")`即可获取WinoGrande任务的最新评测细节。对于需要深入分析的任务，可通过指定配置名称（如harness_arc_challenge_25）和分割（如具体时间戳或“latest”）来加载对应的Parquet文件。聚合结果则可通过加载“results”配置获取，便于快速评估模型的整体表现。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的时代，如何系统性地评估模型的多维能力成为学界与工业界共同关注的核心议题。Open LLM Leaderboard由Hugging Face团队于2023年发起，旨在通过标准化基准测试，为全球研究者提供透明、可复现的模型性能对比平台。该数据集记录了模型Sharathhebbar24/Instruct_GPT在2024年1月26日的评估结果，涵盖ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande及GSM8K等63项任务，涉及常识推理、知识问答、数学求解与事实一致性等关键维度。作为开源评估生态的重要一环，该数据集不仅促进了模型能力的横向比较，更推动了LLM评测范式的规范化，对后续研究如指令微调效果验证与模型鲁棒性分析产生了深远影响。

当前挑战

该数据集所承载的挑战可归纳为双重维度。其一，在领域问题层面，当前LLM在复杂推理与事实性任务中表现参差，如GSM8K数学推理任务准确率仅0.3%，揭示出模型在符号运算与多步推导上的系统性缺陷；MMLU多项学科测试中，多数科目准确率低于30%，凸显模型在专业领域知识泛化上的瓶颈。其二，在数据构建过程中，评估需协调63个异构任务配置，确保每个任务的数据格式、评分标准与采样策略严格一致，同时应对不同运行时间戳下的结果版本管理，避免因评估批次差异导致的指标偏差。此外，原始模型在TruthfulQA上的MC1准确率仅23.3%，暴露出生成内容与事实对齐的根本性挑战，这对数据集的可信度与评估框架的鲁棒性提出了更高要求。

常用场景

经典使用场景

在大型语言模型（LLM）评估领域，Open LLM Leaderboard 的细节数据集被广泛用于对诸如 Instruct_GPT 等模型的性能进行标准化评测。该数据集涵盖了数十个经典基准任务，包括 ARC-Challenge、HellaSwag、MMLU 多学科知识、TruthfulQA、Winogrande 以及 GSM8K 数学推理等，为研究者提供了一个统一、可复现的评估框架。通过加载每个任务对应的配置与最新分片，用户能够精确获取模型在各个维度的准确率与标准误差，从而实现对模型能力的多角度量化分析。

解决学术问题

该数据集有效解决了大语言模型社区中长期存在的评估标准不统一、结果难以复现的关键学术问题。它通过结构化的配置分隔与时间戳记录，使得每一次评估运行的细节都能被完整保存与追溯。研究者可以基于这些细粒度的结果数据，深入探讨模型在常识推理、知识掌握、事实一致性、代词消解以及数学推理等方面的表现差异，从而揭示不同训练策略或架构设计对模型能力的影响，推动评估方法论的系统化发展。

衍生相关工作

该数据集衍生了一系列重要的相关工作，其中最典型的是基于它构建的 Open LLM Leaderboard 排行榜本身，该排行榜已成为社区衡量开源大模型进展的权威参考。此外，研究者利用该数据集中的细粒度结果开展了多项后续研究，例如分析模型在不同难度子任务上的表现差异、探索评估指标之间的相关性，以及开发新的校准与聚合方法以提升排名的鲁棒性。这些工作共同促进了 LLM 评估体系的成熟与规范化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

open-llm-leaderboard-old/details_Sharathhebbar24__Instruct_GPT

数据集概述

数据集简介

数据集结构

额外配置

数据加载示例

最新结果

最新结果概览

配置详情

配置列表

其他路径省略