open-llm-leaderboard-old/details_bhenrym14__airoboros-33b-gpt4-1.4.1-PI-8192-fp16

Name: open-llm-leaderboard-old/details_bhenrym14__airoboros-33b-gpt4-1.4.1-PI-8192-fp16
Creator: open-llm-leaderboard-old
Published: 2023-10-15 19:12:51
License: 暂无描述

Hugging Face2023-10-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_bhenrym14__airoboros-33b-gpt4-1.4.1-PI-8192-fp16

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型bhenrym14/airoboros-33b-gpt4-1.4.1-PI-8192-fp16时自动生成的，包含3个配置，每个配置对应一个评估任务。数据集由1次运行生成，每次运行在配置中作为一个特定的分割，分割名称使用运行的时间戳。train分割始终指向最新结果。此外，还有一个results配置存储所有运行的聚合结果，用于在Open LLM Leaderboard上计算和显示聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集卡片 for Evaluation run of bhenrym14/airoboros-33b-gpt4-1.4.1-PI-8192-fp16

数据集描述

数据集概述

数据集是在模型 bhenrym14/airoboros-33b-gpt4-1.4.1-PI-8192-fp16 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集由3个配置组成，每个配置对应一个评估任务。

数据集是从1次运行中创建的。每次运行可以在每个配置中找到一个特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

一个额外的配置 "results" 存储了运行的所有聚合结果（并用于计算和显示 Open LLM Leaderboard 上的聚合指标）。

要加载运行的详细信息，可以执行以下操作： python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_bhenrym14__airoboros-33b-gpt4-1.4.1-PI-8192-fp16", "harness_winogrande_5", split="train")

最新结果

这些是从运行 2023-10-15T19:12:34.050776 获得的最新结果（注意，如果连续评估没有覆盖相同的任务，仓库中可能会有其他任务的结果。您可以在每个评估的 "results" 和 "latest" 分割中找到每个任务的结果）：

python { "all": { "em": 0.03544463087248322, "em_stderr": 0.0018935573437954016, "f1": 0.08440436241610706, "f1_stderr": 0.002470333585036359, "acc": 0.2841357537490134, "acc_stderr": 0.0069604360550053574 }, "harness|drop|3": { "em": 0.03544463087248322, "em_stderr": 0.0018935573437954016, "f1": 0.08440436241610706, "f1_stderr": 0.002470333585036359 }, "harness|gsm8k|5": { "acc": 0.0, "acc_stderr": 0.0 }, "harness|winogrande|5": { "acc": 0.5682715074980268, "acc_stderr": 0.013920872110010715 } }

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，对模型性能的量化分析至关重要。本数据集是Open LLM Leaderboard在评估bhenrym14/airoboros-33b-gpt4-1.4.1-PI-8192-fp16模型过程中自动生成的副产品。其构建基于单一评估运行，覆盖了DROP、GSM8K和Winogrande三项不同难度的任务，每项任务对应一个独立的配置（config）。每个配置内均包含以运行时间戳命名的数据拆分，而“train”拆分则始终指向最新一次的评估结果。此外，数据集还设有“results”配置，用以汇总所有评估任务的聚合指标，为排行榜的最终展示提供数据支撑。

特点

该数据集的结构设计体现了高度的系统性与可追溯性。它由三个任务配置和一个结果配置组成，每个配置均采用Parquet格式存储，确保了数据加载的高效性。其核心特点在于通过时间戳对多次评估运行进行版本管理，使得研究者能够轻松追溯不同时间点的模型表现。同时，“train”拆分自动指向最新结果，简化了持续追踪模型性能变化的过程。数据集不仅记录了每个任务的原始评估细节（如准确率、F1分数），还提供了包含标准误差的统计信息，为深入分析模型能力边界提供了可靠依据。

使用方法

研究者可通过Hugging Face的datasets库便捷地调用本数据集。具体而言，使用load_dataset函数并指定数据集名称、目标配置（如“harness_winogrande_5”）以及拆分标识（如“train”），即可加载特定任务的评估明细。例如，加载Winogrande任务的评估数据，只需执行load_dataset("open-llm-leaderboard/details_bhenrym14__airoboros-33b-gpt4-1.4.1-PI-8192-fp16", "harness_winogrande_5", split="train")。若需回溯历史评估结果，可通过时间戳命名的拆分进行精确访问。此外，“results”配置提供了全局聚合指标，适用于快速对比模型在不同任务上的综合表现。

背景与挑战

背景概述

在大规模语言模型（LLM）领域，模型性能的客观评估与横向比较始终是推动技术演进的核心驱动力。为应对这一需求，Hugging Face团队于2023年创建了Open LLM Leaderboard，旨在通过标准化基准任务对开源语言模型进行系统性评测。该数据集作为其中一次评估运行的产物，聚焦于bhenrym14/airoboros-33b-gpt4-1.4.1-PI-8192-fp16模型，由Clementine等人主导构建，于2023年10月15日完成执行。其核心研究问题在于衡量该模型在多样化自然语言理解与推理任务中的泛化能力，涵盖DROP（离散推理）、GSM8K（数学推理）及Winogrande（常识推理）等典型场景。作为Open LLM Leaderboard生态的重要组成部分，该数据集为社区提供了透明、可复现的模型性能记录，推动了开源大模型评估标准的演进。

当前挑战

该数据集所面临的挑战具有双重维度。在领域问题层面，它需要应对语言模型在复杂推理任务中的固有短板，例如GSM8K任务中的零准确率揭示了数学推理能力的严重不足，而WINOGrande仅56.8%的准确率表明常识消歧仍存瓶颈，这反映出当前模型在符号推理与知识整合方面的结构性局限。在构建过程中，评估流程的标准化与结果的可复现性构成核心挑战，数据集需确保不同运行轮次间的任务配置一致性（如DROP的3-shot与GSM8K的5-shot设定），同时面临多任务结果聚合的统计误差控制难题，例如F1分数的标准误高达0.0025，凸显了评估结果在细粒度指标上的不稳定性。

常用场景

经典使用场景

在大型语言模型的评估与比较研究中，该数据集作为Open LLM Leaderboard的标准化评测工具，被广泛用于量化模型在多种下游任务上的表现。其核心配置覆盖了DROP（阅读理解与数值推理）、GSM8K（数学推理）和Winogrande（常识推理）三大经典基准任务，通过统一的评估框架记录模型在精确匹配、F1分数及准确率等指标上的详细结果。研究者可便捷地加载不同时间戳的评测分片，实现跨模型、跨时间维度的性能追踪与复现分析。

实际应用

在实际应用中，该数据集可作为模型选型与部署前的可靠性评估依据。开发者通过分析DROP任务中F1分数仅8.4%的表现，能够预判模型在需要精确信息抽取的场景（如金融报告分析）中可能存在的风险；而GSM8K任务上的零分结果则警示了在自动化数学辅导等场景中需谨慎使用。此外，该数据集的按任务拆分设计支持针对特定业务需求（如客服系统的常识理解模块）进行定向性能筛查，从而辅助技术决策与资源分配。

衍生相关工作

基于该数据集及其评测框架，衍生出一系列重要工作。例如，研究者利用其标准化结果对比不同优化策略（如位置插值PI与长上下文训练）对模型推理能力的影响，从而提出更高效的训练方案；另有一些工作聚焦于GSM8K等任务上的零分现象，催生了针对数学推理链的专项数据集与解耦式评估方法。该数据集还作为基准之一，被用于验证新型模型架构（如混合专家系统）在复杂推理任务上的改进效果，其结构化存储方式也为后续自动化评测平台（如EvalAI）的设计提供了参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集