open-llm-leaderboard-old/details_ehartford__Samantha-1.11-70b

Name: open-llm-leaderboard-old/details_ehartford__Samantha-1.11-70b
Creator: open-llm-leaderboard-old
Published: 2023-10-19 17:03:07
License: 暂无描述

Hugging Face2023-10-19 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_ehartford__Samantha-1.11-70b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型ehartford/Samantha-1.11-70b时自动生成的，用于Open LLM Leaderboard的评估。数据集包含64个配置，每个配置对应一个评估任务。数据集由2次运行生成，每次运行的结果作为一个特定的split存储，split的名称是运行的时间戳。train split始终指向最新的结果。此外，还有一个名为results的配置，存储了所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 ehartford/Samantha-1.11-70b 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集结构

配置数量：64个配置，每个配置对应一个评估任务。
运行次数：数据集从2次运行中创建。每个运行在每个配置中作为一个特定的分割存在，分割名称使用运行的时间戳。
训练分割："train" 分割始终指向最新的结果。
结果配置：一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_ehartford__Samantha-1.11-70b", "harness_winogrande_5", split="train")

配置详情

以下是数据集的部分配置详情：

config_name: harness_arc_challenge_25
- splits:
  - 2023_08_23T18_30_58.468070
  - latest
- paths:
  - **/details_harness|arc:challenge|25_2023-08-23T18:30:58.468070.parquet
config_name: harness_drop_3
- splits:
  - 2023_10_19T17_02_54.174662
  - latest
- paths:
  - **/details_harness|drop|3_2023-10-19T17-02-54.174662.parquet
config_name: harness_gsm8k_5
- splits:
  - 2023_10_19T17_02_54.174662
  - latest
- paths:
  - **/details_harness|gsm8k|5_2023-10-19T17-02-54.174662.parquet
config_name: harness_hellaswag_10
- splits:
  - 2023_08_23T18_30_58.468070
  - latest
- paths:
  - **/details_harness|hellaswag|10_2023-08-23T18:30:58.468070.parquet
config_name: harness_hendrycksTest_5
- splits:
  - 2023_08_23T18_30_58.468070
  - latest
- paths:
  - **/details_harness|hendrycksTest-abstract_algebra|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-anatomy|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-astronomy|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-business_ethics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_biology|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_chemistry|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_computer_science|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_mathematics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_medicine|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-college_physics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-computer_security|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-conceptual_physics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-econometrics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-electrical_engineering|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-formal_logic|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-global_facts|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_biology|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_european_history|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_geography|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_physics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_psychology|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_statistics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_us_history|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-high_school_world_history|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-human_aging|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-human_sexuality|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-international_law|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-jurisprudence|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-logical_fallacies|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-machine_learning|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-management|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-marketing|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-medical_genetics|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-miscellaneous|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-moral_disputes|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-moral_scenarios|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-nutrition|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-philosophy|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-prehistory|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-professional_accounting|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-professional_law|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-professional_medicine|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-professional_psychology|5_2023-08-23T18:30:58.468070.parquet
  - **/details_harness|hendrycksTest-public_relations|5_2023-08-23T18:30:58.468070

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，Open LLM Leaderboard 作为一个权威的基准平台，为模型性能的量化分析提供了标准化框架。该数据集正是针对 ehartford/Samantha-1.11-70b 模型在 Leaderboard 上的评估过程而自动生成的产物。其构建方式基于多次独立的评估运行，共计两次，每次运行的结果被组织为数据集中的特定分割（split），并以运行的时间戳进行命名，而 'train' 分割则始终指向最新一次的评估结果。数据集涵盖了 64 种配置，每一种配置对应一项具体的评估任务，例如 ARC Challenge、DROP、GSM8K 及 Winogrande 等，此外还设有专门的 'results' 配置用于汇总所有运行的聚合指标，从而支撑 Leaderboard 上综合性能分数的计算与展示。所有原始数据均以 Parquet 格式存储，确保了数据的高效读写与可扩展性。

特点

该数据集的核心特点在于其精细化的结构与动态更新机制。首先，它通过多配置设计实现了对模型在多样化任务上表现的细粒度追踪，每个配置独立存储某一任务下的详细评测结果，涵盖准确率、F1 分数等关键指标及其标准误差，为研究者提供了深入分析模型优缺点的微观视角。其次，数据集具备时间序列属性，通过保留每次运行的历史分割，使得模型性能的演变轨迹得以完整记录，便于进行纵向比较与回归分析。此外，'train' 分割始终指向最新结果的设计，简化了用户获取当前最新评估数据的流程，而 'results' 配置则提供了跨任务的宏观聚合视图，实现了从微观到宏观的全方位性能刻画，这种分层架构在同类数据集中颇具独特性。

使用方法

研究者可通过 Hugging Face 的 datasets 库便捷地加载与使用该数据集。具体而言，利用 load_dataset 函数并指定数据集名称及目标配置（如 'harness_winogrande_5'），即可获取特定任务的评估细节。数据加载时需明确选择分割名称，例如 'train' 或具体的时间戳分割，以决定使用最新结果还是历史版本。加载后的数据以标准数据集格式呈现，支持 pandas 等常用数据分析工具的进一步处理。对于需要获取模型整体性能概况的场景，可直接访问 'results' 配置，其中存储了所有任务的聚合指标，方便进行快速对比与基准测试。此外，数据集的文件结构清晰，每个配置对应的 Parquet 文件路径遵循统一的命名规范，便于高级用户进行自定义的批量处理或离线分析。

背景与挑战

背景概述

该数据集源于Hugging Face社区发起的Open LLM Leaderboard评测计划，旨在系统评估大规模语言模型在多样化自然语言处理任务中的表现。由Hugging Face团队于2023年主导创建，核心研究人员包括Clémentine等，数据集聚焦于记录模型ehartford/Samantha-1.11-70b在多个基准测试上的详细运行结果，涵盖ARC挑战赛、DROP、GSM8K、HellaSwag、Winogrande及涵盖57个学科的MMLU等任务。该数据集的诞生为社区提供了透明、可复现的模型性能对比依据，推动了开源大语言模型标准化评估体系的构建，对理解模型在多领域推理、数学计算与常识理解等方面的能力边界具有重要参考价值。

当前挑战

当前数据集面临的核心挑战涵盖两个层面。在领域问题层面，需解决大语言模型评估中多任务异构性带来的度量统一难题，例如DROP任务要求精确匹配与F1分数，而GSM8K侧重准确率，不同任务间性能的可比性亟待增强。在构建过程中，数据集遭遇了多次运行结果碎片化的问题，例如同一模型在不同时间戳的评测可能覆盖不同任务子集，导致结果整合时需处理缺失数据与时间戳对齐的复杂性。此外，数据存储格式采用Parquet文件，虽利于高效读写，但多配置、多分片的组织方式增加了用户按需加载特定运行结果的认知负荷，需依赖文档指引才能正确提取信息。

常用场景

经典使用场景

在大规模语言模型飞速演进的浪潮中，对模型性能进行标准化、多维度的评估成为了一项至关重要的基础性工作。该数据集作为Open LLM Leaderboard评测流程的产物，其核心用途在于为特定模型（如Samantha-1.11-70b）提供一份详尽、透明的评估记录。研究人员可通过加载不同任务配置（如ARC挑战、DROP、GSM8K等）下的评测结果，精确复现模型的推理表现，从而在统一的基准框架下横向对比不同模型的推理、常识与数学能力。

衍生相关工作

基于该数据集所确立的标准化评测范式，衍生出了一系列具有深远影响的工作。一方面，它催生了诸如“Open LLM Leaderboard”这样的动态排行榜，推动了社区对模型性能的透明化竞争；另一方面，研究人员借鉴其多任务、多轮次评估的设计理念，开发了更具挑战性的评估基准（如MMLU、BIG-bench），旨在探索模型的极限能力。此外，该数据集还启发了关于评测数据污染检测、模型作弊行为识别等元研究，为构建更公平、更可信的AI评估生态奠定了方法论基础。

数据集最近研究