five

open-llm-leaderboard-old/details_ehartford__Samantha-1.11-70b

收藏
Hugging Face2023-10-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_ehartford__Samantha-1.11-70b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型ehartford/Samantha-1.11-70b时自动生成的,用于Open LLM Leaderboard的评估。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为一个特定的split存储,split的名称是运行的时间戳。train split始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型ehartford/Samantha-1.11-70b时自动生成的,用于Open LLM Leaderboard的评估。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为一个特定的split存储,split的名称是运行的时间戳。train split始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 ehartford/Samantha-1.11-70b 进行评估运行期间自动创建的,用于 Open LLM Leaderboard

数据集结构

  • 配置数量:64个配置,每个配置对应一个评估任务。
  • 运行次数:数据集从2次运行中创建。每个运行在每个配置中作为一个特定的分割存在,分割名称使用运行的时间戳。
  • 训练分割:"train" 分割始终指向最新的结果。
  • 结果配置:一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_ehartford__Samantha-1.11-70b", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-19T17:02:54.174662 运行 的最新结果: python { "all": { "em": 0.5320889261744967, "em_stderr": 0.0051099120270992685, "f1": 0.5767973993288609, "f1_stderr": 0.004860619911447506, "acc": 0.5660724533007654, "acc_stderr": 0.011553454771173869 }, "harness|drop|3": { "em": 0.5320889261744967, "em_stderr": 0.0051099120270992685, "f1": 0.5767973993288609, "f1_stderr": 0.004860619911447506 }, "harness|gsm8k|5": { "acc": 0.29946929492039426, "acc_stderr": 0.012616300735519658 }, "harness|winogrande|5": { "acc": 0.8326756116811366, "acc_stderr": 0.010490608806828079 } }

配置详情

以下是数据集的部分配置详情:

  • config_name: harness_arc_challenge_25

    • splits:
      • 2023_08_23T18_30_58.468070
      • latest
    • paths:
      • **/details_harness|arc:challenge|25_2023-08-23T18:30:58.468070.parquet
  • config_name: harness_drop_3

    • splits:
      • 2023_10_19T17_02_54.174662
      • latest
    • paths:
      • **/details_harness|drop|3_2023-10-19T17-02-54.174662.parquet
  • config_name: harness_gsm8k_5

    • splits:
      • 2023_10_19T17_02_54.174662
      • latest
    • paths:
      • **/details_harness|gsm8k|5_2023-10-19T17-02-54.174662.parquet
  • config_name: harness_hellaswag_10

    • splits:
      • 2023_08_23T18_30_58.468070
      • latest
    • paths:
      • **/details_harness|hellaswag|10_2023-08-23T18:30:58.468070.parquet
  • config_name: harness_hendrycksTest_5

    • splits:
      • 2023_08_23T18_30_58.468070
      • latest
    • paths:
      • **/details_harness|hendrycksTest-abstract_algebra|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-anatomy|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-astronomy|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-business_ethics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_biology|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_chemistry|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_computer_science|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_mathematics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_medicine|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-college_physics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-computer_security|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-conceptual_physics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-econometrics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-electrical_engineering|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-formal_logic|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-global_facts|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_biology|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_european_history|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_geography|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_physics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_psychology|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_statistics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_us_history|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-high_school_world_history|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-human_aging|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-human_sexuality|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-international_law|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-jurisprudence|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-logical_fallacies|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-machine_learning|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-management|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-marketing|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-medical_genetics|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-miscellaneous|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-moral_disputes|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-moral_scenarios|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-nutrition|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-philosophy|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-prehistory|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-professional_accounting|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-professional_law|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-professional_medicine|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-professional_psychology|5_2023-08-23T18:30:58.468070.parquet
      • **/details_harness|hendrycksTest-public_relations|5_2023-08-23T18:30:58.468070
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard 作为一个权威的基准平台,为模型性能的量化分析提供了标准化框架。该数据集正是针对 ehartford/Samantha-1.11-70b 模型在 Leaderboard 上的评估过程而自动生成的产物。其构建方式基于多次独立的评估运行,共计两次,每次运行的结果被组织为数据集中的特定分割(split),并以运行的时间戳进行命名,而 'train' 分割则始终指向最新一次的评估结果。数据集涵盖了 64 种配置,每一种配置对应一项具体的评估任务,例如 ARC Challenge、DROP、GSM8K 及 Winogrande 等,此外还设有专门的 'results' 配置用于汇总所有运行的聚合指标,从而支撑 Leaderboard 上综合性能分数的计算与展示。所有原始数据均以 Parquet 格式存储,确保了数据的高效读写与可扩展性。
特点
该数据集的核心特点在于其精细化的结构与动态更新机制。首先,它通过多配置设计实现了对模型在多样化任务上表现的细粒度追踪,每个配置独立存储某一任务下的详细评测结果,涵盖准确率、F1 分数等关键指标及其标准误差,为研究者提供了深入分析模型优缺点的微观视角。其次,数据集具备时间序列属性,通过保留每次运行的历史分割,使得模型性能的演变轨迹得以完整记录,便于进行纵向比较与回归分析。此外,'train' 分割始终指向最新结果的设计,简化了用户获取当前最新评估数据的流程,而 'results' 配置则提供了跨任务的宏观聚合视图,实现了从微观到宏观的全方位性能刻画,这种分层架构在同类数据集中颇具独特性。
使用方法
研究者可通过 Hugging Face 的 datasets 库便捷地加载与使用该数据集。具体而言,利用 load_dataset 函数并指定数据集名称及目标配置(如 'harness_winogrande_5'),即可获取特定任务的评估细节。数据加载时需明确选择分割名称,例如 'train' 或具体的时间戳分割,以决定使用最新结果还是历史版本。加载后的数据以标准数据集格式呈现,支持 pandas 等常用数据分析工具的进一步处理。对于需要获取模型整体性能概况的场景,可直接访问 'results' 配置,其中存储了所有任务的聚合指标,方便进行快速对比与基准测试。此外,数据集的文件结构清晰,每个配置对应的 Parquet 文件路径遵循统一的命名规范,便于高级用户进行自定义的批量处理或离线分析。
背景与挑战
背景概述
该数据集源于Hugging Face社区发起的Open LLM Leaderboard评测计划,旨在系统评估大规模语言模型在多样化自然语言处理任务中的表现。由Hugging Face团队于2023年主导创建,核心研究人员包括Clémentine等,数据集聚焦于记录模型ehartford/Samantha-1.11-70b在多个基准测试上的详细运行结果,涵盖ARC挑战赛、DROP、GSM8K、HellaSwag、Winogrande及涵盖57个学科的MMLU等任务。该数据集的诞生为社区提供了透明、可复现的模型性能对比依据,推动了开源大语言模型标准化评估体系的构建,对理解模型在多领域推理、数学计算与常识理解等方面的能力边界具有重要参考价值。
当前挑战
当前数据集面临的核心挑战涵盖两个层面。在领域问题层面,需解决大语言模型评估中多任务异构性带来的度量统一难题,例如DROP任务要求精确匹配与F1分数,而GSM8K侧重准确率,不同任务间性能的可比性亟待增强。在构建过程中,数据集遭遇了多次运行结果碎片化的问题,例如同一模型在不同时间戳的评测可能覆盖不同任务子集,导致结果整合时需处理缺失数据与时间戳对齐的复杂性。此外,数据存储格式采用Parquet文件,虽利于高效读写,但多配置、多分片的组织方式增加了用户按需加载特定运行结果的认知负荷,需依赖文档指引才能正确提取信息。
常用场景
经典使用场景
在大规模语言模型飞速演进的浪潮中,对模型性能进行标准化、多维度的评估成为了一项至关重要的基础性工作。该数据集作为Open LLM Leaderboard评测流程的产物,其核心用途在于为特定模型(如Samantha-1.11-70b)提供一份详尽、透明的评估记录。研究人员可通过加载不同任务配置(如ARC挑战、DROP、GSM8K等)下的评测结果,精确复现模型的推理表现,从而在统一的基准框架下横向对比不同模型的推理、常识与数学能力。
衍生相关工作
基于该数据集所确立的标准化评测范式,衍生出了一系列具有深远影响的工作。一方面,它催生了诸如“Open LLM Leaderboard”这样的动态排行榜,推动了社区对模型性能的透明化竞争;另一方面,研究人员借鉴其多任务、多轮次评估的设计理念,开发了更具挑战性的评估基准(如MMLU、BIG-bench),旨在探索模型的极限能力。此外,该数据集还启发了关于评测数据污染检测、模型作弊行为识别等元研究,为构建更公平、更可信的AI评估生态奠定了方法论基础。
数据集最近研究
最新研究方向
当前,大语言模型评估体系的构建已成为自然语言处理领域的核心议题。该数据集作为Open LLM Leaderboard对Samantha-1.11-70b模型进行自动化评测的产物,系统性地记录了模型在ARC挑战、DROP、GSM8K、WinoGrande及涵盖57个学科的MMLU等多样化基准任务上的表现。其最新结果揭示了模型在常识推理(WinoGrande准确率达83.27%)与阅读理解(DROP的F1值为57.68%)方面的显著能力,同时暴露出数学推理(GSM8K准确率仅29.95%)等领域的短板。这一细粒度的评测数据不仅为模型迭代提供了量化依据,更推动了可复现、标准化的大模型性能对比研究,对构建透明、公正的AI能力评估生态具有里程碑式的意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作