five

open-llm-leaderboard-old/details_Aspik101__vicuna-7b-v1.3-instruct-pl-lora_unload

收藏
Hugging Face2023-09-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Aspik101__vicuna-7b-v1.3-instruct-pl-lora_unload
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Leaderboard上对模型Aspik101/vicuna-7b-v1.3-instruct-pl-lora_unload进行评估时自动生成的。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行在每个配置中表示为特定的分割,分割名称由运行的时间戳命名。train分割始终指向最新的结果。此外,名为results的配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Hugging Face datasets库加载运行中的详细信息的示例。

该数据集是在Open LLM Leaderboard上对模型Aspik101/vicuna-7b-v1.3-instruct-pl-lora_unload进行评估时自动生成的。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行在每个配置中表示为特定的分割,分割名称由运行的时间戳命名。train分割始终指向最新的结果。此外,名为results的配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Hugging Face datasets库加载运行中的详细信息的示例。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集来源

该数据集是在评估模型 Aspik101/vicuna-7b-v1.3-instruct-pl-lora_unloadOpen LLM Leaderboard 上的自动创建的。

数据集结构

  • 数据集包含 64 个配置,每个配置对应一个评估任务。
  • 数据集从 2 次运行中创建,每次运行可以在每个配置中找到特定的拆分,拆分名称使用运行的时间戳。
  • "train" 拆分始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Aspik101__vicuna-7b-v1.3-instruct-pl-lora_unload", "harness_winogrande_5", split="train")

最新结果

以下是 2023-09-23T04:12:47.025545 运行的最新结果: python { "all": { "em": 0.002307046979865772, "em_stderr": 0.0004913221265094532, "f1": 0.05567638422818793, "f1_stderr": 0.001338509283292818, "acc": 0.38151825095307307, "acc_stderr": 0.009759837355311614 }, "harness|drop|3": { "em": 0.002307046979865772, "em_stderr": 0.0004913221265094532, "f1": 0.05567638422818793, "f1_stderr": 0.001338509283292818 }, "harness|gsm8k|5": { "acc": 0.0621683093252464, "acc_stderr": 0.00665103564453169 }, "harness|winogrande|5": { "acc": 0.7008681925808997, "acc_stderr": 0.012868639066091536 } }

配置详情

  • harness_arc_challenge_25

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|arc:challenge|25_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|arc:challenge|25_2023-07-25T09:51:14.882748.parquet
  • harness_drop_3

    • 拆分:2023_09_23T04_12_47.025545
    • 路径:**/details_harness|drop|3_2023-09-23T04-12-47.025545.parquet
    • 拆分:latest
    • 路径:**/details_harness|drop|3_2023-09-23T04-12-47.025545.parquet
  • harness_gsm8k_5

    • 拆分:2023_09_23T04_12_47.025545
    • 路径:**/details_harness|gsm8k|5_2023-09-23T04-12-47.025545.parquet
    • 拆分:latest
    • 路径:**/details_harness|gsm8k|5_2023-09-23T04-12-47.025545.parquet
  • harness_hellaswag_10

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hellaswag|10_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hellaswag|10_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-07-25T09:51:14.882748.parquet 等 40 个文件
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-07-25T09:51:14.882748.parquet 等 40 个文件
  • harness_hendrycksTest_abstract_algebra_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_anatomy_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_astronomy_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_business_ethics_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_clinical_knowledge_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_biology_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_chemistry_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_computer_science_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_mathematics_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_medicine_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_college_physics_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_computer_security_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_conceptual_physics_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_econometrics_5

    • 拆分:2023_07_25T09_51_14.882748
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-07-25T09:51:14.882748.parquet
    • 拆分:latest
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-07-25T09:51:14.882748.parquet
  • harness_hendrycksTest_electrical_engineering_5

    • 拆分:2023_07_25T09
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,该数据集是专为记录和追踪模型性能而构建的。其构建过程源于对模型Aspik101/vicuna-7b-v1.3-instruct-pl-lora_unload在Open LLM Leaderboard上的自动化评估。数据集由64个配置组成,每个配置对应一个评估任务,记录了两次运行的详细结果。每次运行的结果以时间戳命名的分割形式独立存储,而'train'分割则始终指向最新的评估结果。此外,还包含一个名为'results'的额外配置,用于汇总所有运行的聚合指标,为排行榜上的综合性能展示提供数据基础。
特点
该数据集最显著的特点在于其精细化的任务划分与版本管理机制。通过64个独立配置,每个配置精准对应一个评估任务,如ARC挑战赛、DROP、GSM8K等,实现了对模型在多元场景下能力的细致刻画。每次运行的结果均以时间戳为标识独立保存,确保了评估过程的可追溯性与历史对比的便利性。'train'分割动态指向最新结果,而'results'配置则整合了全部运行的聚合数据,为研究者提供了从微观任务细节到宏观性能概览的多层次分析视角。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库便捷加载。例如,加载'harness_winogrande_5'配置的最新结果,只需指定配置名称与分割为'train',即可获取该任务的最新评估细节。对于需要深入分析每次运行结果的情况,可以按时间戳分割名称加载特定历史数据。此外,'results'配置提供了所有任务的聚合指标,便于进行整体性能评估与模型间比较,从而支持从单任务分析到综合排名的全方位研究需求。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的迅猛发展,如何系统性地评估其综合能力成为学界与工业界的核心议题。Open LLM Leaderboard由Hugging Face团队于2023年发起,旨在构建一个标准化、可复现的评测框架,以衡量各类开源模型在推理、常识、数学及多学科知识等维度上的表现。该数据集作为评测记录的一部分,存储了针对Aspik101/vicuna-7b-v1.3-instruct-pl-lora_unload模型的详细评估结果,涵盖ARC-Challenge、HellaSwag、MMLU、GSM8K等主流基准任务。通过汇总多次运行的细粒度指标,该数据集为研究者提供了透明的模型性能比对基准,推动了开源社区对模型能力的深入理解与迭代优化。
当前挑战
当前数据集面临的核心挑战包括:其一,评测任务覆盖广度与深度的平衡问题,尽管已包含57项MMLU子任务,但部分领域(如低资源语言、多模态理解)仍存在空白,难以全面反映模型的真实泛化能力。其二,评测结果的可重复性与公平性,不同运行轮次间因硬件环境、随机种子等差异可能导致指标波动,需建立更严格的标准化流程。其三,构建过程中数据格式的异构性,各任务评测日志需统一转换为parquet格式并维护多版本快照,增加了数据整合与版本控制的复杂度。此外,随着模型规模与数量的激增,如何高效扩展评测流水线并降低计算成本,亦是亟待突破的瓶颈。
常用场景
经典使用场景
在大型语言模型的评估与基准测试领域,该数据集扮演着关键角色。它专为记录和归档模型在Open LLM Leaderboard上的评测结果而设计,涵盖了如ARC挑战、DROP、GSM8K、HellaSwag及MMLU等多种经典任务的细粒度性能指标。研究人员可借此对特定模型——例如波兰语指令微调的vicuna-7b变体——进行多维度能力剖析,通过加载各任务配置下的详尽数据,精准洞察模型在常识推理、数学求解、阅读理解等维度的表现优劣。
衍生相关工作
该数据集衍生了一系列围绕模型评测体系优化的经典工作。例如,研究者基于其存储的细粒度评测数据,开发出更精准的模型能力雷达图与排名算法;同时,它也催生了针对低资源语言模型(如波兰语)的专项评估研究,推动了多语言模型公平性评估框架的建立。此外,该数据集的架构启发了后续多个自动化评测平台的设计,成为模型性能追踪与比较的标准化基石。
数据集最近研究
最新研究方向
该数据集聚焦于开源大语言模型(LLM)在标准化基准上的性能评估与优化,是近年来大模型领域研究热点——模型能力量化与对比分析——的关键载体。随着Vicuna等指令微调模型的涌现,研究者借助Open LLM Leaderboard平台,系统性地记录并公开了如vicuna-7b-v1.3-instruct-pl-lora_unload等模型在ARC、HellaSwag、MMLU、GSM8K等多项任务上的细粒度表现。这一数据集合的发布,为社区提供了可复现的评测基线,推动了低秩适配(LoRA)等高效微调技术的效果验证。其意义在于,通过透明化的评估流程与多维度指标(如准确率、F1值),加速了模型改进的迭代周期,并促进了多语言、多任务场景下LLM能力的公平比较,为后续研究如模型鲁棒性、领域适配及推理能力提升奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作