five

open-llm-leaderboard-old/details_Korabbit__Llama-2-7b-chat-hf-afr-300step-flan-v2

收藏
Hugging Face2023-12-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Korabbit__Llama-2-7b-chat-hf-afr-300step-flan-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由63个配置组成,每个配置对应一个被评估的任务。它由1次运行创建,每次运行在每个配置中作为一个特定的分割找到,分割使用运行的时间戳命名。train 分割始终指向最新结果。一个额外的配置 results 存储了运行的所有聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 代码加载运行中的详细信息的示例,并包含了特定运行的最新结果。

该数据集是在模型 Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由63个配置组成,每个配置对应一个被评估的任务。它由1次运行创建,每次运行在每个配置中作为一个特定的分割找到,分割使用运行的时间戳命名。train 分割始终指向最新结果。一个额外的配置 results 存储了运行的所有聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 代码加载运行中的详细信息的示例,并包含了特定运行的最新结果。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集名称

Evaluation run of Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2

数据集摘要

该数据集是在模型 Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集组成

  • 数据集包含 63 个配置,每个配置对应一个评估任务。
  • 数据集从 1 次运行中创建。每个运行可以在每个配置中作为一个特定的分片找到,分片名称使用运行的时间戳。
  • "train" 分片始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Korabbit__Llama-2-7b-chat-hf-afr-300step-flan-v2", "harness_winogrande_5", split="train")

最新结果

这些是最新结果的示例: python { "all": { "acc": 0.4858318036904494, "acc_stderr": 0.03428773546743271, "acc_norm": 0.4907011751374352, "acc_norm_stderr": 0.03504506485866877, "mc1": 0.29865361077111385, "mc1_stderr": 0.016021570613768545, "mc2": 0.45138129313940284, "mc2_stderr": 0.015562220951147801 }, "harness|arc:challenge|25": { "acc": 0.49146757679180886, "acc_stderr": 0.014609263165632191, "acc_norm": 0.5255972696245734, "acc_norm_stderr": 0.014592230885298964 }, "harness|hellaswag|10": { "acc": 0.5911173073093009, "acc_stderr": 0.004906227902850758, "acc_norm": 0.7776339374626569, "acc_norm_stderr": 0.004149859300604911 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.28, "acc_stderr": 0.04512608598542129, "acc_norm": 0.28, "acc_norm_stderr": 0.04512608598542129 }, # 其他任务的结果... }

配置详情

  • config_name: harness_arc_challenge_25

    • split: 2023_12_06T16_40_21.068162
      • path: **/details_harness|arc:challenge|25_2023-12-06T16-40-21.068162.parquet
    • split: latest
      • path: **/details_harness|arc:challenge|25_2023-12-06T16-40-21.068162.parquet
  • config_name: harness_gsm8k_5

    • split: 2023_12_06T16_40_21.068162
      • path: **/details_harness|gsm8k|5_2023-12-06T16-40-21.068162.parquet
    • split: latest
      • path: **/details_harness|gsm8k|5_2023-12-06T16-40-21.068162.parquet
  • config_name: harness_hellaswag_10

    • split: 2023_12_06T16_40_21.068162
      • path: **/details_harness|hellaswag|10_2023-12-06T16-40-21.068162.parquet
    • split: latest
      • path: **/details_harness|hellaswag|10_2023-12-06T16-40-21.068162.parquet
  • config_name: harness_hendrycksTest_5

    • split: 2023_12_06T16_40_21.068162
      • path:
        • **/details_harness|hendrycksTest-abstract_algebra|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-anatomy|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-astronomy|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-business_ethics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_biology|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_chemistry|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_computer_science|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_mathematics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_medicine|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-college_physics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-computer_security|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-conceptual_physics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-econometrics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-electrical_engineering|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-12-06T16-40-21.068162.parquet
        • **/details_harness|hendrycksTest-formal_logic|5_2023-12-06T16-40-21.068162.parquet

        其他路径...

}

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard评测框架下,针对Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2模型自动生成的评估记录。数据集包含63个配置项,每个配置对应一个独立的评测任务,如ARC-Challenge、HellaSwag、GSM8K等。所有数据源自单次评测运行,每次运行的结果以时间戳命名的分割(split)形式存储于各配置中,其中“train”分割始终指向最新一次的评测结果。此外,还设有专门的“results”配置,用于汇总并展示本次运行的整体聚合指标。
特点
本数据集的一个显著特点在于其结构化的任务划分与版本管理机制。每个评测任务独立成配置,便于用户按需加载特定任务的细粒度结果。时间戳分割的设计使得历史评测记录得以完整保留,支持对模型性能演变的追溯分析。数据以Parquet格式存储,兼顾了高效读写与跨平台兼容性。评测指标涵盖准确率(acc)、标准化准确率(acc_norm)及多项选择题的mc1/mc2等,全面反映了模型在推理、常识、数学等多维度的能力。
使用方法
用户可通过HuggingFace的datasets库便捷地加载数据集。例如,使用load_dataset函数指定数据集名称与目标配置(如“harness_winogrande_5”),并选择“train”分割即可获取最新评测结果。若需回溯历史数据,则可指定对应的时间戳分割。此外,通过读取“results”配置中的JSON文件,用户能直接获得所有任务的聚合指标,便于快速评估模型整体表现。这一设计极大简化了模型评测数据的访问与分析流程。
背景与挑战
背景概述
随着大语言模型(LLM)在自然语言处理领域的广泛应用,如何系统性地评估其多维度能力成为研究焦点。Open LLM Leaderboard由HuggingFace团队于2023年发起,旨在为开源社区提供一个标准化、可复现的模型评测基准。该数据集记录了模型Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2在2023年12月6日进行的单次评测运行结果,涵盖ARC-Challenge、HellaSwag、MMLU(涵盖57个学科)、TruthfulQA、Winogrande和GSM8K等63个任务配置。这些任务从常识推理、知识掌握、数学逻辑到事实一致性,全面刻画了模型在零样本与少样本场景下的泛化能力。该数据集的核心研究问题在于,通过细粒度的任务分解与标准化评测流程,揭示预训练模型在特定领域(如非洲语言微调后)的性能表现,从而为模型优化提供可量化的参考依据。其影响力体现在为社区提供了透明、可复现的模型对比工具,推动了开源LLM的公平竞争与迭代进步。
当前挑战
该数据集所面对的领域挑战在于,大语言模型的评测需要覆盖从基础语言理解到复杂推理的广泛能力,而现有基准如MMLU虽涵盖多学科,却难以完全反映模型在低资源语言或特定文化语境下的表现。例如,模型在GSM8K数学推理任务中仅获17.97%的准确率,凸显了逻辑链推导能力的不足;而在TruthfulQA事实一致性任务中,MC1得分仅29.87%,揭示了模型生成内容与事实对齐的脆弱性。从构建过程来看,挑战主要包括:一是评测任务配置的标准化,需确保不同模型在相同超参数(如少样本数量)下可比;二是数据格式的统一,该数据集采用parquet文件存储63个独立配置,增加了跨任务聚合分析的复杂性;三是评测结果的时效性与可复现性,单次运行结果可能受随机性影响,需多轮迭代以降低方差,而当前数据集仅包含一次运行记录,限制了统计稳健性。
常用场景
经典使用场景
该数据集作为Open LLM Leaderboard评测流程的副产品,记录了模型Korabbit/Llama-2-7b-chat-hf-afr-300step-flan-v2在63个自然语言理解与推理任务上的详细表现。其经典使用场景在于为研究者提供细粒度的模型性能剖析,涵盖ARC挑战集、HellaSwag、Winogrande、GSM8K以及涵盖57个学科的MMLU基准测试,支持通过编程接口按任务配置加载评估结果,便于复现实验、对比不同训练策略对模型能力的影响。
实际应用
在实际应用中,该数据集服务于模型选型与优化决策。开发团队可依据其细粒度指标,筛选在特定领域表现优异的模型版本用于下游任务,例如在教育场景中选用MMLU高分模型辅助习题生成,或在智能客服中采用Winogrande表现稳健的模型进行歧义消解。此外,该数据集的持续更新机制支持对模型迭代效果的动态追踪,成为工业级模型部署前质量门禁的核心参考。
衍生相关工作
该数据集衍生了一系列关于模型评估方法论与多语言迁移学习的研究工作。基于其结构化结果,研究者提出了任务难度加权聚合指标以替代简单平均,并发展了针对低资源语言模型的跨任务知识迁移分析框架。此外,该数据集成为Llama系列模型在非洲语言微调效果评估的关键证据,催生了关于指令微调数据规模与多样性对泛化能力影响的系统性探讨,为后续Flan-T5等模型的优化提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作