five

open-llm-leaderboard-old/details_Locutusque__Orca-2-13b-SFT-v6

收藏
Hugging Face2023-12-30 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Locutusque__Orca-2-13b-SFT-v6
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型Locutusque/Orca-2-13b-SFT-v6时自动生成的,包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新结果。此外,results配置存储了所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型Locutusque/Orca-2-13b-SFT-v6时自动生成的,包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新结果。此外,results配置存储了所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 Locutusque/Orca-2-13b-SFT-v6 进行评估运行期间自动创建的,用于 Open LLM Leaderboard

数据集结构

  • 配置数量:63个配置,每个配置对应一个评估任务。
  • 运行次数:数据集来自1次运行。每个运行结果作为一个特定的分割存储在每个配置中,分割名称使用运行的时间戳。
  • 训练分割:"train" 分割始终指向最新的结果。
  • 结果配置:一个额外的 "results" 配置存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Locutusque__Orca-2-13b-SFT-v6", "harness_winogrande_5", split="train")

最新结果

以下是 2023-12-30T02:03:43.380204 运行的最新结果:

python { "all": { "acc": 0.5890270904640104, "acc_stderr": 0.03291493635145001, "acc_norm": 0.5988157276074748, "acc_norm_stderr": 0.033710582507890004, "mc1": 0.379436964504284, "mc1_stderr": 0.016987039266142985, "mc2": 0.5400874549545076, "mc2_stderr": 0.015468319271968397 }, "harness|arc:challenge|25": { "acc": 0.5622866894197952, "acc_stderr": 0.01449757388110829, "acc_norm": 0.6040955631399317, "acc_norm_stderr": 0.014291228393536585 }, "harness|hellaswag|10": { "acc": 0.6218880701055567, "acc_stderr": 0.004839247332606039, "acc_norm": 0.8046205935072694, "acc_norm_stderr": 0.003956821705018451 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, # 其他任务的结果... }

配置详情

  • harness_arc_challenge_25

    • 分割:2023_12_30T02_03_43.380204, latest
    • 路径:**/details_harness|arc:challenge|25_2023-12-30T02-03-43.380204.parquet
  • harness_gsm8k_5

    • 分割:2023_12_30T02_03_43.380204, latest
    • 路径:**/details_harness|gsm8k|5_2023-12-30T02-03-43.380204.parquet
  • harness_hellaswag_10

    • 分割:2023_12_30T02_03_43.380204, latest
    • 路径:**/details_harness|hellaswag|10_2023-12-30T02-03-43.380204.parquet
  • harness_hendrycksTest_5

    • 分割:2023_12_30T02_03_43.380204, latest
    • 路径:多个路径,包括 **/details_harness|hendrycksTest-abstract_algebra|5_2023-12-30T02-03-43.380204.parquet 等。
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评测领域,Open LLM Leaderboard作为权威的基准平台,为模型性能的横向对比提供了标准化框架。该数据集正是针对Locutusque/Orca-2-13b-SFT-v6模型在Leaderboard上的单次评测过程自动生成的产物。其构建方式基于一次完整的评测运行,涵盖了63个不同的评测任务配置,每个配置对应一个特定的评测任务。数据集的每个配置下均包含以时间戳命名的分割,用于存储该次运行的具体结果,而'train'分割则始终指向最新一次的评测数据。此外,数据集还特设了一个名为'results'的配置,用于汇总并存储所有任务的聚合指标,这些指标直接服务于Leaderboard上模型综合得分的计算与展示。
特点
该数据集的结构设计精巧且富有层次感,其核心特征在于以多配置形式完整复现了模型在Leaderboard上的评测全貌。63个配置分别对应ARC、HellaSwag、MMLU(涵盖57个学科)、TruthfulQA、Winogrande及GSM8K等多样化基准任务,从常识推理、知识理解到数学解题,全面覆盖了语言模型能力的评估维度。每个配置下的数据均以Parquet格式存储,确保了高效的数据读取与处理。尤为重要的是,数据集通过'latest'分割实现了对最新评测结果的动态追踪,而'results'配置则提供了宏观的聚合视角,使得用户既能深入微观任务细节,又能把握模型整体表现,这种微观与宏观相结合的设计赋予了数据集极高的分析价值。
使用方法
使用该数据集进行模型性能分析时,研究者可以通过Hugging Face的datasets库便捷地加载所需数据。具体而言,利用load_dataset函数,指定数据集名称与目标配置(例如'harness_winogrande_5'),并选择'split'参数为'train',即可获取该任务的最新评测详情。对于需要历史数据对比的场景,则可选用对应时间戳的分割名称。此外,'results'配置的加载方式与之类似,能够直接获取所有任务的聚合结果。这种灵活的数据访问机制,使得研究者能够依据自身需求,轻松实现对模型在特定任务上的细粒度评估或跨任务的综合性能分析,极大地便利了模型能力的深度剖析与比较研究。
背景与挑战
背景概述
随着大规模语言模型(LLM)的蓬勃发展,如何系统性地评估其多维能力成为自然语言处理领域的重要课题。Open LLM Leaderboard由HuggingFace于2023年发起,旨在为开源社区提供一个标准化、透明化的模型性能评测平台。该数据集记录了Locutusque/Orca-2-13b-SFT-v6模型在2023年12月30日的评估结果,涵盖63个细分任务配置,包括ARC挑战赛、HellaSwag、GSM8K、TruthfulQA及涵盖57个学科的MMLU基准测试。作为社区协作的典范,该数据集不仅反映了Orca-2-13b微调版本在常识推理、数学计算及多领域知识上的表现,更推动了LLM评估范式的民主化进程,为研究者提供了可复现的对比基准。
当前挑战
该数据集所解决的领域问题在于构建一个覆盖广泛、粒度细致的LLM能力评估体系。具体挑战包括:1)多任务异构性——需同时处理推理、知识、数学等不同维度的评测,确保各任务间的评分标准与难度平衡;2)数据构建过程中,需将原始模型输出转化为结构化Parquet格式,并自动关联63个配置与时间戳分片,保证评估结果的可追溯性与增量更新能力;3)面对如GSM8K仅5.08%的准确率,需解释模型在数学推理上的显著短板,揭示现有微调策略在符号计算任务中的局限性。
常用场景
经典使用场景
在大型语言模型的评估体系中,Open LLM Leaderboard 的细粒度评测数据构成了衡量模型综合能力的黄金标准。该数据集专为 Orca-2-13b-SFT-v6 模型的系统性评估而设计,涵盖了从 ARC Challenge 的常识推理、HellaSwag 的情境理解到 GSM8K 的数学求解等 63 项多样化任务。研究者通过加载特定配置(如 harness_winogrande_5)与时间戳划分,能够精准复现模型在每项基准上的表现,从而实现对模型推理、知识掌握与生成质量的深度剖析。这一标准化流程不仅为模型迭代提供了量化依据,更在开源社区中树立了可复现评估的典范。
衍生相关工作
该数据集衍生了一系列关于模型评估标准化与性能基准的重要工作。它作为 Open LLM Leaderboard 生态的一部分,催生了诸如 EleutherAI 的 lm-evaluation-harness 框架的广泛采用,并推动了多任务评测数据集的统一管理方法。后续研究如《Scaling Monosemanticity》等,借鉴了其细粒度任务划分思路,深入探讨模型内部表示与评测指标间的关联。此外,基于该数据集的结果分析,涌现出针对特定任务(如数学推理)的改进策略,例如通过链式思考提示(Chain-of-Thought)或指令微调来提升 GSM8K 等难题的表现,进一步丰富了语言模型优化的技术路线。
数据集最近研究
最新研究方向
在大型语言模型评测领域,Open LLM Leaderboard已成为衡量模型综合能力的重要基准。针对Locutusque/Orca-2-13b-SFT-v6这一经过监督微调的13B参数模型,该数据集记录了其在63项任务上的详尽评估结果,涵盖ARC、HellaSwag、MMLU、TruthfulQA、Winogrande及GSM8K等核心基准。当前研究热点聚焦于通过细粒度任务分析揭示模型在常识推理、知识问答与数学求解中的表现差异,尤其关注其在高阶推理任务如GSM8K上准确率仅5.08%的局限性,这为后续优化提供了明确方向。该数据集不仅推动了模型透明化评估的标准化进程,更促使学界重新审视微调策略对泛化能力的影响,对构建更鲁棒的LLM评估体系具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作