five

open-llm-leaderboard-old/details_kaitchup__Mayonnaise-4in1-03

收藏
Hugging Face2024-01-27 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_kaitchup__Mayonnaise-4in1-03
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型kaitchup/Mayonnaise-4in1-03时自动创建的,主要用于Open LLM Leaderboard的评估。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型kaitchup/Mayonnaise-4in1-03时自动创建的,主要用于Open LLM Leaderboard的评估。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果存储为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集基本信息

数据集组成

  • 配置数量: 63个配置,每个配置对应一个评估任务
  • 创建来源: 从1次运行中创建,每个运行结果作为一个特定的分割(split)存储,分割名称使用运行的时间戳
  • 最新结果: "train"分割始终指向最新的结果
  • 汇总结果: 额外的"results"配置存储所有运行的汇总结果,用于计算和显示在Leaderboard上的聚合指标

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_kaitchup__Mayonnaise-4in1-03", "harness_winogrande_5", split="train")

最新结果

  • 最新结果时间戳: 2024-01-27T14:50:28.319468
  • 详细结果: 包含多个任务的准确率(acc)、标准化准确率(acc_norm)、以及其他指标(如mc1, mc2等)及其标准误差(stderr)

配置详情

  • 配置名称: harness_arc_challenge_25, harness_gsm8k_5, harness_hellaswag_10, harness_hendrycksTest_5等
  • 数据文件: 每个配置包含多个数据文件,路径格式为**/details_harness|任务名称|参数_时间戳.parquet
  • 分割: 包含特定时间戳的分割和最新的分割

以上内容总结了数据集的基本信息、组成、加载方式、最新结果以及配置详情,确保信息的准确性和易于理解。

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard 提供了一个标准化的评测框架。该数据集是模型 kaitchup/Mayonnaise-4in1-03 在 Open LLM Leaderboard 上自动生成的评测结果记录。其构建方式基于一次完整的评测运行,涵盖了63个不同的任务配置,每个配置对应一个特定的评估任务,如 ARC-Challenge、HellaSwag、GSM8K 以及涵盖多学科知识的 MMLU 子集。数据集将每次运行的评测结果存储为独立的拆分(split),并以运行时间戳命名,同时使用 'train' 拆分指向最新的评测数据。此外,一个名为 'results' 的独立配置汇总了所有任务的聚合指标,用于在排行榜上计算和展示最终得分。
特点
该数据集的核心特点在于其结构化的组织方式与高度的可追溯性。它通过多个配置(config)精细区分不同任务,每个配置内均包含按时间戳标记的独立拆分,使得研究者能够回溯任意一次评测的详细结果。数据格式采用 Parquet 文件,确保了大规模评测数据的高效存储与读取。数据集不仅提供了每个任务下的细粒度指标(如准确率及其标准差),还通过 'results' 配置提供了全局聚合结果,便于快速了解模型的整体表现。这种设计兼顾了微观细节与宏观概览,为模型性能的深入分析提供了坚实基础。
使用方法
使用该数据集时,研究者可通过 Hugging Face 的 datasets 库进行灵活加载。例如,调用 load_dataset 函数并指定目标配置名称(如 'harness_winogrande_5')及拆分(如 'train' 或具体的时间戳拆分),即可获取相应任务的详细评测数据。若需访问所有任务的聚合结果,则加载 'results' 配置。数据加载后,每条记录对应一个评测样本的详细信息,包括模型预测、真实标签及各类计分指标,便于进行后续的误差分析或模型改进。该数据集的设计使得研究者能够轻松复现排行榜上的结果,并深入探究模型在不同能力维度上的表现差异。
背景与挑战
背景概述
随着大语言模型(LLM)性能的飞速提升,如何系统化、标准化地评估其多样化的能力成为学界与工业界关注的焦点。在此背景下,Hugging Face团队于2023年启动了Open LLM Leaderboard项目,旨在通过公开透明的基准测试,追踪并比较各类开源模型的推理、常识、数学及知识掌握水平。该数据集记录了名为“Mayonnaise-4in1-03”的模型在2024年1月27日的一次完整评估过程,由研究员kaitchup提交,数据集本身由Hugging Face的Clementine Fournier等人维护。核心研究问题在于如何通过多维度、多任务的自动化测试,客观量化模型在如ARC挑战赛、HellaSwag、GSM8K及涵盖57个学科的MMLU等任务上的表现。该数据集不仅为模型开发者提供了可复现的评测细节,也推动了社区对模型能力的细粒度理解,成为评估基准领域的重要参考资源。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:大语言模型评测需同时应对推理(如ARC Challenge)、常识理解(如HellaSwag)、数学解题(如GSM8K)以及跨学科知识(如MMLU的57个子任务)等异构任务,任何单一指标均难以全面反映模型能力。其次,构建过程中存在显著困难:评测流程需自动化执行多轮推理,并精确记录每项任务的配置参数(如样本数量与评估方式),同时确保不同运行批次间结果的可比性。此外,数据集的存储结构需兼容63种任务配置与时间戳标记的分割,维护“latest”与历史运行记录的一致性,这对数据管道的鲁棒性提出了严苛要求。
常用场景
经典使用场景
在大型语言模型(LLM)性能评估的学术研究中,该数据集作为Open LLM Leaderboard的标准化评测结果存储库,被广泛用于复现和验证模型在多种基准任务上的表现。研究者通过加载特定配置(如arc_challenge_25或gsm8k_5)的评测细节,能够精准分析模型在常识推理、数学解题、知识问答等维度的能力。其分时间戳的组织形式支持对模型迭代过程的纵向追踪,为对比不同训练策略或架构优化方案提供了可靠的数据基础。
解决学术问题
该数据集系统性地解决了LLM评估中结果碎片化与不可复现的核心难题。通过将63个评测任务的细粒度结果(包括准确率、标准差及归一化指标)结构化存储,它使研究者能够基于统一基准开展跨模型、跨任务的横向比较。其设计消除了因评测环境差异导致的度量偏差,为分析模型在ARC挑战赛、HellaSwag等任务上的泛化能力提供了可量化的证据,推动了LLM能力图谱的标准化构建。
衍生相关工作
该数据集催生了一系列关于LLM评估方法论的重要研究。基于其结构化结果,学界发展了多任务综合评分体系(如归一化加权聚合方法),并衍生出用于分析模型规模与任务性能间标度律的实证工具。此外,数据集中包含的置信区间信息被用于构建不确定性感知的模型排名算法,而其对不同few-shot配置(如5-shot与10-shot)的区分记录,则启发了提示工程策略的优化工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作