five

open-llm-leaderboard-old/details_Undi95__MXLewd-L2-20B

收藏
Hugging Face2023-10-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Undi95__MXLewd-L2-20B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 Undi95/MXLewd-L2-20B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成,每个配置对应一个被评估的任务。数据集是从 2 次运行中创建的,每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了一个示例,展示了如何使用 `datasets` 库中的 `load_dataset` 函数加载运行中的详细信息。

该数据集是在模型 Undi95/MXLewd-L2-20B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成,每个配置对应一个被评估的任务。数据集是从 2 次运行中创建的,每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了一个示例,展示了如何使用 `datasets` 库中的 `load_dataset` 函数加载运行中的详细信息。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集来源

数据集结构

  • 数据集包含 64 个配置,每个配置对应一个评估任务。
  • 数据集由 2 次运行创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train" 分割始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Undi95__MXLewd-L2-20B", "harness_winogrande_5", split="train")

最新结果

  • 这些是最新的结果,来自 2023-10-26T15:01:29.901026 的运行: python { "all": { "em": 0.0759228187919463, "em_stderr": 0.002712563641278116, "f1": 0.1446036073825498, "f1_stderr": 0.0029538450645220115, "acc": 0.43501301181864477, "acc_stderr": 0.01028931557267752 }, "harness|drop|3": { "em": 0.0759228187919463, "em_stderr": 0.002712563641278116, "f1": 0.1446036073825498, "f1_stderr": 0.0029538450645220115 }, "harness|gsm8k|5": { "acc": 0.10917361637604246, "acc_stderr": 0.008590089300511132 }, "harness|winogrande|5": { "acc": 0.760852407261247, "acc_stderr": 0.01198854184484391 } }

配置详情

  • harness_arc_challenge_25

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|arc:challenge|25_2023-10-03T17-32-13.142085.parquet
  • harness_drop_3

    • 分割: 2023_10_26T15_01_29.901026, latest
    • 路径: **/details_harness|drop|3_2023-10-26T15-01-29.901026.parquet
  • harness_gsm8k_5

    • 分割: 2023_10_26T15_01_29.901026, latest
    • 路径: **/details_harness|gsm8k|5_2023-10-26T15-01-29.901026.parquet
  • harness_hellaswag_10

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hellaswag|10_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: 多个路径,例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_abstract_algebra_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_anatomy_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-anatomy|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_astronomy_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-astronomy|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_business_ethics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-business_ethics|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_clinical_knowledge_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_biology_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_biology|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_chemistry_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_chemistry|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_computer_science_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_computer_science|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_mathematics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_mathematics|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_medicine_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_medicine|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_college_physics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-college_physics|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_computer_security_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-computer_security|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_conceptual_physics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_econometrics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-econometrics|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_electrical_engineering_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-03T17-32-13.142085.parquet
  • harness_hendrycksTest_elementary_mathematics_5

    • 分割: 2023_10_03T17_32_13.142085, latest
    • 路径: **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-03T17-32-13.142085.parquet

以上是数据集的详细概述,包括数据集的来源、结构、加载示例、最新结果以及各个配置的详细信息。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard框架下,对Undi95/MXLewd-L2-20B模型进行自动化评估的过程中生成的。数据集由64个配置组成,每个配置对应一个评估任务,这些任务涵盖ARC挑战、DROP、GSM8K、HellaSwag、MMLU等多个基准测试。数据来源于两次独立的评估运行,每次运行的结果以时间戳命名并作为独立的split存储,而'train' split始终指向最新一次运行的结果。此外,存在一个名为'results'的额外配置,用于汇总所有运行的聚合指标,并支撑Leaderboard上的指标计算与展示。
特点
数据集的核心特征在于其结构化的评估记录方式,能够清晰追溯模型在不同任务和不同时间点上的性能表现。每个配置下的split均以运行时间戳命名,确保了历史结果的可复现性与版本管理。'train' split的动态更新机制使用户能便捷获取最新评估数据。同时,'results'配置提供了跨任务的统一汇总视角,便于进行全局性能分析。数据集以Parquet格式存储,支持高效的数据加载与处理,适合大规模机器学习研究场景。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集。具体而言,使用load_dataset函数并指定数据集名称、目标配置名称(如'harness_winogrande_5')以及split参数(如'train')即可获取特定任务的最新评估细节。此外,通过选择以时间戳命名的split,用户可以访问历史运行结果,进行纵向性能对比。对于需要聚合分析的需求,可加载'results'配置,获取所有任务的综合指标,从而支持模型能力的全面评估与基准比较。
背景与挑战
背景概述
随着大语言模型(LLM)的蓬勃发展,如何公平、全面地评估其性能成为了自然语言处理领域的核心议题。Open LLM Leaderboard由HuggingFace团队(主要联系人为Clémentine Fourrier)于2023年创建,旨在为社区提供一个标准化、透明化的模型评测平台。该数据集是Leaderboard对模型Undi95/MXLewd-L2-20B进行自动化评估的产物,记录了该模型在ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的大规模多任务语言理解(MMLU)基准上的详细表现。通过将评测结果结构化为64个配置项,该数据集不仅服务于特定模型的性能分析,更推动了LLM评测流程的规范化与可复现性,成为衡量模型在推理、常识、数学及专业知识等多维度能力的标杆性资源。
当前挑战
该数据集所面临的挑战深刻反映了当前LLM评测领域的核心难题。在领域问题层面,模型在GSM8K数学推理任务上仅取得约10.9%的准确率,揭示了其在复杂逻辑与数学计算方面的显著短板;而DROP阅读理解任务中较低的F1分数(约14.5%)则凸显了模型在精确信息抽取与数值推理上的局限性。在构建过程中,数据集需整合来自不同时间戳的多次评测运行(如2023年10月3日与10月26日),确保各配置项中“latest”分片始终指向最新结果,这对数据版本控制与一致性维护提出了严苛要求。此外,涵盖57个学科的MMLU评测配置涉及海量细粒度数据文件,如何高效管理、加载并避免评测结果间的潜在冲突,构成了工程实现上的另一重挑战。
常用场景
经典使用场景
在大型语言模型评估领域,该数据集扮演着基准测试记录者的关键角色。它系统性地存储了MXLewd-L2-20B模型在Open LLM Leaderboard上多个标准评测任务中的表现细节,涵盖ARC挑战、DROP、GSM8K、HellaSwag、WinoGrande及涵盖57个学科的MMLU评测集。研究者可通过加载特定配置与时间戳切片,追溯模型在各项任务中的精确得分与误差范围,从而实现对模型能力的细粒度剖析与跨模型横向比较。
衍生相关工作
该数据集衍生了一系列关于模型评估方法论的研究工作。基于其提供的细粒度评测数据,后续工作探索了评测任务难度与模型规模之间的缩放规律,分析了不同采样策略对评测结果稳定性的影响。此外,研究者利用该数据集中的多轮评测记录,构建了模型退化检测框架,并开发了可视化分析工具,使模型能力变化趋势得以直观呈现,进一步丰富了开源评测生态的技术栈。
数据集最近研究
最新研究方向
当前,大语言模型评估体系正经历从单一基准测试向多维、细粒度能力剖析的深刻转型。在此背景下,open-llm-leaderboard 数据集作为开源模型性能的标准化评测平台,其研究前沿聚焦于构建覆盖常识推理(如Winogrande)、数学求解(GSM8K)、阅读理解(DROP)及多学科知识(MMLU)等领域的综合性评估框架。该数据集通过记录MXLewd-L2-20B等模型的64项任务配置与多次运行结果,揭示了模型在不同能力维度上的表现差异与稳定性,为社区提供了可复现的评估基准。其意义在于推动模型开发从“刷榜”竞赛转向对推理鲁棒性、知识广度及领域适应性的深度探究,进而引导大语言模型向更安全、更可靠的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作