open-llm-leaderboard-old/details_Undi95__MXLewd-L2-20B

Name: open-llm-leaderboard-old/details_Undi95__MXLewd-L2-20B
Creator: open-llm-leaderboard-old
Published: 2023-10-26 15:01:43
License: 暂无描述

Hugging Face2023-10-26 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Undi95__MXLewd-L2-20B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 Undi95/MXLewd-L2-20B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成，每个配置对应一个被评估的任务。数据集是从 2 次运行中创建的，每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了一个示例，展示了如何使用 `datasets` 库中的 `load_dataset` 函数加载运行中的详细信息。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集来源

数据集是在评估模型 Undi95/MXLewd-L2-20B 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集结构

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集由 2 次运行创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Undi95__MXLewd-L2-20B", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|arc:challenge|25_2023-10-03T17-32-13.142085.parquet
harness_drop_3
- 分割: 2023_10_26T15_01_29.901026, latest
- 路径: **/details_harness|drop|3_2023-10-26T15-01-29.901026.parquet
harness_gsm8k_5
- 分割: 2023_10_26T15_01_29.901026, latest
- 路径: **/details_harness|gsm8k|5_2023-10-26T15-01-29.901026.parquet
harness_hellaswag_10
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hellaswag|10_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: 多个路径，例如 **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_abstract_algebra_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_anatomy_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-anatomy|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_astronomy_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-astronomy|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_business_ethics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-business_ethics|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_clinical_knowledge_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_biology_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_biology|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_chemistry_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_chemistry|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_computer_science_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_computer_science|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_mathematics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_mathematics|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_medicine_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_medicine|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_college_physics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-college_physics|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_computer_security_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-computer_security|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_conceptual_physics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_econometrics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-econometrics|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_electrical_engineering_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-03T17-32-13.142085.parquet
harness_hendrycksTest_elementary_mathematics_5
- 分割: 2023_10_03T17_32_13.142085, latest
- 路径: **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-03T17-32-13.142085.parquet

以上是数据集的详细概述，包括数据集的来源、结构、加载示例、最新结果以及各个配置的详细信息。

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard框架下，对Undi95/MXLewd-L2-20B模型进行自动化评估的过程中生成的。数据集由64个配置组成，每个配置对应一个评估任务，这些任务涵盖ARC挑战、DROP、GSM8K、HellaSwag、MMLU等多个基准测试。数据来源于两次独立的评估运行，每次运行的结果以时间戳命名并作为独立的split存储，而'train' split始终指向最新一次运行的结果。此外，存在一个名为'results'的额外配置，用于汇总所有运行的聚合指标，并支撑Leaderboard上的指标计算与展示。

特点

数据集的核心特征在于其结构化的评估记录方式，能够清晰追溯模型在不同任务和不同时间点上的性能表现。每个配置下的split均以运行时间戳命名，确保了历史结果的可复现性与版本管理。'train' split的动态更新机制使用户能便捷获取最新评估数据。同时，'results'配置提供了跨任务的统一汇总视角，便于进行全局性能分析。数据集以Parquet格式存储，支持高效的数据加载与处理，适合大规模机器学习研究场景。

使用方法

用户可通过HuggingFace的datasets库轻松加载该数据集。具体而言，使用load_dataset函数并指定数据集名称、目标配置名称（如'harness_winogrande_5'）以及split参数（如'train'）即可获取特定任务的最新评估细节。此外，通过选择以时间戳命名的split，用户可以访问历史运行结果，进行纵向性能对比。对于需要聚合分析的需求，可加载'results'配置，获取所有任务的综合指标，从而支持模型能力的全面评估与基准比较。

背景与挑战

背景概述

随着大语言模型（LLM）的蓬勃发展，如何公平、全面地评估其性能成为了自然语言处理领域的核心议题。Open LLM Leaderboard由HuggingFace团队（主要联系人为Clémentine Fourrier）于2023年创建，旨在为社区提供一个标准化、透明化的模型评测平台。该数据集是Leaderboard对模型Undi95/MXLewd-L2-20B进行自动化评估的产物，记录了该模型在ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的大规模多任务语言理解（MMLU）基准上的详细表现。通过将评测结果结构化为64个配置项，该数据集不仅服务于特定模型的性能分析，更推动了LLM评测流程的规范化与可复现性，成为衡量模型在推理、常识、数学及专业知识等多维度能力的标杆性资源。

当前挑战

该数据集所面临的挑战深刻反映了当前LLM评测领域的核心难题。在领域问题层面，模型在GSM8K数学推理任务上仅取得约10.9%的准确率，揭示了其在复杂逻辑与数学计算方面的显著短板；而DROP阅读理解任务中较低的F1分数（约14.5%）则凸显了模型在精确信息抽取与数值推理上的局限性。在构建过程中，数据集需整合来自不同时间戳的多次评测运行（如2023年10月3日与10月26日），确保各配置项中“latest”分片始终指向最新结果，这对数据版本控制与一致性维护提出了严苛要求。此外，涵盖57个学科的MMLU评测配置涉及海量细粒度数据文件，如何高效管理、加载并避免评测结果间的潜在冲突，构成了工程实现上的另一重挑战。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集扮演着基准测试记录者的关键角色。它系统性地存储了MXLewd-L2-20B模型在Open LLM Leaderboard上多个标准评测任务中的表现细节，涵盖ARC挑战、DROP、GSM8K、HellaSwag、WinoGrande及涵盖57个学科的MMLU评测集。研究者可通过加载特定配置与时间戳切片，追溯模型在各项任务中的精确得分与误差范围，从而实现对模型能力的细粒度剖析与跨模型横向比较。

衍生相关工作

该数据集衍生了一系列关于模型评估方法论的研究工作。基于其提供的细粒度评测数据，后续工作探索了评测任务难度与模型规模之间的缩放规律，分析了不同采样策略对评测结果稳定性的影响。此外，研究者利用该数据集中的多轮评测记录，构建了模型退化检测框架，并开发了可视化分析工具，使模型能力变化趋势得以直观呈现，进一步丰富了开源评测生态的技术栈。

数据集最近研究