open-llm-leaderboard-old/details_AlekseyKorshuk__chatml-pyg-v1

Name: open-llm-leaderboard-old/details_AlekseyKorshuk__chatml-pyg-v1
Creator: open-llm-leaderboard-old
Published: 2023-09-16 21:01:06
License: 暂无描述

Hugging Face2023-09-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_AlekseyKorshuk__chatml-pyg-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 AlekseyKorshuk/chatml-pyg-v1 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成，每个配置对应一个特定的评估任务。数据集由 2 次运行生成，每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库中的 `load_dataset` 函数加载数据集的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在对模型 AlekseyKorshuk/chatml-pyg-v1 进行评估运行期间自动创建的，评估结果展示在 Open LLM Leaderboard 上。

数据集组成

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 2 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示聚合指标在 Open LLM Leaderboard 上。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_AlekseyKorshuk__chatml-pyg-v1", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_07_18T19_38_34.758007
  - 路径: **/details_harness|arc:challenge|25_2023-07-18T19:38:34.758007.parquet
- 分割: latest
  - 路径: **/details_harness|arc:challenge|25_2023-07-18T19:38:34.758007.parquet
harness_drop_3
- 分割: 2023_09_16T21_00_54.207494
  - 路径: **/details_harness|drop|3_2023-09-16T21-00-54.207494.parquet
- 分割: latest
  - 路径: **/details_harness|drop|3_2023-09-16T21-00-54.207494.parquet
harness_gsm8k_5
- 分割: 2023_09_16T21_00_54.207494
  - 路径: **/details_harness|gsm8k|5_2023-09-16T21-00-54.207494.parquet
- 分割: latest
  - 路径: **/details_harness|gsm8k|5_2023-09-16T21-00-54.207494.parquet
harness_hellaswag_10
- 分割: 2023_07_18T19_38_34.758007
  - 路径: **/details_harness|hellaswag|10_2023-07-18T19:38:34.758007.parquet
- 分割: latest
  - 路径: **/details_harness|hellaswag|10_2023-07-18T19:38:34.758007.parquet
harness_hendrycksTest_5
- 分割: 2023_07_18T19_38_34.758007
  - 路径:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-international_law|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-management|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-marketing|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2023-07-18T19:38:34.758007.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2023-07-18T19:38:34.758007.parquet
    - `**/details_harness|hendrycksTest-professional_law|5_2023-07-18T19:38:34.7580

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard框架下，针对模型AlekseyKorshuk/chatml-pyg-v1执行评估任务时自动生成的。其构建过程依托于两次独立的评估运行，每次运行均对应一个以时间戳命名的数据分割。数据集由64个配置组成，每个配置对应一项被评估的特定任务。此外，还包含一个名为“results”的附加配置，用于存储所有运行的聚合结果，以便在Leaderboard上计算和展示综合指标。数据以Parquet格式存储，并通过Hugging Face Datasets库进行管理和加载。

特点

该数据集的核心特点在于其结构化的多任务评估体系。它涵盖了从常识推理（如Winogrande）到数学问题求解（如GSM8K）再到领域知识测试（如HendrycksTest系列中的57个子任务）等多种类型的评估任务，共计64个独立配置。每个配置均包含按时间戳区分的运行记录，其中“latest”分割始终指向最新一次评估的结果。这种设计使得研究者能够追溯模型性能的演变过程，同时方便地获取最新指标。数据集中还提供了详细的统计指标，如准确率（acc）、精确匹配率（em）和F1分数及其标准误差，为模型性能的量化分析提供了丰富依据。

使用方法

使用该数据集时，研究者可通过Hugging Face Datasets库中的load_dataset函数进行加载。需指定数据集名称“open-llm-leaderboard/details_AlekseyKorshuk__chatml-pyg-v1”，并选择所需的配置名称（如“harness_winogrande_5”）和数据分割（如“train”以获取最新结果）。例如，执行`data = load_dataset("open-llm-leaderboard/details_AlekseyKorshuk__chatml-pyg-v1", "harness_winogrande_5", split="train")`即可加载特定任务的评估细节。此外，通过访问“results”配置，可以获取所有任务的聚合结果，便于进行综合性能分析。数据格式为Parquet，支持高效的大规模数据读取和处理。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的时代，如何系统性地评估其多维度能力成为学术界与工业界共同关注的核心命题。Open LLM Leaderboard由Hugging Face团队于2023年发起，旨在为开源社区提供一个标准化、可复现的模型评测平台，其背后凝聚了Clementine Fourrier等研究人员的持续贡献。该数据集作为Leaderboard的组成部分，专门记录了模型AlekseyKorshuk/chatml-pyg-v1在多个基准任务上的评估细节，涵盖ARC挑战集、DROP阅读理解、GSM8K数学推理、HellaSwag常识推理、MMLU多学科知识以及Winogrande指代消解等任务。通过将模型性能数据以结构化形式存储，该数据集不仅服务于排行榜的实时更新，更为后续研究者提供了细粒度的评测分析基础，推动了LLM评估范式的透明化与标准化进程。

当前挑战

该数据集所面对的挑战主要体现在两个层面。在领域问题层面，当前LLM评估面临基准多样性不足与任务间性能差异显著的困境，例如同一模型在DROP任务中的F1值仅为0.117，而在Winogrande上准确率可达0.625，这种悬殊表现暴露了模型在不同认知维度上的能力失衡，亟需更全面的评估框架来揭示模型短板。在数据集构建过程中，挑战则集中于数据标准化与版本管理的复杂性：需将来自不同时间戳的多次评估运行（如2023年7月与9月的两次评测）整合至统一结构，同时确保64个配置项各自对应不同任务且数据路径无冲突，这对数据流水线的鲁棒性与可扩展性提出了严苛要求，任何路径错误或格式不一致都可能导致评测结果的误读与复现失败。

常用场景

经典使用场景

在大型语言模型（LLM）的评估体系中，该数据集作为Open LLM Leaderboard的自动化评测记录载体，扮演着标准化性能基准的角色。其经典使用场景在于为模型AlekseyKorshuk/chatml-pyg-v1提供涵盖ARC挑战、DROP、GSM8K、WinoGrande及MMLU等64项细分任务的细粒度评测结果，研究者可通过加载特定配置（如harness_winogrande_5）获取单任务的准确率、F1分数等指标，从而系统性地衡量模型在常识推理、数学计算与阅读理解等维度的能力表现。

解决学术问题

该数据集核心解决了LLM评测过程中结果可复现性与透明度不足的学术难题。通过将每次评测的原始数据以Parquet格式分任务、分时间戳存储，并聚合为统一的'results'配置，它为研究者提供了从微观样本到宏观指标的全链路追溯能力。这一设计使得模型在不同训练阶段或超参数下的性能波动得以量化分析，进而推动了对模型泛化边界与鲁棒性的深入探究，为后续的模型优化与对比研究奠定了坚实的数据基础。

衍生相关工作

该数据集衍生了一系列围绕LLM评测标准化与自动化的经典工作。例如，基于其多任务配置结构，研究者开发了动态评测调度工具，能够根据模型特性自动选择子任务并生成报告；此外，其时间戳分割机制启发了模型渐进式学习的研究，通过对比不同时间点的评测数据，探索模型在持续训练中的知识遗忘与迁移规律。这些衍生工作进一步丰富了LLM评估的理论体系，推动了评测流程从静态基准向动态演化范式的转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集