open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft

Name: open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft
Creator: open-llm-leaderboard
Published: 2023-10-29 02:16:47
License: 暂无描述

Hugging Face2023-10-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型Yukang/Llama-2-13b-chat-longlora-32k-sft进行评估时自动生成的。数据集由64个配置组成，每个配置对应一个评估任务。数据集是从4次运行中创建的，每次运行在每个配置中表示为特定的分割，分割名称由运行的时间戳命名。train分割始终指向最新结果。此外，一个名为results的配置存储了所有运行的聚合结果，这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了一个示例，展示了如何使用Python中的datasets库加载运行中的详细信息。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集简介

该数据集是在模型 Yukang/Llama-2-13b-chat-longlora-32k-sft 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集结构

配置数量：64个配置，每个配置对应一个评估任务。
数据来源：数据集由4次运行生成，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
最新结果："train" 分割始终指向最新的结果。
结果汇总：一个额外的配置 "results" 存储所有运行的汇总结果，用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Yukang__Llama-2-13b-chat-longlora-32k-sft", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割：2023_10_03T19_01_52.732036
  - 路径：**/details_harness|arc:challenge|25_2023-10-03T19-01-52.732036.parquet
- 分割：2023_10_03T19_09_03.932151
  - 路径：**/details_harness|arc:challenge|25_2023-10-03T19-09-03.932151.parquet
- 分割：latest
  - 路径：**/details_harness|arc:challenge|25_2023-10-03T19-09-03.932151.parquet
harness_drop_3
- 分割：2023_10_27T06_30_00.713733
  - 路径：**/details_harness|drop|3_2023-10-27T06-30-00.713733.parquet
- 分割：2023_10_29T02_16_35.328850
  - 路径：**/details_harness|drop|3_2023-10-29T02-16-35.328850.parquet
- 分割：latest
  - 路径：**/details_harness|drop|3_2023-10-29T02-16-35.328850.parquet
harness_gsm8k_5
- 分割：2023_10_27T06_30_00.713733
  - 路径：**/details_harness|gsm8k|5_2023-10-27T06-30-00.713733.parquet
- 分割：2023_10_29T02_16_35.328850
  - 路径：**/details_harness|gsm8k|5_2023-10-29T02-16-35.328850.parquet
- 分割：latest
  - 路径：**/details_harness|gsm8k|5_2023-10-29T02-16-35.328850.parquet
harness_hellaswag_10
- 分割：2023_10_03T19_01_52.732036
  - 路径：**/details_harness|hellaswag|10_2023-10-03T19-01-52.732036.parquet
- 分割：2023_10_03T19_09_03.932151
  - 路径：**/details_harness|hellaswag|10_2023-10-03T19-09-03.932151.parquet
- 分割：latest
  - 路径：**/details_harness|hellaswag|10_2023-10-03T19-09-03.932151.parquet
harness_hendrycksTest_5
- 分割：2023_10_03T19_01_52.732036
  - 路径：**/details_harness|hendrycksTest-abstract_algebra|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-anatomy|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-astronomy|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-business_ethics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_biology|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_chemistry|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_computer_science|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_mathematics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_medicine|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-college_physics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-computer_security|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-conceptual_physics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-econometrics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-electrical_engineering|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-formal_logic|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-global_facts|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_biology|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_european_history|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_geography|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_physics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_psychology|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_statistics|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_us_history|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-high_school_world_history|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-human_aging|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-human_sexuality|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-international_law|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-jurisprudence|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-logical_fallacies|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-machine_learning|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-management|5_2023-10-03T19-01-52.732036.parquet
  - 路径：**/details_harness|hendrycksTest-marketing|5_2023-10-03T19-01-52.732036.parquet
  - 路径：`**/details_harness|hendrycks

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，Open LLM Leaderboard 提供了一个标准化的评测框架。本数据集正是针对 Yukang/Llama-2-13b-chat-longlora-32k-sft 模型在该排行榜上的评估过程而自动生成的。数据集由 64 个配置组成，每个配置对应一项被评估的任务，这些任务涵盖了从常识推理到数学求解的多样化能力。数据来源于 4 次独立的评估运行，每次运行的结果被存储为对应配置中的一个独立分割，分割名称以运行的时间戳命名。此外，一个名为 "results" 的额外配置汇总了所有运行的聚合结果，用于在排行榜上计算和展示综合指标。

特点

该数据集的核心特点在于其细粒度的结构化设计。每个任务配置下均包含多个时间戳分割，忠实记录了模型在不同时间点的性能表现，便于研究者追踪模型能力的演变。"latest" 分割始终指向最新一次的评估结果，为用户提供了便捷的访问入口。数据集以 Parquet 格式存储，高效且易于处理。其内容不仅包含了如 ARC、HellaSwag、GSM8K 等经典基准的详细评估结果，还通过 "results" 配置提供了聚合后的宏观指标，如准确率、F1 分数及其标准误差，为全面评估模型性能提供了坚实的数据基础。

使用方法

研究人员可通过 Hugging Face 的 datasets 库便捷地加载本数据集。例如，使用 `load_dataset` 函数并指定任务配置名称（如 "harness_winogrande_5"）和分割（如 "latest" 或具体时间戳），即可获取对应任务的详细评估记录。对于需要分析模型在特定任务上性能变化趋势的场景，可以遍历不同时间戳的分割进行对比。同时，通过加载 "results" 配置，可以快速获取模型在各项任务上的汇总成绩，适用于生成报告或进行模型间的横向比较。数据加载后，可直接利用 Python 生态中的数据分析工具进行深入挖掘与可视化。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，如何公平、全面地评估其性能成为学界与工业界共同关注的核心议题。由HuggingFace团队于2023年发起的Open LLM Leaderboard项目，旨在通过标准化基准测试推动模型能力的透明化比较。该数据集作为Leaderboard的组成部分，专门记录了Yukang团队提出的Llama-2-13b-chat-longlora-32k-sft模型的评估结果，该模型基于Meta的Llama-2架构，通过LongLoRA技术将上下文窗口扩展至32k tokens，并采用监督微调策略优化长文本理解能力。研究聚焦于探索参数高效微调方法在长序列场景下的泛化表现，其评估覆盖了ARC、HellaSwag、MMLU等多元任务，为长上下文语言模型的性能边界提供了关键实证。

当前挑战

当前数据集面临的核心挑战体现在两个维度。在领域问题层面，长文本建模的评估体系尚不完善，现有基准如GSM8K的数学推理任务中该模型准确率为零，暴露出长序列模型在复杂逻辑推理上的脆弱性，而DROP阅读理解任务仅0.17的精确匹配率则揭示了模型对细粒度信息提取的局限性。构建过程中，多轮评估的时间戳分割机制虽保证了结果可追溯性，但不同轮次间任务覆盖不一致（如2023年10月3日与27日的评测任务存在差异）导致跨版本比较困难；此外，64个配置项对应的Parquet文件结构复杂，用户需自定义代码解析特定任务的细粒度结果，增加了二次分析与复现的门槛。

常用场景

经典使用场景

在大规模语言模型的评估范式中，该数据集作为Open LLM Leaderboard的评估运行记录，承载了对Yukang/Llama-2-13b-chat-longlora-32k-sft模型在多项基准任务上的系统性评测。其经典使用场景在于为研究者提供细粒度的模型性能追踪，涵盖ARC挑战、HellaSwag、MMLU、GSM8K及Winogrande等任务，通过多次运行的对比分析，揭示模型在不同推理维度上的表现波动与收敛趋势。

衍生相关工作

该数据集衍生了一系列关于长上下文语言模型评估的经典工作。例如，研究者基于其评估配置复现了LongLoRA在不同基准下的表现，进而提出了更优的长序列微调策略；此外，该数据集的细粒度结果被用于分析模型在MMLU多学科知识上的薄弱环节，催生了针对性数据增强与课程学习方法的探索，推动了长文本理解领域评估体系的完善。

数据集最近研究